Суперкомпьютер своими руками для расчетов в ansys и 3d приложениях

16 ноября 2012

когда основной процессор(ры) и GPU будут работать с общим полем оперативной памяти.

Все равно данные по шине придется гонять.

Игровая карта это же внешнее устройство. :unsure:

16 ноября 2012

А что, PCI-E 3 тоже недостаточно быстрая?

16 ноября 2012

PCI-e-3 всего в 2 раза быстрей, это мало чувствоется, а может еще и дрова мало приспособлены. По крайней мере у меня нет прорыва, хотя ускорение некое есть .

Насчет "Все равно данные по шине придется гонять. " я говорю о другой, безшинной организации доступа к общей памяти. В нотбуках мать-плата уже интегрировыанная, хотя память разделена. Осталя один шаг, и, помяните мои слова, скоро Вы это увидете!!!

Есть южный и северный мосты, будут западный и восточный вдобавок.

16 ноября 2012

А чем бы мне логарифмическую линейку смазать ? :rolleyes:

16 ноября 2012

А чем бы мне логарифмическую линейку смазать ?

Термопастой, чтоб не перегревалась...

16 ноября 2012

PCI-e-3 всего в 2 раза быстрей, это мало чувствоется, а может еще и дрова мало приспособлены. По крайней мере у меня нет прорыва, хотя ускорение некое есть .

А у вас какая скорость на видео картах?

16 ноября 2012

Термопастой, чтоб не перегревалась...

Да она скрипит, а не греется. Чем винчестеры то смазываются, чтобы подшипник исправно работал? Может этой фигней попробовать. Гидродинамической и все такое :rolleyes:

16 ноября 2012

А у вас какая скорость на видео картах?

Скорость..чего?

17 ноября 2012

Скорость..чего?

Скорость вычислений в Флопах. Ддя задач требующих 3-4 Гб памяти.

17 ноября 2012

Насчет "Все равно данные по шине придется гонять. " я говорю о другой, безшинной организации доступа к общей памяти.

....

Есть южный и северный мосты, будут западный и восточный вдобавок.

Так есть уже такая архитектура. Компьютер у меня на столе стоит, уже 2 месяца.

Повторю еще раз. На одном ядре СРЕДНЯЯ скорость полной факторизации матриц размером 4-60 Гб, составляет 20 Гф. При тактовой частоте ядра 3.2 Ггц.

Это то что я лично проверял.

То есть 6.2 операций с плавающей точкой за 1 такт.

На шести ядрах это 90 Гфл.

Это и есть высоко параллельные вычисления. Но на ГПУ такое не получится. :unsure:

Таких ядер на сегодня может быть до 80 и у них доступ к общей памяти до 750 Гб.

И это все уже можно купить. И не ждать строительства мостов. :unsure:

17 ноября 2012

Скоростные х-ки GPU здесь: <noindex>http://en.wikipedia.org/wiki/Comparison_of..._7xxx.29_series</noindex>

Что касается моей конкретной задачи, то там удалось задействовать не более 7% мощности карты 7950. Это связано с малостью блоков при блочной факторизации в методе UMF (матрица всего 60000x60000 с заполненностью 2.3%). Но размер блоков UMF быстро растет с ростом размерности задачи или с заполненностью матрицы, поэтому, мне кажется, что в Ваших размерностях можно будет получить существенно большее быстродействие на GPU.

17 ноября 2012

что в Ваших размерностях можно будет получить существенно большее быстродействие на GPU.

Это не совсем так.

Чтобы факторизовать матрицу 40 Гб мне потребуется 7 ващих карт. Это если на вашей карте 6 Гб памяти.

А если гонять данные по шине, пользоваться 1 картой, то скорость упадет на порядки.

Но даже на матрице 4 Гб скорость вашей программы в 2 раза ниже.

А на 80 ядрах мой решатель будет работать как минимум в 10 раз быстрее.

На 80 ядрах кеш = 240 000 000 байт. Отсюда и скорость работы с большими матрицами.

А в вашем варианте кеш = 64 000 байт. Как говорится, кот наплакал. :unsure:

Я же все это проверяю, на кошках, пардон на тестах. Поэтому и вернулся на CPU.

Я уверен, что следующий ИГРОВОЙ процессор Интел еще раза в 2 ускорит. И память будет 128 Гб.

17 ноября 2012

Что касается моей конкретной задачи, то там удалось задействовать не более 7% мощности карты 7950.

Так это пиковая скорость. И всего 50 Гфл.

А если добавить время загрузки и выгрузки данных в/из видео памяти, так скорость еще упадет. И упадет существенно.

17 ноября 2012

Так это пиковая скорость. И всего 50 Гфл.

А если добавить время загрузки и выгрузки данных в/из видео памяти, так скорость еще упадет. И упадет существенно.

Пиковая скорость карты - 700 гигафлопс. Я ранее указал, что проблема в том, что GPU и CPU работают с разными полями памяти. Именно обмен и является тормозом. Как только этот тормоз пропадет, сразу будет скачек производительности.

Факторизация матрицы в методе UMF не требует большой памяти видеокарты, т.к. она блочная и размером блоков можно управлять, так что семи карт не надо.

Про это можете почитать в описании метода.

Другое дело - написание оптимальной программы для факторизации разреженной матрицы общего вида для GPU. Я уже здесь спрашивал об этом, но вижу, что пока этот вопрос никто не просматривал. Все ускорения привязаны к определенным матрицам и к различным видам предобуславливателей, что непригодно для матриц с комплексным спектром СЗ. Это я тоже ранее говорил здесь.

Я вижу, как идут интенсивные разработки в деле оптимизации расчетов на GPU: <noindex>http://www.multicorewareinc.com/index.php</noindex> и результаты уже неплохие.

17 ноября 2012

Пиковая скорость карты - 700 гигафлопс.

Это пиковая скорость для маленьких матриц. Это же видео карта. Изначально приспособлена для матриц 4х4. Когда вся матрица размещена в быстрой памяти.

Это рекламный ход.

Я ранее указал, что проблема в том, что GPU и CPU работают с разными полями памяти. Именно обмен и является тормозом. Как только этот тормоз пропадет, сразу будет скачек производительности.

Не будет большого скачка. Очень маленький кэш.

Факторизация матрицы в методе UMF не требует большой памяти видеокарты, т.к. она блочная и размером блоков можно управлять, так что семи карт не надо.

Про это можете почитать в описании метода.

У меня на выходе факторизованная матрица занимает 40-60 Гб. Это без нулей естественно.

Чем меньше размер блока, тем большее количество раз я буду качать его туда-обратно. :unsure:

Мне нужно для факторизаии 40-60 Гб оперативной памяти. Где мне ее хранить факторизованную матрицу?

А работа с правой частью вы где делаете? Если на ГПУ, то нужно опять блоки закачивать в видео память.

17 ноября 2012

Факторизация матрицы в методе UMF

Саму программу писали ваши хлопцы или вы используете стандартный пакет?

Квкого размера у вас факторизованная матрица?

Если полностью факторизованная матрица не будет влезать в видео память, то скорость упадет минимум на порядок.

А уж какая будет скорость если матрицу в 60 Гб решать на 6 Гб видео памяти я даже и не знаю. Но очень маленькая. :unsure:

Но нужно иметь 60 Гб оперативной памяти и качать блоки в видео память и обратно.

И при этом CPU будут простаивать. :unsure:

17 ноября 2012

Саму программу писали ваши хлопцы или вы используете стандартный пакет?

Квкого размера у вас факторизованная матрица?

Если полностью факторизованная матрица не будет влезать в видео память, то скорость упадет минимум на порядок.

А уж какая будет скорость если матрицу в 60 Гб решать на 6 Гб видео памяти я даже и не знаю. Но очень маленькая.

Но нужно иметь 60 Гб оперативной памяти и качать блоки в видео память и обратно.

И при этом CPU будут простаивать.

Используется BLAS разработки nVIDIA и AMD специально для их карт.

1. Вы видно так и не поняли, как работает UMFPACK, как идет блочная факторизация. 2. Еще раз (уж в который!!!) повторяю: нет программ, полностью загружаемых в видеопамять, т.к. нет соответствующих команд (типа if, go_to и т.п.). Карта делает только арифметические операции, отсюда и все проблемы.

17 ноября 2012

нет программ, полностью загружаемых в видеопамять, т.к. нет соответствующих команд (типа if, go_to и т.п.). Карта делает только арифметические операции, отсюда и все проблемы.

Это мне не нужно объяснять.

1. Перед началом факторизации определяется заполняемость ПОЛНОСТЬЮ факторизованной матрицы.

2. Все блоки, ОДИН раз передаются в видео память.

3. Делается полная факторизация.

4. Обрабатывается правая часть.

5. Если нужно, факторизованная матрица передается обратно в оперативную память.

При этом синхронизирует процесс факторизации ОДНО ядро CPU.

Остальные ядра в вашем случае простаивают. :unsure:

Вы посчитайте количество операций которые делает ГПУ и разделите на время работы программы.

Даже если вся факторизованная матрица влезает в видео память скорость будет меньше чем на новых игровых CPU от Интел.

В этом вся фишка. :unsure:

700 Гфл на ГПУ - это рекламная тюлька. Продавать то надо товар. :unsure:

Для решения матриц в 60 Гфл потребуется 10 видео ускорителей с памятьб 6 Гб на борту. И не факт что это быстрее чем на ЦПУ. :unsure:

17 ноября 2012

UMFPACK: unsymmetric multifrontal sparse LU factorization package

Так вы используете готовый продукт.

И даже не измерили скорость этого продукта.

Тогда понятно почему вы говорите про 700 Гфл. :unsure:

17 ноября 2012

Вы заменили BLAS функции в пакете UMFPACK.

Поэтому и качаете блоки с данными туда-обратно.

Измеряйте скорость факторизации матрицы на 4 Гб.

Скорость будет очень маленькая. :unsure:

А для матрицы в 40 Гб скорость будет стремиться к 0.

И при этом ядра ЦПУ не будут делать никакой вычислительной работы.

Так это не ускоритель на ГПУ, а замедлитель ЦПУ. :unsure:

Войти

Суперкомпьютер своими руками для расчетов в ansys и 3d приложениях

Рекомендованные сообщения

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Eugeen 6

Ссылка на сообщение

Поделиться на других сайтах

Fedor 1 597

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

Fedor 1 597

Ссылка на сообщение

Поделиться на других сайтах

Eugeen 6

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

Eugeen 6

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

Eugeen 6

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

Eugeen 6

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

Сейчас на странице 0 пользователей

Сообщения