Перейти к публикации

Суперкомпьютер своими руками для расчетов в ansys и 3d приложениях


Рекомендованные сообщения

когда основной процессор(ры) и GPU будут работать с общим полем оперативной памяти.

Все равно данные по шине придется гонять.

Игровая карта это же внешнее устройство. :unsure:

Ссылка на сообщение
Поделиться на других сайтах


PCI-e-3 всего в 2 раза быстрей, это мало чувствоется, а может еще и дрова мало приспособлены. По крайней мере у меня нет прорыва, хотя ускорение некое есть .

Насчет "Все равно данные по шине придется гонять. " я говорю о другой, безшинной организации доступа к общей памяти. В нотбуках мать-плата уже интегрировыанная, хотя память разделена. Осталя один шаг, и, помяните мои слова, скоро Вы это увидете!!!

Есть южный и северный мосты, будут западный и восточный вдобавок.

Ссылка на сообщение
Поделиться на других сайтах

PCI-e-3 всего в 2 раза быстрей, это мало чувствоется, а может еще и дрова мало приспособлены. По крайней мере у меня нет прорыва, хотя ускорение некое есть .

А у вас какая скорость на видео картах?
Ссылка на сообщение
Поделиться на других сайтах

Термопастой, чтоб не перегревалась...

Да она скрипит, а не греется. Чем винчестеры то смазываются, чтобы подшипник исправно работал? Может этой фигней попробовать. Гидродинамической и все такое :rolleyes:
Ссылка на сообщение
Поделиться на других сайтах

Насчет "Все равно данные по шине придется гонять. " я говорю о другой, безшинной организации доступа к общей памяти.

....

Есть южный и северный мосты, будут западный и восточный вдобавок.

Так есть уже такая архитектура. Компьютер у меня на столе стоит, уже 2 месяца.

Повторю еще раз. На одном ядре СРЕДНЯЯ скорость полной факторизации матриц размером 4-60 Гб, составляет 20 Гф. При тактовой частоте ядра 3.2 Ггц.

Это то что я лично проверял.

То есть 6.2 операций с плавающей точкой за 1 такт.

На шести ядрах это 90 Гфл.

Это и есть высоко параллельные вычисления. Но на ГПУ такое не получится. :unsure:

Таких ядер на сегодня может быть до 80 и у них доступ к общей памяти до 750 Гб.

И это все уже можно купить. И не ждать строительства мостов. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Скоростные х-ки GPU здесь: <noindex>http://en.wikipedia.org/wiki/Comparison_of..._7xxx.29_series</noindex>

Что касается моей конкретной задачи, то там удалось задействовать не более 7% мощности карты 7950. Это связано с малостью блоков при блочной факторизации в методе UMF (матрица всего 60000x60000 с заполненностью 2.3%). Но размер блоков UMF быстро растет с ростом размерности задачи или с заполненностью матрицы, поэтому, мне кажется, что в Ваших размерностях можно будет получить существенно большее быстродействие на GPU.

Ссылка на сообщение
Поделиться на других сайтах

что в Ваших размерностях можно будет получить существенно большее быстродействие на GPU.

Это не совсем так.

Чтобы факторизовать матрицу 40 Гб мне потребуется 7 ващих карт. Это если на вашей карте 6 Гб памяти.

А если гонять данные по шине, пользоваться 1 картой, то скорость упадет на порядки.

Но даже на матрице 4 Гб скорость вашей программы в 2 раза ниже.

А на 80 ядрах мой решатель будет работать как минимум в 10 раз быстрее.

На 80 ядрах кеш = 240 000 000 байт. Отсюда и скорость работы с большими матрицами.

А в вашем варианте кеш = 64 000 байт. Как говорится, кот наплакал. :unsure:

Я же все это проверяю, на кошках, пардон на тестах. Поэтому и вернулся на CPU.

Я уверен, что следующий ИГРОВОЙ процессор Интел еще раза в 2 ускорит. И память будет 128 Гб.

Ссылка на сообщение
Поделиться на других сайтах

Что касается моей конкретной задачи, то там удалось задействовать не более 7% мощности карты 7950.

Так это пиковая скорость. И всего 50 Гфл.

А если добавить время загрузки и выгрузки данных в/из видео памяти, так скорость еще упадет. И упадет существенно.

Ссылка на сообщение
Поделиться на других сайтах

Так это пиковая скорость. И всего 50 Гфл.

А если добавить время загрузки и выгрузки данных в/из видео памяти, так скорость еще упадет. И упадет существенно.

Пиковая скорость карты - 700 гигафлопс. Я ранее указал, что проблема в том, что GPU и CPU работают с разными полями памяти. Именно обмен и является тормозом. Как только этот тормоз пропадет, сразу будет скачек производительности.

Факторизация матрицы в методе UMF не требует большой памяти видеокарты, т.к. она блочная и размером блоков можно управлять, так что семи карт не надо.

Про это можете почитать в описании метода.

Другое дело - написание оптимальной программы для факторизации разреженной матрицы общего вида для GPU. Я уже здесь спрашивал об этом, но вижу, что пока этот вопрос никто не просматривал. Все ускорения привязаны к определенным матрицам и к различным видам предобуславливателей, что непригодно для матриц с комплексным спектром СЗ. Это я тоже ранее говорил здесь.

Я вижу, как идут интенсивные разработки в деле оптимизации расчетов на GPU: <noindex>http://www.multicorewareinc.com/index.php</noindex> и результаты уже неплохие.

Ссылка на сообщение
Поделиться на других сайтах

Пиковая скорость карты - 700 гигафлопс.

Это пиковая скорость для маленьких матриц. Это же видео карта. Изначально приспособлена для матриц 4х4. Когда вся матрица размещена в быстрой памяти.

Это рекламный ход.

Я ранее указал, что проблема в том, что GPU и CPU работают с разными полями памяти. Именно обмен и является тормозом. Как только этот тормоз пропадет, сразу будет скачек производительности.

Не будет большого скачка. Очень маленький кэш.

Факторизация матрицы в методе UMF не требует большой памяти видеокарты, т.к. она блочная и размером блоков можно управлять, так что семи карт не надо.

Про это можете почитать в описании метода.

У меня на выходе факторизованная матрица занимает 40-60 Гб. Это без нулей естественно.

Чем меньше размер блока, тем большее количество раз я буду качать его туда-обратно. :unsure:

Мне нужно для факторизаии 40-60 Гб оперативной памяти. Где мне ее хранить факторизованную матрицу?

А работа с правой частью вы где делаете? Если на ГПУ, то нужно опять блоки закачивать в видео память.

Ссылка на сообщение
Поделиться на других сайтах

Факторизация матрицы в методе UMF

Саму программу писали ваши хлопцы или вы используете стандартный пакет?

Квкого размера у вас факторизованная матрица?

Если полностью факторизованная матрица не будет влезать в видео память, то скорость упадет минимум на порядок.

А уж какая будет скорость если матрицу в 60 Гб решать на 6 Гб видео памяти я даже и не знаю. Но очень маленькая. :unsure:

Но нужно иметь 60 Гб оперативной памяти и качать блоки в видео память и обратно.

И при этом CPU будут простаивать. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Саму программу писали ваши хлопцы или вы используете стандартный пакет?

Квкого размера у вас факторизованная матрица?

Если полностью факторизованная матрица не будет влезать в видео память, то скорость упадет минимум на порядок.

А уж какая будет скорость если матрицу в 60 Гб решать на 6 Гб видео памяти я даже и не знаю. Но очень маленькая. :unsure:

Но нужно иметь 60 Гб оперативной памяти и качать блоки в видео память и обратно.

И при этом CPU будут простаивать. :unsure:

Используется BLAS разработки nVIDIA и AMD специально для их карт.

1. Вы видно так и не поняли, как работает UMFPACK, как идет блочная факторизация. 2. Еще раз (уж в который!!!) повторяю: нет программ, полностью загружаемых в видеопамять, т.к. нет соответствующих команд (типа if, go_to и т.п.). Карта делает только арифметические операции, отсюда и все проблемы.

Ссылка на сообщение
Поделиться на других сайтах

нет программ, полностью загружаемых в видеопамять, т.к. нет соответствующих команд (типа if, go_to и т.п.). Карта делает только арифметические операции, отсюда и все проблемы.

Это мне не нужно объяснять.

1. Перед началом факторизации определяется заполняемость ПОЛНОСТЬЮ факторизованной матрицы.

2. Все блоки, ОДИН раз передаются в видео память.

3. Делается полная факторизация.

4. Обрабатывается правая часть.

5. Если нужно, факторизованная матрица передается обратно в оперативную память.

При этом синхронизирует процесс факторизации ОДНО ядро CPU.

Остальные ядра в вашем случае простаивают. :unsure:

Вы посчитайте количество операций которые делает ГПУ и разделите на время работы программы.

Даже если вся факторизованная матрица влезает в видео память скорость будет меньше чем на новых игровых CPU от Интел.

В этом вся фишка. :unsure:

700 Гфл на ГПУ - это рекламная тюлька. Продавать то надо товар. :unsure:

Для решения матриц в 60 Гфл потребуется 10 видео ускорителей с памятьб 6 Гб на борту. И не факт что это быстрее чем на ЦПУ. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

UMFPACK: unsymmetric multifrontal sparse LU factorization package

Так вы используете готовый продукт.

И даже не измерили скорость этого продукта.

Тогда понятно почему вы говорите про 700 Гфл.:unsure:

Ссылка на сообщение
Поделиться на других сайтах

Вы заменили BLAS функции в пакете UMFPACK.

Поэтому и качаете блоки с данными туда-обратно.

Измеряйте скорость факторизации матрицы на 4 Гб.

Скорость будет очень маленькая. :unsure:

А для матрицы в 40 Гб скорость будет стремиться к 0.

И при этом ядра ЦПУ не будут делать никакой вычислительной работы.

Так это не ускоритель на ГПУ, а замедлитель ЦПУ. :unsure:

Ссылка на сообщение
Поделиться на других сайтах
  • MFS открепил тему
Гость
Эта тема закрыта для публикации сообщений.
  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу.




×
×
  • Создать...