Перейти к публикации

Суперкомпьютер своими руками для расчетов в ansys и 3d приложениях


Рекомендованные сообщения



вот еще одна картинка:

Уфф, мутная презентуха.

Фактически показано приращение на 44% для прямой решалки из прочностного Ансиса именно за счет адаптации под инструкции. Еще раньше была новость, что Ансис проплатил консалтинг и им оптимизировали решалку под новые процессоры, но там цифра заявлялась порядка 20%, теперь видим, что на еще более новых камнях ситуация улучшилась.

По нашим делам с CFD я так и не понял за счет чего выигрыш по скорости ибо текстова распевает о прекрассных DIMM и вообще доступе к памяти, а также про новые камни.

Такие слова ни один разработчик не напишет. :unsure:

Такие слова может написать только человек далекий от программирования.

Так это пользователи вашей программы занимаются этим словом.

Покупают новые процессоры, а считают только на сопроцесоре.

Ну все как обычно - репертуар в стиле все козлы кроме я.

:clap_1:

Ссылка на сообщение
Поделиться на других сайтах

Сопроцессор в процессоре 3930 считает в 12-15 раз медленнее, чем новые инструкции.

Этот момент можно было бы проверить, кстати: дело в том, что поддержка AVX в Win7 добавлена начиная с SP1 !

Т.е. если вдруг у кого-то завалялась Win7 без SP с новым процессором, то на такой машине тест типа линпака до установки SP и после установки SP должен давать существенно разные результаты.

интересный <noindex>линк</noindex> про это

Ссылка на сообщение
Поделиться на других сайтах

По нашим делам с CFD я так и не понял за счет чего выигрыш по скорости ибо текстова распевает о прекрассных DIMM и вообще доступе к памяти.

Правильно распевает. У нас уже давно самое критичное это скорость доступа к памяти.

Ну еще я бы обратил внимание на фразу про larger cache size are key to extending performance

and scalability

PS: E5-26xx действительно хороши. У меня на реальной задаче одно лезвие на 2xE5-2670 (16 ядер) считает раза в полтора быстрее целого шасси из 10 лезвий (40 ядер) на 2xоптеронах той же частоты.

Ссылка на сообщение
Поделиться на других сайтах

Правильно распевает. У нас уже давно самое критичное это скорость доступа к памяти.

Ну это понятно, что память и канал к ней это тормоз на все века.

Отсюда и вопрос - а каков вклад в ускорение конкретно новой железной фишки по памяти, а где все остальное?

Ссылка на сообщение
Поделиться на других сайтах

Ну это понятно, что память и канал к ней это тормоз на все века.

Отсюда и вопрос - а каков вклад в ускорение конкретно новой железной фишки по памяти, а где все остальное?

это тоже можно померить - на двух плашках - 2х-канальный режим. на 4х - 4х-канальный.
Ссылка на сообщение
Поделиться на других сайтах

это тоже можно померить - на двух плашках - 2х-канальный режим. на 4х - 4х-канальный.

Про канальность все понятно, но речь была не про то.

Ладно, не важно.

Ссылка на сообщение
Поделиться на других сайтах

без канальности новый контроллер проигрывает на одинаковых частотах.

спасает канальность и поддержка "оверклокерской" памяти.

Ссылка на сообщение
Поделиться на других сайтах

Ну это понятно, что память и канал к ней это тормоз на все века.

ОЛУЧШЕда и вопрос - а каков вклад в ускорение конкретно новой железной фишки по памяти, а где все остальное?

На маленькой задачке гарантированно влезающей в кеш обоих процессоров чистая прибавкана одном ядре 20 -25% остальное в том или ином виде это память.

Но на мой взгляд "чистое" быстродействие на ядро или даже на процессор не столь интересны как интегральное. Например на стойку а еще лучше на кВт

Ссылка на сообщение
Поделиться на других сайтах

Сегодня пристрелялся на домашней машинке.

Тесты будут -

линпак х64: 2 х 20000; 2 x 30000.

ИСПА х64: тест_на_скорость / 2.477 Гбайт; пример-кэм-20 / 4.541 Гбайт; Пример кран / 6.202 Гбайт

К демке предлагался еще один проект, но я чувствую, что в 8 Гиг он не влезет.

И еще момент - сначала ИСПА вешала мне ПК в момент интенсивного обращения к памяти - пришлось напряжение на памяти поднять, а также комп переставал отвечать в самом начале собственно самих вычислений - в итоге справился путем кучи перенастроек, включая поднятие напряжения на ЦП, и снижение приоритета программы до минимума. в общем, тяжело пришлось... С липаком и FV таких проблем не было... :glare:

FV x64 - под FV я сделал проект нестационарный - чтоб не сходился :) на вход подаются холодный и горячий воздух с переменным и в противофазе расходом. Считать предполагаю 50~100 шагов на грубой сетке для получения нормального НУ, затем адаптация до 1,6 млн ячеек и решение на 64 бит для теста Y шагов, а затем на 128 бит для теста X шагов.

Вот прикидочка на картинке - видно, что много итераций внутри шага. По идее, чем больше итераций внутри решения уравнения, тем выше КПД в флопсах :) Гонять на обеих машинах буду в версии от 05.04.2012. И на 3930 прогоню для сравнения в самой свежей 2013.02.19.

post-26004-1363718857_thumb.png

Проект для теста в FV в приложении

FV_Speed_Test.zip

Возражения, замечания и дополнения приветствуются - но каждый про своё, пожалуйста.

Ссылка на сообщение
Поделиться на других сайтах

А в ванну с касторкой не пробовали засунуть ? Один мужик так сделал и стал чемпионом мира по разгону в каком-то году :rolleyes:

Ссылка на сообщение
Поделиться на других сайтах

Касаемо зависания, то больно уж похоже на то, что софт запрашивает памяти больше, чем есть.

У меня такая же ситуация на 3DTransVidia случается. Иногда только принудительная перезагрузка помогает.

Возражения, замечания и дополнения приветствуются - но каждый про своё, пожалуйста.

Уравнение давления порой плохо сходится. Известная фишка. Обещали подлечить на следующем витке развития решалки.

Ссылка на сообщение
Поделиться на других сайтах

1. Вы забыли написать характеристики машинки. :unsure:

1. Вы забыли написать какая операционная система. :unsure:

Вы видимо включили галочки, которые я рекомендовал включить для проверки скорости процессоров 3930 и 2670.

Быстрее было спросить и не мучиться с настройками биоса. :unsure:

Когда пойму на какой машинке и в какой среде вы пытаетесь проверить скорость ИСПА, то дам рекомендации.

Да, всё так. на Q9550 @2.8 ГГц я включал все те же опции. Ось win7 SP1 x64. 8 гиг памяти DDR2 1066 МГц.

софт запрашивает памяти больше, чем есть

это, похоже, тоже было - персональный набор был больше чем влезало в оперативу, и ИСПА использовала файл подкачки, видимо. Но при этом свободной оперативы она оставляла 0. Хоть бы чуть-чуть оставляла запаса системе...
Ссылка на сообщение
Поделиться на других сайтах

это, похоже, тоже было - персональный набор был больше чем влезало в оперативу, и ИСПА использовала файл подкачки, видимо. Но при этом свободной оперативы она оставляла 0. Хоть бы чуть-чуть оставляла запаса системе...

Ну это вроде не ИСПА виновата, а "куча" винды. За управление памятью винда отвечает же, если в ИСПА не свой манагер памяти реализован.

По моим наблюдениям такое гадское поведение у той же Windows XP не наблюдалось.

Ссылка на сообщение
Поделиться на других сайтах

Для какого примера ИСПА использовала файл подкачки?

для 2 и 3 точно на этапе формирования матриц (т.е. еще до решения). Самая долгая процедура, занимавшая 90+% времени теста.

Какой пример у вас зависал?

пример-кэм-20 - с ним было больше всего проблем, но на нем потом получился самый высокий результат. :)

Эти примеры у вас используют файл подкачкм. :unsure:

на этапе формирования матриц то ли для второго, то ли для третьего проекта персональный набор программы был 12+Гиг, из них в памяти 7 гиг, и еще 1 гиг - система.
Ссылка на сообщение
Поделиться на других сайтах

На этом этапе нет никакого файла подкачки.

Не нужно фантазировать. :unsure:

Есть такая программа - process explorer - она выдавала, что для ИСПА "приватный" набор 12 Гиг, рабочий набор 7 Гиг, свободно памяти 0 в этот момент на ПК.

Возможно, я неверно понимаю про этот приватный набор.

Вы же решили задачи. Где результаты?

Вот:

тест_на_скорость.01

))))))))))))))))))))))))))))

Для решения потребовалось = 2.477 Гбайт памяти

Скорость = 22627.33 Мфл в секунду

Время = 36.869 сек

Реальное время проведенного расчета 0 час 6 мин 41 сек

===========================

Для решения потребовалось = 2.477 Гбайт памяти

Скорость = 23254.27 Мфл в секунду

Время = 35.875 сек

Реальное время проведенного расчета 0 час 6 мин 29 сек

пример-кэм-20.01

))))))))))))))))))))))

Для решения потребовалось = 4.541 Гбайт памяти

Скорость = 24863.20 Мфл в секунду

Время = 14.635 сек

Реальное время проведенного расчета 0 час 16 мин 21 сек

============================

Для решения потребовалось = 4.541 Гбайт памяти

Скорость = 24770.12 Мфл в секунду

Время = 14.690 сек

Реальное время проведенного расчета 0 час 14 мин 48 сек

Пример кран

))))))))))))))))))))))))))

Для решения потребовалось = 6.202 Гбайт памяти

Скорость = 22554.37 Мфл в секунду

Время = 11.763 сек

Реальное время проведенного расчета 0 час 32 мин 44 сек

ИМХО хорошие результаты, учитывая что линпак дал 40 ГФлопс в пике на этом же конфиге.

Ссылка на сообщение
Поделиться на других сайтах

ИСПА на 3930 максимально показывает 90 Гфл. В 4 раза быстрее.

Если взять старый результат:

Вот результат на 3930 / 3,5 ГГц / 6 ядер:

Р а з л о ж е н и е м а т р и ц ы

Для решения потребовалось = 2.245 Гбайт памяти

Скорость = 62621.77 Мфл

Время = 13.275 сек

то в пересчете на 4 ядра и 2,8 ГГц это будет 33397 Мфл (против 22627.33 Мфл).... в 1,5 раза.

И это без учета, что у 3930 был 4х-канальный DDR3 на 1600 МГц...

Ну это так - прикидка. Сегодня проверю на том же тесте, проекте, частоте итд - чтоб не пересчитывать.

И ради справедливости отмечу, что 130 ГФ на 3930 в этом же пересчете дадут 70 ГФ!, т.е. в 1,75 раза больше.

А если глянуть <noindex>сюда</noindex>, то в целом понятно, что в теории прирост будет в 2 раза максимум (регистр увеличили в два раза), если переходить с программы, хорошо оптимизированной под SSE, на AVX.

Ссылка на сообщение
Поделиться на других сайтах

Добавлю в тему презенташку - мож кому пригодтся.

Optimization_Guide.pdf

ISPA, у меня к вам вопрос - а можете сделать демку, в которой решение, т.е. пункт "разложение матрицы" выполняется N раз подряд - чтоб хотя бы на 5 минут времени набиралось - погреть процессор.

Ссылка на сообщение
Поделиться на других сайтах

Запускаете Процессор-Статика-Решение уравнений

у меня там эти пункты заблокированы. ограничения демки?
Ссылка на сообщение
Поделиться на других сайтах
  • MFS открепил тему
Гость
Эта тема закрыта для публикации сообщений.
  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу.




×
×
  • Создать...