Перейти к публикации

ANSYS - вопросы производительности на двухпроцессорной системе


Рекомендованные сообщения

Здравствуйте!

Появился интересный вопрос по работе ANSYS 2021R2 по работе на многопроцессорной конфигурации - возможно, кто-то сталкивался с таким....

 

Итак, появилась возможность попробовать работу ANSYS Mechanical на двухпроцессорной китайской материнке Х99-F8D.

Машина 1:

На борту материнка имеет 2 процессора XEON E5-2696v3 - 2x18 ядер 2.3GHz.

Соответственно:  2 проца - 2 набора памяти, общим объемом 32Gb

 

Все китайское железо сравнивалось более современной машиной с конфигурацией:

Машина 2:

CPU - i7-10700KF( 8 ядер, 3.8GHz)

RAM: 128Gb...32GB - чисто для сравнения пробовали разный объем.

 

Во всех случая был выключен Hyper-threading - соответственно речь выше  шла о физических ядрах процессоров.

Сводка по результатам сравнения:

Сравнение производительности.pdf

 

 

Коротко, все работы сводятся к следующему:

На машинах 1 и 2 попеременно проводятся одни и те же расчеты в Mechanical, фиксируется статистика и расход ресурсов.

 

И после обработки результатов возникает странная ситуация:

 - двухпроцессорная конфигурация имеет существенный проигрыш по скорости выполнения расчетов.

Причем, на скорость напрямую влияет операционная система - Win2016server /Win10Pro: 3h11min / 42min

 

Та же задача, решаема на машине 2, решается за 16минут :)

 

Причем, количество памяти роли не играет - в режиме SMP, где и проводились все расчеты, расход памяти примерно одинаковый 15...17Gb, т.е. решатель никогда не упирался в ограничение и в режим out-of-core не переходил.

 

 

Но, при всем этом,на машине 1 по сводке ANSYS имеет место быть просто дикий объем считанной/записанной информации, опять таки,сильно зависящий от операционной системы: Win2016server/Win10Pro : 2.7Tb/0.5Tb

 

На машине 2, этот объем не превышает 0.3Tb - сколько ты в ней не было памяти 128 или 32Gb.

 

 

Дальше зависимость еще интереснее:

Если на машине 1(36 ядер) использовать для расчета только 18 или менее(пробовали 8), то скорость расчет еще более возрастает :(36 ядер/18/8): 42/30/24мин.

Сразу оговорюсь  - нет, частота проца здесь роли не играла:  при задействовании такого числа ядер частота 2.7GHz по всем используемым ядрам.

 

 

Вопрос, собственно, чисто для развития:

 

 - использование многопроцессорных вычислений HPC - миф, или реальность? 

Даже не так: HPC кроме масштабируемости, обладает потерей производительности как платой за эту возможность?

 

- за счет чего возникает значительный объем внутренней информации при использовании ANSYS MECHANICAL на многопроцессорной материнке?

-почему этот объем внутренней информации снижается при урезании числа ядер для расчета и время расчета сокращается?

- Windows-based системы - не самые оптимальные для HPC?

 

P.S.

Вопросы эти задавались уже людям как  пользующим, так и  администрирующим кластеры с ANSYS.

Пока никакой версии - почему так- не выявлено - вопрос просто не ставился в таком ключе.

 

 

 

 

 

 

 

Ссылка на сообщение
Поделиться на других сайтах
  • 7 месяцев спустя...


UnPinned posts

Бог мир соорудил без всяких компьютеров за несколько дней. А человека сделал по своему образу и подобию :) 

Ссылка на сообщение
Поделиться на других сайтах
Солнечный энергетик

Что-то мне говорит что больше похоже что планировщик заданий на процессор(ы) не работает никак. Точнее - скорее всего стабильный такт или период % затрачивается на привязку потоков в оперативной памяти и своп, на уровне операционной системы.  Ничего не страдает, окромя собственно самой решаемой задачи.

Во втором случае данные процессы отсутствуют и практически не требуются - как итог этой служебной информации в принципе нет, процессор крутит только задачу. 

И бежит быстрее к финишу.

Из серии - лежит процессор EPYC. Пока там физических ядер 24. Вопрос - будет ли работать быстрее, если раздобыть второй такой, разместить на плате с его братом.

И что-то мне подговоривает на ушко, что прироста особого там быть не должно.  Точнее будет - но несущественный. (типа 7-17%, но не сокращение времени счета в два раза).

Процессоры основную часть времени готовят данные, организуют данные на конвейере, на кэше всех мастей...  а считают они вовсе не львинную долю времени.

Ссылка на сообщение
Поделиться на других сайтах

http://www.pinega3.narod.ru/verz.htm  - вот тут пытался оценить насколько влияет уточнение моделей на итоговый результат. Получилось что незначительно.  Перешел на логарифмическую линейку и стал намного быстрее проектировать и конструировать   :) 

Изменено пользователем Fedor
Ссылка на сообщение
Поделиться на других сайтах
Солнечный энергетик

Любые камни в наш огород приветствуются. Слишком много мозолей и шишек...

Ссылка на сообщение
Поделиться на других сайтах

Одно время мода была на ускорение в дорогущими видеокартами. Расспрашивал знающих людей, сказали что особого ускорения от тучи процессоров не увидели в Ansys...   

 

https://vk.com/wall-97265142_4510 

 

https://cae-expert.ru/ansys-2021-r2-trebovaniya-k-obespecheniyu   можно посоветоваться с экспертами :)  

Изменено пользователем Fedor
Ссылка на сообщение
Поделиться на других сайтах
1 час назад, Солнечный энергетик сказал:

Из серии - лежит процессор EPYC. Пока там физических ядер 24. Вопрос - будет ли работать быстрее, если раздобыть второй такой, разместить на плате с его братом.

Зависит от того, во что упирается расчёт. Если упор в ПСП - смысл есть или цпу добавить, или планок памяти накинуть, или частоту памяти поднимать.

Если упор в цпу и однопоток - остаётся разгонять цпу/менять на большей частоты.

Изменено пользователем AlexKaz
Ссылка на сообщение
Поделиться на других сайтах
5 часов назад, AlexArt сказал:

Работает. Сами же неоднократно рассказывали, что деталь с мелкими отверстиями можно заменить на пористую модель что ли или как там?

Но если совпадает так что нужно проводить нестационарный расчет на модели с большой сеткой то быстро никак не получается.

Ссылка на сообщение
Поделиться на других сайтах

Над математикой висит три проклятия - многомерность, нелинейность и нестационарность. Чем то надо жертвовать потому что мкэ математический метод  :) 

Ссылка на сообщение
Поделиться на других сайтах
  • 2 недели спустя...
Солнечный энергетик

Истина где-т рядом.

Специально взял модель одну прогнал, проверка прогона показала что на новом 16 ядерном Ryzen 10 минут расчет.  

Процессор куда меньшие скорости, количество ядер всего 6, память с меньшей полосой - управился за 13 минут.

В моем варианте с хорошим процессором я не могу дать прилично поболее памяти. 

Однако есть вариант, старые сервера используя от них железо, именно там можно добавить памяти ощутимо побольше. Испытать проверить проще, ввиду намного меньших трат.

Мое железо должно через полгода прийти.  Думаю для старого железа парочку процов с максимальными частотами. И как кривая выведет.

Ссылка на сообщение
Поделиться на других сайтах
1 час назад, Солнечный энергетик сказал:

Специально взял модель одну прогнал

Старые Xeon и EPYC относительно хороши только для задач, требовательных к пропускной способности памяти (всякие CFD), многоядерности (хостинги, видеокодинг и т.п., где задача очень хорошо распараллеливается), и для задач, которые можно закинуть в RAM-диск. У меня как появилась в 2021-м поставить 128 ГБ, так все проекты в основном держу в оперативке. На Xeon|Epyc можно воткнуть 64 ГБ на планку.

В оставшихся же условно 95% случаев критична не ПСП и размер оперативки, а скорость ЦПУ в однопотоке + очень шустрые кэш, IPC и плавучка, что у ryzen 5000 творит чудеса... Но только если задачи не критичны к ПСП и объём данных не очень большой.

Универсальной же конфигурации нет. Разве что бытовые Intel 13*** + DDR5 + Ryzen 7000 c b620 + DDR5, в них уже можно втыкать 192 ГБ памяти, иметь быстрый однопоток и хорошую ПСП. Но пока дорого и не очень распространено.

 

Изменено пользователем AlexKaz
Ссылка на сообщение
Поделиться на других сайтах
Солнечный энергетик

Я как старый жук, имею пока только старой памяти на более чем 128GB.  Считать простые модели - никакой разницы, почти. 

А для тяжелой - мое мнение памяти раза в два больше, и пошустрее камешки на обсчет.  (моя задача должна была посчитаться за 40 дней, старой версии Xeon-ом), для размещения минимум 100Гб.  (предыдущий опыт показал убыстрение примерно 30% относительно 96GB / 128Gb).
Одну из тестовых моделей прогонял на Ryzen.  Через сутки вылет по ошибке.  Туда больше 128 GB поставить не могу. 

64 ГБ планка есть, но не каждая система его примет.  Меня конкретно спас Ryzen, но чтоб расчеты вести на поток, не получится. 

Чтоб 192ГБ это надо новую память DDR5, новый процессор АМ5, да и матплату тоже новую.    Если у меня есть запас старой памяти чуть более 200GB, думаю серверный вариант старого железа взять, чтоб он ее всю принял.  Новой памяти такое количество тяжело собрать.   

Ссылка на сообщение
Поделиться на других сайтах
2 часа назад, Солнечный энергетик сказал:

Через сутки вылет по ошибке.

Кстати, да. DDR5 ECC-память к бытовым чипсетам на сокетах AM5 и LGA1700 так и не прикрутили, а новые HEDT-платформы с поддержкой RDIMM DDR5 стоят дорого. Так что, серверная RDIMM DDR4 - это надолго.

2 часа назад, Солнечный энергетик сказал:

64 ГБ планка есть, но не каждая система его примет.

Есть экзотичные LRDIMM-модули до 256 ГБ, но пока слишком дороги.

Ссылка на сообщение
Поделиться на других сайтах

Присоединяйтесь к обсуждению

Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.
Примечание: вашему сообщению потребуется утверждение модератора, прежде чем оно станет доступным.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу.



×
×
  • Создать...