Подбор компьютера для Cae

5 февраля 2010

Tesla и сейчас не по карману, не говоря уже о Fermi. Идея в том что бы сейчас взять компьютер для текущих расчетов – мне ведь так и так нужно его покупать для CAE/FEM, но несколько «с запасом» переплатив 150-200 у.е. за матплату, но на перспективу помнить о Tesla (которые думаю должны становиться более доступными по цене). Только не понятно какие Tesla поддерживает эта материнская плата и возможно ли туда будет в будущем посадить новые Tesla и/или Fermi. Или придется заново менять компьютер, так и не воспользовавшись всей его мощью…

<noindex>nVidia представила карты Tesla нового поколения</noindex>

Изменено 5 февраля 2010 пользователем tensor1982

5 февраля 2010

Верно ли предположение что новые вычислители <noindex>Tesla C2050 / C2070 GPU Computing Processor (Fermi)</noindex> (так же как и Tesla C1060) будут выполнены в виде контроллера в PCI-E x16 G 2.0, что говорит о большой вероятности возможности использования Fermi в материнской плате <noindex>ASUS P6T7 WS SuperComputer</noindex>?!

Интересно а сколько мощности в Ваттах будет потреблять это чудо?! :g:

Изменено 5 февраля 2010 пользователем tensor1982

5 февраля 2010

Не более 1.5 кВт с монитором и полной загрузкой (все 7 слотов).

Можно прикинуть там в ссылке есть потребляемая мощность одного такого чуда 190 Вт.

Тип поддерживаемых видеокарт зависит в первую очередь от типа слота.

И там и там вроде одинаковые.

А вот еще - Software Development Tools: CUDA C/C++/Fortran.

Я вообще впервые о такой возможности услышал год назад.

А сейчас это уже стало серийной реальностью!

Не верилось. <noindex>Расчет на видеокартах.</noindex>

<noindex>Просто чудо какое-то.</noindex>

<noindex>448 ядер по 1.4 ГГц</noindex> каждое, 630 ГФлопс <noindex>плюс</noindex>.

<noindex>Для CFD</noindex>.

Есть вариант<noindex> серверного решения</noindex> в стойку от 2.1 ТФлопс. Интересна совместимость с <noindex>Tripp Lite</noindex>?

Есть еще <noindex>мобильный вариант</noindex> для ноутбуков (собственно карта не нужна, нужен графический процессор).

И на <noindex>меньший форм фактор</noindex> (<noindex>16 ядер</noindex>).

6 февраля 2010

Есть вариант<noindex> серверного решения</noindex> в стойку от 2.1 ТФлопс.

По поводу Тфлопов обольщаться не стоит. Эта цифра получена для shared памяти, для особого случая. Для больших матриц МКЭ это десятки Гфлопов. И по поводу памяти нужно учитывать, что общей памяти нет. На каждом устройстве своя память. Так, что простое суммирование для МКЭ не проходит.

7 февраля 2010

А есть ли будущее за <noindex>GPU</noindex>?

Кто как считает.

Не пропустили ли мы очередной виток прогресса в области трудоемких вычислений??

В <noindex>USA просто бум</noindex> :lighten: <noindex>какой-то</noindex>.

А у нас <noindex>Polaris</noindex> и пр. сливают всякий устаревший отстой в распродажах.

И кто говорил о падении курса доллара??

Там в силиконе все сливки научного общества.

Развитая инфраструктура внешней политики держит всю азию под колпаком.

Как все просто, есть <noindex>представительство NVIDIA</noindex> в <noindex>РФ</noindex>.

Поехали..., выбирайте: <noindex>1</noindex>, <noindex>2</noindex>, <noindex>3</noindex>, <noindex>4</noindex>, <noindex>5</noindex>.

Применение Графических Процессоров (GPU) в качестве основного вычислительного ресурса позволяет достигнуть новых высот в параллельных вычислениях. Arbyte SuperComputer (SC) - мощный настольный инструмент для профессионалов, в 250 раз быстрее обычного ПК или рабочей станции. Новинка Arbyte SC имеет производительность около 1TFLOPS и позволяет заменить собой небольшой кластер. Кроме того, это устройство является персональным супервычислителем, для которого не требуется специальных решений по электропитанию и охлаждению как в случае с вычислительным кластером.

Действительно перекроет приведенный мной кластер от Т-платформы???

Насчет питания я уже ощутил, без проекта подключения с кластером не обойтись. И вес модулей одному не под силу. Мой до 1ТФлопса чуть-чуть не дотягивает, теоретически. А это чудо даже еще не Fermi-решение.

8 февраля 2010

Действительно перекроет приведенный мной кластер от Т-платформы???

Для задач прочности перекроет. :worthy:

Но это при условии эффективного кода для GPU. Программы для CPU нужно переписать.

Для других задач нужно тестировать.

Изменено 8 февраля 2010 пользователем Практик_Прочнист

8 февраля 2010

Касаемо расчетов на ГПУ. Все зависит от типа задачи, точнее типа алгоритма.

Если в алгоритме данные берутся один раз и обрабатываются вычилителем долго, по сравнению с временем обмена по шине памяти, то при условии, что алгоритм имеет высокопараллельную структуру, перспектива есть.

Если количество обращений между вычислителем и памятью велико, то узким местом становится шина PCI, которая ни в какое сравнение не идет с шиной между оперативкой и процессором. Даже там пропускной способности не хватает, а что вы хотите от PCI?!

Если тут все идеально, то можно поизучать что творится в вычислителе. По факту это высокопаралельная архитектура, где имеет место быть огромная куча ядер - сотни штук, где на каждое ядро приходится не так уж и много памяти. CFD задачи, характеризующиеся большими объемами, относительно каждого ядра, банально не пройдут по памяти.

Поэтому, на сегодняшний день мы видим что активно демонстрируются CFD задачи с:

- равномерной сеткой;

- двухмерные;

- явная решалка (Курант = 1);

- малых размерностей;

- одинарной точности.

А промышленные задачи характеризуются:

- неравномерной сеткой;

- трехмерные;

- неявная решалка (Курант = 10-100);

- большие размерности;

- не только одинарная, но и двойная точность.

Ну вы поняли, что я хотел сказать насчет перспектив в CAE.

:)

Исключения составляют FEM задачи на прямых/итерационных методах, что ИСПА и под Ансис и сделали.

Поэтому, разработчики ждут:

1. Наращивания аппаратных возможностей в плане сочетания памяти и ядер, а также пропускной способности магистралей все это дело объединяющих;

2. Разработки новых алгоритмов, способных работать на высокопараллельных архитектурах;

3. Ждут появления интеловского Лараби, где обещают, что каждое ядро будет построено на базе x86, а это означает, что всю имеющуюся кухню написанного кода под центральные процессоры можно будет банально перекомпилировать под эту железку и с помощью многонитевых алгоритмов распараллелить задачи еще больше, но с оглядкой на п.1 и 2.

9 февраля 2010

Касаемо расчетов на ГПУ. Все зависит от типа задачи, точнее типа алгоритма.

Если количество обращений между вычислителем и памятью велико, то узким местом становится шина PCI, которая ни в какое сравнение не идет с шиной между оперативкой и процессором. Даже там пропускной способности не хватает, а что вы хотите от PCI?!

Данные ОДИН раз в любом алгоритме передаются в видео память, и проводится вычислительная работа. По окончанию расчета результаты один раз передаются из видео памяти. Но для этого код ВСЕЙ программы нужно переписать под GPU. Желательно еще знать архитектуру GPU, например, что такое WARPы и как с ними работать? Только в этом случае можно получить ощутимый выигрыш. :wallbash:

Можно и подождать с переходом под GPU, но от этого объем работы не уменьшится.

Изменено 9 февраля 2010 пользователем Практик_Прочнист

9 февраля 2010

" не только одинарная, но и двойная точность" ISPA, которого выгнали с форума, божился, что двойная точность на этих видеокартах, проверял на тесте 1+e=1 в цикле.

9 февраля 2010

" не только одинарная, но и двойная точность" ISPA, которого выгнали с форума, божился, что двойная точность на этих видеокартах, проверял на тесте 1+e=1 в цикле.

А поподробней нельзя ли развить эту мысль? Что за задачу считали и какие результаты были получены. Может есть какие-то данные-отчет?

9 февраля 2010

Память GDDR5 384-bit, а сколько процессор адресует за такт?

И я пока не нашел описания самого процессора T20.

9 февраля 2010

По факту это высокопаралельная архитектура, где имеет место быть огромная куча ядер - сотни штук, где на каждое ядро приходится не так уж и много памяти. CFD задачи, характеризующиеся большими объемами, относительно каждого ядра, банально не пройдут по памяти.

Для каждого ядра доступна вся память карты. Например, для Tesla C1060 каждому ядру доступно 4 Гб видео памяти.

9 февраля 2010

ISPA, которого выгнали с форума

нет, не выгнали, он может писать.

9 февраля 2010

Данные ОДИН раз в любом алгоритме передаются в видео память, и проводится вычислительная работа. По окончанию расчета результаты один раз передаются из видео памяти.

Да, все верно. Тут еще важно, что если есть обмены между параллельными частями внутри итерации, то очень важна организация доступа к данным в памяти.

Но для этого код ВСЕЙ программы нужно переписать под GPU. Желательно еще знать архитектуру GPU, например, что такое WARPы и как с ними работать? Только в этом случае можно получить ощутимый выигрыш.

Можно и подождать с переходом под GPU, но от этого объем работы не уменьшится.

А почему бы вам напрямую не выйти на Антона Джораева из NVIDIA, который вас сведет с разработчиками, которые ответят на все ваши вопросы?

Для каждого ядра доступна вся память карты. Например, для Tesla C1060 каждому ядру доступно 4 Гб видео памяти.

А мне не нужна вся память для одного ядра. Мне нужна память поделенная на количество ядер, т.к. я хочу задействовать все ядра.

В итоге получается, что на одно ядро приходится не так уж и много памяти и существующий алгоритм очень конкретно просядет в паралелльном режиме.

Касаемо последней архитектуры NVIDIA крест целовать не буду, но решения, основанные на чипе 200 серии, не давали пользователю реальной экономии средств при применении расчетов на ГПУ на двойной точности.

За те же деньги можно вместо однопроцессорной станции взять двухпроцессорную, или поставить рядом второй комп.

Кроме того были прочие заморочки типа, если видеокарта долго не отвечает, то операционная систему ее отключает (хи-хи).

На Windows 7 вроде это учли.

Но то, что прогресс не стоит на месте это факт и что техника движется в сторону высокопараллельных (скалярных) архитектур тоже факт.

Это лишь вопрос времени.

9 февраля 2010

Касаемо последней архитектуры NVIDIA крест целовать не буду, но решения, основанные на чипе 200 серии, не давали пользователю реальной экономии средств при применении расчетов на ГПУ на двойной точности.

За те же деньги можно вместо однопроцессорной станции взять двухпроцессорную, или поставить рядом второй комп.

Посмотрите внимательно отчет по ИСПА. И сравните время расчета с одинарной и двойной точностью. Расчеты как раз и проводились на 200 чипе и на XP. Время решения отличается не в 8 раз, а в 1.5 раза. Что уж там придумали разработчики ИСПА я не знаю. Но факт остается фактом. :worthy:

9 февраля 2010

Отчет я уже скачал и отдал нашим алгебраистам.

Мы плотно общались с NVIDIA, провели у себя мозговой штурм, и пришли к выводу, что наша команда пока еще не готова к даже проведению исследований в области перехода на графические чипы.

Причем как с точки зрения эффективности вычислительной, с точки зрения финансовой для клиента, так и с точки зрения организации написания кода и его развития.

В принципе, мы еще не исчерпали резервов по нашей итерационной схеме, настройкам компилятора и оптимизации кусков кода.

Это чисто наши заморочки, но судя по тому, что по озвученным мною выше критериям еще никто из писателей CFD приложений ничего путного не показал, видать мы не одни такие горемыки.

9 февраля 2010

нет, не выгнали, он может писать.

Писать сообщения ISPA может, но они не доходят. Так что вам решать, как это назвать. Выгнали или не выгнали?

9 февраля 2010

Писать сообщения ISPA может, но они не доходят.

Ну, если г-н ИСПА их не пишет... то как он может узнать, доходят они или нет.

Выгнали или не выгнали?

Нет, не выгнали. Если вы хотите подробно обсудить этот вопрос, напишите мне, пожалуста, в личку.

9 февраля 2010

Ну, если г-н ИСПА их не пишет... то как он может узнать, доходят они или нет.

Нет, не выгнали. Если вы хотите подробно обсудить этот вопрос, напишите мне, пожалуста, в личку.

Господин ISPA в течение 3-х месяцев пытался писать сообщения. Они не доходили. Что более подробно обсуждать? Это факт. А факты – упрямая вещь.

9 февраля 2010

Модели Tesla C1060 (1 GPU) и Tesla S1070 (4 GPU) уже стали поддерживать вычисления с двойной точностью в операциях с плавающей точкой.

<noindex>Здесь немного об архитектуре Fermi GPU</noindex>.

<noindex>И популярно о GPU</noindex>.

<noindex>В качестве наглядной демонстрации экономичности применения ускорителей Tesla</noindex> взгляните на нижеследующий слайд. При одинаковой производительности использование платформы CUDA оказывается в 10 раз дешевле и в 21 раз энергоэкономичнее, чем традиционный кластер. С точки зрения производительности на ватт и производительности на доллар GPU значительно более привлекательны, особенно для выстраивания серверов.

Были разработаны, например, методы выращивания больших монокристаллов, которые оказались гораздо чище поликристальных блоков.

Я вспомнил, как мне мой научный руководитель в конце 90-х рассказывал о том, что его чадо (выпускник МХТИ) в USA участвует в разработке технологии выращивания (очистки?) больший кристаллов. А теперь, видимо, те самые работы выродились в готовый продукт. :smile:

Войти

Подбор компьютера для Cae

Рекомендованные сообщения

tensor1982 0

Ссылка на сообщение

Поделиться на других сайтах

tensor1982 0

Ссылка на сообщение

Поделиться на других сайтах

_serge 24

Ссылка на сообщение

Поделиться на других сайтах

Практик_Прочнист 0

Ссылка на сообщение

Поделиться на других сайтах

_serge 24

Ссылка на сообщение

Поделиться на других сайтах

Практик_Прочнист 0

Ссылка на сообщение

Поделиться на других сайтах

a_schelyaev 367

Ссылка на сообщение

Поделиться на других сайтах

Практик_Прочнист 0

Ссылка на сообщение

Поделиться на других сайтах

Fedor 1 605

Ссылка на сообщение

Поделиться на других сайтах

tensor1982 0

Ссылка на сообщение

Поделиться на других сайтах

_serge 24

Ссылка на сообщение

Поделиться на других сайтах

Практик_Прочнист 0

Ссылка на сообщение

Поделиться на других сайтах

MFS 248

Ссылка на сообщение

Поделиться на других сайтах

a_schelyaev 367

Ссылка на сообщение

Поделиться на других сайтах

Практик_Прочнист 0

Ссылка на сообщение

Поделиться на других сайтах

a_schelyaev 367

Ссылка на сообщение

Поделиться на других сайтах

Практик_Прочнист 0

Ссылка на сообщение

Поделиться на других сайтах

MFS 248

Ссылка на сообщение

Поделиться на других сайтах

Практик_Прочнист 0

Ссылка на сообщение

Поделиться на других сайтах

_serge 24

Ссылка на сообщение

Поделиться на других сайтах

Присоединяйтесь к обсуждению

Сейчас на странице 0 пользователей

Сообщения