Перейти к публикации

Суперкомпьютер своими руками для расчетов в ansys и 3d приложениях


Рекомендованные сообщения

Sandy Bridge, 6 cores, Elapsed Time in seconds ~ 30000.

Что-то долго все это для статики.

Такое впечатление, что там еще и контакт есть, если так долго считает на такой тачке с таким объемом памяти.

у них там еще указано - Nonlinear Static (6 Steps)

т.е. это 6 проходов? или как это понимать?

т.е. как минимум надо 2.5*6, не?

Про 77 уточню у Джораева.

Steps это шаги нагружения, судя по всему. По нашему, CFD-бразильскому, аналог итераций.

А хотя нет - шаг нагрузки это инкрименты.

Ссылка на сообщение
Поделиться на других сайтах


т.е. как минимум надо 2.5*6, не?

Не придумывайте. Есть количество операций и есть реальное время решения.

И ускоряют они 2 процессора сразу двумя ускорителями.

Чтобы ускорение было побольше. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Не придумывайте. Есть количество операций и есть реальное время решения.

А какой тип анализа используется?

т.е. это 6 проходов? или как это понимать?

Выяснил.

Это 6 случаев расчетного нагружения, которые последовательно прикладывались к одной модели и в качестве начального условия на каждом последующем случае используется результат с предыдущего решения.

Ссылка на сообщение
Поделиться на других сайтах

Steps это шаги нагружения, судя по всему. По нашему, CFD-бразильскому, аналог итераций.

А хотя нет - шаг нагрузки это инкрименты.

а что такое Nonlinear Static (1 step; 39 increments) - которое жирным выделено?

в общем, интересно, как понимать тут steps и increments

Про 77 уточню у Джораева.

это как раз понятно на 100% - заметь, он использует TFLOPs - т.е. в конце стоит множ.число. Т.е. это именно FLoating point OPeration, а не FLOPS.

Ссылка на сообщение
Поделиться на других сайтах

в общем, интересно, как понимать тут steps и increments

Степ - случай нагружения. Например, первым степом дал нагружение статическое. А во втором степе ударил молотком.

Инкремент - шаг приращения нагрузки, внутри степа. Он итерирует по своему - нагрузку увеличивает и смотрит сходимость на каждом шаге приращения.

Если задача нелинейная, то количество инкрементов может существенно вырасти.

Немного покопался на сайте NVIDIA и нашел одну содержательную презенташку по батьке-Abaqus.

S0431-GTC2012-Evolving-GPU-Dassault.pdf

Цельнотянутая <noindex>отсюда</noindex>.

Ссылка на сообщение
Поделиться на других сайтах

просто сравнил два примера из этой презентации - странно смотрится:

сравнивал, где 1 step и 8 ядер:

26 TFLOPs, 4,27 млн уравнений, 39 increments, 80000 сек

100+ TFLOPs, 3,07 млн уравнений, 5 increments, 11000 сек

если не сравнивать первую пару чисел, то вроде всё ок: сделали в 8 раз больше шагов, получили в 8 раз больше время.

Но вот эти TFLOPs тут портят всю картину, и появляется сомнение - правильно ли ISPA предложил пересчет...

Или в презентации косяк....

?

Ссылка на сообщение
Поделиться на других сайтах

Пока не поймем что за тип анализа, можно долго гадать. Вполне возможно, что задача с контактом.

Ссылка на сообщение
Поделиться на других сайтах

Но вот эти TFLOPs тут портят всю картину, и появляется сомнение -

правильно ли ISPA предложил пересчет...

Или в презентации косяк....

?

Все правильно мы понимаем и считаем. Я про это с самого начала говорю. Надо эффективно использовать процессор.

Но только эти два ускорителя стоят не меньше 360 000 рублей.

А у меня процессор стоит 15 000 рублей.

И ИСПА считает быстрее. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

И ИСПА считает быстрее. :unsure:

т.е. вас не смущает, что 100+ TFLOPs выполняются за 11000 сек, а 26 TFLOPs - за 80000 сек, т.е. один вариант в 28 раз быстрее другого....?
Ссылка на сообщение
Поделиться на других сайтах

т.е. вас не смущает

Меня не смущает, что ИСПА на ЦПУ быстрее чем Абакус.

Я сразу сказал, что ИСПА не получается ускорить с помощью Квадро.

Вы только не забывайте, что в статье ДВА ускорителя и у каждого 2700 ядер.

Я вам сразу сказал, что новая версия ИСПА считает очень быстро.

А вы не верили. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Я? цитату, пожалуйста.

Я не лично Вас имел в виду. Вы то как раз хотите разобраться в этом вопросе и докопаться до истины.

А любая нелинейная задача - это последовательное решение линейных задач.

Поэтому производительность и компьютеров и супер компьютеров измеряют Линпаком.

Линейной решалкой. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Правильно. Здесь не кафедральная мурзилка, чтоб голову морочить новизной с актуальностью :rolleyes:

Ссылка на сообщение
Поделиться на других сайтах

Вот немного информации по ускорителю из статьи по Аьакусу.

Флагман Tesla K20X с 2688 ядрами CUDA, как заявлено, обеспечивает самый высокий из возможных ныне уровень производительности для одного GPU, а именно 3,95 терафлопс в вычислениях с одинарной точностью и 1,31 терафлопс в вычислениях с двойной точностью. На его борту присутствует 6144 Мбайт памяти GDDR5 с 384-битным интерфейсом. Частота ядра/памяти равна 732/5200 МГц. Максимальная потребляемая мощность достигает 235 Вт.

А скорость 1,31 терафлопс в вычислениях с двойной точностью - хороший рекламный ход.

И задача в 70 Тфл рашалась бы за 70 сек. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Сетка распределяется в виде декомпозированной матрицы - куски матрицы.

[url="http://www.tesis.com.ru/infocenter/downloads/flowvision/fv_es09_tes2.pdf"]

Статья оставляет больше вопросов чем ответов.

Вопрос первый

Так как всё-таки происходит декомпозиция в вашем коде ?

1) Чисто геометрическая 2-х уровневая декомпозиция по расчётной области (domain decomposition)

Первый уровень (более крупный) - MPI, второй более мелкий - TBB

2) Гибридная декомпозиция - первый уровень - геометрическая декомпозиция ( с помощьюMPI) второй уровень - декомпозиция по физическим процессам (c помощью TBB)

Если вариант N1 то балансировка происходит только на втором уровне или на обоих ?

Вопрос второй

Передел масштабирования задачи с фиксированным числом узлов (strong scale limit) какой ?

Если по простому то каково предельное число ядер на задачу или предельное отношение числа узлов расчётной сетки / ядро процессора после которого задача не масштабируется?

Вопрос третий

Где сравнение результатов с балансировкой и без ?

PS: 64 процессора (или ядра ?) это ни о чём. Тест нужно делать на числе от сотен до тысяч ядер

Ссылка на сообщение
Поделиться на других сайтах

просто сравнил два примера из этой презентации - странно смотрится:

сравнивал, где 1 step и 8 ядер:

26 TFLOPs, 4,27 млн уравнений, 39 increments, 80000 сек

100+ TFLOPs, 3,07 млн уравнений, 5 increments, 11000 сек

если не сравнивать первую пару чисел, то вроде всё ок: сделали в 8 раз больше шагов, получили в 8 раз больше время.

Но вот эти TFLOPs тут портят всю картину, и появляется сомнение - правильно ли ISPA предложил пересчет...

Или в презентации косяк....

?

Задача считалась не линейная, стоит в презентации. Скорее это контакт, поэтому сравнивать с линейными задачами не правильно.

Кроме того в расчете с контактом кроме STEP и INCREMENT есть еще ITERATION. В одном INCREMENTе может быть до 18 ITERATION.

Так что тут сравнивать скорость с линейной задачей не корректно будет.

Например эту задачу ИСПА и за месяц не решит(если решит, то я исправлю) :

<noindex>http://fsapr2000.ru/index.php?act=Attach&a...st&id=44171</noindex>

вот выписка из *.sta файла этой задачи, где первый Step посчитался легко и второй, который плохо сходился.

SUMMARY OF JOB INFORMATION:

STEP INC ATT ITER TOTAL STEP

1 1 1 4 0.0500 0.0500

1 2 1 1 0.100 0.100

.....................................

1 18 1 1 0.900 0.900

1 19 1 1 0.950 0.950

1 20 1 1 1.00 1.00

2 1 1 10 1.01 0.0100

2 2 1 10 1.02 0.0200

2 3 1U 4 1.02 0.0200

2 3 2 5 1.02 0.0225

2 4 1U 6 1.02 0.0225

2 4 2 3 1.02 0.0231

....................................

2 754 1 3 1.96 0.963

2 755 1 3 1.97 0.966

2 756 1 11 1.97 0.970

2 757 1 5 1.97 0.974

2 758 1 11 1.98 0.979

2 759 1 3 1.98 0.980

2 760 1 5 1.98 0.984

2 761 1 10 1.99 0.989

2 762 1 3 1.99 0.990

2 763 1 5 1.99 0.994

2 764 1 6 2.00 0.999

2 765 1 3 2.00 1.00

THE ANALYSIS HAS COMPLETED SUCCESSFULLY

Ссылка на сообщение
Поделиться на других сайтах

2 HFL

Пункты мои:

1. Динамической балансировки для MPI режима нет. Пока.

2. Для многонитевого режима динамическая балансировка есть.

3. Декомпозиция работает не только для 2 в степени N, но и для любого количества процессоров. Хоть три. :)

4. Предела масштабирования два:

4.1 Нижний: упирается в превалирование доли обменов над долей вычислений и находится в районе 40-50 т.ячеек. Ниже этого уровня ускорение может пропадать.

4.2 Верхний: упирается в пропускную способность канала ЦП-память и зависит от конкретной железки. Ограничение чисто психологиечское, т.к. просто растет доля вычислений на узле.

5. Декомпозиция двухуровневая MPI+TBB. Оба уровня геометрические. Область бьется на домены. Количество доменов делается больше, чем количество расчетных ядер/узлов. Из этих доменов набирается область, которая уже и скармливается расчетному узлу. Балансировка происходит за счет перекидывания доменов из одной области в другую.

6. Сравнения "балансировка/без балансировки" под рукой нет. Материал рабочий у разработчика на компе и просить его сейчас оформить в удобочитаемом виде невозможно. Но сразу скажу, что отличия значительные. Поэтому основной рабочий режим запуска рекомендуется с максимальным задействованием всех ядер процессора в многоядерном режиме.

7. Статья старая, а работа, в ней описываемая, еще более старая. Если вам интересно, то на нашей решалке лично мы отлаживались в режиме в тысячи процессоров, а наши клиенты в 10000 процессоров.

Подчеркну - процессоров. Нареканий не было.

8. Недавно опытным путем установили, что теперь HT не тормозит расчет на 10%, а ускоряет его на 20%. Думаю теперь над новой системой лицензирования, чтобы не по ядрам продавать параллельные опции, а по процессорам или по узлам.

;)

Ссылка на сообщение
Поделиться на других сайтах

8. Недавно опытным путем установили, что теперь HT не тормозит расчет на 10%, а ускоряет его на 20%. Думаю теперь над новой системой лицензирования, чтобы не по ядрам продавать параллельные опции, а по процессорам или по узлам.

У SQL неплохо сделан этот момент:

<noindex>http://download.microsoft.com/documents/ru...ce_Guide_RU.pdf</noindex>

Лицензии продаются парами, но минимум - можно купить на 4 ядра (см.ниже)

Одноядерные и двухъядерные процессоры отправлены в топку за счет повышающих коэффициентов.

учтена производительность AMD - для них добавлен понижающий коэффициент. Хотя как-то странно - получается на 6 ядер надо 4,5 лицензии, т.е. всё равно надо 6 лицензий. А вот на 12 ядер надо 9 (точнее - 10).

post-26004-1353688051_thumb.png

Т.е. наличие-отсутствие HT не влияет на лицензию.

Но не знаю - как сейчас - а SQL 2005 не имел никакой проверки количества задействованных ядер или ЦП

Т.е. имея лицензию на 1 ЦП (тогда они лицензировались на ЦП) можно было в настройках свободно включать все процессоры, какие есть. Не было никаких спец.ключей или проверок.

Странный момент - он меня тогда очень удивил.

Вам такой вариант не пойдет. Необходимо встраивать что-то типа CPU_ID, чтоб он (солвер) сообщал серверу лицензий - на чем запускается счет.

Ссылка на сообщение
Поделиться на других сайтах

Правильно. Здесь не кафедральная мурзилка, чтоб голову морочить новизной с актуальностью :rolleyes:

Кафедральная мурзилка продолжается.

Даже не понимают, что нелинейная задача увеличивает количество оперций и скорость от этого не меняется.

Это действительно новизна. Для нелинейной задачи одна скорость, а для линейной другая. :clap_1: Какую наукообразную базу подвели.

И скорость Абакуса для линейной задачи тщательно скрывают.

Значит есть, что скрывать. Значит ИСПА быстрее. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Кафедральная мурзилка продолжается.

Даже не понимают, что нелинейная задача увеличивает количество оперций и скорость от этого не меняется.

Это действительно новизна. Для нелинейной задачи одна скорость, а для линейной другая. :clap_1: Какую наукообразную базу подвели.

И скорость Абакуса для линейной задачи тщательно скрывают.

Значит есть, что скрывать. Значит ИСПА быстрее. :unsure:

Так поэтому я и написал, что не ясно количество iteration. Если знать количество iteration то и можно посчитать скорость, которую можно сравнить.

А презентация эта не для ISPA писалась, там другие цели были. Никто ничего не скрывает, если бы что и хотели скрывать в инет бы вообще никакой инфы бы не выкладывали, поэтому не нужно тут ахинею писать.

Или вы заказ на сравнительные расчеты делали, а его не выполнили?

Ссылка на сообщение
Поделиться на других сайтах
  • MFS открепил тему
Гость
Эта тема закрыта для публикации сообщений.
  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу.




  • Сообщения

    • Orchestra2603
      А какая амуниция подходящая? Между строк читается посыл "все вокруг дураки, а вот я...". Знаний, как денег, всегда не хватает. Сами же знаете, чем больше ищешь ответов, тем больше находишь вопросов. Люди, которые утвержадают, что знают все в какой-то области, чаще всего либо только в начале своего пути, либо имеют психиатрические проблемы.   Да, я вообще, в широком смысле. В данном случае про сплошность. В задачах, где нужно моделировать фрагментацию материала при разрушении (а такие, поверьте встречаются), очень даже полезны штуки типа периданамики, например. Есть целый аппарат всяких разных методов, которые нацелены на то, чтобы построить эквивалентную "сплошную" модель, как-то хитро учтя всякие разрывы сплошности либо энергетически, либо вводя всякие "масштабы" (см. методы гомогенизации). Есть бессеточные численные методы, где все сводится к движению виртуальных "частиц". Механика разрушения тоже к этому причастна, вообе говоря. Есть очень много всего. Мир вообще очень разнообразный и интересный! И поверьте, "если звезды зажигают, значит это кому-то нужно". Не просто для галочки или степени, а потому что это помогает решать определенные задачи, которые по-другому либо очень тяжело решать, либо вообще никак. Вы почему-то это регулярно обесцениваете. Легким движением руки сливаете все в унитаз.  
    • lem_on
      Если по датчикам все станок устраивает, отпустить механическое крепление и выставить как надо. 
    • Fedor
      Спасибо. Эти парни сделали когда-то страну великой. Быть на них похожим это честь :)  Лучшее новое это забытое старое,  считают постмодернисты. Амбиции без подходящей амуниции  знаний смешны :)  " возможно это вас как-то отталкивает от современных идей" что за идеи имеете ввиду ?  :) 
    • Limon2986
      Всем добрый день. Станок Litz CV 800 fanuc При смене инструмента, лапа вынимает инструмент из шпинделя, поворачивается для установки в барабан, вставляет немного и становится в свое положение. Инструмент падает. При осмотре, обнаружил что лапа приходит к магазину немного дальше, инструмент не до конца входит, потому и выпадает. Как лапу вернуть немного назад? Соориентировать?
    • Orchestra2603
      Соррян за оффтопик..   Федор, вы меня простите, пожалуйста... Я когда читаю ваши подобные сообщения, у меня четко перед глазами формируется образ такого совдеповского инженера, с очками в такой толстенной оправе, с логарифмической линейкой, цикрулем и большим таким холстом бумаги с чертежами, который начинает рабочий день под советский гимн и восславляет коммунистическую партию...   Всегда полезно быть открытым новому. Понимаю, что конечно хочется обратно в счастливую молодость, в те самые золотые годы, и возможно это вас как-то отталкивает от современных идей.   Некоторые вещи придумываются просто как результат гимнастики ума, это правда. Но это и не плохо. Кто-то кроссворды решает, кто-то придумывает мат мадели в надежде отловить какой-то эффект, превозойти то, что другие модели не могли. Может, этот эффект не особо влияет на глобальный порядок вещей, но из совокупности таких маленьких незначительных шажочков и строится научный прогресс. Так что я решительно против ваших попыток обесценить чьи-то амбиции попытаться выйти за рамки и попробовать что-то новое.   Да, и в принципе - это не самое плохое занятие на свете. К сожалению, часто людям доставляет удовольствие куда более бесполезные или даже вредные вещи.
    • gudstartup
      ну за границу ездил и досмотр при выезде обязателен у него не один а с одним станком это не производство у многих даже в гаражном хозяйстве больше
    • aalex_b
      Добрый день. Саму систему я поднял. Не знаю куда вводится центр стола, но предполагаю в 960,хх параметр для Y и для X А поворот головы куда вносят: при горизонтальном и вертикальном положении. Так же методика измерения интересует  HDD ушел физически: BIOS его не видит и при включении питания свист, как от болгарки.
    • Flint_ru
      Добрый день!  Подскажите, можно ли в WB задать нагрузку двухмерной таблицей, не прибегая к всавке apdl и если можно, то как?  В apdl  просто создается таблица, например, один параметр Time, другой координата. В итоге можно для каждого шага задать свою нагрузку, зависящую от координаты.  В WB можно выбрать  tabular, но есть возможность выбрать только одну независимую переменную. Спасибо.
    • Killerchik
      Вы уверены? Я не знаю, на сколько дотошна на вывоз китайская таможня. Судя по идущим посылкам - совершенно не дотошна.   СОЖ мы себе везли (которую по моей дурости купили, думая что привезти будет легко) через 2 промежуточные страны страны. Что-то более стрёмное, с малейшей электроникой, едет через 3. Это типа прекрасная новая реальность, добро пожаловать.   Со станком не случится, а вот с заказом может случится много чего - не успеть к выставке, не получить инвестора. Производства бывают разные - какая-то конкретная деталь может быть сделана на каком-то одном имеющемся станке, может там отверстие глубокое, может габарит большой. Да может просто у человека один станок, и всё! Что он теперь, ненормальный?
    • Jesse
      @Fedor Успокойтесь. Никто тут не собирается отказываться от теории сплошности
×
×
  • Создать...