Перейти к публикации

Суперкомпьютер своими руками для расчетов в ansys и 3d приложениях


Рекомендованные сообщения

Sandy Bridge, 6 cores, Elapsed Time in seconds ~ 30000.

Что-то долго все это для статики.

Такое впечатление, что там еще и контакт есть, если так долго считает на такой тачке с таким объемом памяти.

у них там еще указано - Nonlinear Static (6 Steps)

т.е. это 6 проходов? или как это понимать?

т.е. как минимум надо 2.5*6, не?

Про 77 уточню у Джораева.

Steps это шаги нагружения, судя по всему. По нашему, CFD-бразильскому, аналог итераций.

А хотя нет - шаг нагрузки это инкрименты.

Ссылка на сообщение
Поделиться на других сайтах


т.е. как минимум надо 2.5*6, не?

Не придумывайте. Есть количество операций и есть реальное время решения.

И ускоряют они 2 процессора сразу двумя ускорителями.

Чтобы ускорение было побольше. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Не придумывайте. Есть количество операций и есть реальное время решения.

А какой тип анализа используется?

т.е. это 6 проходов? или как это понимать?

Выяснил.

Это 6 случаев расчетного нагружения, которые последовательно прикладывались к одной модели и в качестве начального условия на каждом последующем случае используется результат с предыдущего решения.

Ссылка на сообщение
Поделиться на других сайтах

Steps это шаги нагружения, судя по всему. По нашему, CFD-бразильскому, аналог итераций.

А хотя нет - шаг нагрузки это инкрименты.

а что такое Nonlinear Static (1 step; 39 increments) - которое жирным выделено?

в общем, интересно, как понимать тут steps и increments

Про 77 уточню у Джораева.

это как раз понятно на 100% - заметь, он использует TFLOPs - т.е. в конце стоит множ.число. Т.е. это именно FLoating point OPeration, а не FLOPS.

Ссылка на сообщение
Поделиться на других сайтах

в общем, интересно, как понимать тут steps и increments

Степ - случай нагружения. Например, первым степом дал нагружение статическое. А во втором степе ударил молотком.

Инкремент - шаг приращения нагрузки, внутри степа. Он итерирует по своему - нагрузку увеличивает и смотрит сходимость на каждом шаге приращения.

Если задача нелинейная, то количество инкрементов может существенно вырасти.

Немного покопался на сайте NVIDIA и нашел одну содержательную презенташку по батьке-Abaqus.

S0431-GTC2012-Evolving-GPU-Dassault.pdf

Цельнотянутая <noindex>отсюда</noindex>.

Ссылка на сообщение
Поделиться на других сайтах

просто сравнил два примера из этой презентации - странно смотрится:

сравнивал, где 1 step и 8 ядер:

26 TFLOPs, 4,27 млн уравнений, 39 increments, 80000 сек

100+ TFLOPs, 3,07 млн уравнений, 5 increments, 11000 сек

если не сравнивать первую пару чисел, то вроде всё ок: сделали в 8 раз больше шагов, получили в 8 раз больше время.

Но вот эти TFLOPs тут портят всю картину, и появляется сомнение - правильно ли ISPA предложил пересчет...

Или в презентации косяк....

?

Ссылка на сообщение
Поделиться на других сайтах

Пока не поймем что за тип анализа, можно долго гадать. Вполне возможно, что задача с контактом.

Ссылка на сообщение
Поделиться на других сайтах

Но вот эти TFLOPs тут портят всю картину, и появляется сомнение -

правильно ли ISPA предложил пересчет...

Или в презентации косяк....

?

Все правильно мы понимаем и считаем. Я про это с самого начала говорю. Надо эффективно использовать процессор.

Но только эти два ускорителя стоят не меньше 360 000 рублей.

А у меня процессор стоит 15 000 рублей.

И ИСПА считает быстрее. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

И ИСПА считает быстрее. :unsure:

т.е. вас не смущает, что 100+ TFLOPs выполняются за 11000 сек, а 26 TFLOPs - за 80000 сек, т.е. один вариант в 28 раз быстрее другого....?
Ссылка на сообщение
Поделиться на других сайтах

т.е. вас не смущает

Меня не смущает, что ИСПА на ЦПУ быстрее чем Абакус.

Я сразу сказал, что ИСПА не получается ускорить с помощью Квадро.

Вы только не забывайте, что в статье ДВА ускорителя и у каждого 2700 ядер.

Я вам сразу сказал, что новая версия ИСПА считает очень быстро.

А вы не верили. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Я? цитату, пожалуйста.

Я не лично Вас имел в виду. Вы то как раз хотите разобраться в этом вопросе и докопаться до истины.

А любая нелинейная задача - это последовательное решение линейных задач.

Поэтому производительность и компьютеров и супер компьютеров измеряют Линпаком.

Линейной решалкой. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Правильно. Здесь не кафедральная мурзилка, чтоб голову морочить новизной с актуальностью :rolleyes:

Ссылка на сообщение
Поделиться на других сайтах

Вот немного информации по ускорителю из статьи по Аьакусу.

Флагман Tesla K20X с 2688 ядрами CUDA, как заявлено, обеспечивает самый высокий из возможных ныне уровень производительности для одного GPU, а именно 3,95 терафлопс в вычислениях с одинарной точностью и 1,31 терафлопс в вычислениях с двойной точностью. На его борту присутствует 6144 Мбайт памяти GDDR5 с 384-битным интерфейсом. Частота ядра/памяти равна 732/5200 МГц. Максимальная потребляемая мощность достигает 235 Вт.

А скорость 1,31 терафлопс в вычислениях с двойной точностью - хороший рекламный ход.

И задача в 70 Тфл рашалась бы за 70 сек. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Сетка распределяется в виде декомпозированной матрицы - куски матрицы.

[url="http://www.tesis.com.ru/infocenter/downloads/flowvision/fv_es09_tes2.pdf"]

Статья оставляет больше вопросов чем ответов.

Вопрос первый

Так как всё-таки происходит декомпозиция в вашем коде ?

1) Чисто геометрическая 2-х уровневая декомпозиция по расчётной области (domain decomposition)

Первый уровень (более крупный) - MPI, второй более мелкий - TBB

2) Гибридная декомпозиция - первый уровень - геометрическая декомпозиция ( с помощьюMPI) второй уровень - декомпозиция по физическим процессам (c помощью TBB)

Если вариант N1 то балансировка происходит только на втором уровне или на обоих ?

Вопрос второй

Передел масштабирования задачи с фиксированным числом узлов (strong scale limit) какой ?

Если по простому то каково предельное число ядер на задачу или предельное отношение числа узлов расчётной сетки / ядро процессора после которого задача не масштабируется?

Вопрос третий

Где сравнение результатов с балансировкой и без ?

PS: 64 процессора (или ядра ?) это ни о чём. Тест нужно делать на числе от сотен до тысяч ядер

Ссылка на сообщение
Поделиться на других сайтах

просто сравнил два примера из этой презентации - странно смотрится:

сравнивал, где 1 step и 8 ядер:

26 TFLOPs, 4,27 млн уравнений, 39 increments, 80000 сек

100+ TFLOPs, 3,07 млн уравнений, 5 increments, 11000 сек

если не сравнивать первую пару чисел, то вроде всё ок: сделали в 8 раз больше шагов, получили в 8 раз больше время.

Но вот эти TFLOPs тут портят всю картину, и появляется сомнение - правильно ли ISPA предложил пересчет...

Или в презентации косяк....

?

Задача считалась не линейная, стоит в презентации. Скорее это контакт, поэтому сравнивать с линейными задачами не правильно.

Кроме того в расчете с контактом кроме STEP и INCREMENT есть еще ITERATION. В одном INCREMENTе может быть до 18 ITERATION.

Так что тут сравнивать скорость с линейной задачей не корректно будет.

Например эту задачу ИСПА и за месяц не решит(если решит, то я исправлю) :

<noindex>http://fsapr2000.ru/index.php?act=Attach&a...st&id=44171</noindex>

вот выписка из *.sta файла этой задачи, где первый Step посчитался легко и второй, который плохо сходился.

SUMMARY OF JOB INFORMATION:

STEP INC ATT ITER TOTAL STEP

1 1 1 4 0.0500 0.0500

1 2 1 1 0.100 0.100

.....................................

1 18 1 1 0.900 0.900

1 19 1 1 0.950 0.950

1 20 1 1 1.00 1.00

2 1 1 10 1.01 0.0100

2 2 1 10 1.02 0.0200

2 3 1U 4 1.02 0.0200

2 3 2 5 1.02 0.0225

2 4 1U 6 1.02 0.0225

2 4 2 3 1.02 0.0231

....................................

2 754 1 3 1.96 0.963

2 755 1 3 1.97 0.966

2 756 1 11 1.97 0.970

2 757 1 5 1.97 0.974

2 758 1 11 1.98 0.979

2 759 1 3 1.98 0.980

2 760 1 5 1.98 0.984

2 761 1 10 1.99 0.989

2 762 1 3 1.99 0.990

2 763 1 5 1.99 0.994

2 764 1 6 2.00 0.999

2 765 1 3 2.00 1.00

THE ANALYSIS HAS COMPLETED SUCCESSFULLY

Ссылка на сообщение
Поделиться на других сайтах

2 HFL

Пункты мои:

1. Динамической балансировки для MPI режима нет. Пока.

2. Для многонитевого режима динамическая балансировка есть.

3. Декомпозиция работает не только для 2 в степени N, но и для любого количества процессоров. Хоть три. :)

4. Предела масштабирования два:

4.1 Нижний: упирается в превалирование доли обменов над долей вычислений и находится в районе 40-50 т.ячеек. Ниже этого уровня ускорение может пропадать.

4.2 Верхний: упирается в пропускную способность канала ЦП-память и зависит от конкретной железки. Ограничение чисто психологиечское, т.к. просто растет доля вычислений на узле.

5. Декомпозиция двухуровневая MPI+TBB. Оба уровня геометрические. Область бьется на домены. Количество доменов делается больше, чем количество расчетных ядер/узлов. Из этих доменов набирается область, которая уже и скармливается расчетному узлу. Балансировка происходит за счет перекидывания доменов из одной области в другую.

6. Сравнения "балансировка/без балансировки" под рукой нет. Материал рабочий у разработчика на компе и просить его сейчас оформить в удобочитаемом виде невозможно. Но сразу скажу, что отличия значительные. Поэтому основной рабочий режим запуска рекомендуется с максимальным задействованием всех ядер процессора в многоядерном режиме.

7. Статья старая, а работа, в ней описываемая, еще более старая. Если вам интересно, то на нашей решалке лично мы отлаживались в режиме в тысячи процессоров, а наши клиенты в 10000 процессоров.

Подчеркну - процессоров. Нареканий не было.

8. Недавно опытным путем установили, что теперь HT не тормозит расчет на 10%, а ускоряет его на 20%. Думаю теперь над новой системой лицензирования, чтобы не по ядрам продавать параллельные опции, а по процессорам или по узлам.

;)

Ссылка на сообщение
Поделиться на других сайтах

8. Недавно опытным путем установили, что теперь HT не тормозит расчет на 10%, а ускоряет его на 20%. Думаю теперь над новой системой лицензирования, чтобы не по ядрам продавать параллельные опции, а по процессорам или по узлам.

У SQL неплохо сделан этот момент:

<noindex>http://download.microsoft.com/documents/ru...ce_Guide_RU.pdf</noindex>

Лицензии продаются парами, но минимум - можно купить на 4 ядра (см.ниже)

Одноядерные и двухъядерные процессоры отправлены в топку за счет повышающих коэффициентов.

учтена производительность AMD - для них добавлен понижающий коэффициент. Хотя как-то странно - получается на 6 ядер надо 4,5 лицензии, т.е. всё равно надо 6 лицензий. А вот на 12 ядер надо 9 (точнее - 10).

post-26004-1353688051_thumb.png

Т.е. наличие-отсутствие HT не влияет на лицензию.

Но не знаю - как сейчас - а SQL 2005 не имел никакой проверки количества задействованных ядер или ЦП

Т.е. имея лицензию на 1 ЦП (тогда они лицензировались на ЦП) можно было в настройках свободно включать все процессоры, какие есть. Не было никаких спец.ключей или проверок.

Странный момент - он меня тогда очень удивил.

Вам такой вариант не пойдет. Необходимо встраивать что-то типа CPU_ID, чтоб он (солвер) сообщал серверу лицензий - на чем запускается счет.

Ссылка на сообщение
Поделиться на других сайтах

Правильно. Здесь не кафедральная мурзилка, чтоб голову морочить новизной с актуальностью :rolleyes:

Кафедральная мурзилка продолжается.

Даже не понимают, что нелинейная задача увеличивает количество оперций и скорость от этого не меняется.

Это действительно новизна. Для нелинейной задачи одна скорость, а для линейной другая. :clap_1: Какую наукообразную базу подвели.

И скорость Абакуса для линейной задачи тщательно скрывают.

Значит есть, что скрывать. Значит ИСПА быстрее. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Кафедральная мурзилка продолжается.

Даже не понимают, что нелинейная задача увеличивает количество оперций и скорость от этого не меняется.

Это действительно новизна. Для нелинейной задачи одна скорость, а для линейной другая. :clap_1: Какую наукообразную базу подвели.

И скорость Абакуса для линейной задачи тщательно скрывают.

Значит есть, что скрывать. Значит ИСПА быстрее. :unsure:

Так поэтому я и написал, что не ясно количество iteration. Если знать количество iteration то и можно посчитать скорость, которую можно сравнить.

А презентация эта не для ISPA писалась, там другие цели были. Никто ничего не скрывает, если бы что и хотели скрывать в инет бы вообще никакой инфы бы не выкладывали, поэтому не нужно тут ахинею писать.

Или вы заказ на сравнительные расчеты делали, а его не выполнили?

Ссылка на сообщение
Поделиться на других сайтах
  • MFS открепил тему
Гость
Эта тема закрыта для публикации сообщений.
  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу.




  • Сообщения

    • MagicNight
      Добрый день! Купили фрезерный станок с ЧПУ со стойкой FANUC Series 0i-Model F Plus. Имею не большой опыт данной стойки. Привязали десять инструментов относительно стола станка (т.е стол станка Z=0) Сейчас принесли приспособление которое имеет высоту 50мм. Хотим привязать весь инструмент от приспособления. Подскажите, как это сделать быстро, чтобы не вносить изменения в корректор на каждый инструмент. Пролистал книги в электронном варианте, бегло, не нашел. А уже нужно делать заказ.
    • kkk
      Стрелки разрезов иногда "пробивают" линии разрезов, что-то еще бывает. Но это мелочи, у нас нормоконтроля нет. А вот когда закрашенные виды начинают жестко чудить, с пропаданием или перемешиванием текстур, тогда уже неприятно. Либо еще какие-глюки вылезают оформительские. Нам часто приходится дизайнерам на одобрение файлы засылать, а такие штуки несколько нервируют.
    • ID_Hacker
      Более того, у него в SET PG/PC в диагностике нельзя посмотреть доступные адреса на шине. Но для общих задач подходит. Так же мы их комуникационные интерфейсы MPI/ETHERNET берём, что бы подключать станки на Sinumerik Powerline к заводской сети для сбора данных диспетчеризации и удалённого подключения Step 7.     Здесь ищите: Александр Кудинов, Пряничников Алексей. Номера давать некультурно.     ТИА у вас просит ToolBox 18 Update 1 потому что сама ТИА 18 версии. Проект то такой версии и был? Или вы конвертировали при открытии? Файл проекта ТИА имеет расширение *.ap13, *.ap14, *.ap16, *.ap18 в зависимости от версии ТИА в которой он создан.   И ещё вариант поиска. У вас же на станке наверняка стоит Simatic IPC компьютер и TCU на пульту управления. Вы пробовали выходить на Simatic IPC в Windows и смотреть что на нём есть? Вполне может быть там установлена TIA с нужными дополнениями.
    • Guhl
      Помню из командировки в Африку вез КМки и позолоченные микрухи в баночке через Москву. На пароходе, который мы ремонтировали, старую советскую корабельную радиостанцию в лом сдали. Время было, поэтому повыкусывали. Так таможенник меня мучал минут 30. Говорит, это лом драгметалла, а я ему, что это радиодетали и маркировка на них имеется. А он стоит на своём и толдонит одно и то же. В конце концов, я ему сказал, что я ему их не оставлю и буду до конца утверждать, что это мои запчасти, хоть некоторые из них уже и не припаяешь. Отдал, зараза. А с Америки б/у оборудование несложно вывозить, насколько я понял, так как моему знакомому даже в Крым оттуда посылки доходят с б/у железками. Б/у не очень интересует их таможню. Американцам заплатить сложно, но сейчас это могут сделать так называемые "байеры". Более того на посылках со шмотками амеры вообще пишут адрес "......, Crimea, Russia" 
    • Ahito
      Невозможно проставить центра окружностей в чертежах Солида 22 и не цепляются размеры к данным окружностям. К примеру: на чертеже съемной крыши электропомещения необходимо просверлить 184 отв., из них только к 15% отверстий ставятся размеры и центра. Чтобы правильно образмерить отв., потребовалось около 3 часов. Вместо 5 мин максимум в Солиде 15.
    • davidovka
      не пользовался, проверил, creo 11 - не работает (:
    • HornedOwl
      Всем привет! Помогите найти книгу: РТМ по расчету и конструирования технологической оснастки для экструзии профильных изделий из термопластов / НПО Пластик - 1983. - 382 с.
    • Fedor
      https://metallurgicheskiy.academic.ru/2247/гипотеза_сплошности     Отказавшись от continuity  мы отказываемся и от  аппарата дифференциального и интегрального исчислений то есть от механики ... :)
    • Snake 60
      @Srgwell  Как по мне так PDF - это для просмотра и печати, а не для поиска по нему текста и его копирования. PDF вообще можно от копирования и изменения защитить. ИМХО. Как я понял ТС говорил именно про оформление, стрелки сечения и т.п.
    • Srgwell
      Возможно имеется ввиду шрифт. Потом в просмотрах пдф не возможно найти через поиск нужный текст, а если скопировать слова и вставить в ексель, то там какие то иероглифы. То есть что то с кодировкой. А вот после компаса такого нет, хотя и шрифт тот же
×
×
  • Создать...