Перейти к публикации

Суперкомпьютер своими руками для расчетов в ansys и 3d приложениях


Рекомендованные сообщения

Вопрос о скорости вашего модифицированного под ГПУ решателя остается открытым.

Определите скорость решателя в Гфл и результат обсудим на форуме.

Ссылка на сообщение
Поделиться на других сайтах


Вопрос о скорости вашего модифицированного под ГПУ решателя остается открытым.

Определите скорость решателя в Гфл и результат обсудим на форуме.

Есть такая птица - глухарь. Названа так потому, что на току она слышит только себя, за это прекрасное качество ее и ценят охотники (не говоря уже о кулинарных качествах).

Я Вам талдычу про 700 ГФ, которые карта обеспечивает, а не про то сколько наши проги могут из этого задействовать. Я пишу о принципах ускорения, а Вы пытаетесь здесь убедить что GPU бесперспективны и только Ваш путь единственно правильный.

О BLAS. У нас есть все варианты использования BLAS - и на CPU и на GPU.

На той задаче, о которой я писал выйгрыш в скорости небольшой у GPU.

Причем детальный анализ показывает довольно большое расхождение между скоростью CUDABLAS и AMDBLAS (в пользу первого). Хотя AMDBLAS и на PCI-e3 и карта быстрее (7950 против 680). Запросы в AMD пока ответов не имеют, там думают.

Все это говорит о том, что их софт еще сыроват, но люди работают на ним.

Кстати говоря, я так и нигде не увидел ссылок на Ваш-то метод решения СЛАУ с разреженными матрицами?

Ссылка на сообщение
Поделиться на других сайтах

Я Вам талдычу про 700 ГФ, которые карта обеспечивает, а не про то сколько наши проги могут из этого задействовать.

Это вы не слышите. Напишите ту скорость которую задействует ваша программа.

Это что военная тайна. :unsure:

Объясняю еще раз, скорость в 700 Гфл - это пиковая скорость устройтва при работе с маленькими матрицами. К решению уравнений не имеет отношения.

О BLAS. У нас есть все варианты использования BLAS - и на CPU и на GPU.

На той задаче, о которой я писал выйгрыш в скорости небольшой у GPU.

Напишите скорость вашей программы на CPU и на GPU.

Кстати говоря, я так и нигде не увидел ссылок на Ваш-то метод решения СЛАУ с разреженными матрицами?

У меня нет своего метода решения СЛАУ. Поэтому и нет ссылок.

У меня реализован Холецкий. Скорость не заисит от метода решения, а зависит от программной реализации.

Напишите скорость вашей программы на CPU и на GPU.

И кто из нас глухарь. :unsure:

А у вас какая скорость на видео картах?

Этот вопрос был в Сообщение #646
Ссылка на сообщение
Поделиться на других сайтах

1. Алгоритм факторизации матриц не является высоко параллельным. Поэтому, теоретическую (максимальную) скорость видео устройства достичь невозможно.

2. Скорость работы с видео и оперативной памяти примерно одинаковая. И это довольно медленная память. Поэтому, даже если все данные разместить в видео памяти, то скорость работы с этими данными будет низкая. Быстрой памяти всего 64 000 байт на все графические ядра.

3. Каждый раз при выполнении команды приходится запускать графические ядра. И синхронизировать их работу. На это уходит много времени.

4. Нельзя параллельно выполнять несколько команд. Например, нельзя параллельно перемножать несколько матриц. Только последовательно.

5. Данные в видео память и обратно передаются по шине, а это очень медленно.

Это основные причины по которым скорость работы полной факторизации разреженных матриц на видео устройствах будет маленькой.

Раз в 10-15 меньше от теоретически возможной.

Так что 700 Гфл - это хороший рекламный ход. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Кстати, приоткройте секрет: OpenCL или DirectCompute?

Пока смотрим CUDA, но в будущее готовимся идти под OpenCL.

А что там уже будет на выходе - время покажет.

У процессора Интел появились регистры размером 256 бит, 4 double, до этого были 128 бит.

За 1 такт делается операция с 4 double.

Ну это известная же тема.

Так все таки, ускорение обеспечивается ручками или ключами в компиляторе?

Есть такая птица - глухарь.

Какое-то время назад, когда ИСПА причмокивал на тему GPU, то я указывал на узкое место в виде пересылки данных в GPU, на что он предлагал идти штрудировать CUDA.

Прошло время и теперь он сам уже про это всем песни поет.

:surrender::clap_1:

Ссылка на сообщение
Поделиться на других сайтах

Какое-то время назад, когда ИСПА причмокивал на тему GPU, то я указывал на узкое место в виде пересылки данных в GPU, на что он предлагал идти штрудировать CUDA.

Прошло время и теперь он сам уже про это всем песни поет.

:surrender::clap_1:

Дело в том, что в ИСПА реализован эффективный итерационный алгоритм решения СЛАУ. Данные во время итераций вообще не пересылаются ни туда ни обратно.

Поэтому и эффелтивный.

А перед эти я писал о полной факторизации на ГПУ.

Так что читайте букварь внимательно.

<noindex>http://www.ispa-soft.ru/statxi/statxq16.htm</noindex>

Какое-то время назад, когда ИСПА причмокивал на тему GPU

Зовите меня просто - господин ISPA. :unsure:
Ссылка на сообщение
Поделиться на других сайтах

Тема про регистры не раскрыта, но в целом, вроде, понятно, что ничего сакрального там нет и все дело в размере блока. А дальше уже комплиятор куда надо приведет.

Боян, короче.

Ссылка на сообщение
Поделиться на других сайтах

Тема про регистры не раскрыта, но в целом, вроде, понятно, что ничего сакрального там нет и все дело в размере блока. А дальше уже комплиятор куда надо приведет.

Боян, короче.

Компилятор не поможет. Я не знаю такого компилятора.

Все ручками надо делать. На ассемблере.

А Баян у того кто песни поет. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Компилятор не поможет. Я не знаю такого компилятора.

Наши "помогают" компилятору через структуру кода.

Интеловские профилировщики-то используете?

Ссылка на сообщение
Поделиться на других сайтах

Наши "помогают" компилятору через структуру кода.

Интеловские профилировщики-то используете?

Нет.

Зря я про рыбные места стал рассказывать. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Копаться в ассемблере под каждую модель процессора моветон.

Так у меня выбора нет.

Или скорость 1.5 Гфл на 1 яжре (сопроцессор) или 20 Гфд на том ядре (ассемблерная вставка).

Ансис же ускоряет свой решатель используя ассемблер. В Ансис очень быстрый решатель.

А чем ИСПА хуже. Правильно, уже ничем. :unsure:

Вот этапы большого пути

<noindex>http://www.ispa-soft.ru/statxi/statxq15.htm</noindex>

<noindex>http://www.ispa-soft.ru/statxi/statxq16.htm</noindex>

<noindex>http://www.ispa-soft.ru/statxi/statxq17.htm</noindex>

<noindex>http://www.ispa-soft.ru/statxi/statxq18.htm</noindex>

Ссылка на сообщение
Поделиться на других сайтах

Я это все видел и меня всегда немного удивляло, что характер ускорения в многоядерной постановке примерно аналогичен среднепогодным цифрам по отрасли и без всяких ассемблеров.

Насчет того, что Ансис заказал консалтинг чуть-ли не у Интела по тюнингованию своей решалки я слышал, но разработчики такой вариант начисто отвергают, т.к. это удорожает разработку.

Под каждый новый процессор опять начинать оптимизацию снова.

В свое время отдавали Интелу кусок нашей решалки, т.к. мы их TBB используем, но они особо не помогли нам глобально.

Так, по мелочам нашли пару косяков, но ничего такого кардинального мы не увидели.

Ссылка на сообщение
Поделиться на других сайтах

В свое время отдавали Интелу кусок нашей решалки, т.к. мы их TBB используем, но они особо не помогли нам глобально.

Так, по мелочам нашли пару косяков, но ничего такого кардинального мы не увидели.

У вас, что скорость на 1 ядре 20 Гфл, а на 6 ядрах 80.

Вы нпишите скорость своей решалки и размерность матрицы.

Ссылка на сообщение
Поделиться на других сайтах

Мне проще дождаться очередной презентации от Сарова, чем ходить с протянутой рукой среди разработчиков. Да и в флопах у нас точно не измеряют обычно, только в количестве итераций и времени выполнения.

:)

Ссылка на сообщение
Поделиться на других сайтах

Копаться в ассемблере под каждую модель процессора моветон.

Не нужно копаться. Ассемблерная вставка для сопроцессора, в ИСПА, не меняется с 1997 года.

Сам дурак!

Читайте еще раз букварь. :unsure:

<noindex>http://ru.wikipedia.org/wiki/FLOPS</noindex>

Ссылка на сообщение
Поделиться на других сайтах

Не нужно копаться. Ассемблерная вставка для сопроцессора, в ИСПА, не меняется с 1997 года.

Тогда вообще ничего непонятно - если ассемблерная вставка не меняется, а типы процессоров с того года менялись и очень значительно, то что же там вставлено?

Почищено. (Борман)

Ссылка на сообщение
Поделиться на других сайтах
  • MFS открепил тему
Гость
Эта тема закрыта для публикации сообщений.
  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу.




  • Сообщения

    • Алексей 1977
      Кто знает подскажите как отключить этот ненужный набор букв и символов в готовой УП? Я так думаю надо редактировать постпроцессор? Заранее спасибо ( Общая длина: 130.0) ( Заготовка:) ( MIN X: -10.970) ( MIN Y: -10.970) ( MIN Z: -6.500) ( MAX X: 10.970) ( MAX Y: 10.970) ( MAX Z: 0.000) ( COORDINATE SYSTEM: Глобальная СК) ( Кончик инструмента:) (   X: -0.000) (   Y: 0.000) (   Z: 10.000) ( Рекомендованная длина: 50.000) ( Количество кромок: 4) ( Инструмент:   Концевая фреза) ( DIAMETER: 10.000) ( Безопасность:) ( Рабочие ходы инструмента: Безопасная БЕЗ зарезов) ( Подводы инструмента: Безопасная БЕЗ зарезов) ( Переходы инструмента: Безопасная БЕЗ зарезов) ( Рабочие ходы патрона: Столкновения НЕ проверялись) ( Подводы патрона: Столкновения НЕ проверялись) ( Переходы патрона: Столкновения НЕ проверялись) ( Траектория: Шаблон) ( STEPOVER: 5.000) ( ДОПУСК:0.100) ( THICKNESS:0.000) ( Статистика:) ( LENGTH: 95.318)( LIFTS: ( TIME: 0/00/05) 1) G0X0Y0 G43Z10.H13 X4.75Y-8.227 Z5. G1Z0F500 X9.5Y-5.485F1000 Y5.485 X0Y10.97 X-9.5Y5.485 Y-5.485 X0Y-10.97 X4.75Y-8.227 G0Z10.
    • gudstartup
      считывание происходит при помощи вх\вых сигналов контроллера plc 
    • gudstartup
      @Maks Horhe так все таки скиньте бэкап эмулируем ваше чпу в cncguide и посмотрим куда поедет?  можете снять видео с фиксацией координатных позиций после каждого кадра. Выложу вашу программу пусть программисты посмотрят все ли в ней ок. %O0002 G40 G17 G94 G90 G49 G80 N1 G91 G28 Z0.0 N2 G91 G28 X0.0 Y0.0 N3 G91 G28 B0.0 C0.0 N4 M03 S200 N5 G90 G0 G53 B0.0 C0.0 N6 G54 N7 X0.0 Y0.0 N8 G90 G43 H01 N9 G90 G0 X0.0 Y0.0 N10 G90 G0 Z200.0 N11 G01 Z10.0 F1500. N12 M00 N13 G00 Z200.0 N14 G40 G49 G69 N15 G00 G53 Z0.0 N16 G00 G54 B0.0 C0.0 N17 G68.2 X0.0 Y0.0 Z0.0 1135. J39.2044 K-129.2315 N18 G53.1 N19 G01 X0.0 Y0.0 F1500 N20 G90 G43 H01 N21 G90 G01 X0.0 Y0.0 F1500 N22 G90 G01 Z200. F1500 N24 M00 N25 G00 Z200. N26 G40 G49 G69 N27 G91 G28 Z0.0 N28 G28 X0.0 Y0.0 N29 G91 G28 B0.0 C0.0 N30 M5 N31 M30
    • gudstartup
      @karlf 530 считывает ключ по специальному протоколу при помощи plc и получает его серийный номер а из него определяет возможные режимы доступа. там нет драйвера а есть plc модуль или несколько эти модули написаны на питоне  надпись smartkey исчезает с экрана при запуске чпу??
    • ДОБРЯК
      Для того, чтобы получить правильные высшие) формы при виртуальном эксперименте, нужно сделать грамотную КЭ модель. От разговора на эту тему вы постоянно уклоняетесь.  То нет компьютера под рукой, сделать простейший тест, то теряете интерес. :=) Сходимости энергии деформации при расчетах статики, недостаточно для точного определения высших собственных форм и частот.  Для того, чтобы грамотно использовать метод конечных элементов, нужно сделать много-много тестов в статике, динамике и ... Одной кнопки и двух конечных элементов в 3Д программе недостаточно для определения высших собственных форм...  У вас в качестве инструмента всего два конечных элемента, шести узловая несовместная оболочка Тимошенко и десяти узловой тетраэдр. И еще контакты при решении задачи на собственные числа. Вам ли говорить про правильность определения высших собственных форм для сложных изделий... :=)    
    • vad0000
      Покажите схему с разрешением на движение
    • vad0000
      Вход, а не выход Вытащить Аналоговый вход и все, как будто туда ничего не подключено И если мы подключим сигнал к энкодеру оси Х, то он стнтет одинаковый с аналоговым входом, который не подключен?
    • Snake 60
      @waze4534  Посмотрите вверх и прочитайте текст на красной полоске...
    • kkk
      Я так понимаю, что предупреждение про "касательные" не просто так выскакивает. Если скруглить прямую стыковку отрезков эскиза (минимальным радиусом) то все работает даже без объединенной кривой, достаточно эскиза.
    • karlf
      Подскажите пожалуйста, может кто сталкивался. Станок DMU-50 на стойке TNC 530, перестал определяться ключ доступа. Сам ключ вроде работает, если переключать на нём режимы, то в шкафу на соответствующих блоках лампочки тоже переключаются. Но изначально был уровень доступа 4, а теперь уровни доступа не активны. Ключ только один, запасных нет. Есть какой-то старый бэкап, пробовал его накатить, но какой-то он непонятный - станок грузится, но почти в конце загрузки выдаёт какую-то ошибку по параметрам. Может кто знает в каком из разделов и в какой папке искать установленные драйверы ключа?
×
×
  • Создать...