Приостановка расчета

17 июня 2010

Если вы много раз слышали, из разных мест, про ускорение в сотни раз, а у вас на тесте не получилось, то это не означает, что люди врут. Но только подумайте, вы человек не глупый. Какой смысл вас обманывать. Может что-то не так в вашем тесте.

Даже на 200 чипе на реальных задачах ускорение в 20-30 раз. На простых тестах 100 раз. Вызывает улыбку, что на тесте ускорение на матричных операциях без учета ввода вывода ускорение 2 раза. Это уже вызывает смех, а не улыбку. Если бы в действительности было ускорение 2 раза, то никто не стал бы тратить времени на переход под GPU.

Вы разберитесь сначала почему фирма заявляет 600 Gfl на двойной точности, а уже потом делайте свой тест. Вас послушать так получается, что NVIDIA весь мир обманывает.

Касаемо расчетов 100 млн. задач. Тогда надо сравнивать кластеры на CPU и на GPU. Сравнить цену, энергопотребление, занимаемые площади, обслуживание. Мне то объяснять не нужно, что под большие задачи нужны большие ресурсы. Улыбку вызывает результаты теста на быстродействие.

Про двойку в данном тесте речь идет только для double, там не много устройств. Для float ускорение ~5 раз. Для меня аргументом правильности эксперимента является то, что заявленные производителем пиковые производительности сравниваемых центрального процессора и графического в одной конфигурации отличаются в 10 раз на float, плюс небольшая потеря на эффективности реализации. Сравнение было с MKL реализации производителя. И соответственно NVidia реализация того же. Не вижу противоречий. Фирма заявляет 600 Gfl для double на другом процессоре, понятно на нем будет лучше результат для double. И все равно получается ~10 раз в лучшем случае. Но это на наилучшем с точки зрения граф процессорах тесте. А что будет для сложных разреженных вычислений? Поэтому и пытаемся увидеть результаты других на неструктурированных вычислениях, где и параллелизм то сложно найти на такое число устройств.

У вас есть реализация для кластера граф процессоров? Если нет, то тогда о каком сравнении c кластерами граф процессоров можно вести речь?

17 июня 2010

Федор, вам бы учебники почитать.

Задача ~100млн. 3D объем (например 500x500x500). Памяти нужно для прямого метода ~100 000 000 * 500 * 500~2x10^13 double = 16 Тб. Оптимизация упорядочивания может константу даст. Диски такие найти наверное можно, долго будете с ними работать однако. А мы сейчас такие задачи минуты считаем. Если можете подождать - ждите.

Как то вы лихо два раза умножили на 500. Это все зависит от задачи. От связанности матрицы, то есть от типа конечного элемента. Если это тепловая задача, то нужно один раз умножать на 500.

17 июня 2010

Как то вы лихо два раза умножили на 500. Это все зависит от задачи. От связанности матрицы, то есть от типа конечного элемента. Если это тепловая задача, то нужно один раз умножать на 500.

Я же написал какая задача - кубик 500x500x500. При упорядочивании от диагонали к диагонали средний слой - порядка 500x500, плюс константа за счет уменьшения к концам. Потому и два раза по 500. Если бы линейная структура была - нет вопросов. Это чистое 3D, и для тепловой задачи то же будет.

17 июня 2010

"то есть от типа конечного элемента" - <noindex>http://www.pinega.da.ru/</noindex> - молотят на пирамидках наверное спортсмены :rolleyes:

"задача - кубик 500x500x500" - на киприче задачку Пуассона и аналитически решить не проблема на бумажке, а уж с Mathematica - вообще студенческое упражнение :unsure:

17 июня 2010

Про двойку в данном тесте речь идет только для double, там не много устройств. Для float ускорение ~5 раз.

Для float фирма заявляет производительность 1.2 Tfl. Вы померяйте производительность ядра CPU на float операциях. Сколько у вас получится 1 или 2 Gfl. Может дело все-таки в вашем тесте. А я уверен, что вы не используете всех возможностей графического процессора. Нужно правильно задействовать shared память, задействовать WARPы. Оставайтесь при своем мнении. У вас есть время ждать расчет – ждите.

17 июня 2010

Для четкости проговорю еще раз. Для двойной точности фирма заявляет производительность в 600 раз большую, чем на ядре, а у вас и у Адександра получается 2 раза. Это и вызывает улыбку.

17 июня 2010

Ну если ISPA найдет хоть один параллельный код, который считает на GPU задачи на неравномерных сетках с большими Курантами по неявной схеме CFD задачу с вязкой жидкостью в честном 3D в райное 5 млн ячеек, то это будет очень интересно.

Но до недавнего времени даже NVIDIA не смогла предоставить таких примеров.

Максимум что было, так это или синтетические тесты, которые к практике не добавишь - явная схема, равномерная сетка, двухмерная задача, небольшие размеры.

:)

18 июня 2010

Не хватало:

1. Памяти.

2. Пропускной способности.

3. Точности.

Полученный двухкратный рост на вещественных двойной точности это еще без учета передачи данных из памяти в GPU. Это только GPU time.

Попробую еще раз объяснить. Когда вы замеряете скорость ядра, то максимум что вы получите 1 Gfl. Фирма для 300 чипа заявляет 600 Gfl. Пусть 200 чип на котором я делал тест медленнее в 6 раз. Это я взял с запасом. Вот и получается увеличение скорости в 100 раз. А у вас получается 2 раза. И нет никакой разницы какую задачу на физическом уровне вы решаете. Это все сводится к матричным и векторным операциям. Вообще удивительно при вашем подходе, что вы получили ускорение, а не замедление.

На самом деле мне глубоко фиолетово задействованы ли в вашей программе видео ускорители. Это проблема ваших пользователей.

18 июня 2010

Если вы считаете идиотами всех остальных, то этот разговор не имеет смысла.

18 июня 2010

Небольшое добавление к предыдущему выступлению.

Как я понял, у Вас таки нет версии программы для кластера видеокарт. В этом случае как-то неудобно должно быть даже сравнивать себя с ANSYS, они все-таки считают задачи с миллиардом ячеек, а у вас если называть вещи своими именами программа для персоналки, для относительно малого числа ячеек, хоть и быстрая, если верить вашим словам. Что-то мне подсказывает, что скоро ANSYS выпустит версию сразу для кластеров видеокарт, и ваша программа тогда будет совсем бледно смотреться. А еще у меня есть конкретное предсказание, что у нас версия программы для кластера видеокарт появится быстрее, чем у Вас. Хотя бы потому, что мы уже движемся в этом направлении. И у нас уже есть опыт реализации многоуровневого параллелизма с учетом комбинированного доступа к памяти, включая распределенный, а у Вас только уровень параллелизма графического ускорителя.

18 июня 2010

В общем, данный базар нужно прекращать.

Мало ли у кого что есть и еще будет.

Есть анализ потребностей и возможностей клиентов у каждой компании.

И анализ пока говорит, что овчинка не стоит выделки по чисто финансовым и организационным соображениям.

Даже если завтра появится FlowVision на графических чипах, лузгающий задачи как семечки, то очередь к нам не выстроится. Корейцы в очередь встанут, россияне нет, т.к. тогда придется объяснять начальству зачем был куплен Ансис или что-то другое за безумные деньги. А сувать голову в петлю дураков нет.

То же самое и с кодом ИСПА. Будут брать Ансис и Абакус, но не ИСПА, т.к. у кода ИСПА пока нет авторитетности на рынке.

18 июня 2010

т.к. у кода ИСПА пока нет авторитетности на рынке.

Да.. нам бы в какую-нибудь (можно кастрированную) версию попялиться...

18 июня 2010

Небольшое добавление к предыдущему выступлению.

Как я понял, у Вас таки нет версии программы для кластера видеокарт. В этом случае как-то неудобно должно быть даже сравнивать себя с ANSYS, они все-таки считают задачи с миллиардом ячеек, а у вас если называть вещи своими именами программа для персоналки, для относительно малого числа ячеек, хоть и быстрая, если верить вашим словам. Что-то мне подсказывает, что скоро ANSYS выпустит версию сразу для кластеров видеокарт, и ваша программа тогда будет совсем бледно смотреться. А еще у меня есть конкретное предсказание, что у нас версия программы для кластера видеокарт появится быстрее, чем у Вас. Хотя бы потому, что мы уже движемся в этом направлении. И у нас уже есть опыт реализации многоуровневого параллелизма с учетом комбинированного доступа к памяти, включая распределенный, а у Вас только уровень параллелизма графического ускорителя.

Ну вот опять не разобрались и нагородили. Ну нет никаких ячеек в ИСПА. Расшифровка названия Интегрированная Система Прочностного Анализа. Задачи которые сегодня решаются в ИСПА до 10 млн. степеней свободы. Этого хватает и для статики и для динамики и для потери устойчивости. Когда вы говорите про 100 млн. степеней свободы это совсем другие задачи. Те задачи которые решает ИСПА вполне достаточно 1-2 млн. степеней свободы. Спросите у Федора. Он соврать не даст. Поэтому он и решает прямым методом. Скорость прямого метода во многом зависит от типа конечного элемента. Ведь вы же не разбираетесь в задачах, которые решает Федор, а нападаете на специалиста. Это характеризует вас не лучшим образом.

На тему водео карт. Если я не отвечаю (по причине вчерашнего сумбура), то это не означает, что нет версии для кластера. Версия для двух видео карт появилась в феврале 2010 г. То есть для TESLA S 2070 мы подняли объем памяти до 12 Гб. Этого достаточно для наших задач. Если потребуется, поднимем до 24 Гб. Так что в ИСПА версия для кластера уже есть, а вы пока только говорите гоп и еще пока ничего не сделали.

В ANSYS тоже пока ничего нет, поэтому и ничего обсуждать. На деле ничего нет. Одна сплошная говорильня мальчиков на форумах. Фу, устал объяснять.

Да.. нам бы в какую-нибудь (можно кастрированную) версию попялиться...

Для каких целей? В чем подвох? :wallbash:

18 июня 2010

Для каких целей? В чем подвох?

Будем учиться крякать.

18 июня 2010

Легитимность задают скромные ребята под Веселым Роджером, ну а заслуги в прочности логарифмической линейки намного больше чем у суперкомпьютеров :rolleyes:

" нападаете на специалиста" - чайники все на один манер, что тут, что в гуманитарке. Много эмоций и других низших форм психической активности :rolleyes:

18 июня 2010

Будем учиться крякать.

А оно мне надо?

18 июня 2010

А легитимность нужна?

Выпустите следующую версию, которую будете продавать, а люди успеют привыкнуть, а инерция она и есть инерция, главное задать ускорение, а уж это от Вас зависит :rolleyes:

18 июня 2010

А легитимность нужна?

Выпустите следующую версию, которую будете продавать, а люди успеют привыкнуть, а инерция она и есть инерция, главное задать ускорение, а уж это от Вас зависит

Я так понимаю Федор, что вам тоже нужна ИСПА для ознакомления.

18 июня 2010

Была бы нужна, была бы :rolleyes:

18 июня 2010

Была бы нужна, была бы

Федор, Борман пишите в личку. Буду хлопотать о полноценной статике. Я один не решаю такие вопросы. А вы себя хорошо будете вести?

Войти

Приостановка расчета

Рекомендованные сообщения

EsDur 0

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

EsDur 0

Ссылка на сообщение

Поделиться на других сайтах

Fedor 1 613

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

a_schelyaev 367

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

a_schelyaev 367

Ссылка на сообщение

Поделиться на других сайтах

EsDur 0

Ссылка на сообщение

Поделиться на других сайтах

a_schelyaev 367

Ссылка на сообщение

Поделиться на других сайтах

Борман 2 389

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

Борман 2 389

Ссылка на сообщение

Поделиться на других сайтах

Fedor 1 613

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

Fedor 1 613

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

Fedor 1 613

Ссылка на сообщение

Поделиться на других сайтах

Гость ISPA

Ссылка на сообщение

Поделиться на других сайтах

Присоединяйтесь к обсуждению

Сейчас на странице 0 пользователей

Сообщения