Суперкомпьютер своими руками для расчетов в ansys и 3d приложениях

6 марта 2013

В двух словах - куда ткнуться, что запускать, где смотреть скорость?

6 марта 2013

Спасибо, очень понятно.

Вот результат на 3930 / 3,5 ГГц / 6 ядер:

Р а з л о ж е н и е м а т р и ц ы

Для решения потребовалось = 2.245 Гбайт памяти

Скорость = 62621.77 Мфл

Время = 13.275 сек

6 марта 2013

А для Ксеонов, которые 300 Гфл показывают на Линпаке?

подождем их обладателя - HFL

(я просто сводную сделал табличку)

Хотя понятно, что там результат будет порядка моего:

1) счет будет на одном процессоре, а не на двух (демо-версия), т.е. это 150 Гфл максимум.

2) видно, что с ростом частоты падает GFlops/ГГц (если я на 3930 сделаю 2,6 ГГц, то получу GFlops/ГГц как у этого ксеона)

3) на ядро производительность получилась выше у 3930 (из-за частоты): 23,3 GFlops против 19,8 GFlops.

4) 3930 имеет те же AVX инструкции

12 марта 2013

Интересно

Вот посмотрите по <noindex>ссылке</noindex>

пока почитаю, что такое Physics: SPH Fluid Simulation

13 марта 2013

UPD:

более корректно пойти по этой ссылке: <noindex>(ссыль)</noindex>

там i7-3930 (20 круб) против HD 7970 (которая с 6 Гиг на борту <noindex>стоит 19 круб</noindex>)

в тесте SPH Fluid Simulation ВК в 10 раз быстрее...

13 марта 2013

И тест взять на 30-40 Гб.

у вас специфика другая.

Мне бы 6 гиг хватило с ушами.

Хотя посмотреть на результаты линпака на ВК было бы интересно.

13 марта 2013

вот кстати линпак для ВК:

<noindex>http://www.opennet.ru/opennews/art.shtml?num=28983</noindex> - новость

<noindex>http://code.compeng.uni-frankfurt.de/projects/hpl/files</noindex> - тест (линукс?)

и вот такая пдф-ка с результатами: <noindex>http://hpl-calculator.sourceforge.net/Howto-HPL-GPU.pdf</noindex> - возможно, там другой тест.

UPD вот еще есть инфа от нвидиа: <noindex>http://www.gpgpu.ru/node/888</noindex>

17 марта 2013

Вы до сих пор считаете на сопроцессоре.

А можно в двух словах - чем сопроцессор отличается от того другого (как оно называется?), на котором считаете Вы?

17 марта 2013

Сопроцессор максимум делает 1 операцию с плавающей точкой за 3 такта на одном ядре.

Спасибо, очень доступно. Кроме выделенной фразы.... Это почему так?? Впервые слышу.

17 марта 2013

Почему восемь?

Не, Вы не поняли вопроса. Вопрос - почему 1 операцию за три такта..., всегда думал, что минимум одну за такт...

Кстати, посмотрел... Q9550 не так уж и плох... 3,5 операции за такт в линпаке. а AVX в нем нет.

Зато есть SSE 4.1. Не нашел про это объяснений, зато на нескольких ресурсах есть фраза типа такой:

инструкции SSE4 должны повысить скорость работы с трёхмерной графикой, потоковым видео и научными расчётами.

В <noindex>Wiki </noindex>пишут, что инструкции генерятся компиляторами автоматически..:

Компилятор языка Си от Intel начиная с версии 10 генерирует инструкции SSE4 при задании опции -QxS. Компилятор Sun Studio от Sun Microsystems с версии 12 update 1 генерирует инструкции SSE4 с помощью опций -xarch=sse4_1 (SSE4.1) и -xarch=sse4_2 (SSE4.2)[2]. Компилятор GCC поддерживает SSE4.1 и SSE4.2 с версии 4.3[3], опции -msse4.1 и -msse4.2, или -msse4, включающая оба варианта.

a_schelyaev, а в FV что-то такое используется?

17 марта 2013

Это нужно программу решения СЛАУ полностью переписать.

т.е. если я возьму одну и ту же версию FV, создам задачку, чтоб влезала в оба компа с запасом, и прогоню её на 3930 и на 9550 в одинаковых режимах (частота, количество ядер, частота памяти), то я должен получить примерно одинаковое время решения?

Так?

А с той демо-задачкой в ИСПА я при таких условиях должен увидеть разницу в два раза примерно, так?

Просто если всё это окажется именно так, то тогда получится, что на существенно более дешевых АМД можно получить ту же скорость счета в FV...

17 марта 2013

a_schelyaev, а в FV что-то такое используется?

Пользуемся тем, что дает компилятор, местами рукоблудим.

Например, при переходе на Нехалемы на той же частоте получили рост скорострельности без каких либо оптимизаций под внутренние инструкции ЦП.

По последним с AVX специально еще не тестировали.

Касаемо испинских достижений, то его слушать себе дороже и слушать нужно аккуратно.

Сперва он пыхтел, что GPU крутняк великий, а теперь у него все наоборот. Он вещает только то, что знает.

Все, что он не знает, для него является троцкистко-фашисткой сволочью.

:)

На форуме с нашими поговоришь детально, они расскажут.

17 марта 2013

Например, при переходе на Нехалемы на той же частоте получили рост скорострельности без каких либо оптимизаций

в нехалемах впервые появилась SSE4.2 (у Q9550 только SSE4.1).

Вот x64 демка ИСПЫ. Гуд.

Будет время - на неделе сделаю табличку: Q9550 против 3930 на линпаке, в ИСПЕ, в FV.

У 9550 рабочая (без разгона) 2,8 , соответственно, у 3930 снижу множитель до 28 и отключу 2 ядра в BIOS.

Размер задач будет - чтоб влезал с небольшим запасом в 8 Гиг вместе с системой.

17 марта 2013

в нехалемах впервые появилась SSE4.2 (у Q9550 только SSE4.1).

Мы специально не оптимизировали. Часть данных готовим на уровне кода, чтобы компилятору помочь. А все остальное компилятор делает сам.

Конечно же, оптимизация кода под инструкции процессора даст еще прирост скорострельности в определенных случаях.

Но говорить о некой кардинальной переработке алгоритмической части, как у испы говорить не приходится.

Кардинально все придется менять если у ЦП ядер станет под две сотни.

17 марта 2013

Вы сначала поймите что нужно сделать в программе, чтобы на 1 ядре за 1 такт делать 8 операций с плавающей точкой.

А уже потом философствуйте.

Компилятор в принципе такого сделать не может. Особенно на итерационных алгоритмах для разреженных матриц.

А если говорить про прямой метод решения, то предварительно нужно переставить строчки и столбцы.

Это получится совсем другая программа. Поэтому и время решения другое.

Испа, поучите жену щи варить. Очередной поток сознания просто неинтересен.

Возвращайтесь к обсуждению "гига тера пета флоппи дисков" на вашей решалке, чем давать советы другим разработчикам, не видя ни разу их код.

Угу?

:)

17 марта 2013

Опять хамите. Так это для меня не новость.

Уровень продавцов компании Тесис мне давно понятен.

Не нравится - не общайтесь. За язык тут никто не тянет.

17 марта 2013

Посмотрим какая будет скорость у FV на 3930

Скорость посмотреть не получится, но вот посмотреть, насколько уменьшится время решения задачи при смене процессора, можно.

почитал, оказывается, AVX есть и у АМД : <noindex>http://www.thg.ru/cpu/obzor_amd_fx_8150/print.html</noindex> , но у них медленнее:

Sandy Bridge выдаёт две 256-битные операции AVX за такт, а Bulldozer обеспечивает только одну.

И вот еще статейка порадовала: <noindex>http://habrahabr.ru/post/99367/</noindex>

5 лет с момента анонса AVX и 2 года уже существуют процессоры...

17 марта 2013

Будет время - на неделе сделаю табличку: Q9550 против 3930 на линпаке, в ИСПЕ, в FV.

У 9550 рабочая (без разгона) 2,8 , соответственно, у 3930 снижу множитель до 28 и отключу 2 ядра в BIOS.

Размер задач будет - чтоб влезал с небольшим запасом в 8 Гиг вместе с системой.

Я вспомнил. Мы же тестировали Нехалемы, когда их у нас презентовали в стране.

Вот, даже <noindex>новость накопал</noindex>.

Я сам в Интел тогда мотался.

Там если с размерностью задачки пошаманить, то выигрыш получался до 100% относительно старого квадкора.

Там банально и без всяческих MMX/SSE :bleh: только за счет лучшей внутренней архитектуры все работает лучше.

Особенно при наличии еще и хорошего канала к памяти.

Но та версия, конечно же послабее текущей. По идее отличие сейчас должно быть еще выше.

И не забудь на 128-битной решалке прогнать тест.

17 марта 2013

что нужно сделать в программе, чтобы на 1 ядре за 1 такт делать 8 операций с плавающей точкой.

8 операций за такт в AVX это 5 умножений и 3 сложения. То есть в вашем алгоритме нужно исходить примерно из такого распределения операций и стараться реже использовать "дорогие" операции.

Кстати в современных процессорах возможность за один такт выполнить несколько сложений и умножений целочисленных данных имеет забавный side effect. Сейчас дешевле вычислить указатель чем загрузить его из памяти и в результате оптимальный доступ к многомерным массивам выглядит чуть иначе чем раньше. Разумеется современные компиляторы знают обо всех

этих тонкостях но чуть помочь им никто не запрещает :smile:

18 марта 2013

Да это понятно, что скорость разработчики скрывают. Им, чтобы измерить скорость ТЗ нужно.

На прямом методе скорость сама в руки и идет.

А на разряженных, да итерационных ... разработчики отказались в свое время заниматься садомазо.

Пользователи тестят решалку на своих тестовых задачах. Оно им понятнее. А у нас свои тестовые задачи.

Войти

Суперкомпьютер своими руками для расчетов в ansys и 3d приложениях

Рекомендованные сообщения

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

a_schelyaev 371

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

a_schelyaev 371

Ссылка на сообщение

Поделиться на других сайтах

a_schelyaev 371

Ссылка на сообщение

Поделиться на других сайтах

a_schelyaev 371

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

a_schelyaev 371

Ссылка на сообщение

Поделиться на других сайтах

HFL 34

Ссылка на сообщение

Поделиться на других сайтах

a_schelyaev 371

Ссылка на сообщение

Поделиться на других сайтах

Сейчас на странице 0 пользователей

Сообщения