Перейти к публикации

Суперкомпьютер своими руками для расчетов в ansys и 3d приложениях


Рекомендованные сообщения



Спасибо, очень понятно.

Вот результат на 3930 / 3,5 ГГц / 6 ядер:

Р а з л о ж е н и е м а т р и ц ы

Для решения потребовалось = 2.245 Гбайт памяти

Скорость = 62621.77 Мфл

Время = 13.275 сек

Ссылка на сообщение
Поделиться на других сайтах

А для Ксеонов, которые 300 Гфл показывают на Линпаке? :unsure:

подождем их обладателя - HFL

(я просто сводную сделал табличку)

Хотя понятно, что там результат будет порядка моего:

1) счет будет на одном процессоре, а не на двух (демо-версия), т.е. это 150 Гфл максимум.

2) видно, что с ростом частоты падает GFlops/ГГц (если я на 3930 сделаю 2,6 ГГц, то получу GFlops/ГГц как у этого ксеона)

3) на ядро производительность получилась выше у 3930 (из-за частоты): 23,3 GFlops против 19,8 GFlops.

4) 3930 имеет те же AVX инструкции

Ссылка на сообщение
Поделиться на других сайтах

UPD:

более корректно пойти по этой ссылке: <noindex>(ссыль)</noindex>

там i7-3930 (20 круб) против HD 7970 (которая с 6 Гиг на борту <noindex>стоит 19 круб</noindex>)

в тесте SPH Fluid Simulation ВК в 10 раз быстрее...

Ссылка на сообщение
Поделиться на других сайтах

И тест взять на 30-40 Гб. :unsure:

у вас специфика другая.

Мне бы 6 гиг хватило с ушами.

Хотя посмотреть на результаты линпака на ВК было бы интересно.

Ссылка на сообщение
Поделиться на других сайтах

вот кстати линпак для ВК:

<noindex>http://www.opennet.ru/opennews/art.shtml?num=28983</noindex> - новость

<noindex>http://code.compeng.uni-frankfurt.de/projects/hpl/files</noindex> - тест (линукс?)

и вот такая пдф-ка с результатами: <noindex>http://hpl-calculator.sourceforge.net/Howto-HPL-GPU.pdf</noindex> - возможно, там другой тест.

UPD вот еще есть инфа от нвидиа: <noindex>http://www.gpgpu.ru/node/888</noindex>

Ссылка на сообщение
Поделиться на других сайтах

Вы до сих пор считаете на сопроцессоре.

А можно в двух словах - чем сопроцессор отличается от того другого (как оно называется?), на котором считаете Вы?
Ссылка на сообщение
Поделиться на других сайтах

Сопроцессор максимум делает 1 операцию с плавающей точкой за 3 такта на одном ядре.

Спасибо, очень доступно. Кроме выделенной фразы.... Это почему так?? Впервые слышу.
Ссылка на сообщение
Поделиться на других сайтах

Почему восемь?

Не, Вы не поняли вопроса. Вопрос - почему 1 операцию за три такта..., всегда думал, что минимум одну за такт...

Кстати, посмотрел... Q9550 не так уж и плох... 3,5 операции за такт в линпаке. а AVX в нем нет.

Зато есть SSE 4.1. Не нашел про это объяснений, зато на нескольких ресурсах есть фраза типа такой:

инструкции SSE4 должны повысить скорость работы с трёхмерной графикой, потоковым видео и научными расчётами.

В <noindex>Wiki </noindex>пишут, что инструкции генерятся компиляторами автоматически..:

Компилятор языка Си от Intel начиная с версии 10 генерирует инструкции SSE4 при задании опции -QxS. Компилятор Sun Studio от Sun Microsystems с версии 12 update 1 генерирует инструкции SSE4 с помощью опций -xarch=sse4_1 (SSE4.1) и -xarch=sse4_2 (SSE4.2)[2]. Компилятор GCC поддерживает SSE4.1 и SSE4.2 с версии 4.3[3], опции -msse4.1 и -msse4.2, или -msse4, включающая оба варианта.

a_schelyaev, а в FV что-то такое используется?

Ссылка на сообщение
Поделиться на других сайтах

Это нужно программу решения СЛАУ полностью переписать. :unsure:

т.е. если я возьму одну и ту же версию FV, создам задачку, чтоб влезала в оба компа с запасом, и прогоню её на 3930 и на 9550 в одинаковых режимах (частота, количество ядер, частота памяти), то я должен получить примерно одинаковое время решения?

Так?

А с той демо-задачкой в ИСПА я при таких условиях должен увидеть разницу в два раза примерно, так?

Просто если всё это окажется именно так, то тогда получится, что на существенно более дешевых АМД можно получить ту же скорость счета в FV...

Ссылка на сообщение
Поделиться на других сайтах

a_schelyaev, а в FV что-то такое используется?

Пользуемся тем, что дает компилятор, местами рукоблудим.

Например, при переходе на Нехалемы на той же частоте получили рост скорострельности без каких либо оптимизаций под внутренние инструкции ЦП.

По последним с AVX специально еще не тестировали.

Касаемо испинских достижений, то его слушать себе дороже и слушать нужно аккуратно.

Сперва он пыхтел, что GPU крутняк великий, а теперь у него все наоборот. Он вещает только то, что знает.

Все, что он не знает, для него является троцкистко-фашисткой сволочью.

:)

На форуме с нашими поговоришь детально, они расскажут.

Ссылка на сообщение
Поделиться на других сайтах

Например, при переходе на Нехалемы на той же частоте получили рост скорострельности без каких либо оптимизаций

в нехалемах впервые появилась SSE4.2 (у Q9550 только SSE4.1).

Вот x64 демка ИСПЫ. Гуд.

Будет время - на неделе сделаю табличку: Q9550 против 3930 на линпаке, в ИСПЕ, в FV.

У 9550 рабочая (без разгона) 2,8 , соответственно, у 3930 снижу множитель до 28 и отключу 2 ядра в BIOS.

Размер задач будет - чтоб влезал с небольшим запасом в 8 Гиг вместе с системой.

Ссылка на сообщение
Поделиться на других сайтах

в нехалемах впервые появилась SSE4.2 (у Q9550 только SSE4.1).

Мы специально не оптимизировали. Часть данных готовим на уровне кода, чтобы компилятору помочь. А все остальное компилятор делает сам.

Конечно же, оптимизация кода под инструкции процессора даст еще прирост скорострельности в определенных случаях.

Но говорить о некой кардинальной переработке алгоритмической части, как у испы говорить не приходится.

Кардинально все придется менять если у ЦП ядер станет под две сотни.

Ссылка на сообщение
Поделиться на других сайтах

Вы сначала поймите что нужно сделать в программе, чтобы на 1 ядре за 1 такт делать 8 операций с плавающей точкой.

А уже потом философствуйте. :unsure:

Компилятор в принципе такого сделать не может. Особенно на итерационных алгоритмах для разреженных матриц.

А если говорить про прямой метод решения, то предварительно нужно переставить строчки и столбцы.

Это получится совсем другая программа. Поэтому и время решения другое.

Испа, поучите жену щи варить. Очередной поток сознания просто неинтересен.

Возвращайтесь к обсуждению "гига тера пета флоппи дисков" на вашей решалке, чем давать советы другим разработчикам, не видя ни разу их код.

Угу?

:)

Ссылка на сообщение
Поделиться на других сайтах

Опять хамите. Так это для меня не новость.

Уровень продавцов компании Тесис мне давно понятен.

Не нравится - не общайтесь. За язык тут никто не тянет.

Ссылка на сообщение
Поделиться на других сайтах

Посмотрим какая будет скорость у FV на 3930

Скорость посмотреть не получится, но вот посмотреть, насколько уменьшится время решения задачи при смене процессора, можно.

почитал, оказывается, AVX есть и у АМД : <noindex>http://www.thg.ru/cpu/obzor_amd_fx_8150/print.html</noindex> , но у них медленнее:

Sandy Bridge выдаёт две 256-битные операции AVX за такт, а Bulldozer обеспечивает только одну.

И вот еще статейка порадовала: <noindex>http://habrahabr.ru/post/99367/</noindex>

5 лет с момента анонса AVX и 2 года уже существуют процессоры...

Ссылка на сообщение
Поделиться на других сайтах

Будет время - на неделе сделаю табличку: Q9550 против 3930 на линпаке, в ИСПЕ, в FV.

У 9550 рабочая (без разгона) 2,8 , соответственно, у 3930 снижу множитель до 28 и отключу 2 ядра в BIOS.

Размер задач будет - чтоб влезал с небольшим запасом в 8 Гиг вместе с системой.

Я вспомнил. Мы же тестировали Нехалемы, когда их у нас презентовали в стране.

Вот, даже <noindex>новость накопал</noindex>.

Я сам в Интел тогда мотался.

Там если с размерностью задачки пошаманить, то выигрыш получался до 100% относительно старого квадкора.

Там банально и без всяческих MMX/SSE :bleh: только за счет лучшей внутренней архитектуры все работает лучше.

Особенно при наличии еще и хорошего канала к памяти.

Но та версия, конечно же послабее текущей. По идее отличие сейчас должно быть еще выше.

И не забудь на 128-битной решалке прогнать тест.

Ссылка на сообщение
Поделиться на других сайтах

что нужно сделать в программе, чтобы на 1 ядре за 1 такт делать 8 операций с плавающей точкой.

8 операций за такт в AVX это 5 умножений и 3 сложения. То есть в вашем алгоритме нужно исходить примерно из такого распределения операций и стараться реже использовать "дорогие" операции.

Кстати в современных процессорах возможность за один такт выполнить несколько сложений и умножений целочисленных данных имеет забавный side effect. Сейчас дешевле вычислить указатель чем загрузить его из памяти и в результате оптимальный доступ к многомерным массивам выглядит чуть иначе чем раньше. Разумеется современные компиляторы знают обо всех

этих тонкостях но чуть помочь им никто не запрещает :smile:

Ссылка на сообщение
Поделиться на других сайтах

Да это понятно, что скорость разработчики скрывают. Им, чтобы измерить скорость ТЗ нужно. :unsure:

На прямом методе скорость сама в руки и идет.

А на разряженных, да итерационных ... разработчики отказались в свое время заниматься садомазо.

Пользователи тестят решалку на своих тестовых задачах. Оно им понятнее. А у нас свои тестовые задачи.

Ссылка на сообщение
Поделиться на других сайтах
  • MFS открепил тему
Гость
Эта тема закрыта для публикации сообщений.
  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу.



  • Сообщения

    • Горыныч
      Новое оборудование в моих расчетах ещё и потому фигурирует, что на б/у лизинг фактически не получить. Т.е. я хочу обратить ваше внимание на то, что  нельзя рассчитывать окупаемость предприятия (станков) в отрыве от схем финансирования и стоимости денег.    
    • Metal_Cutter
      Посмотрю К сожалению, данная связка станки-складской комплекс единственная в России. Очень не надежная. Вообщем приобрел директор "геморрой".
    • Ninja
      @Зерг а @Зерг , а кто второй, кто? Первый - это безоговорочно @maxxдЭбил2000% А второй-то кто?     Зееерг!?   Зееерг а Зерг,    ты сделал желтый пазик?
    • maxx2000
      поддержу @Killerchik 2012-2014 год примерно. Знакомый решил организовать цех металлообработки. На старте купил 8 летний HAAS sl10. Старый владелец точил на них нержавейку, продавал в связи с тем что станки перестали держать точность. Новый владелец брал под конкретный заказ. Точить чернуху, пруток до 28мм. На третий месяц при графике 24\7 получил первую чистую прибыль,10% (что-то около 30-40 т.р. при средней зарплате рабочего в регионе 15-25т.р). Сначала писал сам на стойке, работал сам, нанял оператора ЧПУ и слесаря разнорабочего. Через полгода покупка второго, третьего такого же станка, а вот прибыль опять пошла только после покупки 4 станка. Из серьёзных поломок лапа ренишоу и внешний компрессор.  Кому-то работать, а кому-то и шашечки. Не всем же на новом работать на старте. Сколько заводов на старом советском ещё до сих пор работают. МА,ГФ,16К20 и т.п.
    • gudstartup
      имеется ввиду ютюб а не гимнаст
    • gudstartup
      сам он ничего не стирал.а наоборот те кто успели что то у себя сохранить теперь делятся остатками но основная масса видео удалена. весь интернет об этом пишет даже вон олимпийский чемпион по гимнастике своего канала лишился где он детей учил а у вас все хорошо   да а пишет он для прессы что удаляет их по ошибке
    • Бестолковый
      Такой вопрос: Есть файл настроек, созданный на базе родного солидовского ГОСТа. Везде где только можно применён шрифт "ГОСТ тип А".   При отображении на чертеже условной горизонтальной плоскости названной мною "0.000" (типа горизонт) её название отображается другим шрифтом.   В какую сторону копать чтобы штифт стал одинаковым везде, "ГОСТ тип А"?   Заранее благодарен!
    • Snake 60
      https://cloud.mail.ru/public/FZQf/k6GC1oMfa
    • Ветерок
      Я понимаю, что это должно работать так. Но у меня так не работает. Уже перестроил деталь.
    • Snake 60
      https://cloud.mail.ru/public/yWEZ/AVt4YLPnv
×
×
  • Создать...