Перейти к публикации

Суперкомпьютер своими руками для расчетов в ansys и 3d приложениях


Рекомендованные сообщения



Спасибо, очень понятно.

Вот результат на 3930 / 3,5 ГГц / 6 ядер:

Р а з л о ж е н и е м а т р и ц ы

Для решения потребовалось = 2.245 Гбайт памяти

Скорость = 62621.77 Мфл

Время = 13.275 сек

Ссылка на сообщение
Поделиться на других сайтах

А для Ксеонов, которые 300 Гфл показывают на Линпаке? :unsure:

подождем их обладателя - HFL

(я просто сводную сделал табличку)

Хотя понятно, что там результат будет порядка моего:

1) счет будет на одном процессоре, а не на двух (демо-версия), т.е. это 150 Гфл максимум.

2) видно, что с ростом частоты падает GFlops/ГГц (если я на 3930 сделаю 2,6 ГГц, то получу GFlops/ГГц как у этого ксеона)

3) на ядро производительность получилась выше у 3930 (из-за частоты): 23,3 GFlops против 19,8 GFlops.

4) 3930 имеет те же AVX инструкции

Ссылка на сообщение
Поделиться на других сайтах

UPD:

более корректно пойти по этой ссылке: <noindex>(ссыль)</noindex>

там i7-3930 (20 круб) против HD 7970 (которая с 6 Гиг на борту <noindex>стоит 19 круб</noindex>)

в тесте SPH Fluid Simulation ВК в 10 раз быстрее...

Ссылка на сообщение
Поделиться на других сайтах

И тест взять на 30-40 Гб. :unsure:

у вас специфика другая.

Мне бы 6 гиг хватило с ушами.

Хотя посмотреть на результаты линпака на ВК было бы интересно.

Ссылка на сообщение
Поделиться на других сайтах

вот кстати линпак для ВК:

<noindex>http://www.opennet.ru/opennews/art.shtml?num=28983</noindex> - новость

<noindex>http://code.compeng.uni-frankfurt.de/projects/hpl/files</noindex> - тест (линукс?)

и вот такая пдф-ка с результатами: <noindex>http://hpl-calculator.sourceforge.net/Howto-HPL-GPU.pdf</noindex> - возможно, там другой тест.

UPD вот еще есть инфа от нвидиа: <noindex>http://www.gpgpu.ru/node/888</noindex>

Ссылка на сообщение
Поделиться на других сайтах

Вы до сих пор считаете на сопроцессоре.

А можно в двух словах - чем сопроцессор отличается от того другого (как оно называется?), на котором считаете Вы?
Ссылка на сообщение
Поделиться на других сайтах

Сопроцессор максимум делает 1 операцию с плавающей точкой за 3 такта на одном ядре.

Спасибо, очень доступно. Кроме выделенной фразы.... Это почему так?? Впервые слышу.
Ссылка на сообщение
Поделиться на других сайтах

Почему восемь?

Не, Вы не поняли вопроса. Вопрос - почему 1 операцию за три такта..., всегда думал, что минимум одну за такт...

Кстати, посмотрел... Q9550 не так уж и плох... 3,5 операции за такт в линпаке. а AVX в нем нет.

Зато есть SSE 4.1. Не нашел про это объяснений, зато на нескольких ресурсах есть фраза типа такой:

инструкции SSE4 должны повысить скорость работы с трёхмерной графикой, потоковым видео и научными расчётами.

В <noindex>Wiki </noindex>пишут, что инструкции генерятся компиляторами автоматически..:

Компилятор языка Си от Intel начиная с версии 10 генерирует инструкции SSE4 при задании опции -QxS. Компилятор Sun Studio от Sun Microsystems с версии 12 update 1 генерирует инструкции SSE4 с помощью опций -xarch=sse4_1 (SSE4.1) и -xarch=sse4_2 (SSE4.2)[2]. Компилятор GCC поддерживает SSE4.1 и SSE4.2 с версии 4.3[3], опции -msse4.1 и -msse4.2, или -msse4, включающая оба варианта.

a_schelyaev, а в FV что-то такое используется?

Ссылка на сообщение
Поделиться на других сайтах

Это нужно программу решения СЛАУ полностью переписать. :unsure:

т.е. если я возьму одну и ту же версию FV, создам задачку, чтоб влезала в оба компа с запасом, и прогоню её на 3930 и на 9550 в одинаковых режимах (частота, количество ядер, частота памяти), то я должен получить примерно одинаковое время решения?

Так?

А с той демо-задачкой в ИСПА я при таких условиях должен увидеть разницу в два раза примерно, так?

Просто если всё это окажется именно так, то тогда получится, что на существенно более дешевых АМД можно получить ту же скорость счета в FV...

Ссылка на сообщение
Поделиться на других сайтах

a_schelyaev, а в FV что-то такое используется?

Пользуемся тем, что дает компилятор, местами рукоблудим.

Например, при переходе на Нехалемы на той же частоте получили рост скорострельности без каких либо оптимизаций под внутренние инструкции ЦП.

По последним с AVX специально еще не тестировали.

Касаемо испинских достижений, то его слушать себе дороже и слушать нужно аккуратно.

Сперва он пыхтел, что GPU крутняк великий, а теперь у него все наоборот. Он вещает только то, что знает.

Все, что он не знает, для него является троцкистко-фашисткой сволочью.

:)

На форуме с нашими поговоришь детально, они расскажут.

Ссылка на сообщение
Поделиться на других сайтах

Например, при переходе на Нехалемы на той же частоте получили рост скорострельности без каких либо оптимизаций

в нехалемах впервые появилась SSE4.2 (у Q9550 только SSE4.1).

Вот x64 демка ИСПЫ. Гуд.

Будет время - на неделе сделаю табличку: Q9550 против 3930 на линпаке, в ИСПЕ, в FV.

У 9550 рабочая (без разгона) 2,8 , соответственно, у 3930 снижу множитель до 28 и отключу 2 ядра в BIOS.

Размер задач будет - чтоб влезал с небольшим запасом в 8 Гиг вместе с системой.

Ссылка на сообщение
Поделиться на других сайтах

в нехалемах впервые появилась SSE4.2 (у Q9550 только SSE4.1).

Мы специально не оптимизировали. Часть данных готовим на уровне кода, чтобы компилятору помочь. А все остальное компилятор делает сам.

Конечно же, оптимизация кода под инструкции процессора даст еще прирост скорострельности в определенных случаях.

Но говорить о некой кардинальной переработке алгоритмической части, как у испы говорить не приходится.

Кардинально все придется менять если у ЦП ядер станет под две сотни.

Ссылка на сообщение
Поделиться на других сайтах

Вы сначала поймите что нужно сделать в программе, чтобы на 1 ядре за 1 такт делать 8 операций с плавающей точкой.

А уже потом философствуйте. :unsure:

Компилятор в принципе такого сделать не может. Особенно на итерационных алгоритмах для разреженных матриц.

А если говорить про прямой метод решения, то предварительно нужно переставить строчки и столбцы.

Это получится совсем другая программа. Поэтому и время решения другое.

Испа, поучите жену щи варить. Очередной поток сознания просто неинтересен.

Возвращайтесь к обсуждению "гига тера пета флоппи дисков" на вашей решалке, чем давать советы другим разработчикам, не видя ни разу их код.

Угу?

:)

Ссылка на сообщение
Поделиться на других сайтах

Опять хамите. Так это для меня не новость.

Уровень продавцов компании Тесис мне давно понятен.

Не нравится - не общайтесь. За язык тут никто не тянет.

Ссылка на сообщение
Поделиться на других сайтах

Посмотрим какая будет скорость у FV на 3930

Скорость посмотреть не получится, но вот посмотреть, насколько уменьшится время решения задачи при смене процессора, можно.

почитал, оказывается, AVX есть и у АМД : <noindex>http://www.thg.ru/cpu/obzor_amd_fx_8150/print.html</noindex> , но у них медленнее:

Sandy Bridge выдаёт две 256-битные операции AVX за такт, а Bulldozer обеспечивает только одну.

И вот еще статейка порадовала: <noindex>http://habrahabr.ru/post/99367/</noindex>

5 лет с момента анонса AVX и 2 года уже существуют процессоры...

Ссылка на сообщение
Поделиться на других сайтах

Будет время - на неделе сделаю табличку: Q9550 против 3930 на линпаке, в ИСПЕ, в FV.

У 9550 рабочая (без разгона) 2,8 , соответственно, у 3930 снижу множитель до 28 и отключу 2 ядра в BIOS.

Размер задач будет - чтоб влезал с небольшим запасом в 8 Гиг вместе с системой.

Я вспомнил. Мы же тестировали Нехалемы, когда их у нас презентовали в стране.

Вот, даже <noindex>новость накопал</noindex>.

Я сам в Интел тогда мотался.

Там если с размерностью задачки пошаманить, то выигрыш получался до 100% относительно старого квадкора.

Там банально и без всяческих MMX/SSE :bleh: только за счет лучшей внутренней архитектуры все работает лучше.

Особенно при наличии еще и хорошего канала к памяти.

Но та версия, конечно же послабее текущей. По идее отличие сейчас должно быть еще выше.

И не забудь на 128-битной решалке прогнать тест.

Ссылка на сообщение
Поделиться на других сайтах

что нужно сделать в программе, чтобы на 1 ядре за 1 такт делать 8 операций с плавающей точкой.

8 операций за такт в AVX это 5 умножений и 3 сложения. То есть в вашем алгоритме нужно исходить примерно из такого распределения операций и стараться реже использовать "дорогие" операции.

Кстати в современных процессорах возможность за один такт выполнить несколько сложений и умножений целочисленных данных имеет забавный side effect. Сейчас дешевле вычислить указатель чем загрузить его из памяти и в результате оптимальный доступ к многомерным массивам выглядит чуть иначе чем раньше. Разумеется современные компиляторы знают обо всех

этих тонкостях но чуть помочь им никто не запрещает :smile:

Ссылка на сообщение
Поделиться на других сайтах

Да это понятно, что скорость разработчики скрывают. Им, чтобы измерить скорость ТЗ нужно. :unsure:

На прямом методе скорость сама в руки и идет.

А на разряженных, да итерационных ... разработчики отказались в свое время заниматься садомазо.

Пользователи тестят решалку на своих тестовых задачах. Оно им понятнее. А у нас свои тестовые задачи.

Ссылка на сообщение
Поделиться на других сайтах
  • MFS открепил тему
Гость
Эта тема закрыта для публикации сообщений.
  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу.



  • Сообщения

    • zerganalizer
      55 вот-вот будет, детка)))
    • GalielO
      @zerganalizer Так в спиральке свои минусы есть, например себестоимость возрастает, т.к. увеличивается длительность обработки.  Для гладкой обработки есть чистовые проходы. Вам сколько лет? Ясли или начальная школа?
    • zerganalizer
      Мы взяли. И? Станок не настроен, ничего из опций не куплено, хотя божились, что всё доступно. Текущий/следующий инструмент отображает как нуль. Программ обмера для Ренишоу по большей части нет, и зазвать их сюда исправлять стоит космос.   Более того - станок куплен как новый, но он проработал неизвестное время с открытыми защитами направляющих, так что были кучки стружки прям на направляющих X, Y. Вычищали сами, но сколько её залезло под роликовые направляющие - никому не известно.   Покупал не я, а директор прям на выставке вместе с оператором ЧПУ. Посчитали себя умнее, видимо + возможен распил+откат. Откат точно был... Кстати, мы имели КП и куда более интересные за вашу цену. Станки Япония-Тайвань от Toyoda Group, владельцев заводов Тойот. Wele, с редуктором и всеми плюшками. На таком мой друган щас на моей родине работает.  
    • zerganalizer
      Подходы/отходы, особенно через радиус требуют много места и контроля зарезов. ОДНА спиралька с началом ВНЕ детали и удлинённый отход ВНЕ детали дают как более гладкую обработку, так и абсолютную безопасность. Сам вали в свой Шаолинь, точнее, в ПТУ...
    • Snake 60
      @Бестолковый  0.000 - это заметка, размер или что это за сущность?
    • GalielO
      @Ninja Да угомонись уже хамло. Ты эту программу столбиком считал или на счётах? Про сложность программ можешь своему начальству в уши заливать, если оно не смыслит в обработке. А пальцы веером (на аватарке), сопли пузырями не здесь пускать нужно. Наберись опыта, дело наживное, потом придёшь и обсудим. Зарезы могут быть, только у тебя, т.к. не стоял за станком и не понимаешь почему это происходит. От траектории это не зависит.
    • Metal_Cutter
    • Ветерок
      Вот это - то, что нужно. Спасибо. Проблема была в первом шаге - как повернуть модель нужным образом.
    • Горыныч
      Новое оборудование в моих расчетах ещё и потому фигурирует, что на б/у лизинг фактически не получить. Т.е. я хочу обратить ваше внимание на то, что  нельзя рассчитывать окупаемость предприятия (станков) в отрыве от схем финансирования и стоимости денег.    
    • Metal_Cutter
      Посмотрю К сожалению, данная связка станки-складской комплекс единственная в России. Очень не надежная. Вообщем приобрел директор "геморрой".
×
×
  • Создать...