Суперкомпьютер своими руками для расчетов в ansys и 3d приложениях

26 февраля 2013

Результаты теста на двух xeon-ах:

2 xeon x5690 - 72.36 GFlops

А без HT ?

26 февраля 2013

Я тогда тож похвастаю своей новой рабочей станцией:

Скрытый текст: фото

Intel Core i7-3930K 6/12 (автоматом работает на 3,5 GHz)

Cooler Master Hyper 212 EVO (кулер)

Gigabyte GA-X79-UD3 (м/п)

Geil EVO Corsa DDR3 1866MHz 4x4GB (4х-канальный режим)

Gigabyte GT 630 (в/к, 2GB памяти)

Seagate ST2000DM0001 (2x2TB - RAID Matrix: 1й том 250 GB RAID-0; 2й том 1,61 TB RAID-1)

Aerocool Strike-X One Advance (корпус)

Aerocool Strike-X 500W (БП)

Samsung full hd

Win7 x64 prof SP1

Результаты теста LinX 0.6.4 AVX (Linpack 10.3.10.017)

архив с тестом: Linpack10.3.zip

UPD: без HT мне больше нравится:

Не очень понимаю результат: без HT выполнено в 2 раза быстрее... И результат выше более чем в два раза...

Это как? Тест по задаче дает на каждый поток?

26 февраля 2013

Попробовал версию по ссылке _serge:

Average 65.8242 GFlops (без HT)

Maximal 66.0109 GFlops

Кстати, частоту в лог (строка CPU frequency:) программа сохраняет стоковую, а не реальную рабочу.

UPD: с HT эта версия LinX дает 34,4 GFlops...

Если пустить в один поток, то получается ~13,95 (срабатывает турбо - до 3,7ГГц) - т.е. было бы 83,7 на 6 ядрах (если подразогнать).

Походу, всё-таки, это на поток. Тогда с этой версией ядро с HT получается чуть шустрее (68,8 против 65,8) чем ядро без HT,

а с более новой библиотекой - ядро с HT получается чуть медленнее (97 против 107)...

26 февраля 2013

Попробовал версию по ссылке _serge:

Average 65.8242 GFlops (без HT)

Maximal 66.0109 GFlops

Кстати, частоту в лог (строка CPU frequency:) программа сохраняет стоковую, а не реальную рабочу.

UPD: с HT эта версия LinX дает 34,4 GFlops...

Походу, всё-таки, это на поток. Тогда с этой версией ядро с HT получается чуть шустрее (68,8 против 65,8) чем ядро без HT,

а с более новой библиотекой - ядро с HT получается чуть медленнее (97 против 107)...

Не знаю что у вас за линпак и как он соотносится с моим

Результат (без HT) на 2xXeon E5-2670 2,6GHz + 64Gb RAM собраный Intel Parallel Studio 2013 (с поддержкой AVX)

================================================================================

HPLinpack 2.1 -- High-Performance Linpack benchmark -- October 26, 2012

Written by A. Petitet and R. Clint Whaley, Innovative Computing Laboratory, UTK

Modified by Piotr Luszczek, Innovative Computing Laboratory, UTK

Modified by Julien Langou, University of Colorado Denver

================================================================================

An explanation of the input/output parameters follows:

T/V : Wall time / encoded variant.

N : The order of the coefficient matrix A.

NB : The partitioning blocking factor.

P : The number of process rows.

Q : The number of process columns.

Time : Time in seconds to solve the linear system.

Gflops : Rate of execution for solving the linear system.

The following parameter values will be used:

N : 50000

NB : 176 184

PMAP : Column-major process mapping

P : 4

Q : 4

PFACT : Left

NBMIN : 4

NDIV : 2

RFACT : Crout

BCAST : 1ringM 2ringM

DEPTH : 1

SWAP : Mix (threshold = 64)

L1 : transposed form

U : transposed form

EQUIL : yes

ALIGN : 8 double precision words

--------------------------------------------------------------------------------

- The matrix A is randomly generated for each test.

- The following scaled residual check will be computed:

||Ax-b||_oo / ( eps * ( || x ||_oo * || A ||_oo + || b ||_oo ) * N )

- The relative machine precision (eps) is taken to be 2.220446e-16

- Computational tests pass if scaled residuals are less than 16.0

================================================================================

T/V N NB P Q Time Gflops

--------------------------------------------------------------------------------

WC11C2L4 50000 176 4 4 276.88 3.010e+02

HPL_pdgesv() start time Tue Feb 26 18:37:43 2013

HPL_pdgesv() end time Tue Feb 26 18:42:19 2013

--------------------------------------------------------------------------------

||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)= 0.0016085 ...... PASSED

================================================================================

T/V N NB P Q Time Gflops

--------------------------------------------------------------------------------

WC13C2L4 50000 176 4 4 276.42 3.015e+02

HPL_pdgesv() start time Tue Feb 26 18:42:29 2013

HPL_pdgesv() end time Tue Feb 26 18:47:05 2013

--------------------------------------------------------------------------------

||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)= 0.0016085 ...... PASSED

================================================================================

T/V N NB P Q Time Gflops

--------------------------------------------------------------------------------

WC11C2L4 50000 184 4 4 277.22 3.006e+02

HPL_pdgesv() start time Tue Feb 26 18:47:15 2013

HPL_pdgesv() end time Tue Feb 26 18:51:52 2013

--------------------------------------------------------------------------------

||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)= 0.0016528 ...... PASSED

================================================================================

T/V N NB P Q Time Gflops

--------------------------------------------------------------------------------

WC13C2L4 50000 184 4 4 278.60 2.991e+02

HPL_pdgesv() start time Tue Feb 26 18:52:01 2013

HPL_pdgesv() end time Tue Feb 26 18:56:40 2013

--------------------------------------------------------------------------------

||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)= 0.0016528 ...... PASSED

================================================================================

Finished 4 tests with the following results:

4 tests completed and passed residual checks,

0 tests completed and failed residual checks,

0 tests skipped because of illegal input values.

--------------------------------------------------------------------------------

End of Tests.

================================================================================

В среднем ~300 Gflops ... это один узел кластера

26 февраля 2013

Не знаю что у вас за линпак и как он соотносится с моим

у нас линпак - это <noindex>Intel® Math Kernel Library</noindex> с интерфейсом, дописанным энтузиастами-оверклокерами.

26 февраля 2013

Собственно, предлагаю им и мерить (тем, что с сайта Интел). Есть и для win, и для linux.

И, судя по названию, есть и для mpi...

И как я понимаю, это самая свежая версия: 11.0.2 от 08/02/2012

Как запускать виндовую:

lininput_xeon64 - содержит настройки задачи (открывается блокнотом).

linpack_xeon64.exe - исполняемый файл бенчмарка

runme_xeon64.bat - батник, запускающий процесс linpack_xeon64.exe с задачей из lininput_xeon64 и подгружающий библиотеку.

если вдруг будет сообщение о не найденной библиотеке - киньте libiomp5md.dll в system32

в результате в файл win_xeon64.txt пишется лог:

Intel(R) Optimized LINPACK Benchmark data



Current date/time: Tue Feb 26 21:18:44 2013



CPU frequency:	2.830 GHz

Number of CPUs: 1

Number of cores: 4

Number of threads: 4



Parameters are set to:



Number of tests: 12

Number of equations to solve (problem size) : 1000  2000  3000  4000  5000  10000 15000 20000 25000 30000 35000 40000

Leading dimension of array				  : 1000  2000  3000  4000  5000  10000 15000 20000 25000 30000 35000 40000

Number of trials to run					 : 4	 4	 4	 4	 4	 2	 2	 2	 2	 1	 1	 1	

Data alignment value (in Kbytes)			: 4	 4	 4	 4	 4	 4	 4	 4	 4	 4	 4	 4	



Maximum memory requested that can be used=4210869504, at the size=40000



=================== Timing linear equation system solver ===================



Size   LDA	Align. Time(s)	GFlops   Residual	 Residual(norm) Check

1000   1000   4	  0.027	  25.0013  9.419757e-013 3.212379e-002   pass

1000   1000   4	  0.026	  26.1027  9.419757e-013 3.212379e-002   pass

1000   1000   4	  0.025	  26.9520  9.419757e-013 3.212379e-002   pass

1000   1000   4	  0.028	  24.2711  9.419757e-013 3.212379e-002   pass

2000   2000   4	  0.176	  30.3451  4.657913e-012 4.051814e-002   pass

2000   2000   4	  0.176	  30.4140  4.657913e-012 4.051814e-002   pass

2000   2000   4	  0.178	  30.0324  4.657913e-012 4.051814e-002   pass

2000   2000   4	  0.174	  30.7832  4.657913e-012 4.051814e-002   pass

3000   3000   4	  0.586	  30.7403  8.375411e-012 3.225170e-002   pass

3000   3000   4	  0.609	  29.5688  8.375411e-012 3.225170e-002   pass

3000   3000   4	  0.580	  31.0641  8.375411e-012 3.225170e-002   pass

3000   3000   4	  0.600	  30.0508  8.375411e-012 3.225170e-002   pass

4000   4000   4	  1.295	  32.9616  1.585285e-011 3.455278e-002   pass

4000   4000   4	  1.278	  33.4110  1.585285e-011 3.455278e-002   pass

4000   4000   4	  1.297	  32.9154  1.585285e-011 3.455278e-002   pass

4000   4000   4	  1.330	  32.1127  1.585285e-011 3.455278e-002   pass

5000   5000   4	  2.532	  32.9333  2.642113e-011 3.684214e-002   pass

5000   5000   4	  2.553	  32.6644  2.642113e-011 3.684214e-002   pass

5000   5000   4	  2.516	  33.1452  2.642113e-011 3.684214e-002   pass

5000   5000   4	  2.516	  33.1417  2.642113e-011 3.684214e-002   pass

10000  10000  4	  21.536	 30.9649  8.907336e-011 3.140817e-002   pass

10000  10000  4	  19.963	 33.4052  8.907336e-011 3.140817e-002   pass

15000  15000  4	  60.010	 37.5013  2.047769e-010 3.225271e-002   pass

15000  15000  4	  61.781	 36.4261  2.047769e-010 3.225271e-002   pass

20000  20000  4	  142.524	37.4263  3.625560e-010 3.209415e-002   pass

20000  20000  4	  139.447	38.2522  3.625560e-010 3.209415e-002   pass

25000  25000  4	  265.799	39.1947  5.280856e-010 3.003033e-002   pass

25000  25000  4	  262.897	39.6274  5.280856e-010 3.003033e-002   pass

30000  30000  4	  452.030	39.8244  8.446834e-010 3.329751e-002   pass

39.8244 GFlops - лучший результат на самой объемной задаче.

На задачу размером 35000 на моем домашнем пк не хватило памяти (Q9550 @ 2.8 ГГц, 8 Гиг памяти, HT отсутствует у процессора)

26 февраля 2013

Под разгоном: Q9550 3,7ГГц - получил до 50.27 GFlops

Скрытый текст: показать отчет

CPU frequency:	3.694 GHz

Number of CPUs: 1

Number of cores: 4

Number of threads: 4



Number of tests: 1

Number of equations to solve (problem size) : 10000

Leading dimension of array				  : 10000

Number of trials to run					 : 2	

Data alignment value (in Kbytes)			: 4	



Maximum memory requested that can be used=800204096, at the size=10000



=================== Timing linear equation system solver ===================



Size   LDA	Align. Time(s)	GFlops   Residual	 Residual(norm) Check

10000  10000  4	  13.892	 48.0030  8.907336e-011 3.140817e-002   pass

10000  10000  4	  13.805	 48.3075  8.907336e-011 3.140817e-002   pass



Performance Summary (GFlops)



Size   LDA	Align.  Average  Maximal

10000  10000  4	   48.1552  48.3075



Number of tests: 1

Number of equations to solve (problem size) : 15000

Leading dimension of array				  : 15000

Number of trials to run					 : 2	

Data alignment value (in Kbytes)			: 4	



Maximum memory requested that can be used=1800304096, at the size=15000



=================== Timing linear equation system solver ===================



Size   LDA	Align. Time(s)	GFlops   Residual	 Residual(norm) Check

15000  15000  4	  45.457	 49.5069  2.047769e-010 3.225271e-002   pass

15000  15000  4	  44.764	 50.2735  2.047769e-010 3.225271e-002   pass



Performance Summary (GFlops)



Size   LDA	Align.  Average  Maximal

15000  15000  4	   49.8902  50.2735



Number of tests: 1

Number of equations to solve (problem size) : 20000

Leading dimension of array				  : 20000

Number of trials to run					 : 2	

Data alignment value (in Kbytes)			: 4	



Maximum memory requested that can be used=3200404096, at the size=20000



=================== Timing linear equation system solver ===================



Size   LDA	Align. Time(s)	GFlops   Residual	 Residual(norm) Check

20000  20000  4	  107.264	49.7291  3.625560e-010 3.209415e-002   pass

20000  20000  4	  108.592	49.1208  3.625560e-010 3.209415e-002   pass



Performance Summary (GFlops)



Size   LDA	Align.  Average  Maximal

20000  20000  4	   49.4250  49.7291



Number of tests: 1

Number of equations to solve (problem size) : 25000

Leading dimension of array				  : 25000

Number of trials to run					 : 2	

Data alignment value (in Kbytes)			: 4	



Maximum memory requested that can be used=705536800, at the size=25000



=================== Timing linear equation system solver ===================



Size   LDA	Align. Time(s)	GFlops   Residual	 Residual(norm) Check

25000  25000  4	  224.219	46.4632  5.280856e-010 3.003033e-002   pass

25000  25000  4	  223.881	46.5333  5.280856e-010 3.003033e-002   pass



Performance Summary (GFlops)



Size   LDA	Align.  Average  Maximal

25000  25000  4	   46.4982  46.5333

26 февраля 2013

Так это для float. Видимо.

Для double будет 140-150.

Это 2 процессора (16 ядер 2xL3 20Mb ) в double.

E5-26xx и с AVХ версией MKL примерно в 2 раза быстрее 56xx

<noindex>http://www.almodi.org/it-bayki/prezentatsi...i/vse-stranitsi</noindex>

Так как линпак был построен на новых библиотеках с поддержкой AVX, то сервер со старыми Xeon 5600-й серии был порван на куски — 144 Гфлопа, против 317 Гфлопс

Сейчас выкачаю интеловскую версию и пущу вышеприведенный тест.

PS: HPLinpack 2.1 у меня тоже собран с новой MKL

26 февраля 2013

Срд Фев 27 00:55:18 MSK 2013

Intel® Optimized LINPACK Benchmark data

Current date/time: Wed Feb 27 00:55:18 2013

CPU frequency: 3.300 GHz

Number of CPUs: 2

Number of cores: 16

Number of threads: 16

Parameters are set to:

Number of tests: 15

Number of equations to solve (problem size) : 1000 2000 5000 10000 15000 18000 20000 22000 25000 26000 27000 30000 35000 40000 45000

Leading dimension of array : 1000 2000 5008 10000 15000 18008 20016 22008 25000 26000 27000 30000 35000 40000 45000

Number of trials to run : 4 2 2 2 2 2 2 2 2 2 1 1 1 1 1

Data alignment value (in Kbytes) : 4 4 4 4 4 4 4 4 4 4 4 1 1 1 1

Maximum memory requested that can be used=16200901024, at the size=45000

=================== Timing linear equation system solver ===================

Size LDA Align. Time(s) GFlops Residual Residual(norm) Check

1000 1000 4 0.014 49.2007 8.724688e-13 2.975343e-02 pass

1000 1000 4 0.006 112.1218 8.724688e-13 2.975343e-02 pass

1000 1000 4 0.006 113.1429 8.724688e-13 2.975343e-02 pass

1000 1000 4 0.006 112.4660 8.724688e-13 2.975343e-02 pass

2000 2000 4 0.031 170.6401 4.701128e-12 4.089406e-02 pass

2000 2000 4 0.031 169.8534 4.701128e-12 4.089406e-02 pass

5000 5008 4 0.360 231.7325 2.434170e-11 3.394253e-02 pass

5000 5008 4 0.356 234.3851 2.434170e-11 3.394253e-02 pass

10000 10000 4 2.443 272.9254 8.916344e-11 3.143993e-02 pass

10000 10000 4 2.442 273.1020 8.916344e-11 3.143993e-02 pass

15000 15000 4 7.953 282.9598 2.165846e-10 3.411244e-02 pass

15000 15000 4 8.031 280.2220 2.165846e-10 3.411244e-02 pass

18000 18008 4 12.750 304.9882 2.945255e-10 3.225417e-02 pass

18000 18008 4 12.712 305.8945 2.945255e-10 3.225417e-02 pass

20000 20016 4 17.240 309.3956 3.831049e-10 3.391318e-02 pass

20000 20016 4 17.295 308.4160 3.831049e-10 3.391318e-02 pass

22000 22008 4 23.152 306.6555 4.066827e-10 2.978791e-02 pass

22000 22008 4 23.143 306.7718 4.066827e-10 2.978791e-02 pass

25000 25000 4 33.610 309.9674 5.501781e-10 3.128666e-02 pass

25000 25000 4 33.485 311.1223 5.501781e-10 3.128666e-02 pass

26000 26000 4 37.564 311.9700 5.851288e-10 3.076783e-02 pass

26000 26000 4 37.731 310.5890 5.851288e-10 3.076783e-02 pass

27000 27000 4 42.259 310.5514 6.532881e-10 3.185765e-02 pass

30000 30000 1 58.306 308.7483 7.329930e-10 2.889466e-02 pass

35000 35000 1 92.080 310.4439 1.115330e-09 3.237635e-02 pass

40000 40000 1 134.092 318.2143 1.359319e-09 3.023172e-02 pass

45000 45000 1 192.192 316.1118 1.876477e-09 3.301464e-02 pass

Performance Summary (GFlops)

Size LDA Align. Average Maximal

1000 1000 4 96.7328 113.1429

2000 2000 4 170.2468 170.6401

5000 5008 4 233.0588 234.3851

10000 10000 4 273.0137 273.1020

15000 15000 4 281.5909 282.9598

18000 18008 4 305.4414 305.8945

20000 20016 4 308.9058 309.3956

22000 22008 4 306.7136 306.7718

25000 25000 4 310.5448 311.1223

26000 26000 4 311.2795 311.9700

27000 27000 4 310.5514 310.5514

30000 30000 1 308.7483 308.7483

35000 35000 1 310.4439 310.4439

40000 40000 1 318.2143 318.2143

45000 45000 1 316.1118 316.1118

Residual checks PASSED

End of tests

Done: Срд Фев 27 01:18:42 MSK 2013

Я вот только не понял почему 3.300 GHz

Это либо включается Turbo Boost либо врёт бенчмарк.

26 февраля 2013

Я вот только не понял почему 3.300 GHz

Это либо включается Turbo Boost либо врёт бенчмарк.

Он замеряет в определенный момент. Разово в самом начале. Какая есть в этот момент - ту и пишет.

Возможно, при инициализации было турбо одно ядро. Тест это и замерил.

Но вроде эта величина нигде не играет в пересчетах. Просто для информации.

Какая реально частота была при прогоне? 2,6?

26 февраля 2013

Он замеряет в определенный момент. Разово в самом начале. Какая есть в этот момент - ту и пишет.

Какая реально частота была при прогоне?

Реально 2.6 должна быть (без нагрузки 1.2)

Современный процессор с многоядерностью и турбобустами забавная штука

Получается что скорость зависит не столько от частоты сколько от максимально-допустимого TDP и энергоэффективности Вт/Flops

26 февраля 2013

<noindex>Q9550:</noindex> 2,83ГГц \ 4 ядер \ 39.82 GFlops \ 3.517 GFlops/ГГц

<noindex>Q9550:</noindex> 3,69ГГц \ 4 ядер \ 50.27 GFlops \ 3.405 GFlops/ГГц

<noindex>E5-2670</noindex> x2: 2,6ГГц \ 16 ядер \ 318.21 GFlops \ 7.64 GFlops/ГГц

Завтра сделаю на 3930

26 февраля 2013

2.6х16=41.6

300/41.6=7.2

Количество операций с плавающей точкой за 1 такт на одном ядре.

Нормальная скорость для 20 Мб L3.

Всё правильно. У AVX в пике 8 команд за такт.

3 марта 2013

До рабочего пк пока не добрался, поэтому отобрал у жены калькулятор :)

<noindex>Intel® Core™ i3-380UM</noindex>

(первое поколение i3), 2 гиг DDR3 в одноканальном режиме.

Скрытый текст: первый прогон

CPU frequency: 0.665 GHz (неверная частота)

Number of CPUs: 1

Number of cores: 2

Number of threads: 4

Parameters are set to:

Number of tests: 6

Number of equations to solve (problem size) : 1000 2000 3000 4000 5000 10000

Leading dimension of array : 1000 2000 3000 4000 5000 10000

Number of trials to run : 4 4 4 3 2 1

Data alignment value (in Kbytes) : 4 4 4 4 4 4

Maximum memory requested that can be used=800204096, at the size=10000

=================== Timing linear equation system solver ===================

Size LDA Align. Time(s) GFlops Residual Residual(norm) Check

1000 1000 4 0.291 2.2974 9.419757e-013 3.212379e-002 pass

1000 1000 4 0.255 2.6209 9.419757e-013 3.212379e-002 pass

1000 1000 4 0.222 3.0088 9.419757e-013 3.212379e-002 pass

1000 1000 4 0.207 3.2295 9.419757e-013 3.212379e-002 pass

2000 2000 4 1.318 4.0513 4.657913e-012 4.051814e-002 pass

2000 2000 4 1.302 4.1023 4.657913e-012 4.051814e-002 pass

2000 2000 4 1.301 4.1059 4.657913e-012 4.051814e-002 pass

2000 2000 4 1.300 4.1087 4.657913e-012 4.051814e-002 pass

3000 3000 4 4.283 4.2073 8.375411e-012 3.225170e-002 pass

3000 3000 4 4.278 4.2122 8.375411e-012 3.225170e-002 pass

3000 3000 4 4.284 4.2061 8.375411e-012 3.225170e-002 pass

3000 3000 4 4.292 4.1984 8.375411e-012 3.225170e-002 pass

4000 4000 4 9.867 4.3275 2.060180e-011 4.490357e-002 pass

4000 4000 4 9.858 4.3315 2.060180e-011 4.490357e-002 pass

4000 4000 4 9.870 4.3263 2.060180e-011 4.490357e-002 pass

5000 5000 4 19.064 4.3739 3.111936e-011 4.339344e-002 pass

5000 5000 4 19.178 4.3478 3.111936e-011 4.339344e-002 pass

10000 10000 4 151.779 4.3937 9.915883e-011 3.496441e-002 pass

Во время прогона заметил, что тест использует не все 4 потока на 100%.

Но что еще хуже - так это то, что он использует на 100% первые два потока, а не 1 и 3.

Т.е. по идее результат можно улучшить. Гипертрейдинг на ноуте не отключить, поэтому запретил тесту использовать 2й поток.

Результаты:

3000 3000 4 3.085 5.8397 8.375411e-012 3.225170e-002 pass

3000 3000 4 3.679 4.8977 8.375411e-012 3.225170e-002 pass

3000 3000 4 3.803 4.7384 8.375411e-012 3.225170e-002 pass

3000 3000 4 3.738 4.8204 8.375411e-012 3.225170e-002 pass

4000 4000 4 7.022 6.0811 2.060180e-011 4.490357e-002 pass

4000 4000 4 7.273 5.8707 2.060180e-011 4.490357e-002 pass

4000 4000 4 6.876 6.2098 2.060180e-011 4.490357e-002 pass

5000 5000 4 13.028 6.4002 3.111936e-011 4.339344e-002 pass

5000 5000 4 14.128 5.9018 3.111936e-011 4.339344e-002 pass

10000 10000 4 99.720 6.6874 9.915883e-011 3.496441e-002 pass

10000 10000 4 98.494 6.7706 9.915883e-011 3.496441e-002 pass

10000 10000 4 99.794 6.6824 9.915883e-011 3.496441e-002 pass

i3-380UM: 1,33 ГГц \ 2 ядра \ 6.77 GFlops \ 2,54 GFlops/ГГц

Хотя тут надо разобраться, сколько потоков запускал тест, т.к. странно, что тест не грузил постоянно все 4 потока на 100%, хотя иногда это делал.

UPD: если в LinX-интерфейсе заменить linpack на последний с сайта интел, то можно кол-во ядер настраивать. Правда, решается при этом только первая хадача - дальше ошибка.

если запустить в 4 потока, то на задаче 10000 получилось 6 GFlops при 100% загрузке всего процессора.

если запустить в 2 потока, то на задаче 10000 получилось 6,7 GFlops при 50% загрузке всего процессора (процессу было разрешено использовать 1 и 3 потоки).

Видимо, последний linpack_xeon64.exe выдает итоговую производительность всего ЦП, и с HT она ниже, чем без него?

UPD2:

если в runme_xeon64.bat добавить строчку set OMP_NUM_THREADS=N (где N желаемое кол-во потоков), то сами понимаете, что будет :)

и интерфейс не нужен.

4 марта 2013

Итак,

<noindex>Intel® Core™ i7-3930K</noindex>

Сначала я игрался со включенным гипертрейдингом.

Тест в 12 потоков работает плохо - грузит в основном первые 6 потоков (3 ядра), и иногда все 12 потоков.

Поэтому максимум получилось 66 GFlops.

Поэтому сделал как в описании к LinX - они предлагают два теста параллелльно: запустил 2 по 6. Результат ( 49.7+48.6 ) GFlops.

При этом первый процесс использовал четные потоки, второй - нечетные. Тоже печальный результат.

Выключил HT и турбобуст:

Скрытый текст: результат

CPU frequency: 3.198 GHz

Number of CPUs: 1

Number of cores: 6

Number of threads: 6

Parameters are set to:

Number of tests: 4

Number of equations to solve (problem size) : 25000 30000 35000 40000

Leading dimension of array : 25000 30000 35000 40000

Number of trials to run : 3 2 1 1

Data alignment value (in Kbytes) : 4 4 4 4

Maximum memory requested that can be used=4210869504, at the size=40000

=================== Timing linear equation system solver ===================

Size LDA Align. Time(s) GFlops Residual Residual(norm) Check

25000 25000 4 84.658 123.0583 6.089565e-010 3.462917e-002 pass

25000 25000 4 84.653 123.0661 6.089565e-010 3.462917e-002 pass

25000 25000 4 84.740 122.9402 6.089565e-010 3.462917e-002 pass

30000 30000 4 140.942 127.7246 8.421348e-010 3.319704e-002 pass

30000 30000 4 140.263 128.3430 8.421348e-010 3.319704e-002 pass

35000 35000 4 216.819 131.8416 1.085509e-009 3.151068e-002 pass

40000 40000 4 319.585 133.5164 1.466774e-009 3.262155e-002 pass

Performance Summary (GFlops)

Size LDA Align. Average Maximal

25000 25000 4 123.0215 123.0661

30000 30000 4 128.0338 128.3430

35000 35000 4 131.8416 131.8416

40000 40000 4 133.5164 133.5164

Совсем другое дело.

С турбобустом - CPU frequency: 3.497 GHz

Size LDA Align. Time(s) GFlops Residual Residual(norm) Check

37000 37000 4 237.975 141.9117 1.128131e-009 2.933023e-002 pass

На задаче 40000 с турбобустом ПК начинал истерично орать, стало некомфортно, и тест я отрубил.

i3-380UM: 1,33 ГГц \ 2 ядра \ 6.77 GFlops \ 2.54 GFlops/ГГц

Q9550: 2,83ГГц \ 4 ядра \ 39.82 GFlops \ 3.517 GFlops/ГГц

Q9550: 3,69ГГц \ 4 ядра \ 50.27 GFlops \ 3.405 GFlops/ГГц

i7-3930K: 3,20ГГц \ 6 ядер \ 133.51 GFlops \ 6.95 GFlops/ГГц

i7-3930K: 3,50ГГц \ 6 ядер \ 141.91 GFlops \ 6.75 GFlops/ГГц

E5-2670 x2: 2,6ГГц \ 16 ядер \ 318.21 GFlops \ 7.64 GFlops/ГГц

5 марта 2013

Для симметричных разреженных матриц какая скорость?

А чем проверять это?

5 марта 2013

Программами которые работают с разреженными матрицами.

Я знаю, что Ансис дает такую информацию.

А что-то попроще есть?

Чтоб вот также как линпак можно было оперативно поставить?

5 марта 2013

а у Вас нет ли какой демо-версии ИСПА, в которой можно было бы запустить на счет какую-то одну готовую задачку и померить?

5 марта 2013

Саш, можешь четко сформулировать ТЗ - может быть можно будет из наших алгоритмистов добыть бенчмарк.

5 марта 2013

Саш, можешь четко сформулировать ТЗ - может быть можно будет из наших алгоритмистов добыть бенчмарк.

Ты ему или мне? :) Я так понимаю, мы тески :) Все трое :)

Войти

Суперкомпьютер своими руками для расчетов в ansys и 3d приложениях

Рекомендованные сообщения

HFL 34

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

HFL 34

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

HFL 34

Ссылка на сообщение

Поделиться на других сайтах

HFL 34

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

HFL 34

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

HFL 34

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

a_schelyaev 371

Ссылка на сообщение

Поделиться на других сайтах

Bonusfrag 104

Ссылка на сообщение

Поделиться на других сайтах

Сейчас на странице 0 пользователей

Сообщения