Bonusfrag 104 Опубликовано: 18 марта 2013 Жалоба Рассказать Опубликовано: 18 марта 2013 вот еще одна картинка: <noindex>intel + ANSYS</noindex> Ссылка на сообщение Поделиться на других сайтах
a_schelyaev 367 Опубликовано: 18 марта 2013 Жалоба Рассказать Опубликовано: 18 марта 2013 вот еще одна картинка: Уфф, мутная презентуха. Фактически показано приращение на 44% для прямой решалки из прочностного Ансиса именно за счет адаптации под инструкции. Еще раньше была новость, что Ансис проплатил консалтинг и им оптимизировали решалку под новые процессоры, но там цифра заявлялась порядка 20%, теперь видим, что на еще более новых камнях ситуация улучшилась. По нашим делам с CFD я так и не понял за счет чего выигрыш по скорости ибо текстова распевает о прекрассных DIMM и вообще доступе к памяти, а также про новые камни. Такие слова ни один разработчик не напишет. Такие слова может написать только человек далекий от программирования. Так это пользователи вашей программы занимаются этим словом. Покупают новые процессоры, а считают только на сопроцесоре. Ну все как обычно - репертуар в стиле все козлы кроме я. Ссылка на сообщение Поделиться на других сайтах
Bonusfrag 104 Опубликовано: 18 марта 2013 Жалоба Рассказать Опубликовано: 18 марта 2013 Сопроцессор в процессоре 3930 считает в 12-15 раз медленнее, чем новые инструкции. Этот момент можно было бы проверить, кстати: дело в том, что поддержка AVX в Win7 добавлена начиная с SP1 ! Т.е. если вдруг у кого-то завалялась Win7 без SP с новым процессором, то на такой машине тест типа линпака до установки SP и после установки SP должен давать существенно разные результаты. интересный <noindex>линк</noindex> про это Ссылка на сообщение Поделиться на других сайтах
HFL 34 Опубликовано: 18 марта 2013 Жалоба Рассказать Опубликовано: 18 марта 2013 По нашим делам с CFD я так и не понял за счет чего выигрыш по скорости ибо текстова распевает о прекрассных DIMM и вообще доступе к памяти. Правильно распевает. У нас уже давно самое критичное это скорость доступа к памяти. Ну еще я бы обратил внимание на фразу про larger cache size are key to extending performance and scalability PS: E5-26xx действительно хороши. У меня на реальной задаче одно лезвие на 2xE5-2670 (16 ядер) считает раза в полтора быстрее целого шасси из 10 лезвий (40 ядер) на 2xоптеронах той же частоты. Ссылка на сообщение Поделиться на других сайтах
a_schelyaev 367 Опубликовано: 18 марта 2013 Жалоба Рассказать Опубликовано: 18 марта 2013 Правильно распевает. У нас уже давно самое критичное это скорость доступа к памяти. Ну это понятно, что память и канал к ней это тормоз на все века. Отсюда и вопрос - а каков вклад в ускорение конкретно новой железной фишки по памяти, а где все остальное? Ссылка на сообщение Поделиться на других сайтах
Bonusfrag 104 Опубликовано: 18 марта 2013 Жалоба Рассказать Опубликовано: 18 марта 2013 Ну это понятно, что память и канал к ней это тормоз на все века. Отсюда и вопрос - а каков вклад в ускорение конкретно новой железной фишки по памяти, а где все остальное? это тоже можно померить - на двух плашках - 2х-канальный режим. на 4х - 4х-канальный. Ссылка на сообщение Поделиться на других сайтах
a_schelyaev 367 Опубликовано: 18 марта 2013 Жалоба Рассказать Опубликовано: 18 марта 2013 это тоже можно померить - на двух плашках - 2х-канальный режим. на 4х - 4х-канальный. Про канальность все понятно, но речь была не про то. Ладно, не важно. Ссылка на сообщение Поделиться на других сайтах
Bonusfrag 104 Опубликовано: 18 марта 2013 Жалоба Рассказать Опубликовано: 18 марта 2013 без канальности новый контроллер проигрывает на одинаковых частотах. спасает канальность и поддержка "оверклокерской" памяти. Ссылка на сообщение Поделиться на других сайтах
HFL 34 Опубликовано: 18 марта 2013 Жалоба Рассказать Опубликовано: 18 марта 2013 Ну это понятно, что память и канал к ней это тормоз на все века. ОЛУЧШЕда и вопрос - а каков вклад в ускорение конкретно новой железной фишки по памяти, а где все остальное? На маленькой задачке гарантированно влезающей в кеш обоих процессоров чистая прибавкана одном ядре 20 -25% остальное в том или ином виде это память. Но на мой взгляд "чистое" быстродействие на ядро или даже на процессор не столь интересны как интегральное. Например на стойку а еще лучше на кВт Ссылка на сообщение Поделиться на других сайтах
Bonusfrag 104 Опубликовано: 19 марта 2013 Жалоба Рассказать Опубликовано: 19 марта 2013 Сегодня пристрелялся на домашней машинке. Тесты будут - линпак х64: 2 х 20000; 2 x 30000. ИСПА х64: тест_на_скорость / 2.477 Гбайт; пример-кэм-20 / 4.541 Гбайт; Пример кран / 6.202 Гбайт К демке предлагался еще один проект, но я чувствую, что в 8 Гиг он не влезет. И еще момент - сначала ИСПА вешала мне ПК в момент интенсивного обращения к памяти - пришлось напряжение на памяти поднять, а также комп переставал отвечать в самом начале собственно самих вычислений - в итоге справился путем кучи перенастроек, включая поднятие напряжения на ЦП, и снижение приоритета программы до минимума. в общем, тяжело пришлось... С липаком и FV таких проблем не было... FV x64 - под FV я сделал проект нестационарный - чтоб не сходился :) на вход подаются холодный и горячий воздух с переменным и в противофазе расходом. Считать предполагаю 50~100 шагов на грубой сетке для получения нормального НУ, затем адаптация до 1,6 млн ячеек и решение на 64 бит для теста Y шагов, а затем на 128 бит для теста X шагов. Вот прикидочка на картинке - видно, что много итераций внутри шага. По идее, чем больше итераций внутри решения уравнения, тем выше КПД в флопсах :) Гонять на обеих машинах буду в версии от 05.04.2012. И на 3930 прогоню для сравнения в самой свежей 2013.02.19. Проект для теста в FV в приложении FV_Speed_Test.zip Возражения, замечания и дополнения приветствуются - но каждый про своё, пожалуйста. Ссылка на сообщение Поделиться на других сайтах
Fedor 1 603 Опубликовано: 20 марта 2013 Жалоба Рассказать Опубликовано: 20 марта 2013 А в ванну с касторкой не пробовали засунуть ? Один мужик так сделал и стал чемпионом мира по разгону в каком-то году Ссылка на сообщение Поделиться на других сайтах
a_schelyaev 367 Опубликовано: 20 марта 2013 Жалоба Рассказать Опубликовано: 20 марта 2013 Касаемо зависания, то больно уж похоже на то, что софт запрашивает памяти больше, чем есть. У меня такая же ситуация на 3DTransVidia случается. Иногда только принудительная перезагрузка помогает. Возражения, замечания и дополнения приветствуются - но каждый про своё, пожалуйста. Уравнение давления порой плохо сходится. Известная фишка. Обещали подлечить на следующем витке развития решалки. Ссылка на сообщение Поделиться на других сайтах
Bonusfrag 104 Опубликовано: 20 марта 2013 Жалоба Рассказать Опубликовано: 20 марта 2013 1. Вы забыли написать характеристики машинки. 1. Вы забыли написать какая операционная система. Вы видимо включили галочки, которые я рекомендовал включить для проверки скорости процессоров 3930 и 2670. Быстрее было спросить и не мучиться с настройками биоса. Когда пойму на какой машинке и в какой среде вы пытаетесь проверить скорость ИСПА, то дам рекомендации. Да, всё так. на Q9550 @2.8 ГГц я включал все те же опции. Ось win7 SP1 x64. 8 гиг памяти DDR2 1066 МГц. софт запрашивает памяти больше, чем естьэто, похоже, тоже было - персональный набор был больше чем влезало в оперативу, и ИСПА использовала файл подкачки, видимо. Но при этом свободной оперативы она оставляла 0. Хоть бы чуть-чуть оставляла запаса системе... Ссылка на сообщение Поделиться на других сайтах
a_schelyaev 367 Опубликовано: 20 марта 2013 Жалоба Рассказать Опубликовано: 20 марта 2013 это, похоже, тоже было - персональный набор был больше чем влезало в оперативу, и ИСПА использовала файл подкачки, видимо. Но при этом свободной оперативы она оставляла 0. Хоть бы чуть-чуть оставляла запаса системе... Ну это вроде не ИСПА виновата, а "куча" винды. За управление памятью винда отвечает же, если в ИСПА не свой манагер памяти реализован. По моим наблюдениям такое гадское поведение у той же Windows XP не наблюдалось. Ссылка на сообщение Поделиться на других сайтах
Bonusfrag 104 Опубликовано: 20 марта 2013 Жалоба Рассказать Опубликовано: 20 марта 2013 Для какого примера ИСПА использовала файл подкачки?для 2 и 3 точно на этапе формирования матриц (т.е. еще до решения). Самая долгая процедура, занимавшая 90+% времени теста. Какой пример у вас зависал?пример-кэм-20 - с ним было больше всего проблем, но на нем потом получился самый высокий результат. :) Эти примеры у вас используют файл подкачкм. на этапе формирования матриц то ли для второго, то ли для третьего проекта персональный набор программы был 12+Гиг, из них в памяти 7 гиг, и еще 1 гиг - система. Ссылка на сообщение Поделиться на других сайтах
Bonusfrag 104 Опубликовано: 20 марта 2013 Жалоба Рассказать Опубликовано: 20 марта 2013 На этом этапе нет никакого файла подкачки. Не нужно фантазировать. Есть такая программа - process explorer - она выдавала, что для ИСПА "приватный" набор 12 Гиг, рабочий набор 7 Гиг, свободно памяти 0 в этот момент на ПК. Возможно, я неверно понимаю про этот приватный набор. Вы же решили задачи. Где результаты?Вот: тест_на_скорость.01 )))))))))))))))))))))))))))) Для решения потребовалось = 2.477 Гбайт памяти Скорость = 22627.33 Мфл в секунду Время = 36.869 сек Реальное время проведенного расчета 0 час 6 мин 41 сек =========================== Для решения потребовалось = 2.477 Гбайт памяти Скорость = 23254.27 Мфл в секунду Время = 35.875 сек Реальное время проведенного расчета 0 час 6 мин 29 сек пример-кэм-20.01 )))))))))))))))))))))) Для решения потребовалось = 4.541 Гбайт памяти Скорость = 24863.20 Мфл в секунду Время = 14.635 сек Реальное время проведенного расчета 0 час 16 мин 21 сек ============================ Для решения потребовалось = 4.541 Гбайт памяти Скорость = 24770.12 Мфл в секунду Время = 14.690 сек Реальное время проведенного расчета 0 час 14 мин 48 сек Пример кран )))))))))))))))))))))))))) Для решения потребовалось = 6.202 Гбайт памяти Скорость = 22554.37 Мфл в секунду Время = 11.763 сек Реальное время проведенного расчета 0 час 32 мин 44 сек ИМХО хорошие результаты, учитывая что линпак дал 40 ГФлопс в пике на этом же конфиге. Ссылка на сообщение Поделиться на других сайтах
Bonusfrag 104 Опубликовано: 20 марта 2013 Жалоба Рассказать Опубликовано: 20 марта 2013 ИСПА на 3930 максимально показывает 90 Гфл. В 4 раза быстрее.Если взять старый результат: Вот результат на 3930 / 3,5 ГГц / 6 ядер: Р а з л о ж е н и е м а т р и ц ы Для решения потребовалось = 2.245 Гбайт памяти Скорость = 62621.77 Мфл Время = 13.275 сек то в пересчете на 4 ядра и 2,8 ГГц это будет 33397 Мфл (против 22627.33 Мфл).... в 1,5 раза. И это без учета, что у 3930 был 4х-канальный DDR3 на 1600 МГц... Ну это так - прикидка. Сегодня проверю на том же тесте, проекте, частоте итд - чтоб не пересчитывать. И ради справедливости отмечу, что 130 ГФ на 3930 в этом же пересчете дадут 70 ГФ!, т.е. в 1,75 раза больше. А если глянуть <noindex>сюда</noindex>, то в целом понятно, что в теории прирост будет в 2 раза максимум (регистр увеличили в два раза), если переходить с программы, хорошо оптимизированной под SSE, на AVX. Ссылка на сообщение Поделиться на других сайтах
Bonusfrag 104 Опубликовано: 20 марта 2013 Жалоба Рассказать Опубликовано: 20 марта 2013 Добавлю в тему презенташку - мож кому пригодтся. Optimization_Guide.pdf ISPA, у меня к вам вопрос - а можете сделать демку, в которой решение, т.е. пункт "разложение матрицы" выполняется N раз подряд - чтоб хотя бы на 5 минут времени набиралось - погреть процессор. Ссылка на сообщение Поделиться на других сайтах
Bonusfrag 104 Опубликовано: 20 марта 2013 Жалоба Рассказать Опубликовано: 20 марта 2013 Запускаете Процессор-Статика-Решение уравненийу меня там эти пункты заблокированы. ограничения демки? Ссылка на сообщение Поделиться на других сайтах
Bonusfrag 104 Опубликовано: 20 марта 2013 Жалоба Рассказать Опубликовано: 20 марта 2013 ТОгда будьте добры подробнее последовательность - вот я открыл проект. дальше: ? Ссылка на сообщение Поделиться на других сайтах
Рекомендованные сообщения