Перейти к публикации

Рекомендованные сообщения

Господа!

Кто-нибудь использует GPU для ускорения вычислений?

Возможна ли кооперация в этом вопросе?

Ссылка на сообщение
Поделиться на других сайтах


Кооперация какого рода?

И на базе чего?

Допустим, рано или поздно у нас в FlowVison будет проведена работа в этой области.

Ссылка на сообщение
Поделиться на других сайтах

Программный комплекс ИСПА использует GPU для ускорения расчета. Расчеты проводятся на float и double точности. Вопрос кооперации можно обсуждать.

Я поставил плату нового поколения ATI Radeon-5885, есть место еще для двух (материнка ASUS P6T6, проц - i7 QUAD, 12 Гб оперативка) По тестам одна графплата дает 2 Тф. Хотелось проверить уже на реальной задачке насколько быстрее все работает с GPU. Мои нейросетевые тесты проскакивают слишком быстро и не позволяют ощутить мощность вычислителя.
Ссылка на сообщение
Поделиться на других сайтах

На картах ATI не пробовал. Тестировал на картах NVIDIA. Информацию по результатам тестирования можно прочитать здесь.

<noindex>http://www.arbyte.ru/press/news/news221209.shtml</noindex>

Достижения для CUDA мне известны. Только я сторонник OPEN CL и более дешевых решений на железе. Конечно Тесла была совсем недавно безусловным лидером по производительности, но это уже в прошлом. И цена там немаленькая и конструктив специальный. Все же открытая технология привлекает больше:

<noindex>http://developer.amd.com/gpu/ATIStreamSDK/Pages/default.aspx</noindex>

Практик Прочнист использует.

Мы уже облизали <noindex>подробно эту тему</noindex>.

Я там, кроме выяснения отношений, ничего нового и позитивного не увидел. Может быть Вы подскажете, на чей пост обратить внимание?
Ссылка на сообщение
Поделиться на других сайтах

Обратить внимание нужно на следующее.

Все тесты проводились на картах с чипом GT200. По поводу ТФлопов. На небольших тестах можно добиться большой скорости. Связано это с SHARED памятью. Если задача помещается в быструю память, то скорость будет измеряться ТФлопами. Все таки это графические ускорители и пиковая производительность у них на графических задачах где матрица размером 4х4 и соответственно вектор 4х1 .

На реальных задачах максимальная скорость десятки ГФлопов.

Прежде чем продолжить я спрошу. А сколько видео памяти на борту Вашей ATI карты.

Прошу извинить за ошибку, карта не 5885 а 5850, память 1Гб

Подробно на:http://www.3dnews.ru/news/premera_dvuh_novinok_serii_ati_radeon_hd_5800/

Ссылка на сообщение
Поделиться на других сайтах

Я может что-то пропустил. А какой еще видео ускоритель с 4 Гб памяти считает быстрее и стоит дешевле, чем TESLA C1060?

На обычной материнке с 6-ю слотами PCI-e можно стандартно ставить 3 карты ATI Radeon-5970 (есть стандартный объединитель). На серверных с 8-ю слотами - 4 ATI.

По ценам:http://www.ixbt.com/news/all/index.shtml?12/33/60

Тесты: <noindex>http://www.3dnews.ru/video/amd_radeon_hd_5970</noindex>

Ссылка на сообщение
Поделиться на других сайтах

Если вы поставите 4 видео карты с 1Гб памяти каждая, то чтобы решить задачу размером в 4 Гб вам нужно будет написать специальный софт, который сможет распараллелить решаемую задачу на 4 видео карты. Узким местом по скорости решения будет PCI шина по которой карты будут обмениваться данными. Опять же тесты показывают, что скорость решения замедляется в 3 раза по сравнению со скоростью решения на 1 карте. Простое суммирование скорости каждой карты в отдельности для решения одной инженерной задачи не проходит.

Вот если решать четыре отдельные задачи, то ускорение будет в 4 раза, но 1 Гб памяти для одной задачи это очень мало.

Я и пытаюсь на примерах прощупать ситуацию. Много всяких прогнозов, но хотелось получить результат дешевле. Я не предлагаю какой-либо окончательный вариант GPU, но не хотелось бы переплачивать.

Кроме того открытые системы более привлекательны.

Ссылка на сообщение
Поделиться на других сайтах

Перечитал и понял, что не совсем правильно изложил мысль. Узким местом при решении задачи на нескольких видео картах будет не пропускная способность PCI шины, а скорость доступа к оперативной памяти. Так как обмен данными между картами происходит через оперативную память. Может как-то и можно передавать данные с карты на карту напрямую, но я такой возможности не знаю. :wallbash:

Т.к. карты будут висеть на PCI шине, скорость обмена о которым много ниже чем по магистралям к памяти, то узким горлышком будет именно PCI. Следующим будет шина памяти.

Ссылка на сообщение
Поделиться на других сайтах

Перечитал и понял, что не совсем правильно изложил мысль. Узким местом при решении задачи на нескольких видео картах будет не пропускная способность PCI шины, а скорость доступа к оперативной памяти. Так как обмен данными между картами происходит через оперативную память. Может как-то и можно передавать данные с карты на карту напрямую, но я такой возможности не знаю. :wallbash:

Самый дешевый вариант сегодня – подождать выхода трехсотого чипа для массовых пользователей. Чем я и занимаюсь.

После этого можно будет подобрать себе видео карту с оптимальным количеством оперативной памяти. Ну и конечно рекомендовать ее пользователям.

Ну 5970 уже есть в продаже. А это вполне достойный (а может и главный?) игрок на рынке GPU. А уже на след. неделе новый продукт 5970 Х2.

Разумеется память играет роль, но часто мы заблуждаемся, подражая стереотипам. А всякие умельцы простаивают за зря из-за банального отсутствия денег!

Вот недавно наблюдал интересное соревнование (почти по нашей теме): <noindex>http://dxdy.ru/topic30188.html</noindex>

А их бы энтузиазм да направить в нужное русло!

Если кто-то риснет хорошей суммой, то может получить неплохой результат и для подобных задач.

Вынужден повторить, что при решении реальных задач узким местом является не пропускная способность PCI шины, а скорость передачи данных в пределах оперативной памяти.

Уже говорил про умельцев:

<noindex>http://dxdy.ru/topic30188.html</noindex>

Ссылка на сообщение
Поделиться на других сайтах

Вынужден повторить, что при решении реальных задач узким местом является не пропускная способность PCI шины, а скорость передачи данных в пределах оперативной памяти.

Сие вечером трудно понимаемо, ибо скорость шины памяти больше PCI шины, поэтому все что со скрипом лезет из опертивки заведомо с большим скрипом будет лезть через PCI шину.

Честно говоря не понимаю, как физически более узкий кнал не является узким местом.

Можете объяснить?

Ссылка на сообщение
Поделиться на других сайтах

Ну понятно, оторвали у тараканчика ноги и сделали вывод что он слышит коленями.

100 мб для PCI-E (особенно последних версий) это крошки, в рамках полсекунды, наверное.

Странно все это.

А копирование идет средствами КУДы?

Ссылка на сообщение
Поделиться на других сайтах

В том то и дело. Но помимо работы решалки есть еще предварительные процедуры.

Даже если ускорим решалку в два раза, то в среднем итерация ускорится на 25%.

Тот же самый выигрыш и даже больше можно получить тупой установкой второго процессора или компа по соседству.

Такие вот дела пока.

Но мы думаем, думаем...

Ссылка на сообщение
Поделиться на других сайтах

Вы тестировали на своем коде. У нас свои заморочки.

Тут просто смотря от чего отталкиваться. Если текущая реализация, то фигвам выйдет.

А если начать осмысленно менять структуру под GPU, то кто его знает.

Ссылка на сообщение
Поделиться на других сайтах
  • 2 недели спустя...

привет)

Т.к. интересуюсь и расчетами и новыми технологиями, то эта тема мне очень интересна.

Допустим, рано или поздно у нас в FlowVison будет проведена работа в этой области.

жду с нетерпением)) очень интересно посмотреть)

Вообще, тему GPU отслеживаю давно, но по большей части для карт ATI. Вот даже темка такая есть: <noindex>http://forum.radeon.ru/viewtopic.php?t=30209</noindex>

всё что я смог найти, всё попробовал вживую)

реального прироста в реальных приложениях, где можно сравнить с GPU и без него, пока ни разу не видел. Только в бенчмарках.

к сожалению, после смерти "якартинко" побились все иллюстрации, а так неплохая собирательная тема получилась.

Ссылка на сообщение
Поделиться на других сайтах

привет)

Т.к. интересуюсь и расчетами и новыми технологиями, то эта тема мне очень интересна.

жду с нетерпением)) очень интересно посмотреть)

Вообще, тему GPU отслеживаю давно, но по большей части для карт ATI. Вот даже темка такая есть: <noindex>http://forum.radeon.ru/viewtopic.php?t=30209</noindex>

всё что я смог найти, всё попробовал вживую)

реального прироста в реальных приложениях, где можно сравнить с GPU и без него, пока ни разу не видел. Только в бенчмарках.

к сожалению, после смерти "якартинко" побились все иллюстрации, а так неплохая собирательная тема получилась.

А что Вы думаете об OPEN CL? Даст ли это толчек к новым, практическим разработкам?
Ссылка на сообщение
Поделиться на других сайтах

На данный момент у АТИ есть Stream, у Nvidia есть Cuda, и есть два не зависящих от железа варианта DirectCompute от MS и OpenCL.

Живых примеров под Cuda гораздо больше, чем под Stream, причем под Cuda примеры пользовательские, а для Stream - в основном от партнёров ATI, так что Cuda пока впереди

а cудьба у OpenCL vs DirectCompute, думаю, будет такая же как у OpenGL vs DirectX..., реально живых приложений сейчас я не знаю - несколько бенчмарков, и всё. OpenCL возьмут себе разработчики проф.решений, как платформо-независимый, DirectCompute будет гораздо быстрее развиваться, но только под виндой...

Вроде бы аппаратные средства доступны, всяческие SDK и поддержка в драйверах есть, но энтузиастов, как я понимаю, не очень много и до реальных решений пока мало кто дошел. Будем ждать...

Ссылка на сообщение
Поделиться на других сайтах

На данный момент у АТИ есть Stream, у Nvidia есть Cuda, и есть два не зависящих от железа варианта DirectCompute от MS и OpenCL.

Живых примеров под Cuda гораздо больше, чем под Stream, причем под Cuda примеры пользовательские, а для Stream - в основном от партнёров ATI, так что Cuda пока впереди

а cудьба у OpenCL vs DirectCompute, думаю, будет такая же как у OpenGL vs DirectX..., реально живых приложений сейчас я не знаю - несколько бенчмарков, и всё. OpenCL возьмут себе разработчики проф.решений, как платформо-независимый, DirectCompute будет гораздо быстрее развиваться, но только под виндой...

Вроде бы аппаратные средства доступны, всяческие SDK и поддержка в драйверах есть, но энтузиастов, как я понимаю, не очень много и до реальных решений пока мало кто дошел. Будем ждать...

Есть вроде простая задачка - нахождение ХЭШей (HASH) для файлов. Особенно это используется для целей каталогизации книг и поиска дублей файлов.

Может Вы видели подобное где-нибудь под GPU?

Ссылка на сообщение
Поделиться на других сайтах

слышал, но сам не пробовал... но подобное мне малоинтересно. есть программка для взлома пароля под GPU, но смысла в подобном не вижу...

меня более радуют новости типа <noindex>http://www.emt.ru/news.php?id=278</noindex> , т.е. очевидно, что разработчики про-софта присматриваются к технологии и там, где выигрыш возможен, они попробуют его получить.

Ссылка на сообщение
Поделиться на других сайтах

Присоединяйтесь к обсуждению

Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.
Примечание: вашему сообщению потребуется утверждение модератора, прежде чем оно станет доступным.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу.




  • Сообщения

    • Bot
      Компания Hypertherm Associates, американский производитель систем промышленной резки и программного обеспечения, объявила о выпуске основного обновления ПО для раскроя ProNest® 2025 версии 16.0. Смотреть полностью
    • Fedor
      Разве не знали, что если сталь хорошенько нагревать то сначала она становится пластичной и ее куют, а если еще нагревать то и жидкой и ее можно лить ?   :)   Так же и с грунтами ... :)
    • ДОБРЯК
      @Orchestra2603 вот смотрите что получается.  Вы получили систему линейных однородных уравнений. Вы пишите, что "Выкидываем повторную строку". Вы её не выкидываете, а записываете уравнение Ф1(1) = b.  Вы вводите точку отсчета для определения перемещений. Вы закрепляете модель. Только точка отсчета будет равняться не 0, а точка отсчета будет равняться b.  А все остальное дело техники... :=) В любом случае чтобы решить СЛАУ нужно ввести точку отсчета. Для решения задачи в которой, например 10 или 100 или... степеней свободы вам придется сделать численную факторизацию и ввести точку отсчета.
    • _GOST_
      Открываете любую модель (деталь/сборка) => выбираете любую панель инструментов, на которой хотите разместить значок макроса => кликаете на панели ПКМ => Адаптация пользовательских команд. Дальнейшие действия на изображении во вложении.
    • Рома калужский
      я же отписался, все работает.  спасибо
    • Viktor2004
      вот я и хотел что бы при запуске приложения C-Exe оно у меня сразу определяло нажата кнопка или нет. Оказалось это невозможно
    • Борман
      По вашей логике в сталях "примерно" как в грунтах, а в грунтах "примерно" как в воде. Спасибо, познавательно.
    • maxx2000
      SW стал средой для разработки печатных плат? как минимум с 2018 солидворкс не является средой для разработки печатных плат, соответственно программу сверловки\фрезеровки ПП можно в нём изготовить только загрузив в него внешний файл созданный в другой программе. Обычно это Gerber формат  содержит информацию  о слоях меди, маски припоя, условных обозначений, данных сверления и т.д. Я бы рекомендовал тебе отказаться от этой связки, есть полно специализированных программ для проектирования ПП и полно программ делающих их мехобработку практически в 2 клика
    • gudstartup
      так во время загрузки клавиши опрашивает сначала лоадер а потом системное по и только при появлении экрана вашего приложения нажатие обязано передаваться ему. если вы работаете на экране setting то нажатые клавиши не передаются в редактирование потому что она не активна. системное по обязано помещать mdi ввод для активного приложения в какие либо переменные иначе просто невозможно наладить взаимодействие оператора и программы нужно только знать эти переменные. 
    • Fedor
      Есть еще закон Кулона для грунтов https://saitinpro.ru/glavnaya/nesushchie-konstruktsii/grunty-i-fundamenty/osnovaniya-fundamentov/soprotivlenie-gruntov-sdvigu-zakon-kulona/   Это примерно как Мизес для сталей.  https://studref.com/621812/stroitelstvo/prochnost_gruntov_zakon_kulona_svyaznyh_nesvyaznyh_gruntov  . Показывает когда начинается течение.  :)
×
×
  • Создать...