Перейти к публикации

Рекомендованные сообщения

Господа!

Кто-нибудь использует GPU для ускорения вычислений?

Возможна ли кооперация в этом вопросе?

Ссылка на сообщение
Поделиться на других сайтах


Кооперация какого рода?

И на базе чего?

Допустим, рано или поздно у нас в FlowVison будет проведена работа в этой области.

Ссылка на сообщение
Поделиться на других сайтах

Программный комплекс ИСПА использует GPU для ускорения расчета. Расчеты проводятся на float и double точности. Вопрос кооперации можно обсуждать.

Я поставил плату нового поколения ATI Radeon-5885, есть место еще для двух (материнка ASUS P6T6, проц - i7 QUAD, 12 Гб оперативка) По тестам одна графплата дает 2 Тф. Хотелось проверить уже на реальной задачке насколько быстрее все работает с GPU. Мои нейросетевые тесты проскакивают слишком быстро и не позволяют ощутить мощность вычислителя.
Ссылка на сообщение
Поделиться на других сайтах

На картах ATI не пробовал. Тестировал на картах NVIDIA. Информацию по результатам тестирования можно прочитать здесь.

<noindex>http://www.arbyte.ru/press/news/news221209.shtml</noindex>

Достижения для CUDA мне известны. Только я сторонник OPEN CL и более дешевых решений на железе. Конечно Тесла была совсем недавно безусловным лидером по производительности, но это уже в прошлом. И цена там немаленькая и конструктив специальный. Все же открытая технология привлекает больше:

<noindex>http://developer.amd.com/gpu/ATIStreamSDK/Pages/default.aspx</noindex>

Практик Прочнист использует.

Мы уже облизали <noindex>подробно эту тему</noindex>.

Я там, кроме выяснения отношений, ничего нового и позитивного не увидел. Может быть Вы подскажете, на чей пост обратить внимание?
Ссылка на сообщение
Поделиться на других сайтах

Обратить внимание нужно на следующее.

Все тесты проводились на картах с чипом GT200. По поводу ТФлопов. На небольших тестах можно добиться большой скорости. Связано это с SHARED памятью. Если задача помещается в быструю память, то скорость будет измеряться ТФлопами. Все таки это графические ускорители и пиковая производительность у них на графических задачах где матрица размером 4х4 и соответственно вектор 4х1 .

На реальных задачах максимальная скорость десятки ГФлопов.

Прежде чем продолжить я спрошу. А сколько видео памяти на борту Вашей ATI карты.

Прошу извинить за ошибку, карта не 5885 а 5850, память 1Гб

Подробно на:http://www.3dnews.ru/news/premera_dvuh_novinok_serii_ati_radeon_hd_5800/

Ссылка на сообщение
Поделиться на других сайтах

Я может что-то пропустил. А какой еще видео ускоритель с 4 Гб памяти считает быстрее и стоит дешевле, чем TESLA C1060?

На обычной материнке с 6-ю слотами PCI-e можно стандартно ставить 3 карты ATI Radeon-5970 (есть стандартный объединитель). На серверных с 8-ю слотами - 4 ATI.

По ценам:http://www.ixbt.com/news/all/index.shtml?12/33/60

Тесты: <noindex>http://www.3dnews.ru/video/amd_radeon_hd_5970</noindex>

Ссылка на сообщение
Поделиться на других сайтах

Если вы поставите 4 видео карты с 1Гб памяти каждая, то чтобы решить задачу размером в 4 Гб вам нужно будет написать специальный софт, который сможет распараллелить решаемую задачу на 4 видео карты. Узким местом по скорости решения будет PCI шина по которой карты будут обмениваться данными. Опять же тесты показывают, что скорость решения замедляется в 3 раза по сравнению со скоростью решения на 1 карте. Простое суммирование скорости каждой карты в отдельности для решения одной инженерной задачи не проходит.

Вот если решать четыре отдельные задачи, то ускорение будет в 4 раза, но 1 Гб памяти для одной задачи это очень мало.

Я и пытаюсь на примерах прощупать ситуацию. Много всяких прогнозов, но хотелось получить результат дешевле. Я не предлагаю какой-либо окончательный вариант GPU, но не хотелось бы переплачивать.

Кроме того открытые системы более привлекательны.

Ссылка на сообщение
Поделиться на других сайтах

Перечитал и понял, что не совсем правильно изложил мысль. Узким местом при решении задачи на нескольких видео картах будет не пропускная способность PCI шины, а скорость доступа к оперативной памяти. Так как обмен данными между картами происходит через оперативную память. Может как-то и можно передавать данные с карты на карту напрямую, но я такой возможности не знаю. :wallbash:

Т.к. карты будут висеть на PCI шине, скорость обмена о которым много ниже чем по магистралям к памяти, то узким горлышком будет именно PCI. Следующим будет шина памяти.

Ссылка на сообщение
Поделиться на других сайтах

Перечитал и понял, что не совсем правильно изложил мысль. Узким местом при решении задачи на нескольких видео картах будет не пропускная способность PCI шины, а скорость доступа к оперативной памяти. Так как обмен данными между картами происходит через оперативную память. Может как-то и можно передавать данные с карты на карту напрямую, но я такой возможности не знаю. :wallbash:

Самый дешевый вариант сегодня – подождать выхода трехсотого чипа для массовых пользователей. Чем я и занимаюсь.

После этого можно будет подобрать себе видео карту с оптимальным количеством оперативной памяти. Ну и конечно рекомендовать ее пользователям.

Ну 5970 уже есть в продаже. А это вполне достойный (а может и главный?) игрок на рынке GPU. А уже на след. неделе новый продукт 5970 Х2.

Разумеется память играет роль, но часто мы заблуждаемся, подражая стереотипам. А всякие умельцы простаивают за зря из-за банального отсутствия денег!

Вот недавно наблюдал интересное соревнование (почти по нашей теме): <noindex>http://dxdy.ru/topic30188.html</noindex>

А их бы энтузиазм да направить в нужное русло!

Если кто-то риснет хорошей суммой, то может получить неплохой результат и для подобных задач.

Вынужден повторить, что при решении реальных задач узким местом является не пропускная способность PCI шины, а скорость передачи данных в пределах оперативной памяти.

Уже говорил про умельцев:

<noindex>http://dxdy.ru/topic30188.html</noindex>

Ссылка на сообщение
Поделиться на других сайтах

Вынужден повторить, что при решении реальных задач узким местом является не пропускная способность PCI шины, а скорость передачи данных в пределах оперативной памяти.

Сие вечером трудно понимаемо, ибо скорость шины памяти больше PCI шины, поэтому все что со скрипом лезет из опертивки заведомо с большим скрипом будет лезть через PCI шину.

Честно говоря не понимаю, как физически более узкий кнал не является узким местом.

Можете объяснить?

Ссылка на сообщение
Поделиться на других сайтах

Ну понятно, оторвали у тараканчика ноги и сделали вывод что он слышит коленями.

100 мб для PCI-E (особенно последних версий) это крошки, в рамках полсекунды, наверное.

Странно все это.

А копирование идет средствами КУДы?

Ссылка на сообщение
Поделиться на других сайтах

В том то и дело. Но помимо работы решалки есть еще предварительные процедуры.

Даже если ускорим решалку в два раза, то в среднем итерация ускорится на 25%.

Тот же самый выигрыш и даже больше можно получить тупой установкой второго процессора или компа по соседству.

Такие вот дела пока.

Но мы думаем, думаем...

Ссылка на сообщение
Поделиться на других сайтах

Вы тестировали на своем коде. У нас свои заморочки.

Тут просто смотря от чего отталкиваться. Если текущая реализация, то фигвам выйдет.

А если начать осмысленно менять структуру под GPU, то кто его знает.

Ссылка на сообщение
Поделиться на других сайтах
  • 2 недели спустя...

привет)

Т.к. интересуюсь и расчетами и новыми технологиями, то эта тема мне очень интересна.

Допустим, рано или поздно у нас в FlowVison будет проведена работа в этой области.

жду с нетерпением)) очень интересно посмотреть)

Вообще, тему GPU отслеживаю давно, но по большей части для карт ATI. Вот даже темка такая есть: <noindex>http://forum.radeon.ru/viewtopic.php?t=30209</noindex>

всё что я смог найти, всё попробовал вживую)

реального прироста в реальных приложениях, где можно сравнить с GPU и без него, пока ни разу не видел. Только в бенчмарках.

к сожалению, после смерти "якартинко" побились все иллюстрации, а так неплохая собирательная тема получилась.

Ссылка на сообщение
Поделиться на других сайтах

привет)

Т.к. интересуюсь и расчетами и новыми технологиями, то эта тема мне очень интересна.

жду с нетерпением)) очень интересно посмотреть)

Вообще, тему GPU отслеживаю давно, но по большей части для карт ATI. Вот даже темка такая есть: <noindex>http://forum.radeon.ru/viewtopic.php?t=30209</noindex>

всё что я смог найти, всё попробовал вживую)

реального прироста в реальных приложениях, где можно сравнить с GPU и без него, пока ни разу не видел. Только в бенчмарках.

к сожалению, после смерти "якартинко" побились все иллюстрации, а так неплохая собирательная тема получилась.

А что Вы думаете об OPEN CL? Даст ли это толчек к новым, практическим разработкам?
Ссылка на сообщение
Поделиться на других сайтах

На данный момент у АТИ есть Stream, у Nvidia есть Cuda, и есть два не зависящих от железа варианта DirectCompute от MS и OpenCL.

Живых примеров под Cuda гораздо больше, чем под Stream, причем под Cuda примеры пользовательские, а для Stream - в основном от партнёров ATI, так что Cuda пока впереди

а cудьба у OpenCL vs DirectCompute, думаю, будет такая же как у OpenGL vs DirectX..., реально живых приложений сейчас я не знаю - несколько бенчмарков, и всё. OpenCL возьмут себе разработчики проф.решений, как платформо-независимый, DirectCompute будет гораздо быстрее развиваться, но только под виндой...

Вроде бы аппаратные средства доступны, всяческие SDK и поддержка в драйверах есть, но энтузиастов, как я понимаю, не очень много и до реальных решений пока мало кто дошел. Будем ждать...

Ссылка на сообщение
Поделиться на других сайтах

На данный момент у АТИ есть Stream, у Nvidia есть Cuda, и есть два не зависящих от железа варианта DirectCompute от MS и OpenCL.

Живых примеров под Cuda гораздо больше, чем под Stream, причем под Cuda примеры пользовательские, а для Stream - в основном от партнёров ATI, так что Cuda пока впереди

а cудьба у OpenCL vs DirectCompute, думаю, будет такая же как у OpenGL vs DirectX..., реально живых приложений сейчас я не знаю - несколько бенчмарков, и всё. OpenCL возьмут себе разработчики проф.решений, как платформо-независимый, DirectCompute будет гораздо быстрее развиваться, но только под виндой...

Вроде бы аппаратные средства доступны, всяческие SDK и поддержка в драйверах есть, но энтузиастов, как я понимаю, не очень много и до реальных решений пока мало кто дошел. Будем ждать...

Есть вроде простая задачка - нахождение ХЭШей (HASH) для файлов. Особенно это используется для целей каталогизации книг и поиска дублей файлов.

Может Вы видели подобное где-нибудь под GPU?

Ссылка на сообщение
Поделиться на других сайтах

слышал, но сам не пробовал... но подобное мне малоинтересно. есть программка для взлома пароля под GPU, но смысла в подобном не вижу...

меня более радуют новости типа <noindex>http://www.emt.ru/news.php?id=278</noindex> , т.е. очевидно, что разработчики про-софта присматриваются к технологии и там, где выигрыш возможен, они попробуют его получить.

Ссылка на сообщение
Поделиться на других сайтах

Присоединяйтесь к обсуждению

Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.
Примечание: вашему сообщению потребуется утверждение модератора, прежде чем оно станет доступным.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу.




×
×
  • Создать...