Перейти к публикации

Суперкомпьютер своими руками для расчетов в ansys и 3d приложениях


Рекомендованные сообщения

когда основной процессор(ры) и GPU будут работать с общим полем оперативной памяти.

Все равно данные по шине придется гонять.

Игровая карта это же внешнее устройство. :unsure:

Ссылка на сообщение
Поделиться на других сайтах


PCI-e-3 всего в 2 раза быстрей, это мало чувствоется, а может еще и дрова мало приспособлены. По крайней мере у меня нет прорыва, хотя ускорение некое есть .

Насчет "Все равно данные по шине придется гонять. " я говорю о другой, безшинной организации доступа к общей памяти. В нотбуках мать-плата уже интегрировыанная, хотя память разделена. Осталя один шаг, и, помяните мои слова, скоро Вы это увидете!!!

Есть южный и северный мосты, будут западный и восточный вдобавок.

Ссылка на сообщение
Поделиться на других сайтах

PCI-e-3 всего в 2 раза быстрей, это мало чувствоется, а может еще и дрова мало приспособлены. По крайней мере у меня нет прорыва, хотя ускорение некое есть .

А у вас какая скорость на видео картах?
Ссылка на сообщение
Поделиться на других сайтах

Термопастой, чтоб не перегревалась...

Да она скрипит, а не греется. Чем винчестеры то смазываются, чтобы подшипник исправно работал? Может этой фигней попробовать. Гидродинамической и все такое :rolleyes:
Ссылка на сообщение
Поделиться на других сайтах

Насчет "Все равно данные по шине придется гонять. " я говорю о другой, безшинной организации доступа к общей памяти.

....

Есть южный и северный мосты, будут западный и восточный вдобавок.

Так есть уже такая архитектура. Компьютер у меня на столе стоит, уже 2 месяца.

Повторю еще раз. На одном ядре СРЕДНЯЯ скорость полной факторизации матриц размером 4-60 Гб, составляет 20 Гф. При тактовой частоте ядра 3.2 Ггц.

Это то что я лично проверял.

То есть 6.2 операций с плавающей точкой за 1 такт.

На шести ядрах это 90 Гфл.

Это и есть высоко параллельные вычисления. Но на ГПУ такое не получится. :unsure:

Таких ядер на сегодня может быть до 80 и у них доступ к общей памяти до 750 Гб.

И это все уже можно купить. И не ждать строительства мостов. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Скоростные х-ки GPU здесь: <noindex>http://en.wikipedia.org/wiki/Comparison_of..._7xxx.29_series</noindex>

Что касается моей конкретной задачи, то там удалось задействовать не более 7% мощности карты 7950. Это связано с малостью блоков при блочной факторизации в методе UMF (матрица всего 60000x60000 с заполненностью 2.3%). Но размер блоков UMF быстро растет с ростом размерности задачи или с заполненностью матрицы, поэтому, мне кажется, что в Ваших размерностях можно будет получить существенно большее быстродействие на GPU.

Ссылка на сообщение
Поделиться на других сайтах

что в Ваших размерностях можно будет получить существенно большее быстродействие на GPU.

Это не совсем так.

Чтобы факторизовать матрицу 40 Гб мне потребуется 7 ващих карт. Это если на вашей карте 6 Гб памяти.

А если гонять данные по шине, пользоваться 1 картой, то скорость упадет на порядки.

Но даже на матрице 4 Гб скорость вашей программы в 2 раза ниже.

А на 80 ядрах мой решатель будет работать как минимум в 10 раз быстрее.

На 80 ядрах кеш = 240 000 000 байт. Отсюда и скорость работы с большими матрицами.

А в вашем варианте кеш = 64 000 байт. Как говорится, кот наплакал. :unsure:

Я же все это проверяю, на кошках, пардон на тестах. Поэтому и вернулся на CPU.

Я уверен, что следующий ИГРОВОЙ процессор Интел еще раза в 2 ускорит. И память будет 128 Гб.

Ссылка на сообщение
Поделиться на других сайтах

Что касается моей конкретной задачи, то там удалось задействовать не более 7% мощности карты 7950.

Так это пиковая скорость. И всего 50 Гфл.

А если добавить время загрузки и выгрузки данных в/из видео памяти, так скорость еще упадет. И упадет существенно.

Ссылка на сообщение
Поделиться на других сайтах

Так это пиковая скорость. И всего 50 Гфл.

А если добавить время загрузки и выгрузки данных в/из видео памяти, так скорость еще упадет. И упадет существенно.

Пиковая скорость карты - 700 гигафлопс. Я ранее указал, что проблема в том, что GPU и CPU работают с разными полями памяти. Именно обмен и является тормозом. Как только этот тормоз пропадет, сразу будет скачек производительности.

Факторизация матрицы в методе UMF не требует большой памяти видеокарты, т.к. она блочная и размером блоков можно управлять, так что семи карт не надо.

Про это можете почитать в описании метода.

Другое дело - написание оптимальной программы для факторизации разреженной матрицы общего вида для GPU. Я уже здесь спрашивал об этом, но вижу, что пока этот вопрос никто не просматривал. Все ускорения привязаны к определенным матрицам и к различным видам предобуславливателей, что непригодно для матриц с комплексным спектром СЗ. Это я тоже ранее говорил здесь.

Я вижу, как идут интенсивные разработки в деле оптимизации расчетов на GPU: <noindex>http://www.multicorewareinc.com/index.php</noindex> и результаты уже неплохие.

Ссылка на сообщение
Поделиться на других сайтах

Пиковая скорость карты - 700 гигафлопс.

Это пиковая скорость для маленьких матриц. Это же видео карта. Изначально приспособлена для матриц 4х4. Когда вся матрица размещена в быстрой памяти.

Это рекламный ход.

Я ранее указал, что проблема в том, что GPU и CPU работают с разными полями памяти. Именно обмен и является тормозом. Как только этот тормоз пропадет, сразу будет скачек производительности.

Не будет большого скачка. Очень маленький кэш.

Факторизация матрицы в методе UMF не требует большой памяти видеокарты, т.к. она блочная и размером блоков можно управлять, так что семи карт не надо.

Про это можете почитать в описании метода.

У меня на выходе факторизованная матрица занимает 40-60 Гб. Это без нулей естественно.

Чем меньше размер блока, тем большее количество раз я буду качать его туда-обратно. :unsure:

Мне нужно для факторизаии 40-60 Гб оперативной памяти. Где мне ее хранить факторизованную матрицу?

А работа с правой частью вы где делаете? Если на ГПУ, то нужно опять блоки закачивать в видео память.

Ссылка на сообщение
Поделиться на других сайтах

Факторизация матрицы в методе UMF

Саму программу писали ваши хлопцы или вы используете стандартный пакет?

Квкого размера у вас факторизованная матрица?

Если полностью факторизованная матрица не будет влезать в видео память, то скорость упадет минимум на порядок.

А уж какая будет скорость если матрицу в 60 Гб решать на 6 Гб видео памяти я даже и не знаю. Но очень маленькая. :unsure:

Но нужно иметь 60 Гб оперативной памяти и качать блоки в видео память и обратно.

И при этом CPU будут простаивать. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

Саму программу писали ваши хлопцы или вы используете стандартный пакет?

Квкого размера у вас факторизованная матрица?

Если полностью факторизованная матрица не будет влезать в видео память, то скорость упадет минимум на порядок.

А уж какая будет скорость если матрицу в 60 Гб решать на 6 Гб видео памяти я даже и не знаю. Но очень маленькая. :unsure:

Но нужно иметь 60 Гб оперативной памяти и качать блоки в видео память и обратно.

И при этом CPU будут простаивать. :unsure:

Используется BLAS разработки nVIDIA и AMD специально для их карт.

1. Вы видно так и не поняли, как работает UMFPACK, как идет блочная факторизация. 2. Еще раз (уж в который!!!) повторяю: нет программ, полностью загружаемых в видеопамять, т.к. нет соответствующих команд (типа if, go_to и т.п.). Карта делает только арифметические операции, отсюда и все проблемы.

Ссылка на сообщение
Поделиться на других сайтах

нет программ, полностью загружаемых в видеопамять, т.к. нет соответствующих команд (типа if, go_to и т.п.). Карта делает только арифметические операции, отсюда и все проблемы.

Это мне не нужно объяснять.

1. Перед началом факторизации определяется заполняемость ПОЛНОСТЬЮ факторизованной матрицы.

2. Все блоки, ОДИН раз передаются в видео память.

3. Делается полная факторизация.

4. Обрабатывается правая часть.

5. Если нужно, факторизованная матрица передается обратно в оперативную память.

При этом синхронизирует процесс факторизации ОДНО ядро CPU.

Остальные ядра в вашем случае простаивают. :unsure:

Вы посчитайте количество операций которые делает ГПУ и разделите на время работы программы.

Даже если вся факторизованная матрица влезает в видео память скорость будет меньше чем на новых игровых CPU от Интел.

В этом вся фишка. :unsure:

700 Гфл на ГПУ - это рекламная тюлька. Продавать то надо товар. :unsure:

Для решения матриц в 60 Гфл потребуется 10 видео ускорителей с памятьб 6 Гб на борту. И не факт что это быстрее чем на ЦПУ. :unsure:

Ссылка на сообщение
Поделиться на других сайтах

UMFPACK: unsymmetric multifrontal sparse LU factorization package

Так вы используете готовый продукт.

И даже не измерили скорость этого продукта.

Тогда понятно почему вы говорите про 700 Гфл.:unsure:

Ссылка на сообщение
Поделиться на других сайтах

Вы заменили BLAS функции в пакете UMFPACK.

Поэтому и качаете блоки с данными туда-обратно.

Измеряйте скорость факторизации матрицы на 4 Гб.

Скорость будет очень маленькая. :unsure:

А для матрицы в 40 Гб скорость будет стремиться к 0.

И при этом ядра ЦПУ не будут делать никакой вычислительной работы.

Так это не ускоритель на ГПУ, а замедлитель ЦПУ. :unsure:

Ссылка на сообщение
Поделиться на других сайтах
  • MFS открепил тему
Гость
Эта тема закрыта для публикации сообщений.
  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу.




  • Сообщения

    • maxx2000
      Подушную малость. Чё там. Уже в упор научились резьбу резать без выходной канавки?
    • ispite
      Здравствуйте, не могу построить стандартную сетку, что не позволяет дальше провести расчёт. Получается сделать сетку "на основе кривизны", но солид отказывается считать, после нажатия кнопки "запустить исследование" происходит сбой. https://disk.yandex.ru/d/D8wvRbYMW1lWjQ
    • ddm
      изготовить по чертежу с последующим покрытием,цинкование ,по 1000 шт каждой позиции ,предложение отправить на почту qwer463@yandex.ru
    • sklide008
      И еще можно ли задать горчие клавиши на кнопки открыть, скрыть и тд?
    • sklide008
      Подскажите, пожалуйста, в инвенторе есть такой пункт упорядочи по алфавиту дерево. Здесь найти такого не могу, пытался treesorter ставить но он добавляет просто в папку а не сортирует в дереве. Есть ли такой макрос чтобы все детали в дереве по порядку и алфавиту шли?
    • stanislavz
      Есть станок с данным контроллером. Все работает. Недавно была проблема с передачей данных - установил запасной контроллер. А запасной контроллер сказал нет работе. Проблема была в программе компьютера для передачи данных. Грустно, досадно, контроллер был куплен как рабочий. Как бы и не горит, но необходимо поправить. Плата управления с процессором mc68020, память hm628128-10. Память буферным питанием от 3 батареек + 0,5 Фарада на плате как буфер для замены батареек на 1 сутки. Лежало долго, без батареек. Симптомы: После первого включения, в памяти были и программы и параметры (0 странность). Честно, удивило. Но - система жутко тормозит, отклик на нажатие кнопки 3-5 секунд. В таком режиме сумел закачать машинные параметры под свой станок. Но это заняло час.. 4 строки и ждет секунд 10 итд. Есть видео. Перекинул с рабочего контроллера, БП, плату плц, ээпром плц - все то же. Проверил осциллографом кварцы живые , частота есть, амплитуда хорошая. 1 странность - после манипуляций по замене батарейки, старые записи из памяти исчезли. Ничего не коротнул. Возможно 0,5 Ф был не заряжен. Там тоже необходимы сутки для зарядки. Но как оно было запечатоно до этого - мистика. 2 странность. Если плата лежит ночь без питания, только с буфером - потом 2-3 минуты работает хорошо. 3 аналогично работает 2-3 минуты если питание отключить и очистить питание памяти (выпаял 0,5 Ф буфер с платы) Проверка памяти на старте есть. Проходит хорошо. На зависает, на холодную пайку не похоже. Шевелил / двигал все. Да и не виснет, именно тормозит. При том если оставить на час - тоже все стабильно плохо. Если набрать быстро 5 символей- экран сразу пуст, но после задержки символы будут на экране. Заказал второй процессор и память. 10 штук. Подавал прямо 5 вольт на память - все так же. Токи потребления между плохой и хорошей платой смогу проверит.    
    • brigval
    • Ветерок
      "увеличение оптимизации". Оптимизацию невозможно ни увеличить, ни уменьшить.
    • gudstartup
      @boomeeeer может от страны зависит
    • david1920
      нет время нет заниматься да и информации новой нет Это я на других станках делал
×
×
  • Создать...