Спецификации NVIDIA Tesla 20 показывают снижение производительности Fermi

На конференции SC12 Supercomputing в Солт-Лейк-Сити NVIDIA представила вычислительные карты для серверов и рабочих станций Tesla K20 и K20X на основе GPU GK110. Две версии, о которых мы поговорим ниже чуть подробнее, и объясняют путаницу, которая существовала в последние недели вокруг Tesla K20.

Изначально поставщик стоечных серверов на GPU сообщил, что карты NVIDIA Tesla K20 будут использовать GK110 с 13 кластерами SMX, каждый со 192 ядрами CUDA, что дает 2496 ядер CUDA в общей сложности. Вскоре на открытии суперкомпьютера Titanium было указано на 2688 ядер CUDA, что указывает на 14 кластеров SMX.

И существование двух версий карт объясняет подобный дуализм.

Спецификации NVIDIA Tesla 20 показывают снижение производительности Fermi Tesla K20 на основе GK110

Tesla K20X — новая high-end модель для вычислений на GPU, ускоритель ориентирован исключительно на серверы. Чуть менее мощная карта Tesla K20 нацелена и на серверы, и на рабочие станции.

GF110Tesla M2090	GK104Tesla K10	GK110Tesla K20	GK110Tesla K20X
Техпроцесс	40 нм	28 нм	28 нм	28 нм
Число транзисторов	3 млрд.	2x 3,54 млрд.	7,1 млрд.	7,1 млрд.
Техпроцесс	530 мм²	294 мм²	предполож. 600 мм²	предполож. 600 мм²
TDP	225 Вт	225 Вт	225 Вт	235 Вт
Тактовая частота GPU	1300 МГц	2x 745 МГц	— МГц	— МГц
Тактовая частота памяти	463 МГц	625 МГц	— МГц	— МГц
Тип памяти	GDDR5-ECC	GDDR5-ECC	GDDR5-ECC	GDDR5-ECC
Объём памяти	6144 Мбайт	8192 Мбайт	5120 Мбайт	6144 Мбайт
Ширина шины памяти	384 бит	256 бит	320 бит	384 бит
Пропускная способность памяти	177 Гбайт/с	2x 160 Гбайт/с	208 Гбайт/с	250 Гбайт/с
Потоковые процессоры	512 (1D)	2x 1536 (1D)	2496 (1D)	2688 (1D)
Кэш L1	64 кбайт	64 кбайт	64 кбайт	64 кбайт
Кэш L2	768 кбайт	512 кбайт	1,5 Мбайт	1,5 Мбайт
ECC	Память и кэши	Только память	Память и кэши	Память и кэши
FP64	1/2 FP32	1/24 FP32	1/3 FP32	1/3 FP32
Одиночная точность	1,33 TFlops	4,58 TFlops	3,52 TFlops	3,95 TFlops
Двойная точность	0,66 TFlops	0,19 TFlops	1,17 TFlops	1,31 TFlops

Огромный прирост производительности в вычислениях с двойной точностью и скромный прирост производительности с одинарной точностью можно объяснить смещением акцента с FP32 на FP64. Графический процессор GK110 стал первым чипом NVIDIA, ориентированным полностью на профессиональный рынок и сферы HPC (High Performance Computing).

Карта Tesla K10 базируется на двух GPU GK104, которые относятся к первому поколению «Kepler» и ориентированы, в том числе, и на GPU GeForce, а в рендеринге производительность с одинарной точность играет решающую роль. Рейтинг производительности с одинарной точностью по отношению к двойной точности был снижен с 1/2 до 1/24.

Наконец, у GK104 технологией ECC защищается только оперативная память, но не кэши.

Спецификации NVIDIA Tesla 20 показывают снижение производительности Fermi Диаграмма GK110

У GK110 был пересмотрен рейтинг между вычислениями с плавающей запятой с одинарной и двойной точностью, было увеличено количество ядер CUDA, увеличен до 1,5 Мбайт кэш L2, шина памяти расширена до 384 битов, защита от случайных ошибок обеспечивается технологией ECC.

Почему же NVIDIA не выбрала 512-битный интерфейс памяти? Дело в том, что 7,1 млрд. транзисторов занимают на кристалле GK110 площадь около 600 мм² (GK104: 294 мм²), что позволяет назвать новый чип уже самым крупным в мире (по количеству транзисторов), по 28-нм технологии его непросто производить, да и очень дорого.

512-битная шина памяти потребовала бы ещё большей площади чипа аппаратно, так что NVIDIA пошла на компромисс.

Для получения более высокой производительности с двойной точностью, NVIDIA установила 64 ядра Floating Point на кластер SMX, у GK104 использовалось только восемь подобных ядер на кластер. Вместе с увеличением количества кластеров данный шаг привел к значительному приросту по производительности с двойной точностью.

NVIDIA также опирается на свою скалярную архитектур «Superscalar Dispatch Method», которая появилась в GF104 и гарантирует более защищённые от ошибок вычисления.

Эта архитектура опирается на параллелизм на уровне потоков Thread Level Parallelism (TLP) и параллелизм на уровне инструкций Instruction Level Parallelism (ILP).

Спецификации NVIDIA Tesla 20 показывают снижение производительности Fermi Диаграмма кластера GK110 SMX

Каждый кластер SMX оснащен 64 кбайт кэша L1 и 48 кбайт кэша данных только для чтения. По сравнению с GK104, NVIDIA не стала затрагивать кэш L1, разве что в кластерах GK110 появился 48-кбайт кэш данных только для чтения. На кластер SMX по-прежнему используются 16 текстурных блоков, так что у GK110 мы получаем их, максимум, 240.

Производительность вычислений с двойной точностью была увеличения некоторыми изменениями в регистрах. Число регистров на кластеры SMX осталось прежним 65 536 по сравнению с GK104, но на поток GK110 обеспечивает доступ к 255 регистрам — в отличие от только 63 у GK104.

Как мы уже упоминали, интерфейс памяти стал шире, теперь он состоит из шести 64-битных блоков, которые вместе обеспечивают 384-битный интерфейс.

В отличие от GK104, технология ECC защищает не только видеопамять, но и кэши L1 и L2.

Поскольку определение ошибок подразумевает выполнение некоторых дополнительных вычислений, NVIDIA снизила вычислительные потери благодаря внутренней оптимизации до 66 процентов.

Hyper-Q и динамический параллелизм остались и в GK110.
Hyper-Q:
В случае архитектуры «Fermi» GPU могли работать только с одной рабочей очередью команд и данных, но в случае «Kepler» ситуация уже отличается.

Спецификации NVIDIA Tesla 20 показывают снижение производительности Fermi Hyper-Q в сравнении

Одновременно с GPU «Kepler» могут работать до 32 физических ядер CPU. Конечно, данное ограничение не присутствует на программном уровне в интерфейсах DirectX 11, и несколько потоков могут выполняться одновременно, но передача данных и команд на GPU всё равно выполнялась последовательно. Благодаря поддержке Hyper-Q в будущем можно будет передавать данные параллельно.

Спецификации NVIDIA Tesla 20 показывают снижение производительности Fermi Последовательное выполнение команд без Hyper-Q

Без поддержки Hyper-Q данные и команды передаются последовательно, загрузка GPU в данном случае не является оптимальной.

Спецификации NVIDIA Tesla 20 показывают снижение производительности Fermi Выполнение команд с Hyper-Q

С помощью Hyper-Q данные и команды 32 физических ядер передаются одновременно. Это приводит не только к лучшему использованию GPU, но и к тому, что выполненные вычисления могут обрабатываться быстрее.

Кроме того, теперь множество GPU в системе могут напрямую связываться друг с другом. Технология «GPU Direct» как раз позволяет GPU «Kepler» связываться друг с другом даже по сети — обращение к CPU и памяти теперь уже не требуется.

Dynamic Parallelism:

Команды и данные, которые поставляются на GPU, могут быть взаимозависимыми (например, если расчеты зависят от результатов других вычислений), таким образом, части разных потоков могут блокироваться от выполнения на GPU некоторый промежуток времени. NVIDIA постаралась внести и улучшения обработки подобных ситуаций в интерфейс CUDA.

Спецификации NVIDIA Tesla 20 показывают снижение производительности Fermi Dynamic Parallelism

Технология Dynamic Parallelism на GPU может решать подобные проблемы зависимости. Впрочем, от программистов тоже требуются усилия, поскольку им следует учитывать неравномерности обработки GPU и запросы из памяти. Если созданные потоки превысят возможности доступной памяти GPU, то будет проводиться обращение через шину памяти PCI Express, что может вновь замедлить весь процесс.

Спецификации NVIDIA Tesla 20 показывают снижение производительности Fermi Dynamic Parallelism

GPU самостоятельно определяет, в каких пропорциях он будет допускать существование зависимостей. Всё это позволит Nvidia избежать сценариев, ограничивающих производительность.

Эффективность энергопотребления:

В случае NVIDIA Tesla K20 и K20X мы получаем отличные результаты по эффективности энергопотребления.

Если вы взглянете на список Green500, в котором компьютеры приведены по рейтингу эффективности энергопотребления, то на одном из первых мест находится BlueGene/Q с 16 ядрами на 1,6 ГГц и вычислительной производительностью около 2100 мегафлопов на ватт. В случае системы NVIDIA Tesla K20X мы получаем около 2250 мегафлопов на ватт. А цена такого решения ещё и в четыре раза ниже.

Использование в суперкомпьютере Titan:

Вычислительные ускорители Tesla K20X используются в суперкомпьютере Titan в Окриджской национальной лаборатории (штат Теннеси, США). Установленная система достигает пиковой производительности 27 петафлопов.

Суперкомпьютер состоит из 18 688 GPU NVIDIA Tesla K20X и такого же количества 16-ядерных процессоров AMD (Opteron 6274). Как можно догадаться, Titan состоит из 18 688 узлов, которые объединены в 200 ячеек.

На каждый узел доступно 32 Гбайт памяти, что даёт общую ёмкость оперативной памяти 710 терабайт.

Конкуренты:

Вчера утром AMD объявила новые вычислительные ускорители FirePro S10000 на основе двух GPU Tahiti Pro. Мы опубликовали новость и сравнение теоретической производительности, но в тот момент карты K20X и K20 ещё не были официально объявлены.

Модель	AMDFirePro S10000	NVIDIATesla K20X	NVIDIATesla K20	NVIDIATesla K10	NVIDIATesla M2090
Одиночная точность	5,91 TFlops	3,95 TFlops	3,52 TFlops	4,58 TFLops	1,33 TFlops
Двойная точность	1,48 TFlops	1,31 TFlops	1,17 TFlops	0,19 TFlops	0,67 TFlops

По чистой теоретической производительности вычислительный ускоритель AMD FirePro S10000 обгоняет конкурентов NVIDIA, будь то GK104 или GK110.

Но следует учитывать, что AMD для FirePro S10000 указывает максимальное энергопотребление 335 Вт, в то время как NVIDIA K20X отличается энергопотреблением всего 235 Вт.

Кроме того, NVIDIA нацелила GK104 и GK110 на другие сферы применения, что можно видеть по соотношениям производительности с одинарной и двойной точностью.

Вычислительный модуль Tesla M2050 / M2070 GPU

Основанные на архитектуре CUDA™ следующего поколения с кодовым названием «Fermi» вычислительные модули Tesla M2050 и M2070 обеспечивают плавную интеграцию вычислений на GPU с хост-системами для высокопроизводительных вычислений и с большими масштабируемыми вычислительными центрами.

Спецификации NVIDIA Tesla 20 показывают снижение производительности Fermi

Графические процессоры Tesla серии 20 – это первые решения, обеспечивающие прирост производительности вычислений двойной точности более чем в 10 раз по сравнению с четырехядерными процессорами x86, а также предлагающие пользователям ECC память.

Модули Tesla M2050 и M2070 дарят пользователям все привычные преимущества вычислений на GPU, обеспечивая максимальную надежность и тесную интеграцию с системами мониторинга и инструментами управления.

Благодаря этому у ИТ-персонала вычислительных центров появляются дополнительные возможности в использовании GPU в рамках широкого спектра стоечных и блейд-систем, а также необходимые возможности удаленного мониторинга и дистанционного управления. Спецификации NVIDIA Tesla 20 показывают снижение производительности Fermi В сравнении с основанными только на CPU системами серверы на основе вычислительного модуля Tesla GPU серии 20 обеспечивают супервычисления при 1/20 потребления электроэнергии и 1/10 стоимости, предлагая самую высокую плотность вычислений для кластеров уровня отдела и вычислительных центров.Очень интересно иногда поиграть в нарды онлайн. Она тренирует память и внимательность. Очень интересно

Характеристики

GPU на основе массивно параллельной архитектуры CUDA
Обеспечивает производительность кластера при затратах, составляющих 1/20 электроэнергии и 1/10 стоимости систем на основе самых последних четырехядерных CPU.
Работа с числами одинарной и двойной точности в соответствии со стандартом IEEE 754

Достигайте производительности вычислений с плавающей запятой в 2.

5 Терафорп в формате 1U, получая более точные результаты еще быстрее.

Поддержка ECC

Удовлетворяет существенному требованию центров обработки данных и супервычислений на базе GPU при масштабировании, обеспечивая бескомпромиссную вычислительную точность и надежность. Обеспечивает защиту хранимой в памяти информации, повышая целостность данных и надежность приложений. Файлы реестра, L1/L2 кэш, память с совместным доступом и DRAM защищены ECC.

Возможности системного мониторинга

Упрощает управление и удаленный мониторинг после установки при помощи NVSMI. Статусные индикаторы на передней и задней стороне блока позволяют ИТ-персоналу отслеживать статус устройства с любой стороны стойки.

До 6 ГБ GDDR5 памяти на GPU
Увеличивает производительность и уменьшает необходимость передачи данных большого объема благодаря тому, что большие объемы данных содержатся в локальной памяти, напрямую соединенной с GPU.
Максимальная надежность
Специальная конструкция пассивного радиатора позволяет избежать использования подвижных частей и кабелей.
NVIDIA Parallel DataCache™
Ускоряет выполнение алгоритмов, например, обработки физики, трассировки луча и умножения разряженных матриц, при неизвестных заранее адресах данных.
Механизм NVIDIA GigaThread™
Позволяет достигать максимальной производительности благодаря более быстрому переключению контекста, параллельному выполнению команд ядра и улучшенной планировке блокирования потоков.
Асинхронная передача данных
Позволяет достигать невероятного прироста производительности благодаря одновременной передаче данных и проведению вычислений.
Высокая скорость передачи данных с PCI-Express Gen 2.0

Снижает нагрузку канала между системой-хостом и процессорами Tesla. Позволяет системам Tesla работать с абсолютно любым PCIe-совместимым хостом с открытым слотом PCI-E (x8 или x16).

Возможности контроля системы

Упрощает управление и контроль системы после установки. Возможности удаленной работы и индикаторы статуса на переднем и заднем блоке позволяют IT персоналу отслеживать статус системы на с любой стороны стойки.

Спецификация

Количество GPU Tesla	1
Производительность операций с плавающей запятой	515 ГФлоп
Производительность операций с плавающей запятой одинарной точности (пиковая)	1.03 Тфлоп
Полный объем специальной памяти* Tesla M2050Tesla M2070	3 ГБ GDDR5 6 ГБ GDDR5
Макс. потребление энергии	225 Вт
Системный интерфейс	PCIe x16 Gen2
Инструменты разработки ПО	Наборы инструментов для CUDA C/C++/Fortran, OpenCL, DirectCompute, NVIDIA Parallel Nsight™ для Visual Studio

Источник Nvidia.ru

Для чего нужны видеокарты Quadro и Tesla, и почему они такие дорогие? | Mizhgunit Пульс Mail.ru

Наверное, странно видеть в продаже кусок текстолита и кремния за миллион рублей, в то время как игровая видеокарта, которая внутри почти такая же, как Quadro, стоит в 5-10 раз дешевле. Сегодня я расскажу для чего нужны видеокарты Quadro и Tesla, в чем их отличие от игровых видеокарт, а также можно ли на Quadro поиграть в игры.

Профессиональная линейка

Начнем с того, что Quadro, ровно как и Tesla — это профессиональные видеокарты. А чем, собственно, профессиональная видеокарта отличается от НЕпрофессиональной?

Примерно так я смотрю на цены на эти видеокарты

Как минимум — ̶ц̶е̶н̶о̶й̶ возлагаемыми задачами. Объясню очень просто: в играх на один кадр приходится относительно немного полигонов, но нужно просчитывать разные эффекты затенения/освещения в режиме реального времени со скоростью в 60 кадров в секунду.

А вот в CAD-программах все совсем иначе. Сцена там, часто, одна, и даже эффекты там есть не всегда, вот только состоит она из огромного количества полигонов (в десятки тысяч раз больше, чем в игровых сценах), которые надо просчитать с большой точностью.

Например, просчитать такое ну… Непросто.

При том в некоторых программах формы объектов описываются математическими функциями (для большей точности), и вот тут-то игровая видеокарта не пойдет ни в какое сравнение с Quadro. При этом у проф. карт есть фишки, которых нет у игровых видеокарт, вроде памяти с ECC.

Для этого и была создана Nvidia Quadro

Эти видеокарты базируются на тех же чипах, что и игровые видеокарты. Например, Quadro RTX 8000 базируется на том же ГП TU102, что и RTX 2080Ti. Даже больше скажу, эти видеокарты много где идентичны, однако различия все же есть.

VR Ready… Мам, клянусь, только для учебы!

Больший объем памяти у Quadro
Дополнительная гарантия с личным специалистом, к которому можно обратиться в случае возникновения проблем (все эти видеокарты производятся только одни вендором — PNY)
Сертификация от разработчиков ПО

На последнем хотелось бы остановиться поподробнее. Дело в том, что при использовании профессиональных видеокарт, могут открыться некоторые технологии, которые недоступны при использовании игровых видеокарт той же серии (хотя они их поддерживают).

И вот однажды в какой-то программе ребята запустили недоступную технологию на игровой видеокарте, просто добавив ее в список поддерживаемых в файлах программы. Что за программа не помню, но суть вы уловили.

В общем, Quadro — это видеокарты со специальной сертификацией, которые как-то там оптимизированы под расчеты, но по сути — кроме драйверов и памяти отличий от игровых видеокарт имеют немного. Другое дело — видеокарты Tesla.

А для чего нужны Tesla?

Если просто посмотреть на эти видеокарты, то можно увидеть несколько странностей: видеовыходов нет, система охлаждения — пассивная (несмотря на огромное тепловыделение чипа), а главное — цена. Видеокарты Tesla могут спокойно стоить по миллиону рублей, и для всех это норма.

А Tesla A100 вообще выглядит как кирпич

Но Tesla — не совсем видеокарта, а, скорее, графический ускоритель. То есть сама по себе она не умеет выводить картинку и предназначена для установки в помощь к какой-нибудь другой видеокарте (например, Quadro). Tesla можно обозвать и сопроцессором.

Помимо этого, Tesla имеет больше производительности на операциях двойной точности по сравнению, например, с видеокартой серии GeForce, которую тоже можно использовать как сопроцессор (естественно, сравниваем карты одного поколения). В разы больше памяти на борту у Tesla. Tesla может работать в режиме 24/7, что важно при выполнении длительных научных расчетов.

И там, раз уж на то пошло, целый ворох технологий, которые в рамках этой статьи я не распишу — она превратится в книгу. Так что уясним: Tesla — это вообще по сути не видеокарта, а графический ускоритель, который занимается расчетами и в профессиональных машинах, если и есть Tesla, то работает в тандеме с другой видеокартой.

Хотя есть сервера по каким-нибудь расчетам, так там можно увидеть и по 9-10 Tesla.

А можно ли поиграть на профессиональных видеокартах?

На Tesla это получится, скажем так, с некоторыми затруднениями, тогда как на Quadro — флаг в руки! Однако стоит учесть, что их производительность ниже, чем у игровых аналогов из-за сниженных частот.

Ну если есть желание купить, то бонусом идет и красивая коробка

Поиграть-то можно, но брать целенаправленно такую видеокарту для игр я бы не стал — слишком дорого получается.

Кстати, я уже начал делать большой эксперимент по заработку в интернете. Его ход, а также разное другое и прикольное — в моей инсте.

Mizhgunit

401 подписчик

Можно ли майнить на алгоритме ethash на видеокартах Nvidia Tesla K

Если бы наши солдаты понимали, из-за чего мы воюем, нельзя было бы вести ни одной войны.

Фридрих Великий

Профессиональные видеоускорители Nvidia Tesla обладают хорошими техническими характеристиками, так как предназначены для проведения сложных вычислений, требующих большого объема памяти.

Даже старые видеокарты Тесла, выпущенные на ядре Кеплер (Tesla K80, K40c, K40m, K40s, K40st, K40t, K20Xm, K20m, K20s, K20c, K10, K8 и аналоги из серии Quadro K), имеют солидный запас памяти даже по современным меркам. Например, графический ускоритель Nvidia Tesla K40 (и ее аналог Nvidia Quadro K6000) имеет 12 GB VRAM, а модель K80 — целых 24 гигабайта GDDR5-памяти.

Несмотря на то, что перечисленные видеокарты выпускались много лет назад, производительность их подсистемы памяти вызывает уважение. В связи с этим ускорители Tesla K теоретически могут использоваться при майнинге ETH и в настоящее время.

К сожалению, их использование во многих случаях осложняется тремя факторами:

необходимость доработки системы охлаждения для видеокарт, предназначенных для серверных корпусов;
отсутствие поддержки архитектуры Kepler (Compute Capability 3.5) в большинстве современных майнеров;
слабая производительность видеоядра и проблемы с его разгоном.

Как охладить видеокарту Tesla, не имеющую собственных вентиляторов?

Решить проблему с охлаждением графического ускорителя без собственной активной системы охлаждения довольно легко с помощью установки производительной турбины, например, шарикоподшипникового вентилятора Gdstime (скорость вращения 3200RPM, воздушный поток 37 CFM):

Мощности такого вентилятора хватает с лихвой для охлаждения Nvidia Tesla K40M, работающей на полной мощности, поэтому для уменьшения шума можно поставить регулируемый DC-DC преобразователь по линии питания, при необходимости снижая вольтаж и уровень шума.

Прикрепить дополнительный вентилятор на видеокарту можно с помощью клеевого пистолета и/или хорошей клеящей ленты (на фото изображена видеокарта, подготовленная для установки в райзер, для подключения вентилятора были дополнительно подпаяны переходники):

Для охлаждения чипов памяти на них можно наклеить радиаторы с помощью термоскотча:

Слабые турбинные вентиляторы для охлаждения (например, EVERCOOL FOX-2) использовать не стоит, так как они не справляются с охлаждением:

Какие майнеры можно использовать для майнинга на видеокартах Tesla с архитектурой Kepler?

Для запуска графических ускорителей Tesla K нужно установить соответствующие драйвера, включить в BIOS режим Above 4G Decoding/Resizable BAR.

Кроме того, на компьютере нужно иметь как можно больший объем ОЗУ (например, для одной Tesla K желательно иметь 24GB RAM), в противном случае видеокарты могут не определяться или не будут полноценно работать. На старых компьютерах могут возникнуть проблемы с определением профессиональных видеокарт, подключенных через райзер.

Выбор майнеров для видеокарт с архитектурой Kepler достаточно скуден. К ним относятся:

xmrig;
xmrstack;
ccminer и клоны, например, ccminer-xaya;
miniz (к сожалению, некоторые версии, например, miniZ 1.8y3 работают с такими картами, как Nvidia GT710, но не видят Tesla K);
ethminer;
verthashminer;
Phoenix Miner и некоторые другие программы.

Так как видеокарты Tesla имеют большой объем видеопамяти, логично было бы использовать их при майнинге Ethereum и других монет на алгоритме Ethash.

К сожалению, результаты, которые показывает большинство майнеров на этих видеокартах плачевны (например, Phoenix Miner обеспечивает хешрейт порядка 1-2 MH/s). Более полно раскрыть потенциал профессиональных, но капризных GPU можно, используя ethminer и оптимизированные программы/команды запуска. Например, добавление параметра

-M 100

в командную строку для запуска ethminer позволяет оценить производительность Nvidia Tesla K40 на сотой эпохе, где эта видеокарта показывает хешрейт порядка 14-20 MH/s (в зависимости от используемой материнской платы, объема ОЗУ и разгона). К сожалению, эта скорость на практике (из-за проблем в драйверах) достижима только при майнинге монет с маленьким DAG.

Пример простого батника (скрипта) для запуска ethminer 0.19.0-alpha0 на алгоритме Ethash на пуле zergpool (с автоматической конвертацией намайненного в LTC):

ethminer -U -R -P stratum+tcp://wallet:c=LTC,worker,refcode=81de238596774683dd427a9d57bae6af@ethash.mine.zergpool.com:9999 —api-port -3333 —HWMON 2 —tstart 55 —tstop 65 —report-hashrate —cu-devices 0

Для справки:

На zergpool при майнинге можно настроить автоматическую конвертацию добытых монет в удобную криптовалюту, например, лайткоины. Комиссия пулу на zergpool равна всего 0.5%, ее можно дополнительно снизить на 0.2%, добавив в батнике в поле пароля код refcode=81de238596774683dd427a9d57bae6af

Пример батника для майнинга в программе cpuminer на zergpool на процессоре (алгоритм yescryptR16):

cpuminer —algo yescryptR16 —url=stratum+tcp://yescryptR16.mine.zergpool.com:6333 —user=кошелек —pass=c=LTC,worker,refcode=81de238596774683dd427a9d57bae6af —threads=3 —cpu-priority 0 —max-temp=65

Хешрейт Nvidia Tesla K40 в Windows 10LTSC с драйвером 472.12 (16GB ОЗУ) при майнинге ethash-монет (эпоха 100) составляет около 12 MH/s:

Программа GPU-Z при майнинге показывает полную загрузку ядра видеокарты при слабой нагрузке (56%) на контроллер памяти:

Как видно из приведенного выше изображения, потенциал подсистемы памяти графического ускорителя раскрывается лишь наполовину, упираясь в слабую производительность ядра, работающего на смехотворной частоте 745 МГц. Интересно отметить, что при установке Nvidia Tesla K40 на компьютер с 32 ГБ оперативной памяти, ее хешрейт возрос до 17-18 MH/s.

Для сравнения, на алгоритме cn_gpu в программе xmrstack 2.10.8 Nvidia Tesla K40 выдает около 450 H/s, что также связано со слабым GPU.

Разгон видеокарт Tesla K для майнинга

Чтобы поднять производительность любой видеокарты, нужно увеличить ее частоты ядра и памяти. В Windows для выжимания соков из видеокарт Nvidia можно использовать программы nvidiainspector или MSI Afterburner, а в Linux — возможности nvidia-smi.

К сожалению, программу nvidiainspector использовать не получается, так как она не видит Nvidia Tesla K40, показывая (в данном случае) только видеокарту, использующуюся для вывода изображения (Nvidia GeForce GT710):

MSI Afterburner ведет себя чуть лучше, но на практике не может управлять частотой ядра:
Программа показывает, что применила разгон, но на самом деле частота ядра не меняется (память в этой программе успешно разгоняется, но это не нужно, так как она итак недогружена из-за слабого GPU).
Разгон по памяти на +240 МГц увеличивает хешрейт на 0.5 MH/s:

В Linux ситуация чуть лучше, здесь можно управлять частотами ядра, памяти Power Limit, но на хешрейт это особо не влияет. Наоборот, почему то в xubuntu 18.04 производительность Tesla K40 на ethash даже ниже, чем в Windows 10LTSC.

Кроме разгона видеокарты, можно попробовать увеличить ее производительность с помощью подбора оптимизированного майнера и тонкой его настройки.

В программе ethminer можно поиграться с оптимизацией, используя расширенный синтаксис командной строки, например, следующие:

—cu-grid-size INT [1 .. 131072], по умолчанию программой используется значение 8192;

—cu-block-size UINT {32,64,128,256} Default = 128;

—cu-parallel-hash UINT {1,2,4,8} Default = 4

—cu-streams INT [1 .. 99] Default = 2

—cu-schedule TEXT Default = 'sync' (может быть 'auto', 'spin', 'yield' или 'sync').

Для выжимания соков из видеокарт Nvidia можно использовать калькулятор занятости CUDA ядер (CUDA Occupancy Calculator). Здесь есть интересная информация по возможностям видеокарт Nvidia разных поколений, например, для видеокарт с версией SM 3.5 (Kepler 2.0) можно использовать следующие значения CUDA-параметров:

Заключение

Учитывая достаточно слабую оптимизацию заброшенного разработчиками майнера ethminer, можно сделать предположение, что видеокарты Tesla могут обеспечить и более высокий хешрейт, соответствующий производительности их VRAM. Для этого нужно в полной мере задействовать их вычислительные CUDA-возможности, здесь есть над чем поработать…

P.S. После модернизации BIOS на видеокарте Tesla K40 при майнинге Ethereum был достигнут хешрейт 19-20 MH/s (при майнинге монет с небольшим DAG). Подробнее в статье Модернизация BIOS видеокарт Nvidia на архитектуре Kepler для майнинга на примере Tesla K40.

Nvidia Tesla — Википедия

У этого термина существуют и другие значения, см. Тесла.
Графический процессор Nvidia Tesla A100

Tesla — название семейства вычислительных систем NVIDIA на основе графических процессоров с архитектурой CUDA, которые могут быть использованы для научных и технических вычислений общего назначения. Tesla не может полностью заменить обычный универсальный процессор, но позволяет использовать вычислительный ресурс множества своих ядер для решения определенного круга ресурсоёмких задач (вести параллельную обработку данных). Примерами таких задач могут служить симуляция свёртывания молекул белка, секвенирование ДНК, моделирование погоды, анализ финансового риска и т. п.

Системы Tesla впервые появились на рынке с выходом графического чипа NVIDIA восьмого поколения — G80.

Tesla строится на базе обычных графических процессоров, но, в отличие от видеоускорителей, не имеет средств вывода изображения на дисплей.

Являясь своего рода сопроцессором, Tesla может использоваться для создания вычислительных систем на базе персональных компьютеров, а также в составе серверов и вычислительных кластеров.

Предлагая свой продукт для рынка высокопроизводительных кластеров, NVIDIA заявляет, что преимуществом гетерогенных вычислительных систем с Tesla является большая энергоэффективность и меньшая стоимость (как недостаток можно рассматривать меньшую универсальность).

Спецификации и конфигурации

Модели Tesla 2007 года на базе GPU G80 (единственная группа карт без поддержки операций над 64-битными числами с плавающей точкой):

Tesla C870 — карта для рабочих станции (1 GPU)
Tesla D870 — приставной суперкомпьютер (2 GPU)
Tesla S870 — сервер (4 GPU)

Модели Tesla на базе GT200 (2008—2009 год):

Tesla C1060 — карта для рабочих станции (1 GPU)
Tesla S1070 — сервер (4 GPU)
Tesla S1075 — сервер (4 GPU)
Quadro Plex 2200 D2 (2 GPU)
Quadro Plex 2200 S4 (4 GPU)

Модели Tesla на базе GF100 и GF110 (2011 год):

Tesla C2050, M2050 — карта для рабочих станции (1 GPU)
Tesla C2070, C2075, M2070 — карта для рабочих станции (1 GPU)
Tesla M2090 — карта на основе GF110
Tesla S2050, S2070 — сервер (4 GPU)

На базе архитектуры Kepler предлагаются модели[1] 2012—2014 годов:

Tesla K10 (2× GK104)
Tesla K20, K20x (1× GK110)
Tesla K40 (1× GK110B)
Tesla K80 (2× GK210)

В 2015 году были представлены модели на базе микроархитектуры Maxwell:

M4 (1× GM206)
M6 (1× GM204)
M10 (4× GM107)
M40 (1× GM200)
M60 (2× GM204)

Чипы Pascal служили основой для карт 2016—2017 годов[2]:

P4 (1× GP104), PCIe
P6 (1× GP104), MXM
P40 (1× GP102), PCIe
P100 (1× GP100), NVLink
P100 (1× GP100, 16 или 12 ГБ ОЗУ), PCIe

В 2017 году появилась модель на базе Volta — Tesla V100, в виде PCIe и NVLink карт[2].

В 2018 году представлена карта Tesla T4 на базе Turing[2].

Описание

Модель

Количество GPU

Частота ядра, МГц

Шейдерные процессоры

Память

Теоретическая производительность, гигафлопс[3]

Вычислительные способности [4]

TDP, Вт

Примечания/формфактор

Количество

Частота, МГц

Пропускная способность, ГБ/с

Стандарт видеопамяти

Шина видеопамяти, бит

Объём видеопамяти, МБ

Частота (эффективная), МГц

Одинарная точность, всего (MUL+ADD+SF)

Одинарная точность, MAD (MUL+ADD)

Двойная точность, FMA

Вычислительный модуль на основе GPU[5]

Приставной суперкомпьютер[5]

Вычислительный модуль на основе GPU[5]

2-е поколение Tesla-процессоров[6]

2-е поколениеВычислительный модуль на основе GPU[7]

3-е поколениеTesla-процессор[8]

M2050Вычислительный модуль на основе GPU

M2070/M2070Q[11]Вычислительный модуль на основе GPU

S2050 1UВычислительная система на основе GPU

C870	1	600	128	1350	76,8	GDDR3	384	1536	1600	518,4	345,6	0	1,0	170,9	АТХ видеокарта
D870	2	600	2×128 (256)	1350	153,6	GDDR3	384	3072	1600	1036,8	691,2	0	1,0	Приставная система или в стойку
S870	4	600	4×128 (512)	1350	307,2	GDDR3	384	6144	1600	2073,6	1382,4	0	1,0	1U Rack
C1060	1	602	240	1300	102,4	GDDR3	512	4096	1600	933,12	622,08	77,76	1,3	187,8	ATX видеокартаIEEE 754-2008 FMA
S1070	4	602	4×240 (960)	1440	409,6	GDDR3	512	16384	1600	4147,2	2764,8	345,6	1,3	Одноюнитовая стойкаIEEE 754—2008 FMA
C2050	1	575	448	1150	144	GDDR5	384	3072[9]	3000	1288	1030,4[10]	515,2	2,0	238	Полноразмерная видеокартаIEEE 754—2008 FMA
C2070	1	575	448	1150	144	GDDR5	384	6144[9]	3000	1288	1030,4[10]	515,2	2,0	247	Полноразмерная видеокартаIEEE 754—2008 FMA
M2050	1	575	448	1150	148,4	GDDR5	384	3072[10]	3092	1288	1030,4[10]	515,2	2,0	225	Вычислительный модульIEEE 754—2008 FMA
M2070/M2070Q	1	575	448	1150	150,336	GDDR5	384	6144[10]	3132	1288	1030,4[10]	515,2	2,0	225	Вычислительный модульIEEE 754—2008 FMA
S2050	4	575	4×448 (1792)	1150	4×148,4 (593,6)	GDDR5	384	12288[10]	3092	5152	4121,6[10]	2060,8	2,0	900	1U RackIEEE 754—2008 FMA

См. также

CUDA
AMD FireStream
Folding@Home

Примечания

↑ Архивированная копия (неопр.). Дата обращения: 14 ноября 2012. Архивировано 27 января 2013 года.
↑ 1 2 3 NVIDIA Product Overview and Technical Brief (неопр.). Дата обращения: 2 апреля 2008. Архивировано 18 марта 2015 года.
↑ Nvidia Announces Tesla 20 Series Архивировано 18 февраля 2012 года.
↑ Какие оборудование и программное обеспечение требуются для PhysX? (неопр.). Дата обращения: 21 апреля 2010. Архивировано 30 марта 2010 года.
↑ 1 2 3 Нет официальных данных; предполагается, что основаны на GeForce 8800 GTX.
↑ Нет официальных данных; предполагается, что основаны на GeForce GTX 280.
↑ Difference between Tesla S1070 and S1075 (неопр.). Дата обращения: 21 апреля 2010. Архивировано 26 февраля 2012 года.
↑ 1 2 Нет официальных данных; предполагается, что основаны на GeForce 400 Series.
↑ 1 2 С активированным ECC доступная для пользователя память составит 2,625 ГБ на GPU для C2050, S2050 и 5,25 ГБ на GPU для C2070.
↑ 1 2 3 4 5 6 7 8 GF100 выполняет новую соединенную инструкцию умножения-сложения FMA(D) (Fused Multiply-Add) для обоих 32-битных чисел одинарной точности с плавающей запятой и 64-битных чисел двойной точности с плавающей запятой (GT200 поддерживает инструкцию FMA только для чисел двойной точности). Разница между инструкциями FMA(D) и MAD (Multiply-Add) при выполнении операции вида A×B+C заключается в том, что FMA(D) не округляет результат произведения перед суммированием, что даёт более точный результат.
↑ NVidia Tesla M2050 & M2070/M2070Q Specs Online (неопр.). Дата обращения: 31 октября 2010. Архивировано 17 августа 2020 года.