NVIDIA демонстрирует чипы Fermi Tesla на Supercomputing 2009

NVIDIA® Tesla®V100 — модель графического процессора с тензорными ядрами, созданная на архитектуре NVIDIA Volta и предназначенная для работы в сферах искусственного интеллекта и высокопроизводительных вычислений (HPC). На сегодняшний день это один из самых технически продвинутых в мире GPU для дата-центров, поскольку он обеспечивает производительность на уровне 100 CPU и выпускается в конфигурациях с 16 или 32 Гб памяти.

Уровень производительности Tesla V100 повышен до 100 тера-операций в секунду (TOPS), а объединение нескольких графических ускорителей V100 по технологии NVIDIA NVLink™ обеспечивает его пропускную способность в 300 Гб/с и позволяет создавать на его основе высокомощные вычислительные серверы и суперкомпьютеры. Например, один сервер, оснащенный Tesla V100 GPU и потребляющий 13 кВт энергии, обеспечивает в задачах инференса такую же производительность, как 30 CPU-серверов. Подобный скачок производительности и энергоэффективности способствует расширению масштабов применения сервисов с искусственным интеллектом.

NVIDIA® Tesla®V100 задействуется при решении задач, связанных с ИИ, например, с распознаванием речи, созданием виртуальных помощников, обучением сложных нейронных сетей в короткие сроки, а также для применения искусственного интеллекта в высокопроизводительных вычислениях при анализе большого объема данных или при проведении симуляций.

NVIDIA демонстрирует чипы Fermi Tesla на Supercomputing 2009

Ускоритель Tesla V100 (вид спереди).

NVIDIA демонстрирует чипы Fermi Tesla на Supercomputing 2009

Ускоритель Tesla V100 (вид сзади).

Ключевые особенности Tesla V100

К ключевым особенностям NVIDIA® Tesla®V100 относятся:

  • обновленный дизайн потокового мультипроцессора (Streaming Multiprocessor, SM), который был оптимизирован под решение задач глубокого обучения, а также получил большую (до 50%) энергоэффективность благодаря внедрению архитектурных изменений. Эти новшества позволили повысить производительность FP32- и FP64-вычислений при том же уровне энергопотребления. Кроме того, новые тензорные ядра (Tensor Cores), разработанные специально для тренировки и инференса нейросетей в задачах глубокого обучения (deep learning), дали Tesla®V100 12-кратное преимущество в скорости при тренировке нейросети и вычислениях смешанной точности. Целочисленные вычисления и вычисления с плавающей запятой теперь проходят по независимым параллельным потокам, что позволяет повысить эффективность Volta при смешанной загрузке. Новая объединенная подсистема кэширования данных первого уровня (L1-кэш) и разделяемой памяти (Shared Memory) значительно повышает производительность в некоторых задачах, заодно упрощая и их программирование;
  • поддержка второго поколения технологии высокоскоростных соединений NVLink, которая позволяет увеличить пропускную способность, обеспечить большее число линий данных и улучшить масштабируемость для систем с несколькими GPU и CPU. Новый процессор GV100 поддерживает до шести 25 Гб/с каналов NVLink, что дает общую пропускную способность в 300 ГБ/с. Вторая версия NVLink поддерживает также новые возможности серверов, основанных на процессорах IBM Power 9, включая когерентность кэша. Новая версия суперкомпьютера Nvidia DGX-1, основанная на Tesla V100, использует NVLink для обеспечения лучшей масштабируемости и сверхбыстрой тренировки нейросетей в задачах глубокого обучения;
  • высокопроизводительная и эффективная HBM2-память объемом в 16 Гб, которая обеспечивает пиковую пропускную способность памяти до 900 Гб/с. Совмещение быстрой памяти второго поколения производства компании Samsung и улучшенного контроллера памяти в GV100 обеспечило полуторакратный прирост в пропускной способности памяти по сравнению с предыдущим чипом GP100 архитектуры Pascal, при этом эффективное использование ПСП новым GPU достигает более чем 95% в реальных рабочих нагрузках;
  • функция Multi-Process Service (MPS), позволяющая нескольким процессам использовать совместно один и тот же GPU. В архитектуре Volta осуществляется аппаратное ускорение критических компонентов CUDA MPS-сервера, что позволяет повысить производительность, изоляцию и обеспечить лучшее качество обслуживания (QoS) для множества вычислительных приложений, использующих один GPU. Также в Volta было в три раза увеличено максимальное количество клиентов MPS — с 16 для Pascal до 48 для Volta;
  • улучшенная общая память и трансляция адресов. В GV100 общая память использует новые указатели, позволяющие переносить страницы памяти на процессор, который чаще обращается к этим страницам. Это повышает эффективность доступа к диапазонам памяти, разделяемым между разными процессорами. При условии использования платформ IBM Power, новые сервисы преобразования адресов (Address Translation Services, ATS) позволяют графическому процессору напрямую обращаться к страницам CPU.
  • совместные группы и новые API для совместного запуска. Совместные группы (Cooperative Groups) — это новая программная модель, введенная в CUDA 9 и предназначенная для организации групп связанных потоков. Совместные группы позволяют разработчикам задать гранулярность, с которой потоки обмениваются данными, помогая организовать более эффективные параллельные вычисления. Основная функциональность совместных групп поддерживается на всех графических процессорах компании, а в Volta была добавлена поддержка новых шаблонов синхронизации (synchronization patterns);
  • режимы максимальной производительности и максимальной энергоэффективности, позволяющие эффективнее использовать GPU в различных случаях. В режиме максимальной производительности ускоритель Tesla V100 будет работать без ограничения частоты при потреблении питания до уровня TDP в 300 Вт. Этот режим нужен для приложений, требующих наивысшей скорости вычислений и максимальной пропускной способности. Режим максимальной эффективности позволяет настроить энергопотребление ускорителей Tesla V100 так, чтобы получить оптимальную отдачу в пересчете на каждый ватт потребления энергии. При этом можно установить верхнюю планку потребляемой мощности для всех графических процессоров в серверной стойке, снизив энергопотребление при сохранении достаточной производительности;
  • оптимизированное программное обеспечение. Благодаря ему новые версии фреймворков глубокого обучения, такие как Caffe2, MXNet, CNTK, TensorFlow и другие могут использовать все возможности Volta для того, чтобы значительно повысить производительность тренировки и снизить время обучения нейросетей. Оптимизированные для Volta библиотеки cuDNN, cuBLAS и TensorRT, способны использовать новые возможности архитектуры Volta для повышения производительности задач глубокого обучения и стандартных применений HPC. Новая версия CUDA Toolkit 9.0 уже включает в себя новые и оптимизированные API с поддержкой функций Volta.

Такие особенности ускорителя Volta позволяют улучшить работу нейросетей в несколько раз, снизив время подготовки алгоритмов искусственного интеллекта к работе.

Архитектура Tesla V100

В аппаратную архитектуру Tesla®V100 инженерами Nvidia был внесен ряд изменений, которые коснулись чипа GV 100 и потоковых мультипроцессоров.

Новый GV 100 состоит из нескольких контроллеров памяти и вычислительных кластеров Graphics Processing Cluster (GPC), включающих в себя кластеры Texture Processing Cluster (TPC). В свою очередь, кластеры TPC состоят из нескольких потоковых мультипроцессоров Streaming Multiprocessor (SM).

Полная версия вычислительного процессора архитектуры Volta содержит шесть кластеров GPC и 42 кластера TPC, каждый из которых включает по два мультипроцессора SM.

Это означает, что всего в чипе есть 84 мультипроцессора SM, каждый из которых содержит 64 вычислительных ядра FP32, 64 ядра INT32, 32 ядра FP64 и 8 новых тензорных ядер, специализирующихся на ускорении нейросетей.

Также каждый мультипроцессор содержит по четыре текстурных модуля TMU.

Имея 84 SM, GV 100 располагает в общей сложности 5,376 ядрами FP32 и INT32, 2,688 ядрами FP64, 672 ядрами Tensor и 336 текстурными блоками.

NVIDIA демонстрирует чипы Fermi Tesla на Supercomputing 2009

SM-блок Volta GV100.

Для доступа к локальной видеопамяти в GPU имеется восемь 512-битных контроллеров HBM2-памяти, совместно дающих 4096-битную шину памяти. Каждый стек быстрой HBM2-памяти управляется собственной парой контроллеров памяти, а каждый из контроллеров памяти соединен с разделом кэш-памяти второго уровня объемом в 768 Кб, то есть, всего GV 100 обеспечивает 6 Мб L2-кэша.

Стоит отметить, что технически новый чип GV 100 совместим со старым. Это сделано для ускорения производства и внедрения новинки, которую можно использовать с теми же системными платами, системами питания и другими комплектующими.

Вычислительные возможности

Свои обновленные вычислительные возможности Tesla®V100 получил благодаря появлению новой версии программной платформы для вычислений на GPU — CUDA 9.

Эта версия пакета полностью поддерживает архитектуру Volta и ускоритель вычислений Tesla V100, а также имеет начальную поддержку специализированных тензорных ядер, которые обеспечивают большой прирост скорости при матричных операциях со смешанной точностью вычислений, широко распространенных в задачах глубокого обучения.

Также вычислительный процессор GV100 поддерживает новый уровень вычислительных возможностей — Compute Capability 7.0. Кроме того, в CUDA 9 имеются ускоренные библиотеки линейной алгебры, обработки изображений, FFT и других, улучшения в программной модели, поддержке унифицированной памяти, компиляторе и утилитах для разработчиков.

NVIDIA демонстрирует чипы Fermi Tesla на Supercomputing 2009

Volta GV100.

Спецификации Tesla®V100

Сравнительные характеристики спецификаций Tesla®V100 представлены в виде таблицы:

NVIDIA демонстрирует чипы Fermi Tesla на Supercomputing 2009

Максимальное энергопотребление для Tesla V100 для серверов c NVLink составляет 300 Вт, для Tesla V100 и Tesla V100s для PCIe серверов — 250 Вт.

Читайте также:  Скидки дня в app store. horn™ и другие

Подводя итог

Ускоритель NVIDIA Tesla V100, обеспечивающий слияние HPC и искусственного интеллекта, хорошо проявляет себя как вычислениях при проведении симуляций, так и обработке данных для извлечения из них полезной информации. Это новая движущая сила искусственного интеллекта.

NVIDIA демонстрирует чипы Fermi Tesla на Supercomputing 2009

В связи с началом работы конференции Supercomputing 2009, открывающейся в Порленде, штат Орегон, компания NVIDIA анонсировала новую серию своих процессоров Tesla 20, основанных на фирменной архитектуре Fermi и предназначенных для сферы высокопроизводительных вычислений и HPC систем.

NVIDIA утверждает, что решения в серии Tesla 20 специально разработаны для параллельных вычислений с привлечением графических ресурсов.

При этом новые процессоры обладают в 20 раз большей энергоэффективностью и в десять раз меньшей себестоимостью по сравнению с традиционными кластерами на базе CPU.

В планы NVIDIA входит полностью изменить облик высокопроизводительных вычислений. Используя свои немалые вычислительные возможности, чипы серии Tesla 20 способны значительно увеличить скорость выполнения многих приложений и функций, включая трассировку лучей, “облачные” 3D вычисления, кодирование видеоизображений, а также поиск по базам данных, анализ данных и поиск вирусов.

NVIDIA также утверждает, что чипы Tesla 20 выключают в себя множество новейших функций и технологий параллельных вычислений, никогда прежде не встречавшихся в одном устройстве.

В качестве примеров приводится поддержка нового поколения стандарта  IEEE 754-2008, позволяющая с удвоенной точностью реализовать представление числа с плавающей  точкой, а также поддержка технологии корректировки ошибок ECC, многоуровневой иерархии кэш-памяти и языка программирования C++.

В семейство Tesla 20 вошли четыре решения, различающиеся по своим характеристикам. К примеру, Tesla C2050 и C2070 представляют собой карты с шиной PCIe 2.0, имеющие до 3 Гб и 6 Гб “набортной” памяти GDDR5 и реализующие удвоенную точность операций с плавающий точкой в пределах производительности от 520 до 630 гигафопс.

В то же время Tesla S2050 и S2070 представляют собой решения для кластерных систем и дата-центров. Они вмещают до четырех чипов Tesla  в стойке стандарта 1U и несут на борту до 12 Гб и 24 Гб памяти  GDDR5 соответственно, а двойная точность операций с плавающий точкой реализуется в пределах производительности от 2,1 до 2,5 терафлопс.

NVIDIA оценила решения Tesla C2050 и C2070 в $2499 и $3999, тогда как цены на Tesla S2050 и S2070 составляют $12 995 и $18 995 соответственно. Все четыре продукта будут доступны с мая 2010 года.

Источник новости: NVIDIA

Новостная служба Ferra

Новости за 18 ноября 2009 года

МИР NVIDIAНовости

Корпорация NVIDIA представила новую 20-ю серию параллельных процессоров Tesla, созданную для рынка высокопроизводительных систем и серверов и основанную на новой архитектуре Fermi.

Компания утверждает, что её решения позволяют сократить затраты на создание суперкомпьютера в 10 раз в сравнении с традиционными микропроцессорами при уменьшении энергопотребления в 20 раз.

Стоит отметить: в пресс-релизе говорится, что параллельные процессоры Tesla нового поколения будут доступны лишь во второй четверти следующего года.

Не говорит ли это об очередной отсрочке выхода игровых видеокарт, ведь NVIDIA обещала одновременный запуск GeForce, Quadro и Tesla на базе чипа Fermi? Однако пока официально выход видеокарт GeForce нового поколения намечен на первую четверть 2010 года.

Семейство Tesla 20-й серии включает в себя:

  • процессоры Tesla C2050 и C2070 GPU с пиковой производительностью при вычислениях с двойной точностью в 520 и 630 Гфлопс, с объёмом GDDR5-памяти 3 Гб или 6 Гб;
  • вычислительные системы Tesla S2050 и S2070, в каждой из которых установлено по 4 процессора Tesla нового поколения.

Tesla C2050 и C2070 обойдутся в 2500 $ и 4000 $, а Tesla S2050 и S2070 — в 13 000 $ и 19 000 $.

комментировать ​похожие новости

Новый список из 500 самых мощных суперкомпьютеров мира преподнёс довольно неожиданный сюрприз: 3 из 5 самых мощных суперкомпьютеров построены на основе процессоров AMD.

Самый мощный в мире суперкомпьютер — Jaguar. Ранее он был оснащён 4-ядерными процессорами Opteron, теперь оснащён 37 тыс. 6-ядерных чипов Opteron. Результатом является теоретическая вычислительная мощность на уровне 2,33 ПФлопс.

Интересно то, что китайский суперкомпьютер Milky Way One, первый в списке на базе Intel Xeon, занимает лишь 5 место. Но и здесь не обошлось без помощи AMD: система оснащена 2500 потоковыми процессорами ATI Radeon HD 4870 X2.

С развитием технологий OpenCL, DirectCompute и CUDA в будущем, наверняка, мощнейшие суперкомпьютеры не смогут обходиться без помощи графических ускорителей.

Стоит отметить, что в списке из 500 мощнейших суперкомпьютеров 80 % оснащены чипами Intel, поэтому довольно удивительно видеть AMD на самой вершине.

комментировать ​похожие новости

Advanced Micro Devices является не единственным конкурентом Intel, обвиняющим последнюю компанию в недобросовестной конкуренции.

NVIDIA в течение многих лет заявляет о нечестной тактике Intel на графическом рынке, позволившей ей занять более 50 % рынка.

Как известно, NVIDIA — крупнейший в мире производитель дискретной графики, однако находится далеко позади Intel, если говорить о графическом рынке в целом. Intel сейчас занимает 53 % рынка графики, оценивающегося в 10 млрд. $. При этом год назад она занимала 49 %, то есть её доля постоянно растёт.

Доля NVIDIA, напротив, неуклонно падает, несмотря на гораздо более качественные графические ускорители. Сейчас компания занимает 24 % рынка, а год назад — 28 %.

Если мы коснёмся рынка интегрированной графики, то монополия Intel на нём станет просто очевидной: компания занимает 80 %. Если учесть, что Intel не производит чипсеты для AMD, то ясно, что почти весь рынок встроенной графики для своих платформ Intel контролирует самостоятельно.

NVIDIA утверждает, что все эти цифры отражает тактику Intel, когда процессоры продаются не отдельно, а в комплекте с чипсетами по очень выгодной цене.

Особенно выпукло это наблюдается на рынке нетбуков. При покупке трёх чипов Atom (процессор, северный и южный мост), производитель платит Intel лишь 25 $ в то время как покупка процессора Atom отдельно обходится вдвое дороже — целых 45 $.

Стоит отметить, что использовать только Atom при покупке трёх чипов производитель не имеет права.

В результате, платформа NVIDIA ION, несмотря на очевидные преимущества, не пользуется особенной популярностью среди производителей: решения на её базе значительно дороже.

Вторая тактика, позволившая Intel расширить своё присутствие на рынке встроенной графики состоит в запрете производства чипсетов для новых процессоров Intel Core i компаний NVIDIA якобы из-за отсутствия у последней соглашений, позволяющих использовать новый тип системной шины.

Поэтому NVIDIA вынуждена доказывать свои права в суде. Судя по тому, что это получилось у AMD, есть все шансы и у NVIDIA.

Nvidia Tesla — Википедия

У этого термина существуют и другие значения, см. Тесла.
Графический процессор Nvidia Tesla A100

Tesla — название семейства вычислительных систем NVIDIA на основе графических процессоров с архитектурой CUDA, которые могут быть использованы для научных и технических вычислений общего назначения. Tesla не может полностью заменить обычный универсальный процессор, но позволяет использовать вычислительный ресурс множества своих ядер для решения определенного круга ресурсоёмких задач (вести параллельную обработку данных). Примерами таких задач могут служить симуляция свёртывания молекул белка, секвенирование ДНК, моделирование погоды, анализ финансового риска и т. п.

Системы Tesla впервые появились на рынке с выходом графического чипа NVIDIA восьмого поколения — G80.

Tesla строится на базе обычных графических процессоров, но, в отличие от видеоускорителей, не имеет средств вывода изображения на дисплей.

Являясь своего рода сопроцессором, Tesla может использоваться для создания вычислительных систем на базе персональных компьютеров, а также в составе серверов и вычислительных кластеров.

Предлагая свой продукт для рынка высокопроизводительных кластеров, NVIDIA заявляет, что преимуществом гетерогенных вычислительных систем с Tesla является большая энергоэффективность и меньшая стоимость (как недостаток можно рассматривать меньшую универсальность).

Спецификации и конфигурации

Модели Tesla 2007 года на базе GPU G80 (единственная группа карт без поддержки операций над 64-битными числами с плавающей точкой):

Читайте также:  Электронная книга Boox 60 появится в американских магазинах по цене $349

  • Tesla C870 — карта для рабочих станции (1 GPU)
  • Tesla D870 — приставной суперкомпьютер (2 GPU)
  • Tesla S870 — сервер (4 GPU)

Модели Tesla на базе GT200 (2008—2009 год):

  • Tesla C1060 — карта для рабочих станции (1 GPU)
  • Tesla S1070 — сервер (4 GPU)
  • Tesla S1075 — сервер (4 GPU)
  • Quadro Plex 2200 D2 (2 GPU)
  • Quadro Plex 2200 S4 (4 GPU)

Модели Tesla на базе GF100 и GF110 (2011 год):

  • Tesla C2050, M2050 — карта для рабочих станции (1 GPU)
  • Tesla C2070, C2075, M2070 — карта для рабочих станции (1 GPU)
  • Tesla M2090 — карта на основе GF110
  • Tesla S2050, S2070 — сервер (4 GPU)

На базе архитектуры Kepler предлагаются модели[1] 2012—2014 годов:

  • Tesla K10 (2× GK104)
  • Tesla K20, K20x (1× GK110)
  • Tesla K40 (1× GK110B)
  • Tesla K80 (2× GK210)

В 2015 году были представлены модели на базе микроархитектуры Maxwell:

  • M4 (1× GM206)
  • M6 (1× GM204)
  • M10 (4× GM107)
  • M40 (1× GM200)
  • M60 (2× GM204)

Чипы Pascal служили основой для карт 2016—2017 годов[2]:

  • P4 (1× GP104), PCIe
  • P6 (1× GP104), MXM
  • P40 (1× GP102), PCIe
  • P100 (1× GP100), NVLink
  • P100 (1× GP100, 16 или 12 ГБ ОЗУ), PCIe

В 2017 году появилась модель на базе Volta — Tesla V100, в виде PCIe и NVLink карт[2].

В 2018 году представлена карта Tesla T4 на базе Turing[2].

Описание

Модель

Количество GPU

Частота ядра, МГц

Шейдерные процессоры

Память

Теоретическая производительность, гигафлопс[3]

Вычислительные способности [4]

TDP, Вт

Примечания/формфактор

Количество

Частота, МГц

Пропускная способность, ГБ/с

Стандарт видеопамяти

Шина видеопамяти, бит

Объём видеопамяти, МБ

Частота (эффективная), МГц

Одинарная точность, всего (MUL+ADD+SF)

Одинарная точность, MAD (MUL+ADD)

Двойная точность, FMA

Вычислительный модуль на основе GPU[5]

Приставной суперкомпьютер[5]

Вычислительный модуль на основе GPU[5]

2-е поколение Tesla-процессоров[6]

2-е поколениеВычислительный модуль на основе GPU[7]

3-е поколениеTesla-процессор[8]

3-е поколениеTesla-процессор[8]

M2050Вычислительный модуль на основе GPU

M2070/M2070Q[11]Вычислительный модуль на основе GPU

S2050 1UВычислительная система на основе GPU

C870 1 600 128 1350 76,8 GDDR3 384 1536 1600 518,4 345,6 0 1,0 170,9 АТХ видеокарта
D870 2 600 2×128 (256) 1350 153,6 GDDR3 384 3072 1600 1036,8 691,2 0 1,0 Приставная система или в стойку
S870 4 600 4×128 (512) 1350 307,2 GDDR3 384 6144 1600 2073,6 1382,4 0 1,0 1U Rack
C1060 1 602 240 1300 102,4 GDDR3 512 4096 1600 933,12 622,08 77,76 1,3 187,8 ATX видеокартаIEEE 754-2008 FMA
S1070 4 602 4×240 (960) 1440 409,6 GDDR3 512 16384 1600 4147,2 2764,8 345,6 1,3 Одноюнитовая стойкаIEEE 754—2008 FMA
C2050 1 575 448 1150 144 GDDR5 384 3072[9] 3000 1288 1030,4[10] 515,2 2,0 238 Полноразмерная видеокартаIEEE 754—2008 FMA
C2070 1 575 448 1150 144 GDDR5 384 6144[9] 3000 1288 1030,4[10] 515,2 2,0 247 Полноразмерная видеокартаIEEE 754—2008 FMA
M2050 1 575 448 1150 148,4 GDDR5 384 3072[10] 3092 1288 1030,4[10] 515,2 2,0 225 Вычислительный модульIEEE 754—2008 FMA
M2070/M2070Q 1 575 448 1150 150,336 GDDR5 384 6144[10] 3132 1288 1030,4[10] 515,2 2,0 225 Вычислительный модульIEEE 754—2008 FMA
S2050 4 575 4×448 (1792) 1150 4×148,4 (593,6) GDDR5 384 12288[10] 3092 5152 4121,6[10] 2060,8 2,0 900 1U RackIEEE 754—2008 FMA

См. также

  • CUDA
  • AMD FireStream
  • Folding@Home

Примечания

  1. ↑ Архивированная копия (неопр.). Дата обращения: 14 ноября 2012. Архивировано 27 января 2013 года.
  2. 1 2 3 NVIDIA Product Overview and Technical Brief (неопр.). Дата обращения: 2 апреля 2008. Архивировано 18 марта 2015 года.
  3. ↑ Nvidia Announces Tesla 20 Series Архивировано 18 февраля 2012 года.

  4. ↑ Какие оборудование и программное обеспечение требуются для PhysX? (неопр.). Дата обращения: 21 апреля 2010. Архивировано 30 марта 2010 года.
  5. 1 2 3 Нет официальных данных; предполагается, что основаны на GeForce 8800 GTX.
  6. ↑ Нет официальных данных; предполагается, что основаны на GeForce GTX 280.

  7. ↑ Difference between Tesla S1070 and S1075 (неопр.). Дата обращения: 21 апреля 2010. Архивировано 26 февраля 2012 года.
  8. 1 2 Нет официальных данных; предполагается, что основаны на GeForce 400 Series.

  9. 1 2 С активированным ECC доступная для пользователя память составит 2,625 ГБ на GPU для C2050, S2050 и 5,25 ГБ на GPU для C2070.

  10. 1 2 3 4 5 6 7 8 GF100 выполняет новую соединенную инструкцию умножения-сложения FMA(D) (Fused Multiply-Add) для обоих 32-битных чисел одинарной точности с плавающей запятой и 64-битных чисел двойной точности с плавающей запятой (GT200 поддерживает инструкцию FMA только для чисел двойной точности). Разница между инструкциями FMA(D) и MAD (Multiply-Add) при выполнении операции вида A×B+C заключается в том, что FMA(D) не округляет результат произведения перед суммированием, что даёт более точный результат.
  11. ↑ NVidia Tesla M2050 & M2070/M2070Q Specs Online (неопр.). Дата обращения: 31 октября 2010. Архивировано 17 августа 2020 года.

Ссылки

  • Медиафайлы на Викискладе
  • Tesla (англ.)
  • Tesla
  • CUDA
  • отчет о результатах исследования ускорения расчетов в ANSYS 12.1 и 13.0 при использовании SSD и NVIDIA Tesla (апрель 2011 г.)

Источник — https://ru.wikipedia.org/w/index.php?title=Nvidia_Tesla&oldid=122327540

High-Performance Computing with NVIDIA Tesla GPUs

  1. High-Performance Computing with NVIDIA Tesla GPUs Timothy Lanfear, NVIDIA

  2. Why GPU Computing?

  3. Science is Desperate for Throughput Gigaflops 1 Exaflop 1,000,000,000 1 Petaflop Bacteria 100s of Chromatophores 1,000,000 Chromatophore 50M atoms 1,000 Ribosome 2.7M atoms F1-ATPase 327K atoms Ran for 8 months to simulate 2 nanoseconds Estrogen Receptor 36K atoms 1 BPTI 3K atoms 1997 2003 2006 2010 2012 1982

  4. Power Crisis in Supercomputing Household Power Equivalent Exaflop City 25,000,000 Watts 7,000,000 Watts Petaflop Town Jaguar Los Alamos 850,000 Watts Teraflop Neighborhood 60,000 Watts Gigaflop Block 1982 1996 2008 2020

  5. “Oak Ridge National Lab (ORNL) has already announced it will be using Fermi technology in an upcoming super that is ‘expected to be 10-times more powerful than today’s fastest supercomputer.

    ’ Since ORNL’s Jaguar supercomputer, for all intents and purposes, holds that title, and is in the process of being upgraded to 2.

    3 Petaflops … … we can surmise that the upcoming Fermi-equipped super is going to be in the 20 Petaflopsrange.” September 30 2009

  6. What is GPU Computing? x86 GPU PCIe bus Computing with CPU + GPU Heterogeneous Computing

  7. Control ALU ALU ALU ALU DRAM Cache DRAM Low Latency or High Throughput? • CPU • Optimised for low-latency access to cached data sets • Control logic for out-of-order and speculative execution • GPU • Optimised for data-parallel, throughput computation • Architecture tolerant of memory latency • More transistors dedicated to computation

  8. Why Didn’t GPU Computing Take Off Sooner? • GPU Architecture • Gaming oriented, process pixel for display • Single threaded operations • No shared memory • Development Tools • Graphics oriented (OpenGL, GLSL) • University research (Brook) • Assembly language • Deployment • Gaming solutions with limited lifetime • Expensive OpenGL professional graphics boards • No HPC compatible products

  9. NVIDIA Invested in GPU Computing in 2004 • Strategic move for the company • Expand GPU architecture beyond pixel processing • Future platforms will be hybrid, multi/many cores based • Hired key industry experts • x86 architecture • x86 compiler • HPC hardware specialist Create a GPU based Compute Ecosystem by 2008

  10. NVIDIA GPU Computing Ecosystem CUDA Development Specialist TPP / OEM ISV CUDA Training Company Hardware Architect VAR

  11. NVIDIA GPU Product Families GeForce® Entertainment TeslaTM High-Performance Computing Quadro® Design & Creation

  12. Many-Core High Performance Computing • NVIDIA’s 10-series GPU has 240 cores • Each core has a • Floating point / integer unit • Logic unit • Move, compare unit • Branch unit • Cores managed by thread manager • Thread manager can spawn and manage 30,000+ threads • Zero overhead thread switching NVIDIA 10-Series GPU 1.4 billion transistors 1 Teraflop of processing power 240 processing cores NVIDIA’s 2nd Generation CUDA Processor

  13. Tesla GPU Computing Products SuperMicro 1U GPU SuperServer Tesla S1070 1U System Tesla Personal Supercomputer Tesla C1060 Computing Board

  14. Tesla C1060 Computing Processor

  15. Tesla M1060 Embedded Module • OEM-only product • Available as integrated product in OEM systems

  16. Supercomputing Performance Massively parallel CUDA Architecture 960 cores. 4 Teraflops 250× the performance of a desktop Personal One researcher, one supercomputer Plugs into standard power strip Accessible Program in C for Windows, Linux Available now worldwide under $10,000 Tesla Personal Supercomputer

  17. Tesla S1070 1U System

  18. SuperMicro GPU 1U SuperServer M1060 GPUs • Two M1060 GPUs in a 1U • Dual Nehalem-EP Xeon CPUs • Up to 96 GB DDR3 ECC • Onboard Infiniband (QDR) • 3× hot-swap 3.5″ SATA HDD • 1200 W power supply

  19. Tesla Cluster Configurations Modular 2U compute node Tesla S1070 + Host Server 4 Teraflops Integrated 1U compute node GPU SuperServer 2 Teraflops

  20. CUDA Parallel Computing Architecture GPU Computing Applications CUDA C OpenCL™ DirectCompute CUDA Fortran Java and Python NVIDIA GPU with the CUDA Parallel Computing Architecture OpenCL is trademark of Apple Inc. used under license to the Khronos Group Inc.

  21. NVIDIA CUDA C and OpenCL CUDA C Entry point for developers who prefer high-level C Entry point for developers who want low-level API OpenCL Shared back-end compiler and optimization technology PTX GPU

  22. Application Software (written in C) CUDA Libraries cuFFT cuBLAS cuDPP CPU Hardware CUDA Compiler CUDA Tools 1U PCI-E Switch C Fortran Debugger Profiler 4 cores 240 cores

  23. NVIDIA Nexus The first development environment for massively parallel applications. Hardware GPU Source Debugging Platform-wide Analysis Complete Visual Studio integration Parallel Source Debugging Platform Trace Register for the Beta here at GTC! http://developer.nvidia.com/object/nexus.html Beta available October 2009 Releasing in Q1 2010 Graphics Inspector

  24. CUDA Toolkit Compiler Libraries CUDA SDK Code samples CUDA Profiler Forums Resources for CUDA developers CUDA Zone: www.nvidia.com/CUDA

  25. Wide Developer Acceptance and Success 146X 36X 19X 17X 100X Interactive visualization of volumetric white matter connectivity Ion placement for molecular dynamics simulation Transcoding HD video stream to H.264 Simulation in Matlab using .

    mex file CUDA function Astrophysics N-body simulation 149X 47X 20X 24X 30X Financial simulation of LIBOR model with swaptions GLAME@lab: An M-script API for linear Algebra operations on GPU Ultrasound medical imaging for cancer diagnostics Highly optimized object oriented molecular dynamics Cmatch exact string matching to find similar proteins and gene sequences

  26. CUDA Co-Processing Ecosystem Over 200 Universities Teaching CUDA Compilers PGI FortranCAPs HMPPMCUDAMPINOAA Fortran2COpenMP Languages C, C++DirectXFortranJavaOpenCLPython IIT Delhi Tsinghua Dortmundt ETH Zurich Moscow NTU … UIUC MIT Harvard Berkeley Cambridge Oxford … Oil & Gas Finance Medical Biophysics Applications Libraries FFTBLASLAPACKImage processingVideo processingSignal processingVision OEMs Consultants Numerics DSP EDA ANEO Imaging CFD GPU Tech

  27. What We Did in the Past Three Years • 2006 • G80, first GPU with built-in compute features, 128 core multi-threaded, scalable architecture • CUDA SDK Beta • 2007 • Tesla HPC product line • CUDA SDK 1.0, 1.1 • 2008 • GT200, second GPU generation, 240 core, 64-bit • Tesla HPC second generation • CUDA SDK 2.0 • 2009 …

  28. Next-Generation GPU Architecture — ‘Fermi’

  29. 3 billion transistors Over 2× the cores (512 total) 8× the peak DP performance ECC L1 and L2 caches ~2× memory bandwidth (GDDR5) Up to 1 Terabyte of GPU memory Concurrent kernels Hardware support for C++ Introducing the ‘Fermi’ ArchitectureThe Soul of a Supercomputer in the body of a GPU DRAM I/F DRAM I/F DRAM I/F HOST I/F L2 DRAM I/F Giga Thread DRAM I/F DRAM I/F

  30. Expand performance sweet spot of the GPU Bring more users, more applications to the GPU Design Goal of Fermi Data Parallel GPU Instruction Parallel CPU Many Decisions Large Data Sets

  31. Streaming Multiprocessor Architecture Instruction Cache Scheduler Scheduler Dispatch Dispatch • 32 CUDA cores per SM (512 total) • 8× peak double precision floating point performance • 50% of peak single precision • Dual Thread Scheduler • 64 KB of RAM for shared memory and L1 cache (configurable) Register File Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Load/Store Units x 16 Special Func Units x 4 Interconnect Network 64K ConfigurableCache/Shared Mem Uniform Cache

  32. CUDA Core Architecture Instruction Cache Scheduler Scheduler Dispatch Dispatch Register File • New IEEE 754-2008 floating-point standard, surpassing even the most advanced CPUs • Fused multiply-add (FMA) instruction for both single and double precision • Newly designed integer ALU optimized for 64-bit and extended precision operations Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core Core CUDA Core Core Core Core Core Dispatch Port Operand Collector Core Core Core Core Core Core Core Core FP Unit INT Unit Core Core Core Core Load/Store Units x 16 Result Queue Special Func Units x 4 Interconnect Network 64K ConfigurableCache/Shared Mem Uniform Cache

  33. Cached Memory Hierarchy • First GPU architecture to support a true cache hierarchy in combination with on-chip shared memory • L1 Cache per SM (32 cores) • Improves bandwidth and reduces latency • Unified L2 Cache (768 KB) • Fast, coherent data sharing across all cores in the GPU DRAM I/F DRAM I/F HOST I/F DRAM I/F L2 Giga Thread DRAM I/F Parallel DataCache™Memory Hierarchy DRAM I/F DRAM I/F

  34. Larger, Faster Memory Interface • GDDR5 memory interface • 2× speed of GDDR3 • Up to 1 Terabyte of memory attached to GPU • Operate on large data sets DRAM I/F DRAM I/F HOST I/F DRAM I/F L2 Giga Thread DRAM I/F DRAM I/F DRAM I/F

  35. Error Correcting Code • ECC protection for • DRAM • ECC supported for GDDR5 memory • All major internal memories are ECC protected • Register file, L1 cache, L2 cache

  36. GigaThreadTM Hardware Thread Scheduler • Hierarchically manages thousands of simultaneously active threads • 10× faster application context switching • Concurrent kernel execution HTS

  37. GigaThread Hardware Thread Scheduler Concurrent Kernel Execution + Faster Context Switch Kernel 1 Kernel 1 Kernel 2 Ker4 Kernel 2 Kernel 3 Kernel 2 nel Kernel 2 Kernel 5 Time Kernel 3 Kernel 4 Kernel 5 Serial Kernel Execution Parallel Kernel Execution

  38. GigaThread Streaming Data Transfer Engine • Dual DMA engines • Simultaneous CPUGPU and GPUCPU data transfer • Fully overlapped with CPU and GPU processing time • Activity Snapshot: SDT Kernel 0 CPU SDT0 GPU SDT1 Kernel 1 CPU SDT0 GPU SDT1 Kernel 2 CPU SDT0 GPU SDT1 Kernel 3 CPU SDT0 GPU SDT1

  39. Enhanced Software Support • Full C++ Support • Virtual functions • Try/Catch hardware support • System call support • Support for pipes, semaphores, printf, etc • Unified 64-bit memory addressing

  40. I believe history will record Fermi as a significant milestone. ” Dave Patterson Director Parallel Computing Research Laboratory, U.C. Berkeley Co-Author of Computer Architecture: A Quantitative Approach “ Fermi surpasses anything announced by NVIDIA's leading GPU competitor (AMD). ” Tom HalfhillSenior EditorMicroprocessor Report

  41. Fermi is the world’s first complete GPU computing architecture.

    ” Peter GlaskowskyTechnology Analyst The Envisioneering Group “ The convergence of new, fast GPUs optimized for computation as well as 3-D graphics acceleration and industry-standard software development tools marks the real beginning of the GPU computing era. Gentlemen, start your GPU computing engines. ” Nathan BrookwoodPrinciple Analyst & Founder Insight 64

  42. GPU Revolutionizing Computing

Ссылка на основную публикацию
Adblock
detector