WikiSort.ru - Не сортированное

Рост производительности суперкомпьютеров во флопсах

FLOPS (также flops, flop/s, флопс или флоп/с; акроним от англ. FLoating-point Operations Per Second, произносится как флопс) — внесистемная единица, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет данная вычислительная система. Существуют разногласия насчёт того, допустимо ли использовать слово FLOP (или flop или флоп, от англ. FLoating point OPeration), и что оно может означать. Некоторые считают, что FLOP (флоп) и FLOPS (флопс) — синонимы, другие же полагают, что FLOP — это просто количество операций с плавающей запятой (например, требуемое для исполнения данной программы).

Поскольку современные компьютеры обладают высоким уровнем производительности, более распространены производные величины от флопс, образуемые путём использования приставок СИ.

Флопс как мера производительности

Как и большинство других показателей производительности, данная величина определяется путём запуска на испытуемом компьютере тестовой программы, которая решает задачу с известным количеством операций и подсчитывает время, за которое она была решена. Наиболее популярным тестом производительности на сегодняшний день являются тесты производительности LINPACK, в частности HPL, используемый при составлении рейтинга суперкомпьютеров TOP500.

Одним из важнейших достоинств измерения производительности во флопсах является то, что данная единица до некоторых пределов может быть истолкована как абсолютная величина и вычислена теоретически, в то время как большинство других популярных мер являются относительными и позволяют оценить испытуемую систему лишь в сравнении с рядом других. Эта особенность даёт возможность использовать для оценки результатов работы различных алгоритмов, а также оценить производительность вычислительных систем, которые ещё не существуют или находятся в разработке.

Границы применимости

Несмотря на кажущуюся однозначность, в реальности флопс является достаточно плохой мерой производительности, поскольку неоднозначным является уже само его определение. Под «операцией с плавающей запятой» может скрываться масса разных понятий, не говоря уже о том, что существенную роль в данных вычислениях играет разрядность операндов, которая так же нигде не оговаривается. Кроме того, флопс подвержен влиянию очень многих факторов, напрямую не связанных с производительностью вычислительного модуля, таких как: пропускная способность каналов связи с окружением процессора, производительность основной памяти и синхронность работы кэш-памяти разных уровней.

Всё это, в конечном итоге, приводит к тому, что результаты, полученные на одном и том же компьютере при помощи разных программ, могут существенным образом отличаться, более того, с каждым новым испытанием разные результаты можно получить при использовании одного алгоритма. Отчасти эта проблема решается соглашением об использовании единообразных тестовых программ (той же LINPACK) с усреднением результатов, но со временем возможности компьютеров «перерастают» рамки принятого теста и он начинает давать искусственно заниженные результаты, поскольку не задействует новейшие возможности вычислительных устройств. А к некоторым системам общепринятые тесты вообще не могут быть применены, в результате чего вопрос об их производительности остаётся открытым.

Так, 24 июня 2006 года общественности был представлен суперкомпьютер MDGrape-3, разработанный в японском исследовательском институте RIKEN (Йокогама), с рекордной теоретической производительностью в 1 петафлопс. Однако данный компьютер не является компьютером общего назначения и приспособлен для решения узкого спектра конкретных задач, в то время как стандартный тест LINPACK на нём выполнить невозможно в силу особенностей его архитектуры.

Также высокую производительность на специфичных задачах показывают графические процессоры современных видеокарт и игровые приставки. К примеру, заявленная производительность видеопроцессора игровой приставки PlayStation 3 составляет 192 гигафлопса^[3], а видеоускорителя приставки Xbox 360 и вовсе 240 гигафлопсов^[3], что сравнимо с суперкомпьютерами двадцатилетней давности. Столь высокие показатели объясняются тем, что указана производительность над числами 32-разрядного формата^[4]^[5], тогда как для суперкомпьютеров обычно указывают производительность на 64-разрядных данных^[6]^[7]. Кроме того, данные приставки и видеопроцессоры рассчитаны на операции с трёхмерной графикой, хорошо поддающиеся распараллеливанию, однако эти процессоры не в состоянии выполнять многие задачи общего назначения, и их производительность сложно оценить классическим тестом LINPACK^[8] и тяжело сравнить с другими системами.

Пиковая производительность

Для подсчета максимального количества флопсов для процессора нужно учитывать, что современные процессоры в каждом своём ядре содержат несколько исполнительных блоков каждого типа (в том числе и для операций с плавающей запятой), работающих параллельно, и могут выполнять более одной инструкции за такт. Данная особенность архитектуры называется суперскалярность и впервые появилась ещё в самом первом процессоре Pentium в 1993 году. Процессор конца 2000-х годов, Intel Core 2, также является суперскалярным и содержит 2 устройства вычислений над 64-разрядными числами с плавающей запятой, которые могут завершать по 2 связанные операции (умножение и последующее сложение, MAC) в каждый такт, теоретически позволяющих достичь пиковой производительности до 4 операций за 1 такт в каждом ядре^[9]^[10]^[11]. Таким образом, для процессора, имеющего в своём составе 4 ядра (Core 2 Quad) и работающего на частоте 3,5 ГГц, теоретический предел производительности составляет 4х4х3,5=56 гигафлопсов, а для процессора, имеющего 2 ядра (Core 2 Duo) и работающего на частоте 3 ГГц — 2х4х3=24 гигафлопсов, что хорошо согласуется с практическими результатами, полученными на тесте LINPACK.

AMD Phenom 9500 sAM2+ с тактовой частотой 2,2 ГГц: 2200 МГц × 4 ядра × 4⋅10⁻³ = 35,2 Гигафлопса
Для четырёхъядерного процессора Core 2 Quad Q6600: 2400 МГц × 4 ядра × 4⋅10⁻³ = 38,4 Гигафлопса.

Более новые процессоры могут исполнять до 8 (например, Sandy и Ivy Bridge, 2011—2012 гг, AVX) или до 16 (Haswell и Broadwell, 2013—2014 гг, AVX2 и FMA3) операций на 64-битными числами с плавающей запятой в такт (на каждом ядре)^[11]. В последующих процессорах ожидается исполнение 32 операций в такт (Intel Xeon Skylake, Xeon *v5, 2015 г, AVX512)^[12]

Sandy и Ivy Bridge c AVX: 8 Флопсов/такт двойной точности^[13], 16 Флопс/такт одинарной точности
Intel i7 2700:/Intel i7 3770: 8*4*3900 МГц = 124,8 Гфлопса пиковая двойной точности, 16*4*3900 = 249,6 Гфлопса пиковая одинарной точности.

Intel Haswell/Broadwell с AVX2 и FMA3: 16 Флопсов/такт двойной точности^[13]; 32 одинарной точности Флопса/такт
Intel i7 4770: 16*4*3900 МГц = 249,6 Гфлопса пиковая двойной точности, 32*4*3900 = 499,2 Гфлопса пиковая одинарной точности.

Причины широкого распространения

Несмотря на большое число существенных недостатков, флопс продолжает с успехом использоваться для оценки производительности, базируясь на результатах теста LINPACK. Причины такой популярности обусловлены, во-первых, тем, что флопс, как говорилось выше, является абсолютной величиной. А во-вторых, очень многие задачи инженерной и научной практики в конечном итоге сводятся к решению систем линейных алгебраических уравнений, а тест LINPACK как раз и базируется на измерении скорости решения таких систем. Кроме того, подавляющее большинство компьютеров (включая суперкомпьютеры) построены по классической архитектуре с использованием стандартных процессоров, что позволяет использовать общепринятые тесты с большой достоверностью.

В различных алгоритмах, кроме возможности выполнять большое количество математических действий в ядре процессора, может потребоваться пересылка больших объёмов данных через подсистему памяти, и их производительность будет сильно ограничена из-за этого, например, как в уровнях 1 и 2 библиотек BLAS^[11]. Однако, алгоритмы, используемые в тестах типа LINPACK (уровень 3 BLAS), имеют высокий коэффициент переиспользования данных, пересылка данных между процессором и памятью в них занимает менее 1/10 общего времени, и они обычно достигают типичной производительности до 80-95 % от теоретического максимума.

Обзор производительности реальных систем

Из-за высокого разброса результатов теста LINPACK приведены примерные величины, полученные путём усреднения показателей на основе информации из разных источников. Производительность игровых приставок и распределённых систем (имеющих узкую специализацию и не поддерживающих тест LINPACK) приведена в справочных целях в соответствии с числами, заявленными их разработчиками. Более точные результаты с указанием параметров конкретных систем можно получить, например, на сайте The Performance Database Server.

Суперкомпьютеры

ЭНИАК (1946) — 500 флопсов^[14]
БЭСМ-2 (1957) — 10 килофлопсов
IBM 709 (англ.) (1957) — 5 килофлопсов

Мега

Т340-А и К340-А (НИИ ДАР) — 2,4 мегафлопса (1963)
IBM 7030 Stretch
CDC 6600 (1964) — 1 мегафлопс
БЭСМ-6 (1968) — 1 мегафлопс (операций сложения)
БЭСМ-6 на базе Эльбрус-1К2 (1980-х) — 6 мегафлопсов (операций деления)
CDC 7600 (1969) — 10 мегафлопсов
Эльбрус-2 (1984) — 125 мегафлопсов
Cray-1 (1974) — 133 мегафлопса
ПС2000 (1980) — 200 мегафлопсов
Электроника СС БИС (1991) — 500 мегафлопсов (двухмашинный вариант)
Эльбрус-3-1 (1990) — 550 мегафлопсов

Гига

NEC SX-2 (1983) — 1,3 гигафлопса
М-13 (1984) — 2,4 гигафлопса
ПС2100 (1985—1986) — 1,5 гигафлопса
Cray-2 (1985) — 1,9 гигафлопса
Cray Y-MP (1988) — 2,3 гигафлопса
ETA-10G (1990) — 10 гигафлопсов
Numerical Wind Tunnel (1993) — 124,5 гигафлопса

Тера

ASCI Red (1996) — 1 терафлопс
ASCI White (2000) — 12,3 терафлопса
Earth Simulator (2002) — 35,86 терафлопса
ASC Purple (2005) — 100 терафлопсов
IBM Blue Gene/L (2006) — 478,2 терафлопса

Пета

Cray Jaguar (2008) — 1,059 петафлопса
IBM Roadrunner (2008) — 1,042 петафлопса^[15]
Ломоносов (2011, НИВЦ МГУ) — 1,3 петафлопса
Jaguar Cray XT5-HE (2009) — 1,759 петафлопса
T-Platform A-Class Cluster (Ломоносов-2, ноябрь 2014, НИВЦ МГУ) — 1,85 петафлопса (в 5 стойках)^[16]^[17]^[18].
Тяньхэ-1А (2010) — 2,57 петафлопса
Fujitsu K computer (2011) — 8,16—10,51 петафлопса^[19]
IBM Sequoia (2012) — 16,32 петафлопса^[20]
Cray Titan (бывш. Cray Jaguar; 2012) — >17,59 петафлопса^[21]
Тяньхэ-2 (2013) — 33,86 петафлопса^[22]
Sunway TaihuLight (2016) — 93 петафлопса
Summit (2018) — 122,3 петафлопса

Экса

Планируемые:

По сообщениям 2011 года, Intel планирует к 2020 году создать суперкомпьютер производительностью 4 эксафлопса^[23].
Японская компания Fujitsu сообщает о решениях, потенциально способных повысить производительность её последующих суперкомпьютеров до уровня в 100 петафлопсов (0,1 эксафлопса)^[24]^[25]^[26]^[27].
В 2012 году ряд СМИ сообщили, что к 2018—2020 годам планируется увеличить мощность суперкомпьютера Саровского ядерного центра с уровня 2 петафлопса до 1 эксафлопса^[28]^[29].

Процессоры персональных компьютеров

Пиковая производительность двойной точности

Intel 80486DX/DX2 (1990—1992) — до 30-50 мегафлопсов^[30]
Intel Pentium 75-200 МГц (1996) — до 75-200 мегафлопсов^[30]^[31]
Intel Pentium III 450—1133 МГц (1999—2000) — до 450—1113 Мфлопсов^[30]^[31]
Intel Pentium III-S (2001) 1ГГц — 1,4 ГГц — до 1 — 1,4 Гфлопса^[31]
Intel Atom N270, D150 1,6 ГГц (2008—2009) — до 3,2 Гфлопса^[30]
Intel Pentium 4 2,5-2,8 ГГц (2004) — до 5 — 5,6 Гфлопса^[30]
AMD Athlon 64 X2 4200+ 2,2 ГГц (2006) — 8,8 Гфлопса
Intel Core 2 Duo E6600 2,4 ГГц, 2 ядра (2006) — 19,2 Гфлопса^[32]
МЦСТ Эльбрус-4С (1891ВМ8Я) 800 МГц, 4 ядра (2014) — пиковая производительность 25 Гфлопсов (двойной точности, 50 Гфлопсов одинарной точности)^[33]
Intel Core i3-2350M 2,3 ГГц, 2 ядра (2011) — 36,8 Гфлопса^[34]
Intel® Core™2 Quad Q6600 2,40 ГГц, 4 ядра (2007) — 38,4 Гфлопса^[35]
Intel Core 2 Quad Q8300 2,5 ГГц, 4 ядра (2008) — 40 Гфлопсов^[36]
AMD Athlon II X4 640 3,0 ГГц, 4 ядра (2010) — 48 Гфлопсов
Intel Core i7-975 XE (Nehalem) 3,33 ГГц, 4 ядра (2009) — 53,3 гигафлопса^[37]
AMD Phenom II X4 965 BE 3,4 ГГц, 4 ядра (2009) — 54,4 Гфлопса
AMD Phenom II X6 1100T 3,3 ГГц , 6 ядер (2010) — 79,2 Гфлопса
Intel Core i5-2500K (Sandy Bridge), частоты 3,3-3,7 ГГц (2011) — 105,6-118 гигафлопсов^[38]
AMD FX-8350 4,1 ГГц, 8 ядер (2012) — 184,6 Гфлопса^[39]
Intel Core i7-4930K (Ivy Bridge), частоты 3,7-4,2 ГГц, 6 ядер (2013) — 130—140 гигафлопсов (теоретический пик 177 GFlops)
Loongson-3B1500 (MIPS64), 1,5 ГГц, 8 ядер (2016) — до 192 ГФлопсов.^[40]
МЦСТ Эльбрус-8СВ 1,5 ГГц, 8 ядер (планируется 2018)^[41] — пиковая производительность 288 Гфлопсов (предположительно; 576 Гфлопсов одинарной точности).^[42]
IBM Power8 4.4 ГГц, 12 ядер, (2013), 290 ГФлопс.
Intel Core i7-5960X (Extreme Edition Haswell-E), частоты 3,0-3,5 ГГц (2014) — до 350 гигафлопсов (теоретический пик 384 ГФлопса)^[43]
МЦСТ Эльбрус-16С 1,5 ГГц, 16 ядер (планируется 2022) — пиковая производительность 750 Гфлопсов (1500 Гфлопсов одинарной точности).

Количество операций FLOP за такт для разных архитектур

Для ряда процессорных микроархитектур известны максимальные количества плавающих операций, исполняемых за такт на одном ядре. В следующем ниже списке указаны названия микроархитектур, а не семейства процессоров.

(single) — одинарной точности; (double) — двойной точности ^[44]

Intel P5 & P6 (no ISEs) + Pentium Pro & Pentium II = 1 (single); 1 (double)
P6 (только Pentium III) = 4 (single); 1 (double)
NetBurst = 4 (single); 2 (double)
Pentium M & Enhanced Pentium M = 4 (single); 2 (double)
Core, Penryn, Nehalem & Westmere = 8 (single); 4 (double)
Sandy Bridge & Ivy Bridge = 16 (single); 8 (double)
Haswell, Broadwell & Skylake = 32 (single); 16 (double)
Bonnell, Saltwell, Silvermont & Airmont = 6 (single); 1.5 (double)
MIC ("Knights Corner" Xeon Phi) = 32 (single); 16 (double)
MIC ("Knights Landing" Xeon Phi) = 64 (single); 32 (double)
AMD K5 & K6 = 0.5 (single); 0.5 (double)
K6-2 & K6-III = 4 (single); 0.5 (double)
K7 = 4 (single); ? (double)
K8 = 4 (single); 2 (double)
K10/Stars = 8 (single); 4 (double)
Husky = 8 (single); 4 (double)
Bulldozer, Piledriver, Steamroller & Excavator (Суммарно на пару ядер - модуль^[45]) = 16 (single); 8 (double)
Bobcat = 4 (single); 1.5 (double)
Jaguar, Puma and Puma+ = 8 (single); 3 (double)
Ryzen = 16 (single); 8 (double)

Процессоры карманных компьютеров

КПК на основе процессора Samsung S3C2440 400 МГц (архитектура ARM9) — 1,3 мегафлопса
Intel XScale PXA270 520 МГц — 1,6 мегафлопса
Intel XScale PXA270 624 МГц — 2 мегафлопса
Samsung Exynos 4210 2х1600 МГц — 84 мегафлопса
Apple A6 — 645 мегафлопсов (по оценке программы LINPACK)
Apple A7 — 833 мегафлопса (по оценке программы LINPACK)^[46]
Apple A8 — 1,4 гигафлопса на CPU^[47]
Tegra X1 — 1 терафлопс на GPU

Распределённые системы

Данные приведены по состоянию на ноябрь 2013 года

Bitcoin — имеет значительное количество специализированных вычислительных ресурсов, но решает исключительно целочисленные задачи (вычисление хеш-суммы SHA256). Практически все вычислители реализованы в виде специальных заказных микросхем (ASIC), которые технически не способны производить вычисления над числами с плавающей запятой. Следовательно, оценивать сеть Bitcoin с помощью флопсов в настоящее время некорректно.^[48]^[49]^[50] Ранее, до 2011 года в сети использовались только ЦПУ и ГПУ, которые могут обрабатывать как целочисленные, так и плавающие данные, и оценка во флопсах получалась из метрики hash/s с помощью эмпирического коэффициента в 12,7 тысячи.^[51]^[52] Например, на апрель 2011 мощность сети оценивалась таким методом примерно в 8 петафлопсов.^[53]
Folding@home — более 4,6 петафлопса^[54]
BOINC — более 21,4 петафлопса^[55]
SETI@home — 0,6 петафлопса^[56]
Einstein@Home — более 470 терафлопсов^[57]
Rosetta@home — более 66 терафлопсов^[58]

Игровые приставки

Указаны операции с плавающей запятой над 32-разрядными данными

Sega Dreamcast — 1,4 гигафлопса
Nintendo GameCube — 1,9 Гфлопса (CPU), 8,6 Гфлопса (GPU ATI-AMD «Flipper»)^[59]
Microsoft Xbox — 2,9 GFLOPS (CPU Intel Pentium III 733 Mhz), 80,0 GFLOPS (GPU Nvidia XGPU 233 Mhz)^[59]
Microsoft Xbox 360 — 115,2 GFLOPS (CPU IBM Xenon), 240 GFLOPS (GPU ATI-AMD Xenos )
Sony PlayStation 2 — 6,2 гигафлопса
Sony PlayStation Portable — 2,6 гигафлопса^[60]
Sony PlayStation 3 — 230,4 Гфлопса одинарной точности и до +15 Гфлопсов двойной точности (ЦПУ Cell BE)^[61]^[62]
Sony PlayStation 3 — 400,4 Гфлопса (ГПУ) RSX Nvidia G70 550 МГц^[3]
Nintendo Wii — 2,9 гигафлопса (ЦПУ)^[63]
Microsoft Xbox One — 1,23 терафлопса (ГПУ)^[64]
Sony PlayStation 4 (графический процессор AMD Radeon) — 1,84 терафлопса^[65]
Sony PlayStation® 4 Pro - 4.20 Тфлопс (Графический процессор: AMD Radeon™) ^[66]
Nintendo Wii U — 352 гигафлопса (ГПУ, предположительно)^[67]
Microsoft Xbox One X — 6 терафлопсов (ГПУ)

Графические процессоры

Теоретическая производительность (FMA; гигафлопсы):

Графический процессор	Год выпуска	Техпроцесс	Гигафлопсов, для 32-разрядных вычислений	Гигафлопсов, для 64-разрядных вычислений	Источник
GeForce GTX 1080 (GP104)	2016	16 нм	8873 (Boost)	277 (Boost)
GeForce GTX 780 Ti (GK110-425-B1)	2013	28 нм	5046	210
GeForce GTX 680 (GK104)	2012	28 нм	3090,4	128,8
Radeon HD 7970 (Tahiti)	2012	28 нм	3789	947-1024	^[68]
Radeon HD 6990 (2xCayman)	2011	40 нм	2x2550 = 5100	2x637 = 1274	^[68]
Radeon HD 5970 (2xRV870)	2009	40 нм	2x2320 = 4640	2x464 = 928	^[68]
Radeon R9 Fury X (Fuji)	2015	28 нм	8602	538	^[68]

Человек и калькулятор

Калькулятор не случайно попал в одну категорию вместе с человеком, поскольку хотя он и является электронным устройством, содержащим процессор, память и устройства ввода-вывода, режим его работы кардинально отличается от режима работы компьютера. Калькулятор выполняет одну операцию за другой с той скоростью, с какой их запрашивает человек-оператор. Время, проходящее между операциями, определяется возможностями человека и существенно превышает время, которое затрачивается непосредственно на вычисления. Можно сказать, что в среднем производительность простейших обычных карманных калькуляторов составляет порядка 10 флопсов и более.

Если не брать исключительные случаи (см. феноменальный счётчик), то обычный человек, пользуясь лишь ручкой и бумагой, выполняет операции с плавающей запятой очень медленно и часто с большой ошибкой, таким образом говоря о производительности человека как вычислительного аппарата, приходится использовать такие единицы, как миллифлопсы и даже микрофлопсы.

См. также

Примечания

1 2 Новый поворот Берд Киви, «Мир ПК», № 07, 2012: «Если нынешняя скорость прогресса суперкомпьютеров будет сохраняться, то следующий рубеж производительности в 1 экзафлопс, или квинтиллион (10^18) операций в секунду, ожидается достичь к 2019 г. … полагают, что компьютер производительностью один зеттафлопс (10^21 , или секстиллион операций) можно будет построить примерно к 2030 г. Более того, заранее припасены термины и для следующих вычислительных рубежей — йоттафлопс (10^24) и ксерафлопс (10^27).»
↑ Пета, экза, зетта, йотта… Берд Киви, «Компьютерра», Дата: 16 июля 2008 года: «За этим рубежом должны последовать зеттафлопс (10^21), йоттафлопс (10^24) и ксерафлопс (10^27).»
1 2 3 PLAYSTATION 3のグラフィックスエンジンRSX (неопр.).
↑ http://ixbtlabs.com/articles3/video/rv670-part1-page1.html floating-point ALUs .. support for FP32 precision
↑ Архивированная копия (неопр.) (недоступная ссылка). Проверено 17 августа 2009. Архивировано 5 июля 2009 года. these are single precision GPU peak numbers
↑ Архивированная копия (неопр.) (недоступная ссылка). Проверено 17 августа 2009. Архивировано 15 октября 2009 года. HPL is a software package that solves a dense linear system in double precision (64 bits)
↑ HPL Faq entries for precision
↑ Exploiting the Performance of 32 bit FP Arithmetic in Obtaining 64 bit Accuracy (Revisiting Iterative Refinement for Linear Systems)
↑ SSE, SSE2 & SSE3 max throughput: 4 Flop / cycle
↑ The net result is that you can now process 2 DP adds and 2 DP multiplies per clock, or 4 FLOPS per cycle. (DP)
1 2 3 Jack Dongarra. Adaptive Linear Solvers and Eigensolvers (англ.). Argonne Training Program on Extreme-scale Computing. Argonne National Laboratory (August 13, 2014). Проверено 13 апреля 2015.
↑ Jack Dongarra, Peak Performance — Per Core / A Look at High Performance Computing, 2015-10-15 (англ.)
1 2 http://sites.utexas.edu/jdm4372/2016/11/22/sc16-invited-talk-memory-bandwidth-and-system-balance-in-hpc-systems/ http://sites.utexas.edu/jdm4372/files/2016/11/Slide20.png
↑ The Emergence of Numerical Weather Prediction: from Richardson to the ENIAC, 2011
↑ IBM создала самый мощный суперкомпьютер в мире (рус.), Lenta.ru, 9 июня 2008 года
↑ T-PLATFORM A-CLASS CLUSTER, XEON E5-2697V3 14C 2.6GHZ, INFINIBAND FDR, NVIDIA K40M // Top 500, November 2014
↑ Новый рейтинг TOP500 суперкомпьютеров // Компьютерра, 18 ноября 2014: «… кластер A-Class, созданный компанией „Т-Платформы“ для Научно-исследовательского вычислительного центра МГУ.»
↑ Новый суперкомпьютер в МГУ вошел в Top500 // Мир ЦОД, Открытые системы, 19.11.2014: «В новом суперкомпьютере МГУ всего пять вычислительных стоек с 1280 узлами на базе 14-ядерных процессоров Intel Xeon E5-2697 v3 и ускорителей NVIDIA Tesla K40 с общей емкостью оперативной памяти более 80 Тбайт. … Каждая стойка суперкомпьютера потребляет около 130 кВт»
↑ Японский суперкомпьютер обогнал по производительности китайский (рус.)
↑ Lawrence Livermore’s Sequoia Supercomputer Towers above the Rest in Latest TOP500 List, TOP500 News Team | July 16, 2012 (англ.)
↑ Agam Shah (IDG News), Titan supercomputer hits 20 petaflops of processing power // PCWorld, Computers, Oct 29, 2012 (англ.)
↑ Перспективные особенности Tianhe-2 // «Открытые системы», № 08, 2013
↑ Intel планирует увеличить мощность суперкомпьютеров в 500 раз к 2020 г. Архивировано 25 июля 2015 года., CNews, 2011-06-21 (рус.)
↑ http://www.fujitsu.com/global/Images/key-technologies-for-100-pflops_tcm100-1050343.pdf
↑ Fujitsu guns for faster supercomputers with new chip | PCWorld
↑ http://www.fujitsu.com/global/Images/next-generaton-primehpc_tcm100-1050349.pdf
↑ https://www.theregister.co.uk/2014/08/07/fujitsu_takes_nextgen_hpc_chip_on_the_road/
↑ Мощность суперкомпьютера в Сарове может достигнуть максимума к 2020 г (неопр.). РИА Новости (23 февраля 2012). Проверено 24 февраля 2012. Архивировано 31 мая 2012 года.
↑ Саровский ядерный центр интенсивно переводит свои военные разработки на гражданские рельсы
1 2 3 4 5 Ryan Crierie. http://www.alternatewars.com/BBOW/Computing/Computing_Power.htm (англ.). Alternate Wars (13 March 2014). Проверено 23 января 2015.
1 2 3 Jack J. Dongarra. Performance of Various Computers Using Standard Linear Equations Software (англ.) (June 15, 2014). Проверено 23 января 2015.
↑ http://download.intel.com/support/processors/core2duo/sb/core_E6000.pdf (pdf) «E6600 2.40 GHz 19.20» GFlops
↑ Микропроцессор Эльбрус-4С (неопр.). МЦСТ.
↑ http://www.intel.com/support/processors/sb/CS-032816.htm
↑ http://download.intel.com/support/processors/core2quad/sb/core_Q6000.pdf (pdf) «Q6600 8 MB 1066 MHz 2.4 GHz 72800 38,4»
↑ http://download.intel.com/support/processors/core2quad/sb/core_Q8000.pdf (pdf) «Q8300 4 MB 1333 MHz 2.5 GHz 75833 40.00»
↑ http://download.intel.com/support/processors/corei7ee/sb/core_i7-900_d_x.pdf (pdf) «i7-975 Base 3.33 GHz, 101101 CTP, 53.328 GFLOPS»
↑ http://www.intel.com/support/processors/sb/CS-032815.htm
↑ Flops/2012 - AMD FX-8350.txt at master · Mysticial/Flops · GitHub
↑ Alex Voica. New MIPS64-based Loongson processors break performance barrier (англ.) (недоступная ссылка) (3 September 2015). Проверено 4 февраля 2017. Архивировано 5 февраля 2017 года.
↑ Микропроцессор «Эльбрус-8СВ» (ТВГИ.431281.023) (неопр.). АО "МЦСТ".
↑ Первый Эльбрус-8СВ (неопр.).
↑ Linpack performance Haswell E (Core i7 5960X and 5930K) — Puget Custom Computers
↑ architecture - How to compute the single-precision data and double-precision data peak performance for Intel(R) Core(TM) i7-3770 CPU - Stack Overflow
↑ Блок обработки операций с плавающей запятой (FPU) является общим на модуль - пару ядер процессора. При одновременном исполнении плавающих операций на обоих ядрах он разделяется между ними
↑ Сергей Уваров. Подробный обзор и тестирование Apple iPhone 5s (неопр.). IXBT.com (23 сентября 2013). Архивировано 2 октября 2013 года.
↑ Apple A8 SoC — NotebookCheck.net Tech
↑ // Gizmodo, 5/13/13: «Because Bitcoin miners actually do a simpler kind of math (integer operations), you have to do a little (messy) conversion to get to FLOPS. .. new ASIC miners—machines .. do nothing but mine Bitcoins—can’t even do other kinds of operations, they’re left out of the total entirely.»
↑ // SlashGear, May 13, 2013: «Bitcoin mining technically doesn’t operate using FLOPS, but rather integer calculations, so the figures are converted to FLOPS for a conversion that most people can understand more. Since the conversion process is a bit weird, it’s led to some experts calling foul on the mining figures.»
↑ // ExtremeTech: «As Bitcoin mining doesn’t rely on floating-point operations, these estimates are based on opportunity costs. Now that we have hardware with application-specific integrated circuits (ASIC) designed from the ground up to do nothing but mine Bitcoins, these estimates become even more fuzzy.»
↑ // CoinDesk ^{[неавторитетный источник?]}: «Two, the estimates used to convert hashes to flops (resulting in about 12,700 flops per hash) date to 2011, before ASIC devices became the norm for bitcoin mining. ASICs don’t handle flops at all, so the current comparison is very rough.»
↑ // VR-Zone: «A conversion rate of 1 hash = 12.7K FLOPS is used to determine the general speed of the network contribution. The estimate was created in 2011, before the creation of ASIC hardware solely designed for bitcoin mining. ASIC doesn’t use floating point operations at all,… Thus, the estimate doesn’t have any real-world meaning for such hardware.»
↑ Bitcoin Watch, архивная копия от 2011-04-08: «Network Hashrate TFLOP/s 8007»
↑ Folding@Home
↑ BOINC Архивировано 19 сентября 2010 года.
↑ BOINCstats:SETI@home Архивировано 3 мая 2012 года.
↑ BOINCstats:Einstein@Home
↑ BOINCstats:Rosetta@home Архивировано 7 октября 2011 года.
1 2 Console Specs
↑ PSP Specs Revealed Processing speed, polygon rate and lots more. // IGN Entertainment, 2003. «PSP CPU CORE…FPU, VFPU (Vector Unit) @ 2.6GFlops»
↑ Cell Broadband Engine Architecture and its first implementation (неопр.). IBM developerWorks (November 29, 2005). Проверено 6 апреля 2006.
↑ Exploiting the Performance of 32 bit Floating Point Arithmetic in Obtaining 64 bit Accuracy (неопр.). University of Tennessee (July 31, 2005). Проверено 11 февраля 2011.
↑ Update: How many FLOPS are in game consoles? // TG Daily, May 26, 2008
↑ Anand Lal Shimpi. The Xbox One: Hardware Analysis & Comparison to PlayStation 4 (англ.). Anandtech (англ.) (22 Мая 2013). Архивировано 2 октября 2013 года.
↑ Спецификация PS4
↑ Технические характеристики (рус.). Playstation. Проверено 14 декабря 2018.
↑ Philip Wong. Xbox One vs. PS4 vs. Wii U [update] (англ.), CNET Asia, Games & Gear (22 May 2013). Архивировано 3 декабря 2013 года. Проверено 29 ноября 2013.
1 2 3 4 Сравнительные таблицы графических карт AMD (ATI) Radeon

Ссылки

TOP500 Рейтинг суперкомпьютеров TOP500 (англ.)
The Performance Database Server Большая база данных производительности вычислительных систем (англ.)
Roy Longbottom’s PC Benchmark Collection Подборка тестовых программ для ПК (включая LINPACK) и результатов испытаний (англ.)
История суперкомпьютеров (англ. яз; pdf)
Top50 Опубликована очередная редакция рейтинга суперкомпьютеров Top50 (рус.)

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2025
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[kiwi2007mirpc-1] 1 2 Новый поворот Берд Киви, «Мир ПК», № 07, 2012: «Если нынешняя скорость прогресса суперкомпьютеров будет сохраняться, то следующий рубеж производительности в 1 экзафлопс, или квинтиллион (10^18) операций в секунду, ожидается достичь к 2019 г. … полагают, что компьютер производительностью один зеттафлопс (10^21 , или секстиллион операций) можно будет построить примерно к 2030 г. Более того, заранее припасены термины и для следующих вычислительных рубежей — йоттафлопс (10^24) и ксерафлопс (10^27).»

[kiwi2008kt-2] Пета, экза, зетта, йотта… Берд Киви, «Компьютерра», Дата: 16 июля 2008 года: «За этим рубежом должны последовать зеттафлопс (10^21), йоттафлопс (10^24) и ксерафлопс (10^27).»

[tegrak1-3] 1 2 3 PLAYSTATION 3のグラフィックスエンジンRSX (неопр.).

[ixbt-4] ttp://ixbtlabs.com/articles3/video/rv670-part1-page1.html floating-point ALUs .. support for FP32 precision

[inside-5] Архивированная копия (неопр.) (недоступная ссылка). Проверено 17 августа 2009. Архивировано 5 июля 2009 года. these are single precision GPU peak numbers

[hpl-6] Архивированная копия (неопр.) (недоступная ссылка). Проверено 17 августа 2009. Архивировано 15 октября 2009 года. HPL is a software package that solves a dense linear system in double precision (64 bits)

[hplfaq-7] HPL Faq entries for precision

[singlelinpack-8] Exploiting the Performance of 32 bit FP Arithmetic in Obtaining 64 bit Accuracy (Revisiting Iterative Refinement for Linear Systems)

[9] SSE, SSE2 & SSE3 max throughput: 4 Flop / cycle

[10] The net result is that you can now process 2 DP adds and 2 DP multiplies per clock, or 4 FLOPS per cycle. (DP)

[dongarra-adaptive-anl-2014-08-13-11] 1 2 3 Jack Dongarra. Adaptive Linear Solvers and Eigensolvers (англ.). Argonne Training Program on Extreme-scale Computing. Argonne National Laboratory (August 13, 2014). Проверено 13 апреля 2015.

[12] Jack Dongarra, Peak Performance — Per Core / A Look at High Performance Computing, 2015-10-15 (англ.)

[автоссылка2-13] 1 2 http://sites.utexas.edu/jdm4372/2016/11/22/sc16-invited-talk-memory-bandwidth-and-system-balance-in-hpc-systems/ http://sites.utexas.edu/jdm4372/files/2016/11/Slide20.png

[14] The Emergence of Numerical Weather Prediction: from Richardson to the ENIAC, 2011

[15] IBM создала самый мощный суперкомпьютер в мире (рус.), Lenta.ru, 9 июня 2008 года

[16] T-PLATFORM A-CLASS CLUSTER, XEON E5-2697V3 14C 2.6GHZ, INFINIBAND FDR, NVIDIA K40M // Top 500, November 2014

[17] Новый рейтинг TOP500 суперкомпьютеров // Компьютерра, 18 ноября 2014: «… кластер A-Class, созданный компанией „Т-Платформы“ для Научно-исследовательского вычислительного центра МГУ.»

[18] Новый суперкомпьютер в МГУ вошел в Top500 // Мир ЦОД, Открытые системы, 19.11.2014: «В новом суперкомпьютере МГУ всего пять вычислительных стоек с 1280 узлами на базе 14-ядерных процессоров Intel Xeon E5-2697 v3 и ускорителей NVIDIA Tesla K40 с общей емкостью оперативной памяти более 80 Тбайт. … Каждая стойка суперкомпьютера потребляет около 130 кВт»

[19] Японский суперкомпьютер обогнал по производительности китайский (рус.)

[20] Lawrence Livermore’s Sequoia Supercomputer Towers above the Rest in Latest TOP500 List, TOP500 News Team | July 16, 2012 (англ.)

[21] Agam Shah (IDG News), Titan supercomputer hits 20 petaflops of processing power // PCWorld, Computers, Oct 29, 2012 (англ.)

[22] Перспективные особенности Tianhe-2 // «Открытые системы», № 08, 2013

[23] Intel планирует увеличить мощность суперкомпьютеров в 500 раз к 2020 г. Архивировано 25 июля 2015 года., CNews, 2011-06-21 (рус.)

[24] ttp://www.fujitsu.com/global/Images/key-technologies-for-100-pflops_tcm100-1050343.pdf

[25] Fujitsu guns for faster supercomputers with new chip | PCWorld

[26] ttp://www.fujitsu.com/global/Images/next-generaton-primehpc_tcm100-1050349.pdf

[27] ttps://www.theregister.co.uk/2014/08/07/fujitsu_takes_nextgen_hpc_chip_on_the_road/

[sarov-28] Мощность суперкомпьютера в Сарове может достигнуть максимума к 2020 г (неопр.). РИА Новости (23 февраля 2012). Проверено 24 февраля 2012. Архивировано 31 мая 2012 года.

[29] Саровский ядерный центр интенсивно переводит свои военные разработки на гражданские рельсы

[aw-cp-2014-30] 1 2 3 4 5 Ryan Crierie. http://www.alternatewars.com/BBOW/Computing/Computing_Power.htm (англ.). Alternate Wars (13 March 2014). Проверено 23 января 2015.

[linpack.pdf-31] 1 2 3 Jack J. Dongarra. Performance of Various Computers Using Standard Linear Equations Software (англ.) (June 15, 2014). Проверено 23 января 2015.

[32] ttp://download.intel.com/support/processors/core2duo/sb/core_E6000.pdf (pdf) «E6600 2.40 GHz 19.20» GFlops

[33] Микропроцессор Эльбрус-4С (неопр.). МЦСТ.

[34] ttp://www.intel.com/support/processors/sb/CS-032816.htm

[35] ttp://download.intel.com/support/processors/core2quad/sb/core_Q6000.pdf (pdf) «Q6600 8 MB 1066 MHz 2.4 GHz 72800 38,4»

[36] ttp://download.intel.com/support/processors/core2quad/sb/core_Q8000.pdf (pdf) «Q8300 4 MB 1333 MHz 2.5 GHz 75833 40.00»

[37] ttp://download.intel.com/support/processors/corei7ee/sb/core_i7-900_d_x.pdf (pdf) «i7-975 Base 3.33 GHz, 101101 CTP, 53.328 GFLOPS»

[38] ttp://www.intel.com/support/processors/sb/CS-032815.htm

[39] Flops/2012 - AMD FX-8350.txt at master · Mysticial/Flops · GitHub

[40] Alex Voica. New MIPS64-based Loongson processors break performance barrier (англ.) (недоступная ссылка) (3 September 2015). Проверено 4 февраля 2017. Архивировано 5 февраля 2017 года.

[41] Микропроцессор «Эльбрус-8СВ» (ТВГИ.431281.023) (неопр.). АО "МЦСТ".

[42] Первый Эльбрус-8СВ (неопр.).

[43] Linpack performance Haswell E (Core i7 5960X and 5930K) — Puget Custom Computers

[44] rchitecture - How to compute the single-precision data and double-precision data peak performance for Intel(R) Core(TM) i7-3770 CPU - Stack Overflow

[45] Блок обработки операций с плавающей запятой (FPU) является общим на модуль - пару ядер процессора. При одновременном исполнении плавающих операций на обоих ядрах он разделяется между ними

[ixbt_5s_linpack-46] Сергей Уваров. Подробный обзор и тестирование Apple iPhone 5s (неопр.). IXBT.com (23 сентября 2013). Архивировано 2 октября 2013 года.

[47] Apple A8 SoC — NotebookCheck.net Tech

[48] // Gizmodo, 5/13/13: «Because Bitcoin miners actually do a simpler kind of math (integer operations), you have to do a little (messy) conversion to get to FLOPS. .. new ASIC miners—machines .. do nothing but mine Bitcoins—can’t even do other kinds of operations, they’re left out of the total entirely.»

[49] // SlashGear, May 13, 2013: «Bitcoin mining technically doesn’t operate using FLOPS, but rather integer calculations, so the figures are converted to FLOPS for a conversion that most people can understand more. Since the conversion process is a bit weird, it’s led to some experts calling foul on the mining figures.»

[50] // ExtremeTech: «As Bitcoin mining doesn’t rely on floating-point operations, these estimates are based on opportunity costs. Now that we have hardware with application-specific integrated circuits (ASIC) designed from the ground up to do nothing but mine Bitcoins, these estimates become even more fuzzy.»

[51] // CoinDesk ^{[неавторитетный источник?]}: «Two, the estimates used to convert hashes to flops (resulting in about 12,700 flops per hash) date to 2011, before ASIC devices became the norm for bitcoin mining. ASICs don’t handle flops at all, so the current comparison is very rough.»

[52] // VR-Zone: «A conversion rate of 1 hash = 12.7K FLOPS is used to determine the general speed of the network contribution. The estimate was created in 2011, before the creation of ASIC hardware solely designed for bitcoin mining. ASIC doesn’t use floating point operations at all,… Thus, the estimate doesn’t have any real-world meaning for such hardware.»

[53] Bitcoin Watch, архивная копия от 2011-04-08: «Network Hashrate TFLOP/s 8007»

[54] Folding@Home

[55] BOINC Архивировано 19 сентября 2010 года.

[56] BOINCstats:SETI@home Архивировано 3 мая 2012 года.

[57] BOINCstats:Einstein@Home

[58] BOINCstats:Rosetta@home Архивировано 7 октября 2011 года.

[автоссылка1-59] 1 2 Console Specs

[60] PSP Specs Revealed Processing speed, polygon rate and lots more. // IGN Entertainment, 2003. «PSP CPU CORE…FPU, VFPU (Vector Unit) @ 2.6GFlops»

[pacellperf-61] Cell Broadband Engine Architecture and its first implementation (неопр.). IBM developerWorks (November 29, 2005). Проверено 6 апреля 2006.

[celldp-62] Exploiting the Performance of 32 bit Floating Point Arithmetic in Obtaining 64 bit Accuracy (неопр.). University of Tennessee (July 31, 2005). Проверено 11 февраля 2011.

[63] Update: How many FLOPS are in game consoles? // TG Daily, May 26, 2008

[anandtech_cons_flops-64] Anand Lal Shimpi. The Xbox One: Hardware Analysis & Comparison to PlayStation 4 (англ.). Anandtech (англ.) (22 Мая 2013). Архивировано 2 октября 2013 года.

[65] Спецификация PS4

[66] Технические характеристики (рус.). Playstation. Проверено 14 декабря 2018.

[67] Philip Wong. Xbox One vs. PS4 vs. Wii U [update] (англ.), CNET Asia, Games & Gear (22 May 2013). Архивировано 3 декабря 2013 года. Проверено 29 ноября 2013.

[wrong_rs-68] 1 2 3 4 Сравнительные таблицы графических карт AMD (ATI) Radeon

Производительность суперкомпьютеров
Название	год	флопсы
флопс	1941	10⁰
килофлопс	1949	10³
мегафлопс	1964	10⁶
гигафлопс	1987	10⁹
терафлопс	1997	10¹²
петафлопс	2008	10¹⁵
эксафлопс	2019 или позже^[1]^[2]	10¹⁸
зеттафлопс	не ранее 2030^[1]	10²¹
иоттафлопс	н/д	10²⁴
ксерафлопс	н/д	10²⁷

Единицы СИ
Основные единицы	ампер кандела кельвин килограмм метр моль секунда
Производные единицы со специальными наименованиями	беккерель ватт вебер вольт генри герц градус Цельсия грей джоуль зиверт катал кулон люкс люмен ньютон ом паскаль радиан сименс стерадиан тесла фарад
Принятые для использования с СИ	ангстрем астрономическая единица гектар градус дуги минута дуги секунда дуги дальтон (атомная единица массы) бел литр непер сутки час минута тонна электронвольт Атомная система единиц Естественные системы единиц
См. также	Приставки СИ Система физических величин Преобразование единиц Новые определения СИ История метрической системы