WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

FMA (англ. Fused Multiply-Add, умножение-сложение с однократным округлением) — это набор опциональных 128- и 256-битных SIMD-инструкций для архитектур x86 и x86-64, предназначенный для выполнения операции умножения-сложения над числами в формате с плавающей запятой.

Существует два варианта расширений, добавляющих инструкции FMA:

  • FMA4 поддерживается процессорами AMD начиная с архитектуры Bulldozer. FMA4 было реализовано ранее FMA3.
  • FMA3 поддерживается процессорами Intel начиная с архитектуры Haswell и процессорами AMD начиная с архитектуры Piledriver.

Особенности

У инструкций FMA3 и FMA4 почти идентичная функциональность, но они не являются совместимыми. Обе содержат SIMD-инструкции умножения-сложения для чисел с плавающей точкой. Их поддержка в компиляторах займёт некоторое время.

Проблема совместимости

Разница между FMA3 и FMA4 заключается в том, сколько различных операндов есть у инструкции — 3 или 4. Операция FMA имеет вид:

Форма с 4 операндами (FMA4) позволяет a, b, c и d находиться в разных регистрах, тогда как форма с 3 операндами (FMA3) требует, чтобы d находился в одном из тех регистров, в которых находится a, b или c. Форма с 3 операндами делает код короче, а также её проще реализовать аппаратно, тогда как форма с 4 операндами обеспечивает большую гибкость программирования.

FMA3

Процессоры с поддержкой FMA3

  • Intel
    • Intel представила аппаратную реализацию FMA3 в процессорах, основанных на архитектуре Haswell в 2013 году.
  • AMD
    • Процессоры AMD получили поддержку FMA3 в архитектуре Piledriver в 2012 году.[1][2].

Новые инструкции FMA3

Инструкция Операнды Операция
VFMADD132PDy ymm, ymm, ymm/m256 a = a·c + b
VFMADD132PSy
VFMADD132PDx xmm, xmm, xmm/m128
VFMADD132PSx
VFMADD132SD xmm, xmm, xmm/m64
VFMADD132SS xmm, xmm, xmm/m32
VFMADD213PDy ymm, ymm, ymm/m256 a = b·a + c
VFMADD213PSy
VFMADD213PDx xmm, xmm, xmm/m128
VFMADD213PSx
VFMADD213SD xmm, xmm, xmm/m64
VFMADD213SS xmm, xmm, xmm/m32
VFMADD231PDy ymm, ymm, ymm/m256 a = b·c + a
VFMADD231PSy
VFMADD231PDx xmm, xmm, xmm/m128
VFMADD231PSx
VFMADD231SD xmm, xmm, xmm/m64
VFMADD231SS xmm, xmm, xmm/m32

FMA4

Процессоры с поддержкой FMA4

  • AMD
    • AMD впервые реализовала поддержку FMA4 в процессорах архитектуры Bulldozer, которые были представлены в октябре 2011[3], поддержку FMA4 имеет также архитектура Piledriver[4].
    • Начиная с микроархитектуры Zen (2017, бренды Ryzen, EPYC) AMD прекратило поддержку FMA4[5][6]
  • Intel
    • На 2013 год процессоры Intel не поддерживают FMA4, и неизвестно, будет ли Intel поддерживать FMA4 в будущем.

Новые инструкции FMA4

Инструкция Операнды Операция
VFMADDPDx xmm, xmm, xmm/m128, xmm/m128 a = b·c + d
VFMADDPDy ymm, ymm, ymm/m256, ymm/m256
VFMADDPSx xmm, xmm, xmm/m128, xmm/m128
VFMADDPSy ymm, ymm, ymm/m256, ymm/m256
VFMADDSD xmm, xmm, xmm/m64, xmm/m64
VFMADDSS xmm, xmm, xmm/m32, xmm/m32

История

Несовместимость между FMA3 от Intel и FMA4 от AMD вызвана тем, что обе компании изменили свои планы без согласования деталей кодирования друг с другом. AMD изменила планы от FMA3 в сторону FMA4, тогда как Intel — от FMA4 в сторону FMA3, практически единовременно.

Поддержка компиляторами

Различные компиляторы предлагают различный уровень поддержки FMA.

  • GCC 4.5.0 поддерживает FMA4 с -mfma4[7],
  • GCC 4.7.0 также поддерживает FMA3 с -mfma.
  • Microsoft Visual C++ 2010 SP1 поддерживает FMA4.[8]
  • Microsoft Visual C++ 2012 поддерживает FMA3.
  • PathScale поддерживает FMA4 с -mfma.
  • Open64 5.0 имеет «ограниченную поддержку».
  • AMD x86 Open64 Compiler Suite поддерживает FMA3 и FMA4, начиная с версии 4.5.2[9].
  • Компиляторы Intel поддерживают только FMA3.

Поддержка в ассемблерах:

  • NASM получил поддержку FMA3 в версии 2.03 и FMA4 — в версии 2.06.
  • YAsm поддерживает FMA3 и FMA4, начиная с версии 1.1.0.
  • FASM поддерживает и FMA3, и FMA4.

См. также

Примечания

  1. Striking a balance. Dave Christie, AMD Developer blogs (May 7, 2009). Проверено 8 мая 2009. (недоступная ссылка)
  2. Maffeo, Robin AMD и the Visual Studio 11 Beta. AMD. Проверено 8 декабря 2013. (недоступная ссылка)
  3. Руководство программиста по архитектуре AMD64. Том 6. 128-битные и 256-битные инструкции XOP, FMA4 и CVT16 (англ.). AMD (May 1, 2009).
  4. Новые инструкции в "Bulldozer" and "Piledriver". Шаг вперёд для разработки высокопроизводительного ПО (англ.). AMD (October 2012).
  5. "But with Zen being a clean-sheet design, there are some instruction set extensions found in Bulldozer processors not found in Zen/znver1. Those no longer present include FMA4 and XOP."
  6. Gopalasubramanian, G - [PATCH] add znver1 processor
  7. Вышел GCC 4.5 (недоступная ссылка). Проверено 7 декабря 2013. Архивировано 13 декабря 2013 года.
  8. Встроенные объекты FMA4, добавленные в Visual Studio 2010 с пакетом обновления 1 (SP1).
  9. Новое в x86 Open64 Compiler Suite v4.5.2. Архивировано 13 ноября 2013 года.

Ссылки

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .




Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2024
WikiSort.ru - проект по пересортировке и дополнению контента Википедии