WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Speech Application Programming Interface (SAPI) — интерфейс программирования приложений, основанный на технологии COM, предназначенный для распознавания и синтеза речи.

Распознавание речи

Распознавание речи — процесс преобразования произнесённых слов в печатный текст. Распознавание речи включает в себя:

захват и оцифровку звука, произнесённого в микрофон;
преобразование оцифрованного звука в фонемы;
конструирование из фонем слов;
анализ контекста, в котором было произнесено слово, и, при необходимости, замена слов на похожие по звучанию.

Распознающая программа (движок распознавания текста) итерационно сравнивает распознанный текст с правилами грамматики приложения и при совпадении текста с серией правил формирует выходной поток XML с использованием языка разметки семантики (англ. Semantic Markup Language, SML). Выходной поток содержит распознанный текст, значения вероятностей правильного распознания и может содержать семантические значения, присвоенные при помощи разметки интерпретации семантики. Распознанный текст обычно используется для ввода данных при помощи диктовки и для управления приложениями при помощи речевых команд.

Размер правил грамматики ограничивает возможности распознавания текста. Большинство программ, поддерживающих диктовку, для обеспечения наиболее точного распознавания настраиваются на речевые обороты конкретного пользователя. Режим управления речевыми командами более прост для реализации, поскольку содержание правил грамматики ограничено имеющимися командами^[1].

Синтез речи

Синтез речи — процесс преобразования текста в произносимые слова. Синтез речи включает в себя:

разделение слов на фонемы;
нахождение текста, требующего преобразование в символы, такого как числа, количество валюты и пунктуация;
генерация цифрового звука для воспроизведения.

Движки преобразования текста в речь могут использовать один из двух способов синтеза голоса:

генерировать звуки, подобные издаваемым голосовыми связками и использовать различные фильтры для моделирования длины горла, форму ротовой полости, расположение губ и языка;
собирать его из многочисленных кусков речи, записанных диктором.

Примечания

↑ Томашенко Н. А., Хохлов Ю. Ю.//ИССЛЕДОВАНИЕ ПРОБЛЕМЫ СБАЛАНСИРОВАННОСТИ ДАННЫХ ПРИ ПОСТРОЕНИИ АКУСТИЧЕСКИХ МОДЕЛЕЙ СИСТЕМ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ. - Статья. - Приборостроение. - УДК 004.934

Ссылки

Introducing Computer Speech Technology (англ.). MSDN Library. Microsoft (2012). Проверено 24 июля 2012. Архивировано 29 сентября 2012 года.

Это заготовка статьи о Windows. Вы можете помочь проекту, дополнив её.

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2025
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[1] Томашенко Н. А., Хохлов Ю. Ю.//ИССЛЕДОВАНИЕ ПРОБЛЕМЫ СБАЛАНСИРОВАННОСТИ ДАННЫХ ПРИ ПОСТРОЕНИИ АКУСТИЧЕСКИХ МОДЕЛЕЙ СИСТЕМ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ. - Статья. - Приборостроение. - УДК 004.934

Синтез речи
Проприетарное ПО	BrowseAloud CereProc DECtalk IVONA Microsoft Agent Microsoft Speech API Microsoft text-to-speech voices Readspeaker Talk It! Voice browser Vocaloid Cantor Voiceroid Utau Software Automatic Mouth CoolSpeech LaLaVoice Symphonic Choirs Realivox CeVIO Creative Studio Chipspeech Alter/Ego PPG Phonem
Свободное ПО	eSpeak Gnuspeech Festival Speech Synthesis System FreeTTS Gnopernicus Orca Sinsy Automatik Text Reader
Машина	Echo 2 Pattern playback Phasor RIAS Texas Instruments LPC Speech Chips TuVox
Приложения	AOLbyPhone DialogOS Dr. Sbaitso MBROLA Microsoft Narrator Microsoft Speech Server PlainTalk Voice font
Протоколы	Speech Synthesis Markup Language
Разработчики/ Исследователи	Catherine Browman Franklin Seaney Cooper Гуннар Фант Haskins Laboratories Вольфганг фон Кемпелен Ignatius Mattingly Philip Rubin VoiceWeb VoiceXML Yamaha
Процесс	Articulatory synthesis Concatenative synthesis Currah Inverse filter PSOLA Phase vocoder SABLE Self-voicing