WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Диаризация (или разделение дикторов) — процесс разделения входящего аудиопотока на однородные сегменты в соответствии с принадлежностью аудиопотока тому или иному говорящему. Диаризация повышает качество текстов при автоматическом транскрибировании, а также может использоваться совместно с системой распознавания речи, значительно её улучшая. Диаризация используется для ответа на вопрос «Кто сейчас говорит?». Диаризация является сочетанием методов сегментации и кластеризации дикторов. Первый направлен на поиск точек смены диктора, второй — на группирование выделенных в речи диктора речевых сегментов.

Одним из популярных методов при диаризации является использование алгоритмов на основе гауссовых смесей для моделирования каждого из говорящих и закрепление выделенных фрагментов за каждым из дикторов с помощью скрытой марковской модели^[1].

Программное обеспечение

Программные средства для диаризации включают в себя^[2]^[3]^{[неавторитетный источник?]}:

ALIZE^[4]
LIUM_SpkDiarization^[5]
Audioseg — сегментация и классификация аудиопотоков^[6]
SHoUT^[7]
pyAudioAnalysis

Примечания

↑ Speaker Diarization: A Review of Recent Research // icsi.berkeley.edu, 2012.
↑ Cultural and historical digital libraries dynamically mined from news archives D2.1: State of the Art, Project’s deliverable
↑ Development of a Speaker Recognition Solution in Vidispine: Karen Farnes, Master’s Thesis in Computing Science, Umeå University, 2013
↑ ALIZE Diarization System, University Of Avignon
↑ SpkDiarization
↑ InriaForge: AudioSeg: Project Home
↑ SHoUT speech recognition toolkit

Литература

Будков В. Ю., Ронжин А. Л. Комбинированные методы диаризации речи дикторов (недоступная ссылка). «Информационно-измерительные и управляющие системы» № 8, 2013.
Anguera, Xavier et al. Speaker diarization: A review of recent research // Audio, Speech, and Language Processing, IEEE Transactions on. — IEEE, 2012. — Vol. 20. — P. 356—370. — ISSN 1558-7916. — DOI:10.1109/TASL.2011.2125954.
Beigi, Homayoon. Fundamentals of Speaker Recognition. — Springer, 2011. — 942 p. — ISBN 978-0-387-77591-3.

Это заготовка статьи о человеко-компьютерном взаимодействии. Вы можете помочь проекту, дополнив её.

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2026
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[1] Speaker Diarization: A Review of Recent Research // icsi.berkeley.edu, 2012.

[2] Cultural and historical digital libraries dynamically mined from news archives D2.1: State of the Art, Project’s deliverable

[3] Development of a Speaker Recognition Solution in Vidispine: Karen Farnes, Master’s Thesis in Computing Science, Umeå University, 2013

[4] ALIZE Diarization System, University Of Avignon

[5] SpkDiarization

[6] InriaForge: AudioSeg: Project Home

[7] SHoUT speech recognition toolkit