WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Латентно-семантический анализ (ЛСА) (англ. Latent semantic analysis, LSA) — это метод обработки информации на естественном языке, анализирующий взаимосвязь между библиотекой документов и терминами, в них встречающимися, и выявляющий характерные факторы (тематики), присущие всем документам и терминам.

В основе метода латентно-семантического анализа лежат принципы факторного анализа, в частности, выявление латентных связей изучаемых явлений или объектов. При классификации / кластеризации документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших корпусов текстов^[1].

История

ЛСА был запатентован в 1988 году ^[2] Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum и Lynn Streeter. В области информационного поиска данный подход называют латентно-семантическим индексированием (ЛСИ).

Впервые ЛСА был применен для автоматического индексирования текстов, выявления семантической структуры текста и получения псевдодокументов ^[3]. Затем этот метод был довольно успешно использован для представления баз знаний^[4] и построения когнитивных моделей ^[5].

В последние годы метод ЛСА часто используется для поиска информации (индексация документов), классификации документов ^[6], моделях понимания ^[7] и других областях, где требуется выявление главных факторов из массива информационных данных .

Описание работы ЛСА

Анимация процесса обнаружения тематик в матрице “документы-слова”. Каждый столбец матрицы соответствует документу, каждая строка - слову. Ячейки матрицы содержат веса слов в документах (например, значения TF-IDF), более тёмные оттенки соответствуют более высокому весу. Алгоритм LSA группирует как документы, которые используют похожие слова, так и слова, которые встречаются в похожем наборе документов. Полученные кластеры в матрице используются для обнаружения латентных (скрытых) компонентов в исходных данных, соответствующих определённым тематикам.^[8]

ЛСА можно сравнить с простым видом нейросети, состоящей из трех слоев: первый слой содержит множество слов (термов), второй – некое множество документов, соответствующих определенным ситуациям, а третий, средний, скрытый слой представляет собой множество узлов с различными весовыми коэффициентами, связывающих первый и второй слои.

В качестве исходной информации ЛСА использует матрицу термы-на-документы, описывающую набор данных, используемый для обучения системы. Элементы этой матрицы содержат, как правило, веса, учитывающие частоты использования каждого терма в каждом документе и участие терма во всех документах (TF-IDF). Наиболее распространенный вариант ЛСА основан на использовании разложения матрицы по сингулярным значениям (SVD – Singular Value Decomposition). С помощью SVD-разложения любая матрица раскладывается во множество ортогональных матриц, линейная комбинация которых является достаточно точным приближением к исходной матрице.

Говоря более формально, согласно теореме о сингулярном разложении^[9], любая вещественная прямоугольная матрица может быть разложена на произведение трех матриц:

${\begin{matrix}A=USV^{T}\end{matrix}}$ ,

где матрицы ${\textbf {U}}$ и ${\textbf {V}}$ – ортогональные, а ${\textbf {S}}$ – диагональная матрица, значения на диагонали которой называются сингулярными значениями матрицы ${\textbf {A}}$ . Буква Т в выражении ${\textbf {V}}^{T}$ означает транспонирование матрицы.

Такое разложение обладает замечательной особенностью: если в матрице ${\textbf {S}}$ оставить только ${\textbf {k}}$ наибольших сингулярных значений, а в матрицах ${\textbf {U}}$ и ${\textbf {V}}$ – только соответствующие этим значениям столбцы, то произведение получившихся матриц ${\textbf {S}}$ , ${\textbf {U}}$ и ${\textbf {V}}$ будет наилучшим приближением исходной матрицы ${\textbf {A}}$ к матрице ${\hat {\textbf {A}}}$ ранга ${\textbf {k}}$ :

${\begin{matrix}{\hat {A}}\approx A=USV^{T}\end{matrix}}$ ,

Основная идея латентно-семантического анализа состоит в том, что если в качестве матрицы ${\textbf {A}}$ использовалась матрица термы-на-документы, то матрица ${\hat {\textbf {A}}}$ , содержащая только ${\textbf {k}}$ первых линейно независимых компонент ${\textbf {A}}$ , отражает основную структуру различных зависимостей, присутствующих в исходной матрице. Структура зависимостей определяется весовыми функциями термов.

Таким образом, каждый терм и документ представляются при помощи векторов в общем пространстве размерности ${\textbf {k}}$ (так называемом пространстве гипотез). Близость между любой комбинацией термов и/или документов легко вычисляется при помощи скалярного произведения векторов.

Как правило, выбор ${\textbf {k}}$ зависит от поставленной задачи и подбирается эмпирически. Если выбранное значение ${\textbf {k}}$ слишком велико, то метод теряет свою мощность и приближается по характеристикам к стандартным векторным методам. Слишком маленькое значение k не позволяет улавливать различия между похожими термами или документами.

Применение

Существуют три основных разновидности решения задачи методом ЛСА:

сравнение двух термов между собой;
сравнение двух документов между собой;
сравнение терма и документа.

Достоинства и недостатки ЛСА

Достоинства метода:

метод является наилучшим для выявления латентных зависимостей внутри множества документов;
метод может быть применен как с обучением, так и без обучения (например, для кластеризации);
используются значения матрицы близости, основанной на частотных характеристиках документов и лексических единиц;
частично снимается полисемия и омонимия.

Недостатки:

Существенным недостатком метода является значительное снижение скорости вычисления при увеличении объема входных данных (например, при SVD-преобразовании). Как показано в ^[10], скорость вычисления соответствует порядку ${\textbf {N}}^{2*k}$ , где ${\textbf {N}}={\textbf {N}}_{doc}+{\textbf {N}}_{term}$ - сумма количества документов и термов , ${\textbf {k}}$ – размерность пространства факторов.
Вероятностная модель метода не соответствует реальности. Предполагается, что слова и документы имеют Нормальное распределение, хотя ближе к реальности Распределение Пуассона. В связи с этим для практических применений лучше подходит Вероятностный латентно-семантический анализ, основанный на мультиномиальном распределении.

Примечания

↑ Thomas Landauer, Peter W. Foltz, & Darrell Laham (1998). “Introduction to Latent Semantic Analysis” (PDF). Discourse Processes. 25: 259—284. DOI:10.1080/01638539809545028.
↑ U.S. Patent 4 839 853
↑ Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman (1990). “Indexing by Latent Semantic Analysis” (PDF). Journal of the American Society for Information Science. 41 (6): 391—407. DOI:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. Проверено 2011-02-05.
↑ Thomas Landauer, Susan T. Dumais. A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge (неопр.) 211–240 (1997). Проверено 2 июля 2007. Архивировано 14 марта 2012 года.
↑ B. Lemaire, G. Denhière. Cognitive Models based on Latent Semantic Analysis (неопр.) (недоступная ссылка — история ) (2003).
↑ Некрестьянов И.С. Тематико-ориентированные методы информационного поиска / Диссертация на соискание степени к. ф-м.н. СПбГУ, 2000.
↑ Соловьев А.Н. Моделирование процессов понимания речи с использованием латентно-семантического анализа / Диссертация на соискание степени к.ф.н. СПбГУ, 2008.
↑ http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html
↑ Голуб Дж., Ван Лоун Ч. Матричные вычисления. М.: «Мир», 1999.
↑ Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman (1990). “Indexing by Latent Semantic Analysis” (PDF). Journal of the American Society for Information Science. 41 (6): 391—407. DOI:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. Проверено 2011-02-05.

Ссылки

http://www-timc.imag.fr/Benoit.Lemaire/lsa.html – Readings in Latent Semantic Analysis for Cognitive Science and Education. – Сборник статей и ссылок о ЛСА.

http://lsa.colorado.edu/ – сайт, посвященный моделированию ЛСА.

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2025
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[1] Thomas Landauer, Peter W. Foltz, & Darrell Laham (1998). “Introduction to Latent Semantic Analysis” (PDF). Discourse Processes. 25: 259—284. DOI:10.1080/01638539809545028.

[2] U.S. Patent 4 839 853

[3] Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman (1990). “Indexing by Latent Semantic Analysis” (PDF). Journal of the American Society for Information Science. 41 (6): 391—407. DOI:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. Проверено 2011-02-05.

[4] Thomas Landauer, Susan T. Dumais. A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge (неопр.) 211–240 (1997). Проверено 2 июля 2007. Архивировано 14 марта 2012 года.

[5] B. Lemaire, G. Denhière. Cognitive Models based on Latent Semantic Analysis (неопр.) (недоступная ссылка — история ) (2003).

[6] Некрестьянов И.С. Тематико-ориентированные методы информационного поиска / Диссертация на соискание степени к. ф-м.н. СПбГУ, 2000.

[7] Соловьев А.Н. Моделирование процессов понимания речи с использованием латентно-семантического анализа / Диссертация на соискание степени к.ф.н. СПбГУ, 2008.

[8] ttp://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html

[9] Голуб Дж., Ван Лоун Ч. Матричные вычисления. М.: «Мир», 1999.

[10] Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman (1990). “Indexing by Latent Semantic Analysis” (PDF). Journal of the American Society for Information Science. 41 (6): 391—407. DOI:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. Проверено 2011-02-05.