WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Алгоритм Кнута — Морриса — Пратта (КМП-алгоритм) — эффективный алгоритм, осуществляющий поиск подстроки в строке. Время работы алгоритма линейно зависит от объёма входных данных, то есть разработать асимптотически более эффективный алгоритм невозможно.

Алгоритм был разработан Д. Кнутом и В. Праттом и, независимо от них, Д. Моррисом^[1]. Результаты своей работы они опубликовали совместно в 1977 году^[2].

Постановка задачи

Даны образец (строка) $\displaystyle S$ и строка $\displaystyle T$ . Требуется определить индекс, начиная с которого образец $\displaystyle S$ содержится в строке $\displaystyle T$ . Если $\displaystyle S$ не содержится в $\displaystyle T$ — вернуть индекс, который не может быть интерпретирован как позиция в строке (например, отрицательное число). При необходимости отслеживать каждое вхождение образца в текст имеет смысл завести дополнительную функцию, вызываемую при каждом обнаружении образца.

Идея

Алгоритм Ахо-Корасик также позволяет искать одну строку за линейное время. Но слабое место этого алгоритма — конечный автомат, который в явном виде строится за O(|needle|·|Σ|) операций и требует столько же памяти.

Если искать всего одну строку, каждое состояние будет иметь только один «прямой» переход. Побочные же переходы будем вычислять динамически, никак их не кэшируя.

если haystack[i] = needle[state]
  то state = state + 1
  иначе state = побочный_переход(state, haystack[i])

Легко заметить, что суффиксные ссылки алгоритма Ахо-Корасик представляют собой префикс-функцию искомого шаблона.

Описание алгоритма и оценка времени работы

Рассмотрим сравнение строк на позиции $\displaystyle i$ , где образец $\displaystyle S[0,m-1]$ сопоставляется с частью текста $\displaystyle \displaystyle T[i,i+m-1]$ . Предположим, что первое несовпадение произошло между $\displaystyle \displaystyle T[i+j]$ и $\displaystyle S[j]$ , где $\displaystyle 1<j<m$ . Тогда $\displaystyle T[i,i+j-1]=S[0,j-1]=P$ и $\displaystyle a=T[i+j]\neq S[j]=b$ .

При сдвиге вполне можно ожидать, что префикс (начальные символы) образца $\displaystyle S$ сойдется с каким-нибудь суффиксом (конечные символы) текста $\displaystyle P$ . Длина наиболее длинного префикса, являющегося одновременно суффиксом, есть значение префикс-функции от строки $\displaystyle S$ для индекса $\displaystyle j$ .

Это приводит нас к следующему алгоритму: пусть $\displaystyle {\rm {{\pi }[j]}}$ — значение префикс-функции от строки $\displaystyle S[0,m-1]$ для индекса $\displaystyle j$ . Тогда после сдвига мы можем возобновить сравнения с места $\displaystyle T[i+j]$ и $\displaystyle S[{\rm {{\pi }[j]]}}$ без потери возможного местонахождения образца. Можно показать, что таблица $\displaystyle {\rm {\pi }}$ может быть вычислена (амортизационно) за $\displaystyle \Theta (m)$ сравнений перед началом поиска. А поскольку строка $\displaystyle T$ будет пройдена ровно один раз, суммарное время работы алгоритма будет равно $\displaystyle \Theta (m+n)$ , где $n$ — длина текста $\displaystyle T$ .

См. также

Примечания

↑ Кормен, Т., Лейзерсон, Ч., Ривест, Р., Штайн, К. Алгоритмы: построение и анализ = Introduction to Algorithms / Под ред. И. В. Красикова. — 2-е изд. — М.: Вильямс, 2005. — 1296 с. — ISBN 5-8459-0857-4.
↑ Donald Knuth; James H. Morris, Jr, Vaughan Pratt (1977). “Fast pattern matching in strings”. SIAM Journal on Computing. 6 (2): 323—350. DOI:10.1137/0206024. Используется устаревший параметр |coauthors= (справка)

Ссылки

Алгоритм Кнута-Морриса-Пратта на сайте Algolist, перевод работы Thierry Lecroq, Christian Charras, Knuth-Morris-Pratt algorithm // Цикл лекций Exact String Matching Algorithms, Université de Rouen, 1997

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2026
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[1] Кормен, Т., Лейзерсон, Ч., Ривест, Р., Штайн, К. Алгоритмы: построение и анализ = Introduction to Algorithms / Под ред. И. В. Красикова. — 2-е изд. — М.: Вильямс, 2005. — 1296 с. — ISBN 5-8459-0857-4.

[2] Donald Knuth; James H. Morris, Jr, Vaughan Pratt (1977). “Fast pattern matching in strings”. SIAM Journal on Computing. 6 (2): 323—350. DOI:10.1137/0206024. Используется устаревший параметр |coauthors= (справка)

Дональд Кнут
Публикации	Искусство программирования «Оценка сложности песен» Computers and Typesetting Конкретная математика Surreal Numbers Things a Computer Scientist Rarely Talks About Selected papers series
Программное обеспечение	ΤΕΧ MIXAL (MIX MMIX GNU MDK)
Шрифты	AMS Euler Computer Modern METAFONT
Грамотное программирование	WEB CWEB
Алгоритмы	Knuth's Algorithm X Knuth–Bendix completion algorithm Алгоритм Кнута — Морриса — Пратта Тасование Кнута Robinson–Schensted–Knuth correspondence Trabb Pardo–Knuth algorithm
Other	Dancing Links Knuth reward check Премия Кнута Man or boy test Quater-imaginary base -yllion Potrzebie system of weights and measures