WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Стохастическое вложение соседей с t-распределением (англ. t-distributed Stochastic Neighbor Embedding, t-SNE) — это алгоритм обучения машин для визуализации, разработанный Лоренсом ван дер Маатеном и Джеффри Хинтоном^[1]. Он является техникой нелинейного снижения размерности^[en], хорошо подходящей для вложения данных высокой размерности для визуализации в пространство низкой размерности (двух- или трехмерное). В частности, метод моделирует каждый объект высокой размерности двух- или трёхмерной точкой таким образом, что похожие объекты моделируются близко расположенными точками, а непохожие точки моделируются с большой вероятностью точками, далеко друг от друга отстоящими.

Описание

Алгоритм t-SNE состоит из двух главных шагов. Сначала t-SNE создаёт распределение вероятностей по парам объектов высокой размерности таким образом, что похожие объекты будут выбраны с большой вероятностью, в то время как вероятность выбора непохожих точек будет мала. Затем t-SNE определяет похожее распределение вероятностей по точкам в пространстве малой размерности и минимизирует дивергенцию Кульбака — Лейблера между двумя распределениями с учётом положения точек. Заметим, что исходный алгоритм использует евклидово расстояние между объектами как базу измерения сходства, это может быть изменено сообразно обстоятельствам.

Алгоритм t-SNE использовался для визуализации широкого ряда приложений, включая исследование компьютерной безопасности^[2], музыкальный анализ^[en]^[3], исследования по раку^[en]^[4], биоинформатику^[5] и обработку биомедицинских сигналов^[6]. Алгоритм часто используется для визуализации высокоуровневых представлений, полученных из искусственной нейронной сети^[7].

В то время как t-SNE отображения часто используются для показа кластеров, на визуальные кластеры могут оказывать сильная выбранная параметризация, а потому необходимо хорошее понимание параметров алгоритма t-SNE. Такие «кластеры» могут быть показаны даже в некластеризованных данных^[8] а потому могут быть ошибочные «заключения». Могут оказаться необходимыми интерактивные исследования для выбора параметров и проверки результатов^[9]^[10]. Было продемонстрировано, что t-SNE часто способен обнаружить хорошо отделённые кластеры, а при специальном выборе параметров аппроксимировать простой вид спектральной кластеризации^[11].

Детали

Если дан набор из $N$ объектов высокой размерности $\mathbf {x} _{1},\dots ,\mathbf {x} _{N}$ , t-SNE сначала вычисляет вероятности $p_{ij}$ , которые пропорциональны похожести объектов $\mathbf {x} _{i}$ и $\mathbf {x} _{j}$ следующим образом:

p_{j\mid i}={\frac {\exp(-\lVert \mathbf {x} _{i}-\mathbf {x} _{j}\rVert ^{2}/2\sigma _{i}^{2})}{\sum _{k\neq i}\exp(-\lVert \mathbf {x} _{i}-\mathbf {x} _{k}\rVert ^{2}/2\sigma _{i}^{2})}},

Ван дер Маатен и Хинтон объясняли: «Похожесть точки данных $x_{j}$ точке $x_{i}$ является условной вероятностью $p_{j|i}$ , что для $x_{i}$ будет выбрана $x_{j}$ в качестве соседней точки, если соседи выбираются пропорционально их гауссовой плотности вероятности с центром в $x_{i}$ »^[1].

p_{ij}={\frac {p_{j\mid i}+p_{i\mid j}}{2N}}

Более того, вероятности с $i=j$ принимаются равными нулю: $p_{ii}=0$

Полоса пропускания гауссовых ядер $\sigma _{i}$ устанавливается с помощью метода бисекции так, что перплексивность^[en] условного распределения равна предопределённой перплексивности. Как результат полоса пропускания адаптируется плотности данных — меньшие значения $\sigma _{i}$ используются в более плотных частях пространства данных.

Поскольку гауссово ядро использует евклидово расстояние $\lVert x_{i}-x_{j}\rVert$ , оно подвержено проклятию размерности и в данных высокой размерности, когда расстояния теряют возможность различать, $p_{ij}$ становятся слишком похожи (асимптотически, они сходятся к константе). Предлагается подкорректировать расстояние с помощью экспоненциального преобразования, основываясь на внутреннем размере^[en] каждой точки, чтобы смягчить проблему^[12].

Алгоритм t-SNE стремится получить отображение $\mathbf {y} _{1},\dots ,\mathbf {y} _{N}$ в $d$ -мерное пространство (с $\mathbf {y} _{i}\in \mathbb {R} ^{d}$ ), которое отражает похожести $p_{ij}$ , насколько это возможно. Для этого алгоритм измеряет похожесть $q_{ij}$ между двумя точками $\mathbf {y} _{i}$ и $\mathbf {y} _{j}$ с помощью очень похожего подхода. Конкретно, $q_{ij}$ определяется как

q_{ij}={\frac {(1+\lVert \mathbf {y} _{i}-\mathbf {y} _{j}\rVert ^{2})^{-1}}{\sum _{k\neq l}(1+\lVert \mathbf {y} _{k}-\mathbf {y} _{l}\rVert ^{2})^{-1}}}

Здесь имеющее утяжелённый хвост t-распределение Стьюдента (с одной степенью свободы, которое является тем же, что и распределение Коши) используется для измерения похожести между точками в пространстве низкой размерности, чтобы иметь возможность непохожие объекты расположить на карте далеко друг от друга. Заметим, что в этом случае мы также устанавливаем $q_{ii}=0$

Расположения точек $\mathbf {y} _{i}$ в пространстве малой размерности определяется минимизацией (несимметричной) дивиргенции Кульбака — Лейблера распределения $Q$ от распределения $P$ , то есть

KL(P||Q)=\sum _{i\neq j}p_{ij}\log {\frac {p_{ij}}{q_{ij}}}

Минимизация дивиргенции Кульбака — Лейблера по отношению к точкам $\mathbf {y} _{i}$ осуществляется с помощью градиентного спуска. Результатом оптимизации является отображение, которое отражает похожесть между объектами пространства высокой размерности.

Программное обеспечение

Алгоритм Лоуренса ван дер Маатена «t-Distributed Stochastic Neighbor Embedding» https://lvdmaaten.github.io/tsne/
ELKI^[en] содержит tSNE с аппроксимацией Барнеса-Хата. https://github.com/elki-project/elki/blob/master/elki/src/main/java/de/lmu/ifi/dbs/elki/algorithm/projection/TSNE.java

Примечания

1 2 van der Maaten, Hinton, 2008, с. 2579–2605.
↑ Gashi, Stankovic, Leita, Thonnard, 2009, с. 4–11.
↑ Hamel, Eck, 2010, с. 339–344.
↑ Jamieson, Giger, Drukker, Lui, Yuan, Bhooshan, 2010, с. 339–35.
↑ Wallach, Liliean, 2009, с. 615–620.
↑ Birjandtalab, Pouyan, Nourani, 2016, с. 595–598.
↑ Olah’s blog, 2015.
↑ K-means clustering on the output of t-SNE (неопр.). Cross Validated.
↑ Pezzotti, Lelieveldt, van der Maaten и др., 2017, с. 1739–1752.
↑ Wattenberg, Viégas, Johnson, 2016.
↑ Linderman, Steinerberger, 2017.
↑ Schubert, Gertz, 2017, с. 188–203.

Литература

van der Maaten L.J.P., Hinton G.E. Visualizing Data Using t-SNE // Journal of Machine Learning Research. — 2008. — Ноябрь (т. 9).
Gashi I., Stankovic V., Leita C., Thonnard O. An Experimental Study of Diversity with Off-the-shelf AntiVirus Engines // Proceedings of the IEEE International Symposium on Network Computing and Applications. — 2009.
Hamel P., Eck D. Learning Features from Music Audio with Deep Belief Networks // Proceedings of the International Society for Music Information Retrieval Conference. — 2010.
Jamieson A.R., Giger M.L., Drukker K., Lui H., Yuan Y., Bhooshan N. Exploring Nonlinear Feature Space Dimension Reduction and Data Representation in Breast CADx with Laplacian Eigenmaps and t-SNE // Medical Physics. — 2010. — Т. 37, вып. 1. — DOI:10.1118/1.3267037. — PMID 20175497.
Wallach I., Liliean R. The Protein-Small-Molecule Database, A Non-Redundant Structural Resource for the Analysis of Protein-Ligand Binding // Bioinformatics. — 2009. — Т. 25, вып. 5. — DOI:10.1093/bioinformatics/btp035. — PMID 19153135.
Birjandtalab J., Pouyan M. B., Nourani M. Nonlinear dimension reduction for EEG-based epileptic seizure detection. — 2016 IEEE-EMBS International Conference on Biomedical and Health Informatics (BHI). — 2016. — ISBN 978-1-5090-2455-1. — DOI:10.1109/BHI.2016.7455968.
Christopher Olah. Visualizing Representations: Deep Learning and Human Beings. — 2015.
Nicola Pezzotti, Boudewijn P. F. Lelieveldt, Laurens van der Maaten, Thomas Hollt, Elmar Eisemann, Anna Vilanova. Approximated and User Steerable tSNE for Progressive Visual Analytics // IEEE Transactions on Visualization and Computer Graphics. — 2017. — Т. 23, вып. 7. — ISSN 1077-2626. — DOI:10.1109/tvcg.2016.2570755. — PMID 28113434.
Martin Wattenberg, Fernanda Viégas, Ian Johnson. How to Use t-SNE Effectively. — Distill, 2016.
George C. Linderman, Stefan Steinerberger. Clustering with t-SNE, provably. — 2017.
Erich Schubert, Michael Gertz. Intrinsic t-Stochastic Neighbor Embedding for Visualization and Outlier Detection // SISAP 2017 – 10th International Conference on Similarity Search and Applications. — 2017. — DOI:10.1007/978-3-319-68474-1_13.

Ссылки

Visualizing Data Using t-SNE, Google Tech Talk about t-SNE

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2025
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[_d6b8383a1e3d5c1e-1] 1 2 van der Maaten, Hinton, 2008, с. 2579–2605.

[_6a2285221897655e-2] Gashi, Stankovic, Leita, Thonnard, 2009, с. 4–11.

[_c0f0821a495734eb-3] Hamel, Eck, 2010, с. 339–344.

[_582a45a4a72887dd-4] Jamieson, Giger, Drukker, Lui, Yuan, Bhooshan, 2010, с. 339–35.

[_b6bb6f3eb242c89d-5] Wallach, Liliean, 2009, с. 615–620.

[_fb860cab454c9118-6] Birjandtalab, Pouyan, Nourani, 2016, с. 595–598.

[_d8de7fe07568a74b-7] Olah’s blog, 2015.

[8] K-means clustering on the output of t-SNE (неопр.). Cross Validated.

[_884178612109ddb7-9] Pezzotti, Lelieveldt, van der Maaten и др., 2017, с. 1739–1752.

[_d084e0b0a00d4f4a-10] Wattenberg, Viégas, Johnson, 2016.

[_fafb60e106ff3b46-11] Linderman, Steinerberger, 2017.

[_7d7ea85d8dbae9ea-12] Schubert, Gertz, 2017, с. 188–203.