Матрица расстояний — это квадратная матрица типа «объект-объект» (порядка n), содержащая в качестве элементов расстояния между объектами в метрическом пространстве.
Свойства
Свойства матрицы являются отражением свойств самих расстояний[1]:
- симметричность относительно диагонали, то есть
;
- отражение свойства тождественности расстояния
в матрице расстояний проявляется в наличии 0 по диагонали матрицы, так как расстояние объекта с самим собой очевидно равно 0, а также в наличии нулевых значений для абсолютно сходных объектов;
- значения расстояний в матрице всегда неотрицательны
- неравенство треугольника принимает форму
для всех
,
и
.
В общем виде матрица выглядит так:
В широком смысле расстояния являются отражением такого понятия как различие, что двойственно понятию сходства, а элементы матрицы различия (в общем виде — матрицы дивергенций) двойственны элементам матрицы сходства (в общем виде — матрицы конвергенций). Связь между мерой сходства и мерой различия можно записать как
, где F — мера различия; K — мера сходства. Следовательно, все свойства мер сходства можно экстраполировать на соответствующие им меры различия с помощью простого преобразования и наоборот.
Визуально отношения между объектами можно представить с помощью графовых алгоритмов кластеризации. Можно сказать, что расстояния используются намного чаще, чем меры сходства: их чаще реализуют в статистических программах (Statistica, SPSS и др.) в модуле кластерного анализа.
Расстояния
Известно[2], что существует обобщённая мера расстояний, предложенная Германом Минковским:
В вышеуказанное семейство расстояний входит:
- при p = 1 — «манхэттенское расстояние» («расстояние городских кварталов», англ. city-block), или «
-норма». Обобщённая мера Хэмминга[3][4] в теоретико-множественной записи (после нормировки) может быть представлена как
и являться двойственной мере абсолютного сходства.
- при p = 2 — расстояние Евклида. Часто используется и квадрат этого расстояния.
- при p → ∞ — sup-метрика, или метрика «доминирования». Также известна как расстояние Чебышёва.
Существуют используемые расстояния и вне данного семейства. Наиболее известным является расстояние Махаланобиса.
Также интересно в качестве удачной иллюстрации связи мер сходства и различия расстояние Юрцева, двойственное мере сходства Браун-Бланке[5]:
Примечания
- ↑ Шрейдер Ю. А. Что такое расстояние? — М.: Физматлит, 1963. — 76 с.
- ↑ Ким Дж.-О., Мьюллер Ч. У., Клекка У. Р., Олдендерфер М. С., Блэшфилд Р. К. Факторный, дискриминантный и кластерный анализ. — М.: Финансы и статистика, 1989. — 215 с.
- ↑ Sokal R. R., Sneath P. H. A. Principles of numerical taxonomy. — San Francisco: London: Freeman, 1963. — 359 p.
- ↑ Godron M. Quelques applications de la notion de fréqence en écologie végétale // Oecol. Plant. 1968. V. 3. № 3. P. 185—212.
- ↑ Сёмкин Б. И. К методике анализа разновеликих множеств в сравнительной флористике // Комаровские чтения. Вып. LVI. 2009. C. 170—185.
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .