Бикластеризация, блоковая кластеризация
,[1]сокластеризация, также двухмодальная кластеризация[2][3] — методика data mining, которая позволяет одновременную кластеризацию строк и столбцов матрицы.
Термин был впервые предложен Mirkin,[4] хотя сам метод был придуман гораздо раньше[4] (J.A. Hartigan[5]).
Принимая на вход набор строк в столбцах (матрица размера ), алгоритм бикластеризации генерирует бикластеры — подмножество строк, которые проявляют похожее поведение через подмножество столбцов.
История развития
Бикластеризация была впервые представлена J. A. Hartigan в 1972 году[6]. Термин бикластеризация был позднее введен Mirkin. Этот алгоритм не был обобщён до 2000 года, когда Y. Cheng и G. M. Church предложили алгоритм бикластеризации, основанный на дисперсии, и применили его к биологическим данным по экспрессии генов[7]. Их статья до сих пор остаётся одним из наиболее важных литературных материалов в области бикластеризации экспрессии генов.
В 2001 и 2003 годах I. S. Dhillon предложил два алгоритма, в которых бикластеризация применяется для файлов и слов. Одна из версий была основана на разделении двудольных спектральных графов[8]. Вторая была основана на теории информации. Dhillon допустил, что потеря взаимной информации при бикластеризации равна KL (расстояние Кульбака-Лейблера) между P и Q. P означает распределение файлов и характеристических слов перед бикластеризацией. Q, в свою очередь, — распределение после кластеризации. KL-расстояние необходимо в качестве меры отличий между двумя случайными распределениями. KL = 0, когда два распределения одинаковы, и возрастает, если возрастает отличие[9]. Таким образом, целью алгоритма являлась минимизация KL-расстояния между P и Q. В 2004 A. Banerjee использовал взвешенное расстояние Брегмана вместо KL-расстояния, чтобы разработать алгоритм бикластеризации, подходящий для любого типа матрицы, в отличие от KL алгоритма[10].
С целью кластеризовать более чем два типа объектов Bekkerman в 2005 году расширил взаимную информацию в теореме Dhillon от одной пары до множества пар.
Сложность задачи
Сложность задачи бикластеризации зависит от конкретной формулировки, в особенности от функции, используемой для оценки качества полученного бикластера. Наиболее интересные варианты этих задач являются NP-полными и требуют больших вычислительных мощностей или использования эвристических подходов[11][12].
Типы бикластеров
Различные алгоритмы бикластеризации имеют различные определения бикластера[12]
Основные типы:
Бикластер с постоянными значениями (a),
Бикластер с постоянными значениями по строкам (b) или столбцам (c),
↑
G. Govaert, M. Nadif (2008). “Block clustering with bernoulli mixture models: Comparison of different approaches,”. Computational Statistics and Data Analysis. Elsevier. 52 (6): 3233—3245.
↑ G. Govaert, M. Nadif.Co-clustering: models, algorithms and applications.— ISTE, Wiley, 2013.— ISBN 978-1-84821-473-6.
↑
Van Mechelen I, Bock HH, De Boeck P (2004). “Two-mode clustering methods:a structured overview”. Statistical Methods in Medical Research. 13 (5): 363—94. DOI:10.1191/0962280204sm373ra. PMID15516031.
1 2 Mirkin, Boris.Mathematical Classification and Clustering.— Kluwer Academic Publishers, 1996.— ISBN 0-7923-4159-7.
↑
Hartigan JA (1972). “Direct clustering of a data matrix”. Journal of the American Statistical Association. American Statistical Association. 67 (337): 123—9. DOI:10.2307/2284710. JSTOR2284710.
1 2 .
Madeira SC, Oliveira AL (2004). “Biclustering Algorithms for Biological Data Analysis: A Survey”. IEEE Transactions on Computational Biology and Bioinformatics. 1 (1): 24—45. DOI:10.1109/TCBB.2004.2. PMID17048406.
A. Tanay. R. Sharan, and R. Shamir, «Biclustering Algorithms: A Survey», In Handbook of Computational Molecular Biology, Edited by Srinivas Aluru, Chapman (2004)
Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.
2019-2025 WikiSort.ru - проект по пересортировке и дополнению контента Википедии