Анализ взвешенной сети корреляций, также известный как анализ взвешенной сети коэкспрессии генов (WGCNA), это широко используемый, особенно при изучении биологических сетей, метод глубинного анализа данных, основанный на попарных корреляциях между переменными. В то время, как метод может быть использован на большинстве многомерных наборов данных, наиболее широкое распространение он получил в геномике. Метод позволяет определять модули (кластеры), межмодульные хабы и узлы сети относительно принадлежности к модулю, изучать отношения между модулями коэкспрессии и сравнивать топологии различных сетей (дифференциальный анализ сетей). WGCNA может быть использован как метод уменьшения размерности данных (связанный с непрямым факторным анализом), как метод кластеризации, как метод отбора особенностей (например, скрининг генов), etc.
Метод WGCNA был разработан Стивом Хорватом, профессором Калифорнийского университета в Лос-Анджелесе и членами (в том числе бывшими) его лаборатории (в частности, Питером Лангфелдером, Бином Чжаноми и Джуном Донгом). Большая часть метода появилась в ходе прикладных исследований. В частности, взвешенные корреляционные сети были разработаны в рамках совместных дискуссий с исследователями рака Полом Мишелем, Стэнли Ф. Нельсоном, и нейробиологами Дэниэлем Гешвиндом и Майклом Олдхэмом (в соответствии с разделом благодарностей в[1]).
Во-первых, чтобы определить сеть, необходимо определить меру схожести коэкспрессии генов. Обозначим меру схожести коэкспрессии пары генов i и j как . Множество исследований коэкспрессии в качестве беззнаковой(не принимающей отрицательные значения) меры схожести коэкспрессии используют абсолютное значение корреляции,
где профили коэкспрессии генов и состоят из экспрессии генов i и j среди множества образцов. Однако, использование абсолютного значения корреляции может привести к потере биологически значимой информации, поскольку при этом нельзя различить репрессию и активацию генов.
Эта проблема решается использованием знаковых сетей, в которых схожесть генов отражает, положительное или отрицательное значение принимает корреляция между их профилями экспрессии. Для того, чтобы определить знаковую меру коэкспрессии между профилями экспрессии и , можно использовать простое преобразование корреляции:
Также как и беззнаковая мера , знаковая схожесть принимает значения от 0 до 1. Следует заметить, что при этом беззнаковая схожесть между двумя генами, экспрессируемыми прямо противоположным образом ( ), равна 1, в то время, как в случае знаковая схожесть в таком случае равна 0. Аналогично, в то время как беззнаковая мера коэкспрессии двух генов с нулевой корреляцией также равна 0, знаковая мера принимает значение 0,5.
Затем, чтобы количественно выразить, насколько сильно гены связаны друг с другом, используется матрица смежности(сеть) . определяется с помощью установки порогового значения матрицы схожести коэкспрессии . 'Жесткая' установка порога (дихотомия) меры схожести приводит к получению невзвешенной сети коэкспрессии генов. При таком подходе, смежность принимается равной 1, если и 0 во всех других случаях. Поскольку жёсткая установка порога устанавливает связи между генами бинарно, она чувствительна к выбору порогового значения, что приводит к потере информации о коэкспрессии[1] Непрерывная природа коэкспрессионных данных сохраняется при использовании мягкой установки порога, которая приводит к получению взвешенной сети. В WGCNA для выражения силы связи двух генов применяется следующая степенная функция:
,
где степень является параметром мягкой установки порога. Значения по умолчанию и используются для беззнаковых и знаковых сетей соответственно. В качестве альтернативы, может быть выбран с помощью критерия безмасштабной топологии, который сводится к выбору наименьшего значения , при котором достигается топология, близкая к безмасштабной. [3]
Так как , смежность взвешенной сети линейно зависит от схожести коэкспрессии в логарифмических координатах. При этом большие приводят к отображению высокизначений схожести в высокие значения смежности, в то время как низкие схожести будут стремиться к 0. Поскольку такая процедура мягкого установления порога в применении к матрице попарных корреляций приводит к взвешенной матрице смежности, последующий анализ принято называть анализом взвешенной сети коэкспрессии генов.
Главным шагом в центрическом анализе модулей является кластеризация генов в модули сети с помощью меры близости сети. Грубо говоря, пара генов имеет высокую близость, если они сильно взаимосвязаны. По принятому соглашению, наибольшая близость между двумя генами равняется 1, а минимальная 0. Обычно, в WGCNA используется в качестве меры близости мера топологического перекрывания,[2][3] которая также может быть определена для взвешенных сетей. Мера топологического перекрывания сочетает смежность двух генов и силу общих связей с остальными генами. В целом, такая мера является очень надежной для оценки взаимосвязанности сети(близости).
Такая близость затем используется в качестве входных данных средней связи иерархической кластеризации. Модули определяются как ветви полученного кластерного дерева с помощью подхода динамического отрезания ветвей[4] Затем, сводку по генам внутри отдельного модуля, представляют в виде собственного гена модуля(эйген-гена), который может рассматриваться как лучшая аннотация стандартизованных данных по экспрессии модуля.[5] Собственный ген определяется как первая главная компонента стандартизованных профилей экспрессии. Чтобы найти модули, которые имеют отношение к определенным экспериментальным данным, рассчитывают корреляцию между собственными генами и интересующими экспериментальными особенностями, получая меру значимости собственного гена. Также можно построить сеть коэкспрессии между собственными генами модулей(сети собственных генов), сети, узлами которых являются модули.[6]
Чтобы определить гены межмодульных хабов, используется два типа мер связанности. Первая, , определяется на основании корреляции каждого гена с соответствующим собственным геном модуля. Вторая, называемая kIN, определяется как сумма смежностей относительно генов модулей. На практике, эти две меры равнозначны.[5]
Дабы проверить, сохраняется ли модуль в другом наборе данных могут быть использованы различные статистики сетей, например .[7]
Взвешенная корреляционная сеть может рассматриваться как частный случай взвешенной сети, сети зависимостей или корреляционной сети. Анализ взвешенных корреляционных сетей имеет следующие достоинства:
WGCNA широко применяется для анализа данных о экспрессии генов (транскрипционных данных), например для поиска генов межмодульных хабов.[10][11]
Эта методика часто используется в качестве шага сокращения размерности данных в применении к системной генетике, где модули представлены собственными генами, например[12][13]. Собственные гены модулей могут быть использованы для расчёта корреляции с экспериментальными данными. Сети собственных генов это сети коэкспресси между собственными генами модулей, то есть сети, чьи узлы являются модулями.
WGCNA широко применяется в нейробиологии.[14][15] и для анализа геномных данных, включая микрочипы (Kadarmideen et al. 2011), данные RNA-Seq отдельной клетки (Kogelman et al. 2014)[16] данные метилирования ДНК,[17] миРНК данные, подсчет пептидов[18] и данные микробиоты (секвенирование генов 16S рРНК).[19] Другие области применения включают данные визуализации мозга, например данные функциональной МРТ.[20]
Пакет WGCNA программного обеспечения R[21] обеспечивает функции для осуществления всех элементов анализа взвешенных сетей (построение модулей, выбор генов хабов, статистика консервативности модулей, дифференциальный анализ сети, статистика сети). Пакет WGCNA доступен в CRAN, стандартном репозитории пакетов дополнений для R.
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .