Ана́лиз предста́вленности функциона́льных групп ге́нов — метод для поиска недопредставленных или перепредставленных функциональных групп в некотором наборе генов на основе статистических подходов. Как правило, в качестве функциональных групп берут категории проекта Gene ontology (GO): молекулярные функции, биологические процессы, клеточные компоненты или сразу несколько категорий. Этот метод используют для анализа результатов экспериментов, которые представляют собой некоторый список генов, отличный от всей выборки генов. Например, этот метод часто используют для генов, дифференциально экспрессирующихся в разных условиях, в этом случае задача состоит в том, чтобы извлечь из профилей экспрессии[en], полученных с использованием ДНК-микрочипов, информацию о каких-либо биологических механизмах.
С появлением проекта «Геном человека» возникла проблема, как интерпретировать и анализировать большой объем новой информации старыми методами. Использование ДНК-микрочипов позволяет анализировать экспрессию генов, изменяющуюся в ткани у людей с заболеваниями. Данные микрочипов могут быть использованы для классификации тканей по молекулярным характеристикам и для создания гипотез о механизмах заболевания. Этот подход был успешным в изучении рака, где часто наблюдались большие изменения в экспрессии отдельных генов[1]. Однако, когда изменения в экспрессии генов не сильно выражены, большое количество проверенных генов, высокая вариабельность между отдельными лицами и ограниченные размеры выборки, характерные для исследований человека, затрудняют отделение истинных различий от шума. Множество генов могут участвовать в одном метаболическом пути, и поэтому суммарное изменение экспрессии внутри группы генов приводит к разнице в фенотипическом выражении. Анализ представленности функциональных групп генов фокусируется на изменениях экспрессии в группах генов, таким образом, этот метод позволяет решить проблему поиска небольших изменений экспрессии отдельных генов[2].
Первые программы для анализа представленности функциональных групп генов были независимо разработаны в 2002 – 2003 годах (Onto-Express[3], DAVID[en][4], GeneMerge[5] и т. д.). Со временем возрастал интерес к этой области, как и количество новых инструментов со своими особенностями. В обзоре 2008 года[6] рассмотрены почти 70 программ, которые в зависимости от базового алгоритма классифицируются на три категории: анализ уникального обогащения (SEA), анализ обогащения набора генов (GSEA) и анализ модульного обогащения (MEA). Стоит отметить, что некоторые программы могут относится сразу к нескольким классам.
Анализ уникального обогащения (англ. singular enrichment analysis) — метод, в котором сначала определяются кандидатные гены — гены, относящиеся к некоторой подвыборке генов, которая интересует исследователей (например, гены, достоверно изменившие экспрессию на заданном уровне значимости), а уже затем для этих генов определяется перепредставленность функциональных групп. Основная идея состоит в том, чтобы сравнивать наблюдаемое количество генов в данной категории с количеством генов, которые могли бы оказаться в той же категории, если бы распределение генов из списка по категориям было случайным. В качестве статистических моделей используются гипергеометрическое распределение, биномиальное распределение (используется для больших выборок), χ², точный тест Фишера. В большинстве случаев различия между статистическими моделями незначительны[7].
Это простой и эффективный метод, но результат сильно зависит от выбранной изначально группы генов. Кроме того, из-за огромного количества генов (типичный результат эксперимента — несколько десятков тысяч профилей экспрессии[8]) взаимосвязи между функциональными группами могут теряться[6].
Программы, основанные на этом методе: GoStat, GoMiner, GOTM, BinGO, GOtoolBox, GFinder, Onto-Express, GARBAN, FatiGO, BayGO[6].
Анализ обогащения набора генов (англ. gene set enrichment analysis) — альтернативный подход, который начинается с ранжирования всех генов в соответствии со степенью проявления признака, по которому происходит анализ. В этом случае рассматривается вся функциональная группа, а не только самые значимые гены. Если группа попадает в верхнюю (перепредставленность), либо в нижнюю (недопредставленность) часть списка, считается, что она связана с функциональными различиями. Оценка делается на основе разницы между количеством генов, которые наблюдаются в заданном диапазоне ранжированного и случайного списков, с использованием теста Колмогорова-Смирнова, t-критерия Стьюдента, u-критерия Манна-Уитни, медианного критерия[9].
Главное преимущество — этот метод использует всю информацию, полученную из экспериментов. Однако в качестве входной информации он требует определения функциональной группы для каждого гена, что часто бывает сложной задачей. Предположение, лежащее в основе метода, что гены с противоположных концов списка вносят больший вклад в биологическую функцию, не всегда верно, регуляторные белки часто изменяют свою экспрессию незначительно, но это приводит к большим последствиям[6].
Программы, основанные на этом методе: GSEA, CapMap, FatiScan, ADGO, ermineJ, PAGE, iGA, GO-Mapper, GOdist, FINA, T-profiler, MetaGP[6].
Анализ модульного обогащения (англ. modular enrichment analysis) — метод, который требует на вход, как и анализ уникального обогащения, список кандидатных генов, но, в отличие от него, рассматривает взаимосвязь терминов GO. Таким образом, создаётся уникальный биологический смысл для конкретного исследования. Ограничением метода является то, что гены без сильных отношений с соседями будут исключены из анализа[6].
Программы, основанные на этом методе: ADGO, GeneCodis, ProfCom, topGO, Ontologizer, POSOC, DAVID, GoToolBox[6].
Анализ представленности функциональных групп генов часто используется для того, чтобы охарактеризовать изменения в молекулярных сигнальных путях и попытаться связать эти изменения с конкретными заболеваниями. Ниже приведены некоторые примеры задач, для решения которых использовался анализ представленности функциональных групп генов.
Однонуклеотидные полиморфизмы (SNP), возникающие в результате точечных мутаций, могут быть ассоциированы с заболеваниями. Полногеномный поиск ассоциаций — сравнение больного и здорового генотипов в попытке найти SNP, которые перепредставлены в геноме больного и могут быть ассоциированы с данным состоянием. До появления анализа обогащения наборов генов точность полногеномного поиска ассоциаций была значительно ограничена большим количеством ложноположительных результатов. Метод GSEA-SNP основан на теории, что SNP, способствующие заболеванию, как правило, группируются в наборе генов, которые участвуют в одном и том же метаболическом пути. Данное применение анализа представленности функциональных групп генов не только помогает в открытии SNP, ассоциированных с заболеваниями, но и помогает осветить соответствующие пути и механизмы заболеваний[10].
Методы анализа представленности функциональных групп генов привели к открытию новых предполагаемых генов и метаболических путей, связанных с самопроизвольными преждевременными родами. Последовательности экзома женщин, у которых случился выкидыш, сравнивались с экзомами женщин из проекта «1000 геномов»[en], таким образом было показано, что гены были кластеризованы в группы, ассоциированные с несколькими путями (биосинтез оксида азота, ангиогенез, иммунный ответ), которые, возможно, связаны с преждевременными родами[11].
Анализ представленности функциональных групп генов может использоваться, чтобы понять изменения, которые клетки претерпевают в ходе канцерогенеза и метастазирования. С помощью микрочипов были получены данные об экспрессии генов в разных клетках (метастазы рака почки, первичные опухоли почки и нормальная ткань почки). Анализ показал значительные изменения в экспрессии генов, участвующих в путях, которые раньше не были ассоциированы с прогрессированием рака почек, но были выявлены в других опухолях. Например, было обнаружено повышение экспрессии гена MCM2[en] в метастазах рака почки. MCM2 отвечает за пролиферацию клеток, и повышение экспрессии этого гена является маркером при аденокарциноме яичников [12].
Было показано, что симптомы длительной депрессии коррелируют с изменениями в иммунном ответе и метаболических путях, связанных с воспалением. Для доказательства корреляции проводился анализ образцов крови пациентов с депрессией, чтобы найти разницу в уровне экспрессии в наборах генов, связанных с путями воспаления. У пациентов с наиболее тяжелыми симптомами депрессии наблюдалось значительное повышение уровня экспрессии генов CRP по сравнению с теми, у кого такие симптомы не наблюдались[13].
Neospora caninum[en] — простейшее, которое вызывает неврологические заболевания у собак и крупного рогатого скота. Развитие патологического процесса изучали на мышах. Было обнаружено, что у инфицированных мышей увеличивается экспрессия 772 генов. Для анализа использовалась программа GOstat[14], которая использует информацию из Gene ontology (GO), чтобы получить представление о том, какие аннотации типичны для анализируемого списка генов. В результате, было предсказано, что эти гены ассоциированы с иммунным ответом, метаболизмом липидов и морфогенезом нейронов[15].
Анализ представленности функциональных групп генов также может использоваться для того, чтобы понять молекулярные механизмы тяжелых расстройств. Шизофрения— сложное заболевание, в значительной степени, передаваемое по наследству. Начало заболевания включает взаимодействие многих генов в нескольких метаболических путях наряду с взаимодействием этих генов с внешними факторами. Метилирование ДНК было проанализировано по отношению к промежуточным фенотипам, связанным с шизофренией. Было обнаружено, что регуляция микроРНК и их мишеней метилированием влияет на физиологические функции мозга и может нести дополнительный риск развития структурных изменений мозга и психических расстройств[16].
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .