Предсказание генов — это определение кодирующих и регулирующих последовательностей ДНК в геноме: белковых генов и генов функциональной РНК, промоторов, энхансеров и прочее.
Ранние методы поиска генов основывались на кропотливых экспериментах с живыми организмами и клетками, отнимал много сил и давали только грубый результат. Статистический анализ частот кроссинговера между известными генами позволял узнать, как они расположены на хромосоме относительно друг друга, и в итоге составить генетическую карту. Сегодня же, благодаря развитию компьютерной техники и методов полногеномного секвенирования, предсказание генов стало рутинной задачей в биоинформатике.
Тем не менее стоит различать предсказание функциональных участков от предсказания функции или продукта гена. Строгое определение функции или доказательство существования какого-либо белка может основываться только на экспериментальной работе[1], хотя современной биоинформатике уже удаётся с высокой точностью угадывать функцию гена только по его последовательности.
Предсказание генов — один из ключевых этапов в аннотации генома вида, следующий за маскированием повторов и оценкой качества его сборки[2].
При эмпирическом подходе гены ищутся на основании экспериментальных данных, таких как последовательности мРНК, белков, гомологичных последовательностей из других геномов. Имея на руках последовательность мРНК, легко можно восстановить кДНК, с которой она транскрибируется. Имея аминокислотную последовательность белка, можно создать набор потенциальных генов, поскольку каждая аминокислота кодируется ограниченным набором триплетов ДНК. Далее с помощью сравнительно простых алгоритмов можно найти полные или частичные совпадения между полученными последовательностями и анализируемым геномом. Если же однозначно известна последовательность гена, то для поиска таких совпадений применяются алгоритмы локального выравнивания (BLAST, FASTA, Смита-Ватермана).
Высокой степени соответствия между участком генома и последовательностью белка (или мРНК) достаточно, чтобы доказать существование гена. Но для такого доказательства необходимо проводить дорогие секвенирования мРНК и белков. В сложных организмах много ткане- и стадие-специфичных генов, что не позволяет из одной клеточной культуры извлечь данные о всех генах организма. Таким образом, для составления списка всех генов организма необходимо работать с сотнями типов клеток. Исследования некоторых клеток могут быть особенно затруднительны, как например в случае с клетками человеческого эмбриона или малочисленными, некультивируемыми или неразличимыми клетками.
Несмотря на эти трудности, существуют масштабные базы данных РНК и белков. Например, база данных RefSeq[en] содержит последовательности транскриптов и белков, полученные из человека и прочих модельных организмов, таких как мышь, дрозофила, дрожжи, а браузер Ensembl позволяет картировать их на полных геномах. Однако такие базы данных далеко не полные и содержат небольшие, но значительные количества ошибочных данных.
Новые высокопроизводительные методы секвенирования, как например RNA-Seq и ChIP-seq, дают дополнительную информацию для предсказания генов и выявления паттернов их экспреcсии, а также являются более точной и в целом превосходной альтернативой методам ДНК-микрочипов и EST[en].
Основные проблемы предсказания генов связаны с ошибками секвенирования в исходных данных, качеством сборки референсного генома, короткой длиной чтений, сдвигами рамок считывания, пересекающимися и неполными генами.
В прокариотах необходимо учитывать горизонтальный перенос генов при поиске участков гомологии в геноме. Также в современных инструментах поиска генов почти не используется свойство некоторых из них образовывать кластеры или опероны как в про-, так и в эукариотах. Большинство определителей генов рассматривают каждый ген отдельно и независимо от других, что не вполне точно.
При неэмпирическом поиске генов используются не внешние доказательства существования гена, а некоторые внутренние свойства подпоследовательностей генома. Ab initio предсказание генов гораздо дешевле и проще эмпирического метода и основывается на поиске участков ДНК с характерными признаками кодирующих последовательностей. Эти признаки делятся на сигналы — особые сочетания нуклеотидов, свидетельствующие о наличии гена, и особые статистические параметры. Именно аb initio поиск стоит называть предсказанием генов, поскольку эмпирические методы обычно привлекаются только на стадии подтверждения функциональности потенциального гена.
У прокариот гены содержат характерные и хорошо изученные промоторные последовательности (сигналы), как например Прибнов-бокс и сайты связывания факторов транскрипции, которые легко обнаружить. К тому же белок-кодирующие гены состоит из одной непрерывной рамки считывания длиной от сотен до нескольких тысяч пар нуклеотидов, заканчивающихся стоп-кодоном[3]. В случайных последовательностях стоп-кодоны встречаются гораздо чаще (3 из 64 кодонов — стоп кодоны, то есть в среднем 1 стоп-кодон на 20-25 кодонов, или 60-75 нуклеотидов), поэтому наличие длинных рамок считывания — уже признак гена. Прочие статистические параметры белок-кодирующей ДНК также легко заметны на последовательностях такой длины. Как следствие, системы предсказания прокариотических генов действуют весьма прямолинейно и обладают высокой точностью.
В эукариотах, в особенности в таких сложных организмах как человек, задача предсказания генов значительно трудней сразу по нескольким причинам. Во-первых, промоторы и прочие регуляторные сигналы эукариот гораздо сложней и хуже изучены, чем в прокариотах, и поэтому они хуже распознаются. Классические сигналы в эукариотических генах — CpG-островки[en] и сайты связывания polyA.
Во-вторых, из-за сплайсинга белок-кодирующие последовательности ДНК (экзоны) прерываются некодирующими участками (интронами). Сайты сплайсинга, кстати — ещё один сигнал для распознавания генов. Типичный белковый ген человека может быть разделён на десяток экзонов, длина каждого из которых обычно 100—200 нуклеотидов[4]. На таких коротких участках гораздо сложнее заметить отличия белок-кодирующей ДНК от случайной.
Программы для поиска генов как в про-, так и в эукариотах обычно используют скрытые марковские модели (НММ) и машинное обучение, чтобы объединить информацию от различных сигналов и выявленных закономерностей. GLIMMER — широко используемая и высокоточная система поиска генов в прокариотах, GeneMark — ещё одна популярная система. В сравнении с прокариотическими, неэмперический поиск генов эукариот достиг более скромных результатов. Выдающиеся программы для эукариот — GENSCAN и geneid. SNAP, как и Genscan, основана на НММ и является попыткой создать универсальный искатель генов, который может работать на геноме, в котором ему не была дана обучающая выборка[5]. В других программах, как например mSplicer[6], CONTRAST[7], или mGene[8] применяется машинное обучение и метод опорных векторов. Они строят различающую модель[en] с применением методов НММ, SVM или CRF[en] для составления функции вероятности наличия гена.
Методы ab initio порой достигают 100 % чувствительности[2], но из-за высокой доли ложно-положительных предсказаний при этом страдает специфичность.
Для предсказания генов используются статистики k-меров[en], GC-состав/равномерность/энтропия участков ДНК, длина рамок считывания, наборы сайтов связывания рибосом, а также промоторных, экзонно-интронных сайтов и сайтов сплайсинга, фрактальная размерность, Фурье-преобразование циферно закодированной ДНК и параметры Z-кривой[en][9].
Качество предсказаний можно улучшить, применяя не только непосредственно детектируемые сигналы. Например, вторичная структура РНК может помочь с поиском сайтов сплайсинга и других регуляторных мотивов[10][11][12][13][14].
Нейронные сети — математические модели, используемые для машинного обучения и задач распознавания. Их необходимо настроить на обучающей выборке и проверить на контрольной выборке перед применением на экспериментальных данных. Нейронные сети при наличии достаточного объёме обучающей выборки позволяют получить приблизительные решения задач, для которых сложно составить точный алгоритм решения. Нейронные сети используются вместе с другими ab initio методами для предсказания биологических последовательностей[15].
Пример такой сети — нейронная сеть, определяющая положения сайтов сплайсинга в заданной последовательности ДНК. В этой сети применяется метод скользящего окна, при котором из общей последовательности извлекаются пересекающиеся подпоследовательности (окна) с некоторым шагом. Полученный от каждого окна сигнал сглаживается и фильтруется, после чего для каждого нуклеотида определяется вероятность того, что он входит в сайт сплайсинга. Больший размер окна позволяет повысить точность предсказания, но увеличивает время вычислений. В сеть не было заложено никаких априорных знаний, но в результате обучения на сайтах 16 965 генов специфичность и чувствительность распознавания превысили 80 %[16].
Такие программы, как Maker, совмещают эмпирический и ab initio методы, картируя данные по белкам и EST на геном, чтобы подтвердить неэмпирические предсказания. Augustus может применяться совместно с Maker и также встраивает выравнивания EST и белков для повышения точности предсказаний.
Благодаря секвенированию большого числа геномов различных организмов, стал возможен поиск генов путём сравнительной геномики.
Этот подход основан на том, что гены и регуляторные элементы мутируют медленней, чем прочие элементы генома, поскольку находятся под большим давлением естественного отбора. Это позволяет детектировать гены как консервативные последовательности, сравнивая геномы близкородственных видов. Этот подход впервые был применён на человеческом и мышином геномах и реализован в программах SLAM, SGP, TWINSCAN/N-SCAN и CONTRAST[7].
TWINSCAN для поиска ортологичных генов рассматривал только синтению человеческого и мышиного геномов. Такие программы, как N-SCAN и CONTRAST, позволяют совмещать данные из множества организмов. Использование множества информантов приводит к значительному улучшению точности.
CONTRAST состоит из двух частей. Первая — классификатор, опознающий сайты сплайсинга, старт- и стоп-кодоны. Вторая часть строит окончательную модель при помощи машинного обучения, принимая на вход данные от первого классификатора и множественных выравниваний с другими геномами. Разделение задачи надвое позволяет снизить объём обучающей выборки и размер окна. Использование уже готового классификатора значительно сокращает время работы программы. Создатели CONTRAST считают, что их метод (равно как и TWINSCAN) стоит называть de novo предсказанием генов с применением дополнительных геномов, подчёркивая, что он отличается от ab initio методов, где информация извлекается только из одного информанта. В то же время CONTRAST может интегрировать данные из EST-выравниваний для повышения точности результата.
Метод множественных информантов также применим для переноса высококачественных аннотаций с одного генома на другой. Примечательны примеры Projector, GeneWise и GeneMapper.
Псевдогены — близкие гомологи генов, утратившие способность к экспрессии белка. В геноме млекопитающих содержится 4000—20 000 псевдогенов, что сопоставимо с числом функциональных генов (~35 000)[17]. Число псевдогенов сильно зависит от выбранных критериев. Обычно псевдогенами называют последовательности ДНК, сохранившие >70 %-90 % кодирующей последовательности функциональных генов.
Сначала их считали побочными продуктами геномного секвенирования, но с пониманием их регуляторной роли псевдогены стали самостоятельными целями для предсказания[18]. Поиск псевдогенов основывается на существующих ab initio методах и методах сравнительной геномики с добавлением специальных фильтров.
Пример такого фильтра — детектор потери функции, который ищет нонсенс мутации и сдвиги рамки считывания, нарушающие экспрессию функциональной последовательности ДНК[18][19].
Также применяется фильтрация ДНК по разнице в статистических параметрах между генами и псевдогенами, как например меньшее число CpG-островков в псевдогенах. Некоторые искатели генов детектируют такие сигналы, как отсутствие интронов и полиадениновых хвостов[17].
Для поиска псевдогенов в прокариотах применяется программа Psi-Fi (Ψ-Φ)[20].
Метагеномика — изучение генетического материала разных видов, взятых из одной среды обитания.
Метагеномные программы также делятся на те, что используют принципы ab initio (GLIMMER-MG) или сравнительную геномику (MEGAN5).
GLIMMER-MG[21] — расширение GLIMMER, полагающееся в основном на ab initio подход и использующее обучающую выборку из родственных организмов. Стратегия предсказания улучшена за счёт кластеризации генных данных по видам перед предсказанием. Кластеризация основана на техниках метагеномной филогенетической классификации. Примеры программ для кластеризации — Phym с интерполированными марковскими моделями и PhymmBL, пользующийся BLAST.
В основе MEGAN5[22] — методы сравнительной геномики. В этой программе применяется локальное выравнивание против базы известных последовательностей, но также и реализована классификация с использованием дополнительной информации о функции генов.
FragGeneScan и MetaGeneAnnotator — широко распространённые программы для предсказания генов, основанные на НММ. Они учитывают ошибки секвенирования и работают при низкой длине ридов.
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .