Поиск сайтов связывания транскрипционных факторов in silico — поиск и предсказание сайтов связывания факторов транскрипции (ТФ) в последовательности нуклеотидов ДНК при помощи компьютерных алгоритмов. Сайты связывания представляют собой короткие сегменты ДНК, длиной от 8—10 до 16—20 пар оснований, которые называются мотивы, и которые имеют высокое сродство с ТФ[1][2][3]. Аналогично ищутся сайты связывания кофакторов, полимераз, сайты сплайсинга и повторяющиеся элементы в ДНК последовательности. Обнаружение мотивов позволяет лучше понять регуляциию транскрипции, сплайсинг мРНК и образование белковых комплексов.
В анализе геномных последовательностей выделяют две ключевые задачи: идентификация в наборе последовательностей ДНК уже известных мотивов из баз данных, и обнаружение неизвестных мотивов de novo. Обнаружение мотивов de novo используется тогда, когда есть набор последовательностей с предполагаемым общим ТФ, но сам ТФ или сайты связывания для него неизвестны.
Сканирование набора последовательностей против известных мотивов помогает идентифицировать совместно регулирующиеся гены с общим ТФ или оценить влияние мутаций в последовательности мотива, влияющих на связывание с ТФ. Идентификация известных сайтов связывания ТФ в последовательностях ДНК начинается с получения информации о сайте связывания ТФ из таких экспериментов, как SELEX, РВМ или ChIP-х (то есть, ChIP-seq, ChIP-exo, ORGANIC, ChIP-on-chip)[1]. На данный момент уже известно много мотивов, которые собраны в различные базы данных. Затем следует построение модели (мотива) для описания сайтов связывания ТФ и поиск новых экземпляров мотива в интересующих последовательностях. Каждое обнаруженное в последовательности ДНК совпадение с последовательностью мотива именуется экземпляром мотива (хитом), или словом.
Сложности в идентификации мотивов:
На данный момент существует множество подходов для поиска мотивов. Каждый метод имеет свои ограничения и какого-либо универсального алгоритма не существует. Лучшим решением для предсказания мотивов считается использование комбинированных подходов.
Когда позиционная весовая матрица (ПВМ) интересующего ТФ не известна, она может быть получена с помощью обнаружения мотивов de novo из набора последовательностей ДНК, содержащих сайты связывания этого ТФ. Методика состоит в определении наиболее перепредставленных мотивов в данном наборе последовательностей ДНК. Существует большое количество de novo методов обнаружения перепредставленных мотивов. Несколько методов были созданы для анализа больших наборов последовательностей в результате ChIP-SEQ экспериментов: HMS, cERMIT, ChIPMunk, diChIPMunk, MEME-ChIP, POSMO, XXmotif, FMotif, Dimont, RSAT, and DeepBind[1]. Проверка обнаруженных ССТФ может быть осуществлена с использованием комбинации иммунопреципитации хроматина с антителом, специфичным к интересующему ТФ и полимеразная цепная реакция в реальном времени с праймерами, специфичными к предсказанному целевому региону[1].
Одним из популярных способов представления мотива является консенсус — слово, составленное из нуклеотидов, наиболее часто встречающихся в конкретных позициях сайта. Для записи консенсуса также может использоваться обозначения нуклеотидов в соответствии с номенклатурой ИЮПАК.
Например, для последовательностей вида:
TACGAT
TATAAT
TATAAT
GATACT
TATGAT
TATGTT
консенсус ИЮПАК будет выглядеть следующим образом:
TATRNT
Когда консенсус плох, представление мотива может включать в себя экземпляры с очень низкой аффинностью связывания. С другой стороны очень строгий консенсус может не охватить все реально существующие вариации мотива.
Вторым наиболее популярным методом является использование ПВМ. ПВМ построена на основе частот единичных нуклеотидов (A, T, G, C). Использование ПВМ позволяет отличить сильные сайты связывания от слабых мест связывания, однако возникает проблема в том, как отличить слабые мотивы от фона. Недостатком также является то, что ПВМ не учитывает взаимосвязи позиций внутри мотива. Существует так же динуклеотидная ПВМ, использующая 16 буквенный алфавит (AA, AC, AT, …... CG, GG). Эта модель реализована в методах обнаружения мотивов Dimont и diChIPMunk [1]. Использование динуклеотидных ПВМ позволяет учитывать взаимосвязи между соседними нуклеотидами.
Модели, использующие байесовские сети позволяют смоделировать зависимости между позициями внутри мотива, но не существует простого способа визуализировать эти мотивы. Существуют также методы построения мотивов с использованием графов (например,Скрытая марковская модель) или с использованием метода опорных векторов. Подобные методы позволяют искать мотивы со спейсерами — участками вариабельной длины между двумя полусайтами двойных мотивов [1].
Алгоритмы поиска мотивов | ||
---|---|---|
Подход | Принцип поиска | Примеры |
Строковый | Деревья суффиксов | SMILE, Verbumculus |
Строковый | Деревья префиксов/Графы | MITRA |
Строковый | Графы | WINNOWER |
Строковый | Полное перечисление | YMF, Oligo-Analysis, Weeder |
Строковый | Словарь | MobyDick, WordSpy |
Вероятностный | Сэмплирование по Гиббсу | SeSiMCMC, Gibbs sampler |
Вероятностный | Принцип максимального правдоподобия | MEME, PhyME |
Вероятностный | Жадный алгоритм | ChIPMunk, MDScan |
Филогенетический футпринтинг | Выравнивание последовательностей | PHYLONET |
Прочие | Генетический алгоритм, Кластеризация | GAME, FMGA, EMD |
Алгоритмы поиска мотивов по типам входных данных можно разделить на три основных класса[3]:
Более ранние алгоритмы используют промоторные последовательности совместно регулируемых генов из одного генома и поиск статистически перепредставленых мотивов. В настоящее время появляются алгоритмы для использования филогенетического футпринтинга или ортологичных последовательностей, а также разрабатывается комплексный подход, при котором используют промоторные последовательности совместно регулируемых генов и филогенетический футпринтинг[3].
По принципу действия выделяют следующие[3]:
Такие методы к-мерного перечисления, как POSMO, cERMIT, и RSAT-peak-motifs показывают очень конкурентоспособное время выполнения задачи на больших наборах данных ChIP-SEQ. Тем не менее, вероятностные подходы (например, ChIPMunk, Dimont) могут обеспечить более высокую точность результатов[4].
Строковые методы подсчитывают количество совпадений в последовательности всех возможных мотивов, представленных регулярными выражениями, и вычисляют, какие из них встречаются чаще. Строковые методы подходят для поиска коротких эукариотических мотивов, которые обычно короче, чем у прокариот и для поиска очень консервативных последовательностей. Они могут быть достаточно быстры, если реализованы с помощью структур оптимизированных данных, таких как деревья суффиксов, например, алгоритмы Weeder и MITRA (Mismatch Tree Algorithm). Плюсом является также то, что строковые методы находят глобальный оптимум. Однако типичные мотивы транскрипционных факторов часто имеют несколько слабо консервативных позиций. Недостатком метода также является нахождение большого количества ложных мотивов[3].
Вероятностный подход предполагает представление модели мотива с помощью ПВМ. ПВМ является наиболее популярным методом представления мотивов. Вероятностные методы подходят для поиска более длинных мотивов как для прокариот, так и для эукариот. Эти алгоритмы используют локальные методы поиска, такие как[3]:
The MEME Suite — программный инструментарий с единым веб-интерфейсом для поиска и анализа мотивов в ДНК, РНК и белковых последовательностях, также существует локальная версия (не все инструменты доступны в виде веб-сервисов). MEME использует вероятностную и дискретную модели для поиска безделеционных мотивов и не предназначен для поиска мотивов в больших наборах данных. Алгоритм GLAM2 (Gapped Local Alignment of Motifs) позволяет учитывать вставки и делеции в мотивах.
Для анализа данных ChIP-Seq и других больших наборов данных предназначен MEME-ChIP. Он включает два взаимодополняющих алгоритма обнаружения мотивов MEME и DREME, и использует обнаруженые мотивы для последующей визуализации, анализа аффинности связывания, анализа по обогащению мотивов с использованием алгоритма AME, который позволяет обнаруживать очень низкие уровни обогащения сайтов связывания ТФ с известными связывающими ДНК мотивами[5]. MEME, MEME-ChIP, GLAM2 имеют три выходных формата: HTML, XML и текст[2].
ChIPMunk — быстрый эвристический инструмент обнаружения ДНК мотивов в данных ChIP-Seq, который использует жадный подход в сочетании с бутстреппингом. ChIPMunk оценивает качество мотива с помощью дискретного информационного содержания Кульбака (Kullback discrete information content, KDIC; Kullback Dinucleotide Discrete Information Content, KDDIC — для динуклеотидной версии). ChIPMunk реализован в Java (1.6 или выше) и эффективно обрабатывает большие наборы последовательностей на современном настольном компьютере или ноутбуке.
ChIPMunk итеративно ищет безделеционное множественное локальное выравнивание с наивысшим KDIC. Оптимальное выравнивание строится с помощью итерационной оптимизации стартовых позиционных весовых матриц, которые либо генерируются случайным образом (по умолчанию) или являются производными от данного пользователем набора последовательностей. На каждом итеративном шаге, ChIPmunk ищет лучшие хиты ПВМ во всех последовательностях и переоценивает ПВМ из лучших хитов. Для выбора оптимальной длины выравнивания в заданном диапазоне длин алгоритм перебирает их, начиная с наибольшей, и останавливается тогда, когда находит так называемый сильный мотив. Динуклеотидная версия алгоритма diChIPMunk, использует динуклеотидный алфавит из 16 букв и учитывает зависимость между соседними нуклеотидами в мотиве[6].
ChIPMunk и diChIPMunk также поддерживают применение профилей покрытия чтений (.wig файлы) в качестве априорных значений для местоположений мотивов, улучшая качество полученных мотивов[1].
Dimont — общий подход для вероятностного дифференциального обнаружения мотивов de novo, который способен обрабатывать данные ChIP-Seq, ChIP-exo и PBM (технология белок-связывающих микрочипов). Dimont также может использовать динуклеотидные последовательности для построения ПВМ и учитывать информацию о высоте пика. Dimont реализует подход, который позволяет придерживаться вероятностных методов с использованием популярной модели «ноль или одно совпадение в последовательности» многих инструментов de novo обнаружения мотивов при достижении приемлемого времени работы[4].
Также существуют различные инструменты для сравнения найденных мотивов с известными мотивами из баз данных, например TOMTOM из MEME Suite, MACRO-APE и STAMP.
TOMTOM определяет количественное сходство между двумя мотивами и оценивает его статистическую значимость. TOMTOM выводит лого, представляющее выравнивание двух мотивов, р-значение и q-значение [мера ложных обнаружений], а также ссылки на базу данных мотивов для более подробной информации о целевом мотиве[7].
MACRO-APE позволяет вычислять коэффициент сходства Жаккара для пары ПВМ с заданными пороговыми значениями. Программа позволяет сканировать коллекцию известных матриц на сходство с интересующей ПВМ при заданном пороге или уровне P-значения. Наряду с этими инструментами, MACRO-APE предоставляет базовые утилиты для оценки порогового значения ПВМ для заданного P-значения и наоборот[8].
Существует несколько открытых и коммерческих баз данных ПВМ известных мотивов[1]:
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .