WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Количественный анализ альтернативного сплайсинга — набор экспериментальных и вычислительных методов, позволяющих определить относительные представленности различных транскриптов одного гена в биологическом образце.

Практическое значение количественного анализа

Альтернативный сплайсинг позволяет одному гену кодировать несколько зрелых транскриптов и, впоследствии, белков. Альтернативный сплайсинг широко распространен у высших эукариот, по современным оценкам до 95% генов человека сплайсируются альтернативно. Различные изоформы могут производится на разных стадиях развития организма и/или в разных тканях. Альтернативный сплайсинг может меняться в ответ на внешние воздействия или при болезнях. Исследования последних лет указывают на то, что многие генетические заболевания связаны с нарушениями альтернативного сплайсинга. Количественный анализ альтернативного сплайсинга является одной из составляющих анализа транскриптома при решении биологических или медицинских задач.

Методы

Методы анализа альтернативного сплайсинга включают в себя экспериментальные процедуры применяемые для анализа транскриптома, а также биоинформатические методы предназначенные для обработки результатов экспериментов. Альтернативный сплайсинг в одном гене можно изучать при помощи секвенирования кДНК или ПЦР с обратной транскрипцией. Однако, вследствие развития методов массовой транскриптомики альтернативный сплайсинг все чаще изучается в масштабе всего транскриптома. Первоначально использовались методы основанные на анализе экспрессионных меток и ДНК-микрочипов с пробами специфичными к отдельным экзонам и/или экзон-экзонным границам. На данный момент основным методом анализа альтернативного сплайсинга является массовое секвенирование РНК. Количественные методы анализа альтернативного сплайсинга используют выравнивания прочтений полученных в результате массового секвенирования РНК на геном соответствующего организма. Так как транскриптомные прочтения могут проходить через границы экзонов, для их выравнивания используются специальные программы такие как STAR, histat2, gsnap и другие. Данные программы могут предсказывать границы экзонов и интронов исходя из самих прочтений, или использовать информацию из сторонних источников (например базы данных Ensembl). В некоторых случаях анализ альтернативного сплайсинга может включать создание новой или улучшение существующей геномной аннотации, то есть таблицы координат экзонов, интронов, транскриптов и генов. Для этой цели могут использоваться такие программы как cufflinks, stringtie, scripture и другие.

На данный момент опубликовано более десяти различных биоинформатических методов анализа альтернативного сплайсинга на основе данных севенирования РНК. Большинство из них используют в качестве входных данных выравнивания прочтений на геном в формате bam и геномную аннотацию в формате gff. Некоторые методы включат выравнивание прочтений и аннотацию генома в качестве составных частей. В этом случае входными данными будут являться последовательности прочтений в формате fastq и геномные последовательности в формате fasta.

Существующие биоинформатические методы могут быть разделены на две группы в зависимости от объекта анализа. Часть методов используют транскрипт-центричный подход. В этом случае для каждого транскрипта кодируемого данным геном вычисляется относительная представленность: отношение концентрации данного транскрипта к суммарной концентрации всех транскриптов гена. В экзон-центричным подходе для каждого альтернативно сплайсирующегося экзона или интрона вычисляется частота включения - доля транскриптов содержащих данный экзон или интрон. В английской литературе для обозначения частоты включения обычно используется словосочетание Percent Spliced In или Ψ.

iRecon

У алгоритма iReckon[1] есть три основных этапа: идентификация всех возможных изоформ, перестройка ридов в эти изоформы и реконструкция распространенности каждой предполагаемой изоформы.

На первом этапе IReckon ищет изоформы, которые возможно присутвуют в последовательности образца. Для этого выравнивают все риды с геномом используя алгоритм TopHat. Выравнивание и известные изоформы используются для генерирование множества всех наблюдаемых и известных мест сплайсинга, которые используются для построения графика сплайсинга. Данные о соединениях сплайсинга позволяют обнаруживать события альтернативного сплайсинга. Затем для каждого графика, перечисляются все возможные пути транскрипции от сайта старта до сайта конца. Каждый такой путь соответствует изоформе. Затем добавляется изоформы соответствующей пре-РНК в статистическую модель.

На втором шаге для каждой предполагаемой изоформы, мы извлекаем соответствующую ДНК последовательность и перевыравниванием риды на набор возможных изоформ. Этот шаг позволяет использовать более чувствительные инструменты выравнивания. В результате больше ридов правильно выравнены. Следует заметить, что каждая пара ридов может выровнять не только к нескольким изоформм внутри гена, но и множеству генов. Каждой паре присваивается начальное сродствок каждой изоформе, к которому она была выровнена. Это сродство основано на счете выравнивания.

На последнем шаге, можно определить набор изоформ присутствующий в данных и оценить их распространенность, используя EM-алгоритм на множестве всех возможных изоформ. Стандартный EM-алгоритм оценивает количество каждой изоформы на основании посчитанных пар ридов, а затем перераспределяет пары на изофрормы основываясь на счете выравниваний и оценки экспрессии изоформ.

MISO

MISO[2] — Mixture of ISOforms (смесь с изоформами), статистическая модель которая оценивает экспрессию альтернативно спласированных экзонов или изоформ. MISO выдает доверительные интервалы для оценки множества изоформ.

Для оценки альтернативного сплайсинга используются данные RNA-seq. MISO и большинство других методов используют риды выравненные на последовательности сплайсинг-соединений, которые вычислены из известных или предсказанных экзоно-интронные границ. «Процент сплайсинга» (Ψ) обозначает фракцию мРНК, которая представляет включенную изоформу. Риды выравненные на альтернативные экзоны поддерживают включение изоформ, тогда как риды выравненные на соединения между соседними конститутивными экзонами поддерживают исключение изоформ; относительная плотность ридов этих двух множеств является стандартной оценкой Ψ, обозначенной Ψsg.

МISO образцы равномерно считываются из выбранной изоформы, а затем восстанавливают основные распространенные изоформы с помощью базы коротких ридов. В результате мРНК фрагментации в подготовленной библиотеке, множество мРНК и длин вносят приблизительный вклад для прочтения образцов RNA-seq. Этот эффект обрабатывается путём масштабирования множеств Ψ и 1-Ψ двух изоформ количеством возможных ридов, которые могут быть сгенерированы из каждой изоформы, соответственно. В экзон-ориентированном анализе включающий один альтернативный экзон вводят аналитическое решение проблемы ввода, тогда как для изоформ-ориентированного анализа и оценки используются доверительные интервалы найденные е с помощью метода Монте-Карло. Оценка Ψmiso использует все позиции ридов использованные в Ψsg и риды выравненные на соседние экзоны, а также использует информацию о библиотеке распределения длин вставок в paired-end RNA-seq. Обе оценки Ψmiso и Ψsg являются независимы от оценки.

Cuffdiff

Cuffdiff[3] генерирует более точную оценку изменений в экспрессии генов, по сравнению с другими существующими подходами. Cuffdiff предполагает, что экспрессия транскрипта в каждом условии может быть измерена путём подсчета количества фрагментов сгенерированная им. Таким образом, изменение в уровне экспрессии транскриптов измеряется путём сравнения количества фрагментов каждом условии. Если возможность увидеть изменение достаточно мало по соответствующей статистической модели, то транскрипт считается значительно экспрессируемым.

Cuffdiff определяет степень избыточное рассеяние в смеси по глобально установленной наблюдаемой дисперсии. Затем алгоритм оценивает число фрагментов, которые произошли из каждого транскрипта. Cuffdiff оценивает неопределенность, рассчитывая достоверность, что каждый фрагмент корректно назначен на транскрипт, который сгенерировал его. Транскрипты с более общими экзонами и несколько фрагментов будут давать большую неопределенность. Также алгоритм находит неопределенности во фрагментах транскрипта как бета-распределение избыточного рассеивания как отрицательное биномиальное распределение, которое отображает изменение экспрессии в изоформах. Cuffdiff оценивает экспрессию генов и транскриптов, ковариацию между изоформами одного и того же гена в повторных экспериментах. Это позволяет точно оценить экспрессию генов и выполнить анализ на уровне генов. Программа сообщает пользователю изменение экспрессии для каждого гена и транскрипта, а также статистические значения для оценки этих изменений.

См. также

Примечания

  1. Aziz M. Mezlini, Eric J.M. Smith, Marc Fiume (2013). “iReckon: Simultaneous isoform discovery and abundance estimation from RNA-seq data”. Genome Research. 23 pages=519-529. DOI:10.1101/gr.142232.112.
  2. Yarden Katz,Eric T. Wang, Edoardo M. Airoldi,Christopher B. Burge (2010). “Analysis and design of RNA sequencing experiments foridentifying isoform regulation”. Nature Methods. 7 (12): 1009–1015. DOI:10.1038/nmeth.1528. Проверьте параметр |doi= (справка на английском).
  3. Cole Trapnell, David G Hendrickson, Martin Sauvageau, Loyal Goff, John L Rinn, Lior Pachter (2013). “Differential analysis of gene regulation at transcript resolution with RNA-seq”. Nature Biotechnology. 31 (1): 46–53. DOI:10.1038/nbt.2450.

Ссылки

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .




Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2025
WikiSort.ru - проект по пересортировке и дополнению контента Википедии