Кэп-анализ экспрессии генов (англ. CAGE, cap analysis gene expression) — это технология, используемая в молекулярной биологии, в результате которой получают профили экспрессии генов эукариот с одновременным определением специфических для клетки/ткани/условий транскрипционных стартовых сайтов (TSS), включая данные о задействованных промоторах. Метод заключается в получении и прочтении коротких (обычно длиной 27 нуклеотидов) участков последовательности 5’-конца кэпированных РНК эукариот. Далее проводится картирование секвенированных последовательностей на готовый геном, что позволяет уточнить 5'-границы транскрибируемых областей, а также провести количественный анализ экспрессии. Методика была разработана и опубликована в 2003 году, после чего активно совершенствовалась.[1] Метод активно используется в исследовательском проекте по функциональной аннотации геномов млекопитающих (англ. FANTOM — Functional Annotation of the Mammalian Genome)[2]
![]() | |
---|---|
Схема обновленного эксперимента | |
![]() |
Рис. 1. Иллюстрация возможностей CAGE[3] |
Для транскрипции необходимо, чтобы РНК-полимераза связалась с ДНК. Место связывания РНК-полимеразы прокариот, состоящей из 5 субъединиц (ββ′α2ω), определяется σ-фактором, который специфически распознает последовательность ДНК. У бактерий отсутствует Кэп, поэтому метод CAGE к ним применить невозможно. Вместо этого используется то, что на 5'-конце РНК находится трифосфат, который способен защитить РНК от 5'-экзонуклеаз. РНК нарезают на фрагменты эндонуклеазами, а затем обрабатывают 5'-экзонуклеазами, убирая с их помощью все 5'-незащищенные РНК.[4]
У бактерий транскрипция инициируется как правило на −10 и −35 нуклеотидов до точки начала транскрипции.[5] Для транскрипции архей и эукариот необходима преинициация с участием транскрипционных факторов. У эукариот области связывания транскрипционных факторов расположены на −30, −70 и −90 нуклеотидов выше от старта транскрипции и задают базовый уровень транскрипции, кроме того существует множество активаторов и репрессоров транскрипции, которые участвуют в регуляции её скорости.[6] Сложность системы инициации транскрипции затрудняет точное предсказание сайта начала транскрипции по последовательности ДНК.
![]() | |
---|---|
Поддержка ридами участков секвенируемой РНК при RNA-seq не одинакова | |
![]() |
Рис. 2. Зависимость количества ридов от их положения на РНК при различных методиках RNA-seq |
Используемый для поиска транскрибируемых участков RNA-seq основан на современных методах секвенирования с последующим картированием ридов на геном. С одной стороны, чем более протяженный участок мы можем отсеквенировать, тем проще будет собирать риды. С другой стороны, чем длиннее риды, тем меньше вероятность каждого из них попасть на край транскрипта. В результате при любой технологии секвенирования обычно возникают отклонения в количестве ридов на концах транскрибируемой области (см. Рис. 2.), и четкой границы с точностью до одного нуклеотида на обоих концах РНК определить не удается. Для решения проблемы определения точки начала транскрипции у эукариот был создан метод CAGE и последующие его модификации.
Сравнение методов RNA-seq и CAGE показывает, что оба метода дают почти одинаковые количественные оценки экспрессии генов[7]. Это подтверждает высокую эффективность метода CAGE еще и для количественного анализа экспрессии. Современные методы CAGE позволяют секвенировать последовательности старта транскрипции:
Ограничения метода происходят из его преимуществ. Метод создан для анализа 5'-концевых участков РНК, претерпевших процесс кэпирования, поэтому протокол селективно избавляется от всех остальных РНК:
![]() | |
---|---|
Иллюстрация эксперимента | |
![]() |
Рис. 3. Схема предложенного разработчиками протокола [1] |
![]() | |
---|---|
Схема обновленного эксперимента | |
![]() |
Рис. 4. Схема нового протокола CAGE[10] |
В 2011 году, в связи с задействованием технологии в ENCODE, был переосмыслен протокол CAGE для секвенирования платформами нового поколения[10]. Так, теперь:
— обратная транскриптаза SuperScript II (Rnase Н — активность практически уничтожена мутагенезом)[11] заменена на PrimeScript (отсутствует активность Rnase Н, кроме того хорошо работает с GC-богатой РНК и РНК с богатой вторичной структурой, обладает более высокой точностью)[12].
— случайные праймеры были впервые предложены в 2006 году[13] и позволяют работать с слабополиаденилированной и неполиаденилированной РНК.
— увеличивает качество очистки целевой РНК
— благодаря обработке РНКазами не экстрагируются неполные с 5'-конца РНК
— увеличивает точность метода
— эндонуклеаза EcoP15I впервые была использована в nanoCAGE (Plessy et al., 2010),[14] и позволяет увеличить читаемое число нуклеотидов с 20 до 27, увеличив таким образом однозначность картирования последовательностей на геном.
В DeepCAGE (Valen et al., 2008) для прочтения конкатемеров (см. базовый протокол) впервые были применены методы 454-секвенирования[en] «нового поколения (NGS)».
В nanoCAGE (Plessy et al., 2010) вместо использования реагента «CAP Trapper» был применен подход со сменой матрицы для анализа меньших количеств РНК в образце. Также впервые удалось увеличить длину последовательностей до 27 нуклеотидов за счет использования эндонуклеазы EcoP15I и отказаться от образования конкатемеров, читая последовательности напрямую на NGS-платформе Solexa[en] (сейчас часть Illumina).
В CAGEscan (Plessy et al., 2010) те же авторы предлагают методику, где:
В HeliScopeCAGE (Kanamori-Katayama et al., 2011) базовый протокол модифицируется, чтобы пропустить стадию разрезания 5'-концевых участков, 5'-кэпированные РНК секвенируются без ПЦР с использованием платформы HeliScope[en] (секвенирует индивидуальные молекулы). Протокол автоматизирован Itoh et al.[18] в 2012 году.
См. раздел «Развитие технологии».
В 2013, Batut et al. совместили использование исходного реагента «CAP Тrapper», смену матрицы (nanoCAGE) и обработку 5′-фосфат-зависимыми экзонуклеазами для максимизации специфичности промотора.
В 2014, Murata et al.создали протокол для Illumina, не использующий ни ПЦР, ни отрезание 5'-концевых участков последовательностей.
Результатом кэп-анализа экспрессии генов является набор последовательностей секвенированных областей, следующих за сайтами старта транскрипции, и их уровень экспрессии. Граница начала транскрипции определяется с точностью до одного нуклеотида. Окружение сайта начала транскрипции обычно включают в себя регуляторные элементы, контролирующие экспрессию генов. Таким образом, становится возможным сопоставление уровня экспрессии с различных точек инициации транскрипции, выявление и анализ мотивов в прилегающих к ним областях для поиска и качественного описания энхансеров и репрессоров.
Благодаря CAGE стало возможным картировать сайты стартов транскрипции и промоторы для мРНК с низким уровнем экспрессии.[21] Также удалось доказать, что транскрипция часто начинается не строго с определенной позиции, а существует распределение: острое (где предпочтителен один старт и вариации незначительны) или широкое (когда явного пика не существует, и транскрипция может начинаться на участке в десятки и даже сотни нуклеотидов).[22] В результате разное начало инициации транскрипции может влиять на функцию РНК/белка и открывает возможность для дополнительной регуляции.
При анализе результатов CAGE надо учитывать отклонение в получаемых библиотеках в сторону добавления лишних гуанозинов на 5'-конец.[22] Это происходит из-за проскальзывания обратной транскриптазы и даже используется в ряде протоколов, использующих «смену матрицы».[16][23]
CAGE — страница на сайте научно-исследовательского центра RIKEN
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .