Количественный анализ экспрессии генов — анализ транскриптома, измерение транскрипционной активности гена, с помощью определения количества его продукта, матричной РНК (мРНК), универсальной для большей части генов.
При этом конечный продукт экспрессии генов как правило белки, а не мРНК.
Для измерения количества мРНК разработаны надежные методы: количественная ПЦР в реальном времени (qPCR), применяют для анализа уровня экспрессии нескольких генов; сравнительная геномная гибридизация на чипах (CGH), позволяет видеть количественные изменения экспрессии генов прямо на хромосомах; микрочипы, с их помощью можно получать данные по уровню экспрессии большого количества генов; высокопроизводительное параллельное секвенирование РНК (RNA-Seq).
В результате секвенирования РНК создается библиотека ридов. Длина рида варьируется от 25 до 200 нуклеотидов. Затем риды картируются (или выравниваются) на референсный геном. Риды могут выравниваться сразу на несколько областей генома или на разные изоформы одного гена. Технология позволяет измерять лишь относительное количество транскрипта в клетке. Самый простой подход — рассматривать только однозначно выравненные риды на аннотированные модели генов. В этом случае величина RPKM[1] (reads per kilobase per million mapped reads) является подходящей количественной мерой экспрессии транскрипта:
,
где — количество ридов, попавших на транскрипт, — длина транскрипта, — общее количество ридов. Эта формула является оценкой максимального правдоподобия при полиномиальной модели картирования ридов на транскрипты[2]
Однако многие риды не могут быть однозначно картированы. Например, при дупликациях гена. Также информация о структуре генов (альтернативный сплайсинг, альтернативные промотеры, разные сайты полиаденилирования) в высших эукариотах недостаточно изучена даже в модельных организмах. Поэтому используют подходы, позволяющие картирование с установлением точек сплайсинга[3] и последующей сборкой транскриптома[4].
В настоящее время существует большое разнообразие моделей вычисления количества транскрипта. Основные свойства, которые разделяют модели:
В настоящее время существуют широкий спектр программ для количественного анализа экспрессии генов: Cufflinks, MISO, Scripture, ALEXA-Seq, rSeq, IsoInfer,MMSEQ, HTSeq.
Простой подход, при котором считается количество ридов, которые пересекаются с данным геном. При этом в программе заложено различные определения факта пересечения рида с геном. Далее экспрессию можно определять через RPKM.
Основные шаги работы алгоритма[4]:
В основе статистическая модель для оценки количества изоформ гена.
В результате секвенирования РНК происходят систематические ошибки, которые могут значительно влиять на оценку экспрессии. Некоторые ошибки — неслучайное и неравномерное по длине фрагментирование — получается до некоторой степени учитывать[5]. Однако многие биохимические особенности не удается обнаружить. Так, считается, что формирование вторичных структур РНК может создавать неравномерность покрытия.
Существует два вида реплик: технические и биологические. Технические реплики предполагают секвенирование одного и того же биологического материала несколько раз. Биологические реплики предполагают секвенирование различного биологического материала. Из отсеквенированных фрагментов прочитывается лишь небольшая часть. Часть ридов, относящихся к фиксированному гену, будет несколько отличаться для образца и небольшой рассматриваемой части ввиду случайного выбора этой части. Если часть ридов данного гена в образце равна p, то часть ридов, попавших на ген подчиняется биномиальному распределению или распределению Пуассона со средним p. Для оценки этой части p нужны технические реплики. В случае биологических реплик, вариация в экспрессии не объясняется распределением Пуассона. В этому случае используется отрицательное биномиальное или обобщенное пуассоновское распределения. При этом сохраняется допущение, что вариация зависит от среднего экспрессии. Ввиду малого количества биологических реплик, вариация оценивается с помощью различных регрессионных методов.
ДНК-микрочип представляет собой небольшую поверхность, на которую нанесены фрагменты одноцепочечной ДНК с известной последовательностью. Эти фрагменты выступают в роли зондов, с которыми гибридизуются комплементарные им цепи ДНК из исследуемого образца. Существует два различных типа ДНК-микрочипов — олигонуклеотидные микрочипы и кДНК-микрочипы.
С помощью кДНК-микрочипов удобно исследовать изменения в уровнях экспрессии генов в случаях, например, различных заболеваний. Из двух образцов клеток (контрольного и исследуемого) выделяется РНК, из которой обратной транскрипцией получают кДНК. Каждая из полученных проб окрашивается каким-либо красителем (обычно используются Cy3 и Cy5). Меченые образцы наносятся на микрочип одновременно, и после отмывки негибридизовавшихся молекул производится измерение флуоресценции с помощью сканирующего конфокального микроскопа.
При подготовке образца для анализа на олигонуклеотидном микрочипе на матрице полученной кДНК в присутствии метки (например, биотина или флюоресцеина) синтезируется кРНК. В условиях повышенной температуры меченая кРНК гибридизуется с зондами на микрочипе. Для нормализации, значения о связывании с мутированным олигонуклеотидом вычитаются из получившихся при анализе данных. Более того, поскольку для каждого гена создается примерно 25 различных зондов, итоговые значения для них высчитываются как среднее нормализованных интенсивностей всех этих проб.
Гибридизация на микрочипах, безусловно, является очень сильным методом для одновременной оценки уровней экспрессии всех генов в исследуемом образце. Однако, природа данной техники исследования такова, что для получения достоверных качественных и количественных данных требуется аккуратный анализ полученных в эксперименте значений. Необходимо нормировать данные и максимально повысить соотношение сигнал/шум, поскольку изменения профилей экспрессии в сравниваемых образцах могут быть невелики.
Перед началом обработки данные представляют собой цифровое изображение интенсивностей флуоресценций различных каналов. В первую очередь проводится вычитание флуоресценции подложки из флуоресценции каждой конкретной пробы. Возможны два варианта — либо для каждой пробы высчитывается флуоресценция подложки непосредственно рядом с ней, либо считают среднюю флуоресценции подложки на всем микрочипе. Первый вариант правильнее, поскольку флуоресценция различных участком микрочипа может отличаться.
Вслед за вычитанием фона проводится нормировка интенсивностей флуоресценции красок. Флуоресценция красок и их слияние с зондами зависит от последовательности гена, условий проведения каждой конкретной гибридизации, качества микрочипа и от условий и длительности их хранения. Нормализацию проводят либо основываясь на флуоресценции проб, соответствующим генам домашнего хозяйства, либо внося на микрочип и в образец известное количество экзогенной, несвойственной исследуемым клеткам мРНК. Для получения более достоверных значений на разные области одного микрочипа наносятся одинаковые образцы ДНК. Индекс качества для микрочипа определяется уровнем различия значений данных для идентичных образцов в разных пробах.
Однако, несмотря на все это, получаемые в экспериментах данные не являются количественной оценкой экспрессии генов. Получаемые для одного гена результаты могут варьировать от лаборатории к лаборатории и от одного микрочипа к другому. Подобные эксперименты позволяют оценить качественные изменения профилей экспрессии в различных образцах.
Ранее ученые классифицировали различные типы рака основываясь лишь на том, какой орган был поражен. С помощью ДНК-микрочипов станет возможным классифицировать опухоли по паттернам активности генов в клетках. Это позволит разрабатывать лекарства, предназначенные для конкретного вида ракового заболевания. Кроме того, анализ профилей экспрессии в обработанных и необработанных лекарством клетках позволит ученым понять, как именно препарат влияет на клетки. Кроме того, зачастую в исследуемом образце опухоли присутствуют клетки разных клонов, которые могут значительно отличаться по профилю экспрессии генов. Оценка уровня экспрессии генов отдельных единичных клеток злокачественного новообразования позволит точнее прогнозировать дальнейшее развитие опухоли и её метастазов.
В лабораторных исследованиях методы количественного анализа экспрессии генов находят применение в ряде опытов, связанных с изучением экспрессий различных генов. В экспериментах, где клетки содержались в каких-либо условиях, отличных от нормальных, в большинстве своем обнаруживаются изменения в профилях экспрессии генов. Результаты подобных исследований проливают свет на механизмы клеточного ответа на изменения окружающей среды. Также уровни экспрессии генов активно меняются в ходе эмбрионального и постэмбрионального развитий, когда на смену одним белкам приходят другие, регулирующие процессы роста и формирования организма. Совместные изменения уровней экспрессии нескольких генов при смене каких-либо параметров могут говорить о взаимодействии продуктов этих генов в клетке.
Сравнение экспрессии генов (анализ дифференциальной экспрессии) — важный инструмент характеристики и понимания молекулярных основ вариации фенотипа в биологии, включая заболевания, выявления генов прямо или косвенно регулируемых некоторым белком, молекулой РНК, веществом — первый шаг к определению важных игроков в регуляторных сетях.
Выделяют три уровня анализа экспрессии генов с возрастающей сложностью[6]:
Анализ изменения экпрессии можно рассматривать как кластеризацию генов на «изменившиеся» и «неизменившиеся».
Анализ изменения экспрессии генов осложняется вариацией, создаваемой большим количеством сложно взаимодействующих факторов, действующих на разных уровнях и на различных этапах эксперимента. Выделяют биологические и экспериментальные источники вариации. К другим источником относят вариации при изготовлении микрочипов, различия в технологиях получения и обработки изображения, выделения сигналов и обработки данных[6].
Считают, что наибольший вклад вносят биологические различия индивидуальных уровней экспрессии генов в различных клетках и популяциях клеток. Различия обнаруживают не только между клиническими образцами (содержащими клетки различных типов), но даже между образцами моноклональных «идентичных» культур, содержащихся в «идентичных» условиях. Эти различия объясняют влиянием микроокружения (например, содержание питательных веществ, градиент температуры), различиями в фазе роста клеток в культуре, периодами быстрого изменения экспрессии генов и многими другими случайными воздействиями, неподдающимися контролю, такими как случайное распределение небольшого количества молекул транскрипционных факторов (экспрессия определенных генов может существенно зависеть от нескольких молекул)[6].
На сохранность РНК влияет наличие вторичной структуры транскрипта[6].
Существенное значение имеет стандартизация всех этапов подготовки образцов (например, изменение температурного режима, состава питательных веществ даже при кратковременном центрифугировании живых клеток может вызвать изменение профиля экспрессии)[6].
Для подготовки образцов бактерий важное значение имеет быстрый круговорот РНК (порядка секунд)[6].
Наилучшей стратегией подготовки образца мРНК считают минимальное время обработки при условиях, «замораживающих» уровень мРНК на уровне в момент взятия образца, и ингибирование активности РНКаз[6].
При сравнении профилей экспрессии генов образцов применяют нормализацию, учитывающую источники экспериментальной и биологической вариации:
Систематические (считают одинаково воздействующими на сравниваемые образцы):
Часто вместо значений количества картируемых фрагментов используют величины RPKM — Read Per Kilobase per Million mapped reads либо FPKM — Fragments Per Kilobase per Million mapped reads.
Простые подходы к нормализации учитывают лишь суммарное количество фрагментов сравниваемых образцов. При этом малое количество генов повысивших экспрессию приведет к ложному выявлению значительного количества генов снизивших экспрессию.
Все методы нормализации предполагают, что большая часть генов в сравниваемых образцах экспрессируется одинаково и доля генов снизивших экспрессию (downregulated) более или менее равна доле повысивших (upregulated).
TMM (Trimmed Mean of M-values) и используемый в пакете DESeq
Для каждого гена проверяют изменилась ли его экспрессия. Предполагают, что данные являются набором повторных измерений для каждого гена и , представляющих измеренный уровень экспрессии или его логарифм в исследуемом (treatment) и контрольном (control) образцах.
При анализе данных, полученных с использованием микрочипов, полученные измерения трактуют как непрерывные величины (лог-нормальное распределение). При анализе данных RNA-Seq, получаемые значения количества картируемых фрагментов натуральные, для анализа случайную величину принимают распределенной по Пуассону, как обратное биномиальное и даже бета-биномиальное.
В ранних работах использовали подход при котором ген считался дифференциально экспрессируемым, если относительное изменение его экспрессии превысило некоторый порог (обычно 2).
Недостатком такого подхода является, что он не учитывает значимость наблюдаемого изменения в различных областях спектра уровня экспрессии (изменение 2/1 вероятнее следствие шума, чем изменение 2000/1000).
t-тест — хорошо известный критерий оценки равенства средних с учетом вариации. Рассчитывают нормализованное расстояние, используя выборочные средние и контрольного и исследуемого образцов соответственно и их дисперсии и , по формуле
,
где и . Известно что распределение t близко к распределению Стьюдента с количеством степеней свободы f, где
.
При превышении t некоторого порога, зависящего от выбранного уровня значимости, ген считают изменившим экспрессию.
Так как в t-тесте расстояние нормализуют выборочным стандартным отклонением, его применение предпочтительнее, чем использование фиксированного порога относительного изменения экспрессии.
Основная проблема применения t-теста заключена в малом количестве повторностей измерения и вследствие дороговизны или сложности эксперимента.
Значения логарифма экспрессии генов моделируют как независимые нормальные распределения, параметризуемые соответствующими средними и дисперсиями.
,
где C — константа для нормализации распределения.
Для и принимают априорные вероятности — scaled inverse gamma и — распределено нормально.
Показано, что существует взаимоотношение между значением и вариацией экспрессии. При близких значениях экспрессии наблюдают близкие значения вариации экспрессии (Картинка???). Таким образом возможно приложение априорного знания в Байесовой статистике для получения лучших оценок вариации экспрессии отдельного гена, используя значения измеренного уровня экпрессии значительного числа других генов с близким уровнем экпрессии из того же эксперимента.
,
где
,
,
,
Для точечных оценок используют среднее апостериорной оценки (MP) либо моду (MAP — maximum a posteriori).
В гибкой реализации, фоновую дисперсию экспрессии гена вычисляют, принимая во внимание гены, соседствующие с рассматриваемым, например 100 генов попадающие в симметричное окно по уровню экспрессии.
Хотя этот метод не исключает необходимости повторностей измерений, его использование позволяет значительно сократить число ложно-положительных находок даже при небольшом количестве повторов[7].
PPDE — Posterior Probability of Differential Expression
По причине зашумленности и вариабельности измеряемых данных ожидают получение ложно-положительных и ложно-отрицательных находок дифференциально экспрессирующихся генов.
Интуитивным способом оценки уровня ложно-положительных находок является сравнение измерений полученных с одного контрольного образца, при этом экспрессия генов не должна измениться[8].
Предложена также более формальная вычислительная реализация такого подхода: априорные знания основываются на наблюдении, что в случае отсутствия изменений экпрессии генов p-value по каждому гену должно быть распределено равномерно между 0 и 1 (доля генов ниже любого значения p равна p и доля выше равна 1-p). В случае наличия изменений распределение значений p-value для генов будет «стягиваться» больше к 0 чем к 1, то есть будет подмножество дифференциально экпрессирующихся генов с «значимыми» p-value. Это распределение моделируют взвешенной комбинацией равномерного и неравномерного распределений. Для каждого гена рассчитывают вероятность его ассоциации с неравномерным распределением — PPDE[9].
При моделировании используют смесь бета-распределений[9], где равномерное является частным случаем.
Обычно используют EM-алгоритм для определения весов в смеси.
Апостериорную вероятность дифференциальной экспрессии рассчитывают
Часто в реализации предполагают, что значения p-value получены из распределения t-test как новые данные и строят вероятностную модель с ними.
Исходными данными методов/программ анализа дифференциально экспрессирующихся генов являются матрицы, содержащие данные о количестве фрагментов, картированных на ген/экзон для каждого образца в эксперименте RNA-Seq. В основном данные отсчетов используются прямо (baySeq [10] , EBSeq [11], ShrinkSeq [12], edgeR [13], DESeq [14], NBPSeq [15] и TSPM [16]), но существуют алгоритмы, преобразующие отсчеты и использующие алгоритмы, предназначенные для анализа данных, полученных гибридизационными микрочипами ( NOISeq [17] и SAMseq [18]).
Значительно ускорить обработку данных по РНК позволяют "легкие алгоритмы" Sailfish[19]
Признано, что для анализа дифференциальной экспрессии критично получение надежной оценки параметра дисперсии для каждого гена, в этом направлении сосредоточено много усилий. Получение этой оценки осложнено малым размером выборки в большинстве экспериментов RNA-seq, что мотивирует разделение информации между генами для получения более точных оценок. Первым предположением было принять, что параметр дисперсии одинаков для всех генов, что позволяло оценивать его, используя все имеющиеся данные методом условного максимального правдоподобия. DESeq, edgeR, NBPSeq используют разделение данных генов для оценки дисперсии, различия заключаются в способе. В edgeR используют подход менее ограничивающий подход — дисперсию определяют для каждого гена, но индивидуальные оценки «стягивают» к общей дисперсии методом взвешенного правдоподобия.
Большая часть параметрических моделей (baySeq, DESeq, edgeR и NBPSeq) использует модель обратного биномиального распределения для объяснения избытка дисперсии.
TSPM (Two-Stage Poisson Model) основана на модели Пуассона для отсчетов, расширенной с помощью подхода квази-правдоподобия для описания избытка дисперсии данных. Первым шагом каждый ген тестируют индивидуально на наличие избыточной дисперсии, чтобы решить какую из двух модель использовать для анализа дифференциальной экспрессии.
Тестирование дифференциальной экспрессии основано на асимптотической статистике, которая предполагает, что общее количество фрагментов для каждого гена не слишком мало. Авторы рекомендуют отбрасывать гены, для которых общее число фрагментов менее 10. Также важно присутствие в данных генов без избыточной дисперсии.
ShrinkSeq позволяет пользователю выбрать из набора распределений, включая обратное биномиальное и обратное биномиальное с избыточным числом нулевых значений.
DESeq, edgeR, NBPSeq используют классический подход проверки гипотезы. baySeq, EBSeq, ShrinkSeq используют байесову статистику.
В DESeq и NBPSeq получают оценки дисперсии, моделируя наблюдаемую зависимость между средним и дисперсией локальной или параметрической регрессией. В NBPSeq используют полученные значения дисперсии, в DESeq используют консервативный подход — выбирают наибольшее значение дисперсии (из оценки с разделением информации о других генах и оценки дисперсии для индивидуального гена). В edgeR, DESeq и NBPSeq значимость дифференциальной экспрессии тестируют разновидностью точного теста (для сравнения двух групп) либо обобщенной линейной моделью.
В baySeq пользователь задает коллекцию моделей, разбивающих образцы (гены???) на группы. В группе предполагают одинаковые параметры основного распределения. Затем оценивают апостериорную вероятность каждой модели для каждого из генов. Информация из всего набора генов используется для формирования эмпирического априорного распределения для параметров обратного биномиального распределения.
EBSeq использует подобный подход, но предполагает параметрическую форму априорного распределения параметров, с гиперпараметрами, разделяемыми между всеми генами и оцениваемыми по данным.
В NOISeq и SAMSeq — непараметрические методы, не предполагают какого-либо распределения для данных.
SAMSeq основан на статистике Вилкоксона, усредненной по нескольким оценкам данных с использованием пермутаций, для оценки FDR (false discovery rate). Эти оценки используют для определения q-value для каждого гена.
В NOISeq определяют распределение крастности изменения и различия абсолютных значений экспрессии между образцами при различных условиях и сравнивают это распределение с полученным при сравнении образцов при одних условиях (называют «распределением шума»). Кратко, для каждого гена рассчитывают статистику, определяемую как доля точек из распределения шума, соответствующих более низкой кротности изменения и разности абсолютных значений экспрессии, чем полученные для интересующего гена в исходных данных.
При сравнение экспрессии генов в нескольких экспериментах либо проводят множественные попарные сравнения, либо используют модели, в которых сравниваются группы экспериментов и т. п. В случае, когда рассматривается Κ воздействий (например, лечение), Τ0…Τκ-1, на экспрессию генов, можно использовать несколько принципиально отличающихся планов сравнения.
При сравнение большого количества экспериментов необходимо использовать поправку на множественное сравнение (FDR, FWER, adjusted p-value или другие)[22], чтобы исключить возможность случайного получить значимое различие в экспрессии генов.
Использование только попарных сравнений при анализе большого количества групп экспериментов (факторов) не оптимально, поскольку требует значительных временных затрат. В подобных случаях более рационально использовать модели, учитывающие воздействия нескольких факторов.
Эксперименты, в которых рассматривается воздействие нескольких факторов, используются практически те же математические подходы (регрессионный анализ, байесовская статистика), что и при однофакторном анализе, но более сложный дизайн групповых сравнений. Вот некоторые из них.
|author=
на позиции №92 (справка); Символ переноса строки в |title=
на позиции №82 (справка)|article=
пропущен (справка на английском)
|article=
пропущен (справка на английском)
|article=
пропущен (справка на английском)
|article=
пропущен (справка на английском)|title=
на позиции №56 (справка); Параметр |article=
пропущен (справка на английском)
|title=
на позиции №31 (справка)Для улучшения этой статьи желательно: |
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .