FASTA | |
---|---|
Расширение |
.fas, .fasta, .fna, .ffn, .faa, .frn |
MIME-тип | chemical/seq-aa-fasta, chemical/seq-na-fasta[1] |
Разработчик | David J. Lipman[d][2] и William Raymond Pearson[d][2] |
Тип формата | термин и формат файла |
В биоинформатике FASTA-формат представляет собой текстовый формат для нуклеотидных или полипептидных последовательностей, в котором нуклеотиды или аминокислоты обозначаются при помощи однобуквенных кодов. Данный формат может содержать названия последовательностей и сопутствующие комментарии.
Простота FASTA-формата позволяет легко производить различные действия с последовательностями при помощи инструментов редактирования текста и скриптовых языков программирования, таких как Python[3], Ruby[4], Perl.
Форматы FASTA и FASTQ (Sanger Institute) наиболее популярны для представления генетических данных.[источник не указан 581 день] Иногда также используется более подробный формат GenBank[5] и PDB.
Последовательности в формате FASTA начинаются с однострочного описания за которым следуют линии с данными последовательности. Описание отмечается при помощи символа «больше» («>») в первой колонке. Слово за ним является идентификатором последовательности, далее, через пробел, следует опциональное описание. Обычно строки в формате FASTA ограничены длиной в 80 символов. Данные последовательности располагаются до следующего описания. Пример одной последовательности в формате FASTA:
>gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE
Названием этой последовательности является "gi|31563518|ref|NP_852610.1|".
Последовательности записываются в виде нуклеиновых кислот или аминокислот, в них допускаются пропуски и символы выравнивания. Составляющие элементы кодируются общепринятыми однобуквенными кодами IUB/ИЮПАК (IUB/IUPAC), при этом дополнительно разрешено использовать символы нижнего регистра, дефис для пропусков, и символы «U» и «*» в аминокислотных последовательностях. Числа не допускаются, но используются в некоторых базах данных для обозначения позиции.
Нуклеиновые кислоты обозначаются:[6][7]
Код | Значение | Мнемоника |
---|---|---|
A | A | Adenine — Аденин |
C | C | Cytosine — Цитозин |
G | G | Guanine — Гуанин |
T | T | Thymine — Тимин (5-метилурацил) |
U | U | Uracil — Урацил |
R | A, G | puRine — Пурин |
Y | C, T, U | pYrimidines — Пиримидины |
K | G, T, U | Кетоновые основания |
M | A, C | основания с аминогруппами |
S | C, G | Сильное взаимодействие |
W | A, T, U | Слабое взаимодействие |
B | не A (то есть C, G, T или U) | B идет за A |
D | не C (то есть A, G, T или U) | D идет за C |
H | не G (A, C, T или U) | H идет за G |
V | не T и не U (A, C или G) | V идет за U |
N | A C G T U | Нуклеиновая кислота |
X | маска | |
- | пропуск неопределенной длины |
Для аминокислот есть 24 обычных кода и 3 специальных:
Код аминокислоты | Значение |
---|---|
A | Аланин |
B | Аспарагиновая кислота (D) или Аспарагин (N) |
C | Цистеин |
D | Аспарагиновая кислота |
E | Глутаминовая кислота |
F | Фенилаланин |
G | Глицин |
H | Гистидин |
I | Изолейцин |
J | Лейцин (L) или Изолейцин (I) |
K | Лизин |
L | Лейцин |
M | Метионин |
N | Аспарагин |
O | Пирролизин |
P | Пролин |
Q | Глутамин |
R | Аргинин |
S | Серин |
T | Треонин |
U | Селеноцистеин |
V | Валин |
W | Триптофан |
Y | Тирозин |
Z | Глутаминовая кислота (E) или Глутамин (Q) |
X | любой |
* | остановка трансляции |
- | пропуск неопределенной длины |
Центр NCBI определил правила создания уникальных идентификаторов последовательностей (SeqID). В формате NCBI FASTA defline имеются следующие варианты формирования идентификаторов:[8]
GenBank gb|accession|locus EMBL Data Library emb|accession|locus DDBJ, DNA Database of Japan dbj|accession|locus NBRF PIR pir||entry Protein Research Foundation prf||name SWISS-PROT sp|accession|entry name Brookhaven Protein Data Bank pdb|entry|chain Patents pat|country|number GenInfo Backbone Id bbs|number General database identifier gnl|database|identifier NCBI Reference Sequence ref|accession|locus Local Sequence identifier lcl|identifier
Расширение | Значение | Примечания |
---|---|---|
fasta (.fas) | Обычные данные fasta | Любые данные fasta. Иногда также .fa, .seq, .fsa, .fasta |
fna | аббр. от «fasta nucleic acid» | Для описания нуклеотидных последовательностей. |
ffn | Кодирующие участки нуклеотидов | Содержат кодирующие участки геномов. |
faa | аббр. от «fasta amino acid» | Содержат описания аминокислотных последовательностей. Используется расширение mpfa при хранении нескольких белков в одном файле. |
frn | Некодирующая РНК в формате FASTA | Содержат некодирующие участки РНК, в алфавите ДНК, например тРНК, рРНК |
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .