| FASTA | |
|---|---|
| Расширение |
.fas, .fasta, .fna, .ffn, .faa, .frn |
| MIME-тип | chemical/seq-aa-fasta, chemical/seq-na-fasta[1] |
| Разработчик | David J. Lipman[d][2] и William Raymond Pearson[d][2] |
| Тип формата | термин и формат файла |
В биоинформатике FASTA-формат представляет собой текстовый формат для нуклеотидных или полипептидных последовательностей, в котором нуклеотиды или аминокислоты обозначаются при помощи однобуквенных кодов. Данный формат может содержать названия последовательностей и сопутствующие комментарии.
Простота FASTA-формата позволяет легко производить различные действия с последовательностями при помощи инструментов редактирования текста и скриптовых языков программирования, таких как Python[3], Ruby[4], Perl.
Форматы FASTA и FASTQ (Sanger Institute) наиболее популярны для представления генетических данных.[источник не указан 581 день] Иногда также используется более подробный формат GenBank[5] и PDB.
Последовательности в формате FASTA начинаются с однострочного описания за которым следуют линии с данными последовательности. Описание отмечается при помощи символа «больше» («>») в первой колонке. Слово за ним является идентификатором последовательности, далее, через пробел, следует опциональное описание. Обычно строки в формате FASTA ограничены длиной в 80 символов. Данные последовательности располагаются до следующего описания. Пример одной последовательности в формате FASTA:
>gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE
Названием этой последовательности является "gi|31563518|ref|NP_852610.1|".
Последовательности записываются в виде нуклеиновых кислот или аминокислот, в них допускаются пропуски и символы выравнивания. Составляющие элементы кодируются общепринятыми однобуквенными кодами IUB/ИЮПАК (IUB/IUPAC), при этом дополнительно разрешено использовать символы нижнего регистра, дефис для пропусков, и символы «U» и «*» в аминокислотных последовательностях. Числа не допускаются, но используются в некоторых базах данных для обозначения позиции.
Нуклеиновые кислоты обозначаются:[6][7]
| Код | Значение | Мнемоника |
|---|---|---|
| A | A | Adenine — Аденин |
| C | C | Cytosine — Цитозин |
| G | G | Guanine — Гуанин |
| T | T | Thymine — Тимин (5-метилурацил) |
| U | U | Uracil — Урацил |
| R | A, G | puRine — Пурин |
| Y | C, T, U | pYrimidines — Пиримидины |
| K | G, T, U | Кетоновые основания |
| M | A, C | основания с аминогруппами |
| S | C, G | Сильное взаимодействие |
| W | A, T, U | Слабое взаимодействие |
| B | не A (то есть C, G, T или U) | B идет за A |
| D | не C (то есть A, G, T или U) | D идет за C |
| H | не G (A, C, T или U) | H идет за G |
| V | не T и не U (A, C или G) | V идет за U |
| N | A C G T U | Нуклеиновая кислота |
| X | маска | |
| - | пропуск неопределенной длины |
Для аминокислот есть 24 обычных кода и 3 специальных:
| Код аминокислоты | Значение |
|---|---|
| A | Аланин |
| B | Аспарагиновая кислота (D) или Аспарагин (N) |
| C | Цистеин |
| D | Аспарагиновая кислота |
| E | Глутаминовая кислота |
| F | Фенилаланин |
| G | Глицин |
| H | Гистидин |
| I | Изолейцин |
| J | Лейцин (L) или Изолейцин (I) |
| K | Лизин |
| L | Лейцин |
| M | Метионин |
| N | Аспарагин |
| O | Пирролизин |
| P | Пролин |
| Q | Глутамин |
| R | Аргинин |
| S | Серин |
| T | Треонин |
| U | Селеноцистеин |
| V | Валин |
| W | Триптофан |
| Y | Тирозин |
| Z | Глутаминовая кислота (E) или Глутамин (Q) |
| X | любой |
| * | остановка трансляции |
| - | пропуск неопределенной длины |
Центр NCBI определил правила создания уникальных идентификаторов последовательностей (SeqID). В формате NCBI FASTA defline имеются следующие варианты формирования идентификаторов:[8]
GenBank gb|accession|locus EMBL Data Library emb|accession|locus DDBJ, DNA Database of Japan dbj|accession|locus NBRF PIR pir||entry Protein Research Foundation prf||name SWISS-PROT sp|accession|entry name Brookhaven Protein Data Bank pdb|entry|chain Patents pat|country|number GenInfo Backbone Id bbs|number General database identifier gnl|database|identifier NCBI Reference Sequence ref|accession|locus Local Sequence identifier lcl|identifier
| Расширение | Значение | Примечания |
|---|---|---|
| fasta (.fas) | Обычные данные fasta | Любые данные fasta. Иногда также .fa, .seq, .fsa, .fasta |
| fna | аббр. от «fasta nucleic acid» | Для описания нуклеотидных последовательностей. |
| ffn | Кодирующие участки нуклеотидов | Содержат кодирующие участки геномов. |
| faa | аббр. от «fasta amino acid» | Содержат описания аминокислотных последовательностей. Используется расширение mpfa при хранении нескольких белков в одном файле. |
| frn | Некодирующая РНК в формате FASTA | Содержат некодирующие участки РНК, в алфавите ДНК, например тРНК, рРНК |
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .