WikiSort.ru - Не сортированное

FASTA
Расширение	.fas, .fasta, .fna, .ffn, .faa, .frn
MIME-тип	chemical/seq-aa-fasta, chemical/seq-na-fasta[1]
Разработчик	David J. Lipman[d][2] и William Raymond Pearson[d][2]
Тип формата	термин и формат файла

ПОИСК ПО САЙТУ | о проекте

В биоинформатике FASTA-формат представляет собой текстовый формат для нуклеотидных или полипептидных последовательностей, в котором нуклеотиды или аминокислоты обозначаются при помощи однобуквенных кодов. Данный формат может содержать названия последовательностей и сопутствующие комментарии.

Простота FASTA-формата позволяет легко производить различные действия с последовательностями при помощи инструментов редактирования текста и скриптовых языков программирования, таких как Python^[3], Ruby^[4], Perl.

Форматы FASTA и FASTQ (Sanger Institute) наиболее популярны для представления генетических данных.^{[источник не указан 581 день]} Иногда также используется более подробный формат GenBank^[5] и PDB.

Формат

Последовательности в формате FASTA начинаются с однострочного описания за которым следуют линии с данными последовательности. Описание отмечается при помощи символа «больше» («>») в первой колонке. Слово за ним является идентификатором последовательности, далее, через пробел, следует опциональное описание. Обычно строки в формате FASTA ограничены длиной в 80 символов. Данные последовательности располагаются до следующего описания. Пример одной последовательности в формате FASTA:

   >gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens]
   MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI
   IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE

Названием этой последовательности является "gi|31563518|ref|NP_852610.1|".

Последовательности записываются в виде нуклеиновых кислот или аминокислот, в них допускаются пропуски и символы выравнивания. Составляющие элементы кодируются общепринятыми однобуквенными кодами IUB/ИЮПАК (IUB/IUPAC), при этом дополнительно разрешено использовать символы нижнего регистра, дефис для пропусков, и символы «U» и «*» в аминокислотных последовательностях. Числа не допускаются, но используются в некоторых базах данных для обозначения позиции.

Нуклеиновые кислоты обозначаются:^[6]^[7]

Код	Значение	Мнемоника
A	A	Adenine — Аденин
C	C	Cytosine — Цитозин
G	G	Guanine — Гуанин
T	T	Thymine — Тимин (5-метилурацил)
U	U	Uracil — Урацил
R	A, G	puRine — Пурин
Y	C, T, U	pYrimidines — Пиримидины
K	G, T, U	Кетоновые основания
M	A, C	основания с аминогруппами
S	C, G	Сильное взаимодействие
W	A, T, U	Слабое взаимодействие
B	не A (то есть C, G, T или U)	B идет за A
D	не C (то есть A, G, T или U)	D идет за C
H	не G (A, C, T или U)	H идет за G
V	не T и не U (A, C или G)	V идет за U
N	A C G T U	Нуклеиновая кислота
X	маска
-	пропуск неопределенной длины

Для аминокислот есть 24 обычных кода и 3 специальных:

Код аминокислоты	Значение
A	Аланин
B	Аспарагиновая кислота (D) или Аспарагин (N)
C	Цистеин
D	Аспарагиновая кислота
E	Глутаминовая кислота
F	Фенилаланин
G	Глицин
H	Гистидин
I	Изолейцин
J	Лейцин (L) или Изолейцин (I)
K	Лизин
L	Лейцин
M	Метионин
N	Аспарагин
O	Пирролизин
P	Пролин
Q	Глутамин
R	Аргинин
S	Серин
T	Треонин
U	Селеноцистеин
V	Валин
W	Триптофан
Y	Тирозин
Z	Глутаминовая кислота (E) или Глутамин (Q)
X	любой
*	остановка трансляции
-	пропуск неопределенной длины

Идентификаторы последовательностей

Центр NCBI определил правила создания уникальных идентификаторов последовательностей (SeqID). В формате NCBI FASTA defline имеются следующие варианты формирования идентификаторов:^[8]

 GenBank                           gb|accession|locus
 EMBL Data Library                 emb|accession|locus
 DDBJ, DNA Database of Japan       dbj|accession|locus
 NBRF PIR                          pir||entry
 Protein Research Foundation       prf||name
 SWISS-PROT                        sp|accession|entry name
 Brookhaven Protein Data Bank      pdb|entry|chain
 Patents                           pat|country|number
 GenInfo Backbone Id               bbs|number
 General database identifier       gnl|database|identifier
 NCBI Reference Sequence           ref|accession|locus
 Local Sequence identifier         lcl|identifier

Расширения файлов

Расширение	Значение	Примечания
fasta (.fas)	Обычные данные fasta	Любые данные fasta. Иногда также .fa, .seq, .fsa, .fasta
fna	аббр. от «fasta nucleic acid»	Для описания нуклеотидных последовательностей.
ffn	Кодирующие участки нуклеотидов	Содержат кодирующие участки геномов.
faa	аббр. от «fasta amino acid»	Содержат описания аминокислотных последовательностей. Используется расширение mpfa при хранении нескольких белков в одном файле.
frn	Некодирующая РНК в формате FASTA	Содержат некодирующие участки РНК, в алфавите ДНК, например тРНК, рРНК

Примечания

↑ FASTA (.fasta, .fa, .fna, .fsa, .mpfa) / Wolfram Research, reference, 2007-2012 (англ.)
1 2 (unspecified title) — PMID:3162770
↑ SeqIO — Biopython
↑ BioRuby: bioinformatics software for the Ruby programming language
↑ Разработка метода сравнения нуклеотидных последовательностей путём разбиения на фрагменты, 2010
↑ Tao Tao. Single Letter Codes for Nucleotides (неопр.). NCBI Learning Center. National Center for Biotechnology Information (24 августа 2011). Проверено 15 марта 2012.
↑ IUPAC code table (неопр.). NIAS DNA Bank. Архивировано 11 августа 2011 года.
↑ «The NCBI Handbook», Chapter 16, The BLAST Sequence Analysis Tool

Ссылки

What is FASTA Format? (англ.)
HUPO-PSI Standard FASTA Format // Human Proteome Organisation’s Proteomics Standards Initiative.
Sequence ID (seqID) Fields in the FASTA Deflines of Sequences from NCBI — формат FASTA Defline.
FASTA File-Format Converter

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2026
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[1] FASTA (.fasta, .fa, .fna, .fsa, .mpfa) / Wolfram Research, reference, 2007-2012 (англ.)

[_70bde2f72361623d-2] 1 2 (unspecified title) — PMID:3162770

[3] SeqIO — Biopython

[4] BioRuby: bioinformatics software for the Ruby programming language

[5] Разработка метода сравнения нуклеотидных последовательностей путём разбиения на фрагменты, 2010

[6] Tao Tao. Single Letter Codes for Nucleotides (неопр.). NCBI Learning Center. National Center for Biotechnology Information (24 августа 2011). Проверено 15 марта 2012.

[7] IUPAC code table (неопр.). NIAS DNA Bank. Архивировано 11 августа 2011 года.

[8] «The NCBI Handbook», Chapter 16, The BLAST Sequence Analysis Tool

FASTA
Расширение	`.fas, .fasta, .fna, .ffn, .faa, .frn`
MIME-тип	chemical/seq-aa-fasta, chemical/seq-na-fasta^[1]
Разработчик	David J. Lipman^[d]^[2] и William Raymond Pearson^[d]^[2]
Тип формата	термин и формат файла