fasta格式

王朝百科·作者佚名  2010-03-30  
宽屏版  字体: |||超大  

在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。

序列文件的第一行是由大于号">"或分号";"打头的任意文字说明(习惯常用">"作为起始),用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号(参见下表)。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过80个字符。

下面是FASTA格式的一条DNA序列实例:

>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK*

FASTA格式支持的核苷酸代码如下:

核苷酸代码

意义

A

Adenosine

C

Cytosine

G

Guanine

T

Thymidine

U

Uracil

R

G A (puRine)

Y

T C (pYrimidine)

K

G T (Ketone)

M

A C (aMino group)

S

G C (Strong interaction)

W

A T (Weak interaction)

B

G T C (not A) (B comes after A)

D

G A T (not C) (D comes after C)

H

A C T (not G) (H comes after G)

V

G C A (not T, not U) (V comes after U)

N

A G C T (aNy)

X

masked

-

gap of indeterminate length

FASTA格式支持的氨基酸代码如下:

氨基酸代码

意义

A

Alanine

B

Aspartic acid or Asparagine

C

Cysteine

D

Aspartic acid

E

Glutamic acid

F

Phenylalanine

G

Glycine

H

Histidine

I

Isoleucine

K

Lysine

L

Leucine

M

Methionine

N

Asparagine

O

Pyrrolysine

P

Proline

Q

Glutamine

R

Arginine

S

Serine

T

Threonine

U

Selenocysteine

V

Valine

W

Tryptophan

Y

Tyrosine

Z

Glutamic acid or Glutamine

X

any

*

translation stop

-

gap of indeterminate length

 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
 
© 2005- 王朝百科 版权所有