生物信息学常用代码和关键词

摘抄自浙江大学出版社樊龙江主编的《生物信息学》

第一节 核苷酸和氨基酸代码

核苷酸代码

代码 核苷酸
A Adenine 腺嘌呤
G Guanine 鸟嘌呤
C Guanine 鸟嘌呤
T Thymine 胸腺嘧啶
U Uracil 尿嘧啶

兼并代码

代码 碱基 说明
R A or G Purine 嘌呤
Y T or C Pyrimidine 嘧啶
W A or T Weak 弱键
S C or G Strong 强键
M A or C Amino 氨基
K G or T Keto 酮基
B C, G or T Not A 非A
D A, G or T Not C 非C
H A, C or T Not G 非G
V A, C or G Not T 非T
N A, G, C or T Any 任意碱基

氨基酸代码

首字母代码 三字母代码 氨基酸 首字母代码 三字母代码 氨基酸
A Ala Alanine 丙氨酸 N Asn Asparagine 天冬酰胺
B Asx Asparagine 天冬酰胺或Aspartic acid 天冬氨酸 P Pro Proline 脯氨酸
C Cys Cysteine 半胱氨酸 Q Gln Glutamine 谷氨酰胺
D Asp Aspartic acid 天冬氨酸 R Arg Arginine 精氨酸
E Glu Glutamic acid 谷氨酸 S Ser Serine 丝氨酸
F Phe Phenylalanine 苯丙氨酸 T Thr Threonine 苏氨酸
G Gly Glycine 甘氨酸 V Val Valine 缬氨酸
H His Histidine 组氨酸 W Trp Tryptophan 色氨酸
I Ile Isoleucine 异亮氨酸 X Xxx Unknown 未知
K Lys Lysine 赖氨酸 Y Tyr Tyrosine 酪氨酸
L Leu Leucine 亮氨酸 Z Glx Glutamine 谷氨酰胺或Glutamic acid 谷氨酸
M Met Methionine 甲硫氨酸

氨基酸分类

理化性质 氨基酸(字母代码)
Alcohol 醇类 S T
Aliphatic 脂肪族的 I L V
Aromatic 芳香族的 F H W Y
Charged 带电的 D E H K R
Hydrophob 疏水的 A C F G H I K L M R T V W Y
Negative 带负电的 D E
Polar 极性 C D E H K N Q R S T
Positive 带正电荷 H K R
Small 小分子量 A C D G N P S T V
Tiny 微分子量 A G S
Turnlike 具有转角结构 A C D E G H K N Q R S T

第二节 核苷酸和蛋白质序列记录特征关键词

核苷酸序列记录关键词及其说明

关键词 说明
allele 等位基因
attenuator 存在调节转录的终止的DNA区域,它控制了一些细菌操纵子的表达;位于启动子和第一个结构基因之间,引起转录的部分终止的序列区段
C_region 免疫球蛋白Ig链羧基末端区,根据特定的链可包括一个或多个外显子
CAAT_singal CAAT信号;位于参与RNA聚合酶结合的真核生物转录单位的起始点的75bp上游的一段保守序列(GG(C或T)CAATCT)
CDS 编码序列(coding sequence)
Conflict 不同的论文报道了不同的序列
D-loop 置换环;线粒体DNA内的一个区域,其中RNA的短序列与DNA的一条链配对,代替了这一区域的原始配对DNA链;也用于说明在RreA蛋白质催化反应中,侵入的单链替代双链DNA一条链的区域
D-segment 免疫球蛋白重链的多变区和T-细胞受体的$\beta$链
Enhancer 顺式作用元件
exon 编码剪接mRNA部分的基因组区域;可以含有5’UTR,所有CDS和3’UTR
GC_signal GC信号;位于真核生物转录单位起始点上游的保守的富含GC区域,可以以多重拷贝或任一方向存在;共有序列位GGGCGG
iDNA 间插DNA;通过几种重组中的任何一种能被消除的DNA
intron 被转录的DNA区段,但通过同时剪接位于其两侧的序列(外显子)即可从转录本内部将其除去
J_segment 免疫球蛋白轻链和重链的连接区段与T-细胞受体$\alpha,\beta和\gamma$链
LTR 长末端重复序列,在序列的两端存在重复序列
mat_peptide 成熟的肽或蛋白质的编码序列,翻译修饰之后的成熟的或最终的肽或蛋白质产物的编码序列;位置不包括终止密码子(与相应的CDS不同)
misc_binding 不能用任何其他Binding关键词(primer_bind或protein_bind)表述的与另一个组成成分共价或非共价结合的 核酸位点
misc_difference 特征序列与记录中欧颂不同,并且不能用任何其他不同关键词(conflict, unsure, old_sequence, mutations, variation, allele或modified_base)
misc_feature 不能用任何其他的特征关键词表述的具有生物学意义的区域;新的或少见的特征
misc_recomb 任何一般性的、位点特异性的或复制的重组事件位点
misc_RNA 不能用其他任何RNA关键词限定的任何转录本或RNA产物
misc_singal 含有控制或改变基因功能或表达信号的任何区域,所述信号不能用其他Singal关键词表述
misc_structure 不能用其他Structure关键词表述的任何二级或三级结构或构象
modified_base 被指示的核苷酸是经修饰的核苷酸,并应由被指示的分子所取代
mRNA 信使RNA;包括5‘非翻译区(5’UTR)、编码序列、3’非翻译区(3‘UTR)
mutation 在此位置处,相关个体、品种等的序列具有突然的、可遗传的变化
N_region 在重排的免疫球蛋白区段之间插入的额外核苷酸
Old_sequence 在此位置处,所表述的序列修改了此序列以前的版本
PolyA_singal 聚腺苷酸化之后的内切核酸酶裂RNA转录本所必需的识别区域;共有序列为AATAAA
PolyA_site RNA转录本上的位点,通过转录后聚腺苷酸化该位点将被加上腺嘌呤残基
Precursor_RNA 仍不是成熟RNA产物的任何RNA种类;可包括5’剪切区,3’剪切区,5’UTR,3’UTR,CDS以及间插序列(内含子)
Prim_transcript 初级转录本:包括5’剪切区,3’剪切区,5’UTR,3’UTR,CDS以及间插序列(内含子)
Prim_bind 起始复制,转录或逆转录非共价的引物结合位点;包括合成的PCR引物元件位点
Promoter 参与RNA聚合酶的结合并启动转录的DNA分子区域
protein_bind 核酸上非共价的蛋白质结合位点
RBS 核糖体结合位点
repeat_region 含有重复单元的基因组区域
repeat_unit 单个重复元件
rep_origin 复制起点;复制核酸得到两个相同拷贝的起始位点
RRNA 成熟的核糖体RNA;将氨基酸装配成蛋白质的核糖核蛋白颗粒(核糖体)中的RNA成分。
S_region 免疫球蛋白重链的开关区;它参与重链DNA的重排,导致来自相同B-细胞的不同免疫球蛋白类的表达
Satellite 微卫星重复序列;很多串联的简单重复单元
ScRNA 小的细胞质RNA;几个小的细胞质RNA分子中任何一个存在于真核生物的细胞质和核中(可能)
sig_peptide 信号肽编码序列;被分泌蛋白质的N-末端结构域的编码序列;此结构域涉及新生多肽与膜的结合;前导序列
SnRNA 小核RNA;很多小的RNA种类中的任何一个都被局限于核中;几个snRNA参与剪接或其他RNA加工反应
source 鉴定序列中特定范围的生物来源;此关键词是强制性的;每一项至少要有一个跨越整个序列的单一来源关键词;每个序列可允许有一个以上的来源关键词
stem_loop 发卡结构;由RNA或DNA单链相邻(反向)互补序列之间的碱基配对形成的双螺旋区域
STS 序列标记位点:基因组上作图分子标记 并能通过PCR检测的短的单拷贝序列,可用作分子标记用于遗传图谱的构建。
TATA_singal TATA信号;Goldberg-Hogness盒;在每个真核生物RNA聚合酶Ⅱ转录单位起点前约25bp处保守的富含AT的七聚体,它可能涉及使酶定位以正确地起始;共有序列为TATA
terminator 或者位于转录本的末端,或者与启动子区域相邻的DNA序列,该序列可导致RNA聚合酶终止转录;也可以是阻抑蛋白的结合位点
transit_peptide 转运肽编码序列;核编码的细胞器蛋白质N-末端结构域的编码序列;此结构域参与将蛋白质翻译后运送到细胞器中
tRNA 成熟的转运RNA
unsure 作者不能确定此区域的准确序列
V_region 免疫球蛋白轻链和重链的可变区和T-细胞受体$\alpha,\beta和\gamma$链;编码可变的氨基酸末端部分;可由V_segment,D_segement,N_region,J_segment组成
V_segment 免疫球蛋白轻链和重链的可变区段和T-细胞受体$\alpha,\beta和\gamma$链;编码大多数可变区和前导肽的最后几个氨基酸
_10_signal Prihnow盒;细菌转录单位起点上游约10bp处的保守区域,可能参与结合RNA聚合酶,共有序列为TATAAT
_35_signal 细菌转录单位起点上游约35bp处的保守六聚体;共有序列为TTGACA或TGTTGACA

蛋白质序列记录相关的关键词及其说明

基于UniProt数据库相关说明。

关键词 英文解释 中文说明
Molecule processing
Initiator methionine Cleavage(切割,裂解,断裂) of the initiator methionine 已知序列以起始密码子甲硫氨酸开始
Signal Sequence targeting proteins to the secretory pathway or periplasmic space(周质空间) 信号序列的范围(前肽)
Transit peptide Extent of a transit peptide for organelle targeting 运转肽的范围(线粒体、叶绿体或微体)
Propeptide Part of a protein that is cleaved during maturation or activation 前肽的范围
Chain Extent of a polypeptide chain in the mature protein 成熟蛋白质中多肽链的范围
Peptide Extent of an active peptide in the mature protein 被释放的活性肽的范围
Regions
Topological(拓扑的) domain Location of non-membrane regions of membrane-spanning proteins 膜蛋白跨膜区的位置
Transmembrane(横跨膜的) Extent of a membrane-spanning region 转膜区域的范围
Intramembrane(膜内) Extent of a region located in a membrane without crossing it 膜内,指不穿过膜的区域
Domain Position and type of each modular protein domain 序列中感兴趣的区域的范围
Repeat Positions of repeated sequence motifs or repeated domains 内部序列重复的范围
Calcium binding Position(s) of calcium binding regions within the protein 钙结合区域
Zinc finger Position (s) and type (s) of zinc fingers within the protein 锌指区域的范围
DNA binding Position and type of a DNA-binding domain DNA结合区域
Nucleotide binding Nucleotide phosphate binding region 核苷酸磷酸结合区
Region Region of interest in the sequence 序列感兴趣区域
Colied coil Positions of regions of coiled coil within the protein 蛋白质内的卷曲螺旋区域的位置
Motif Short (up to 20 ammo acids) sequence motif of biological interest 基序(最多20个氨基酸)
Compositional bias Region of compositional bias in the protein 蛋白质成分的偏好区域
Sites
Active site Amino acid (s) directly involved in the activity of an enzyme 涉及酶活性的氨基酸
Metal binding binding site for a metal ion 金属离子的结合位点;说明书领域显示出金属的性质
Binding site Binding site for any chemical group(co-enzyme, prosthetic group, etc.) 任何化学基团(辅酶、辅基等的)结合位点
Site Any interesting single amino acid site on the sequence 序列中任何感兴趣的氨基酸位点
Amino acid modifications
Non-standard residue(残留) Occurence of non-standard amino acids (selenocysteine硒代半胱氨酸 and pyrrolysine吡咯氨基酸) in the protein sequence 在蛋白质序列中的非标准氨基酸的残留(硒代半胱氨酸和吡咯赖氨酸)
Modified residue Modified residues excluding lipids, glycans(多糖) and protein cross-links 残基的翻译后修饰
Lipidation Covalently attached lipid group (s) 脂质组成成分的共价结合
Glycosylation(糖基化) Covalently attached glycan group(s) 共价键链接的多糖基团
Disulfide(二硫化物) bond Cysteine residues participating in disulfide bonds 二硫键
Cross-link Residues participating in covalent linkage(s) between proteins 有残基参与的蛋白质中的共价键
Natural variations
Alternative sequence Amino acid change ( s ) producing alternate protein isoforms(亚型) 由于氨基酸替代变化产生的蛋白亚型
Natural variant Description of a natural variant of the protein 蛋白质自然变异
Experimental info
Mutagenesis Site which has been experimentally altered by mutagenesis 经实验操作已改变的位点
Sequence uncertainty Regions of uncertaintyin the sequence 蛋白质序列中的不确定区域
Sequence conflict Description of sequence discrepancies of unknown origin 来源不明的差异序列
Non-adjacent residues Indicates that two residues in a sequence are not consecutive 序列中的两个残基不是连续的
Non-tenninal residue The sequence is incomplete. Indicate that a residue is not the terminal residue of the complete protein 序列末端的残基不是末端残基;如果应用于位置1,这表示第一个位置不是完整分子的N-末端;如果应用于最后一个位置,这表示此位置不是完整分子的C-末端
Secondary structure
Helix Helical regions within the experimentally determined protein structure 二级结构;螺旋,如$\alpha螺旋或Pi螺旋$
Turn Turns within the experimentally protein structure 二级结构转角,如H-键连的转街角
Beta strand Beta strand r~ons within the experimentally determined protein structure 经实验确定的蛋白质二级结构中的$\beta折叠$
Author: Lu Shan & Lu Qiumei
Link: http://www.lslqm.com/2018/06/10/生物信息学常用代码和关键词/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.