版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章基因组序列注释完成基因组测序仅仅是基因组计划的第一步,更大的挑战在于弄清:基因组序列中所包含的全部遗传信息是什么;基因组作为一个整体如何行使其功能。这两项任务都必须依赖于对基因组序列的正确注释(annotation)。基因组注释方法:①自动注释:依据某些规则进行数据分析得出是否为基因的结论。②人工注释:人为检测评价自动注释的结果并根据其他数据进行分析与校正。③实验注释:根据实验结果进行检测,如EST或全长cDNA。自动注释的内容:依据基因结构的特点采用软件预测,不依赖已有的表达序列;同源性比较,在同一物种或不同物种中查找已有的基因序列;功能域(domain)或基序(motif)分析。基因序列注释基因功能注释5’非翻译区3’非翻译区5.1搜寻基因
5.1.1根据基因结构特征搜寻基因基因(gene)Ⅰ.开放读码框在DNA链上,由蛋白质合成的起始密码子开始,到终止密码子为止的一个连续编码序列称为一个开放读码框(openreadingframe,ORF)。读码框(readingframe)任意一段DNA序列都有6种可能的读码框。终止密码子:TAA,TAG,TGAGC%=50%,终止密码子每64bp出现一次;
GC%>50%,终止密码子每100~200bp出现一次;由于多数基因ORF均多于50个密码子,因此最可能的选择应该是ORF
不少于100
个密码子。
ORF的长度:最长ORF法在细菌基因组中,蛋白质编码基因从起始密码子ATG到终止密码子平均有100bp,而300bp长度以上的ORF平均每36Kb才出现一次,所以只要找出序列中最长的ORF(>300bp)就能相当准确地预测出基因。在真核生物中,存在大量非编码序列和内含子,ORF阅读比较复杂。全长cDNA的编码区一般也可以用最长ORF法,如水稻的3万多条的全长cDNA的编码区预测,有时例外。全长cDNA的编码蛋白序列应为4-029B,而非最长的4-029A。Ⅱ起始密码子ATG第一个ATG的确定依据Kozak规则。Kozak是一个女科学家,她研究过起始密码子ATG周边碱基定点突变后对转录和翻译所造成的影响,并总结出在真核生物中,起始密码子两端序列为:——G/N-C/N-C/N-ANNATGG——,如GCCACCATGG、GCCATGATGG时,转录和翻译效率最高,特别是-3位的A对翻译效率非常重要。该序列被后人称为Kozak序列,并被应用于表达载体的构建中。
若将第一个ATG中的碱基A、T、G分别标为1、2、3位,则Kozak规则可描述如下:(1)第4位的偏好碱基为G;(2)ATG的5’端约15bp范围的侧翼序列内不含碱基T;(3)在-3,-6和-9位置,G是偏好碱基;(4)除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。Kozak规则是基于已知数据的统计结果,不见得必须全部满足,一般来说,满足前两项即可。
Kozak规则的内容:Ⅲ密码子偏爱性(codonbias)编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第3位碱基不同。不同种属间使用同义密码的频率有很大差异:如人类基因中,丙氨酸(Ale)密码子多为GCA、GCC或GCT,而GCG很少使用。几乎所有基因(或操纵子)都有上游调控序列,它们可与DNA结合蛋白作用,控制基因表达,如启动子序列。生物的基因组特有组成也可作为判别依据,如几乎所有的管家基因(House-Keepinggene)及约占40%的组织特异性基因的5’末端含有CpG岛。在大规模DNA测序计划中,每发现一个CpG岛,则预示可能在此存在基因。Ⅳ上游控制顺序Chambon等发现内含子特点:(1)内含子连接点具有很短的保守序列,称为边界顺序。其规律称为GT-AG法则(GT-AGrule)或Chambon法则。。Ⅴ外显子与内含子边界
左(5')位点
右(3')位点
外显子A64G73G100T100A62AG8G84T63…12PyNC65A100G100
N外显子内含子
内含子和外显子的交界顺序GT-AG法则(仿B.Lewin:《GENES》Ⅵ,1997,Fig30.3)
P314OH
GAG外显子1外显子2OH
外显子1UGO
AG外显子1外显子2核RNA的剪接反应(仿B.Lewin:《GENES》Ⅵ,1997,Fig30.5)(2)分枝点顺序:为Py80NPy87Pu75APy95,其中A为百分之百的保守,且具有2’-OH。(3)内含子5’端有一保守序列可以和U1snRNA的5’端的保守顺序互补。3’端的确认主要根据Poly(A)尾序列,若测试序列不含Poly(A),则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。Ⅵ3’端的确认
转录起始
延伸
5’帽子
AAUAAA
剪切
Poly(A)聚合酶
5’帽子
AAUAAAAn
mRNA3’端加Poly(A)尾巴
由于内含子的进化没有外显子受到的选择压力大,内含子的序列比外显子的序列更随机。这是目前各种预测程序中被广泛应用的一种方法,如GCG的TestCode、美国波士顿大学GeneID和BaylorMedcineCollege的BCMGeneFinder等程序。Ⅶ编码区与非编码区5.1.2同源基因查询物种之间存在着广泛的同源基因,包括编码和非编码序列。生物基因组相似性%资料来源人类99.9HumanGenomeProject100孪生子黑猩猩98.4AmericansforMedicalProgress98.7CeleraGenomics大猩猩98.38AmJHumGenet2001,682:444~456.小鼠98AmericansforMedicalProgress85NHGRI狗95JonEntine,intheSanFranciscoExaminer线虫74JonEntine,intheSanFranciscoExaminer注:以人类基因组DNA序列为基准,与其他生物基因组DNA序列对比。Ⅰ同源查询(homologysearch)利用已存入数据库中的基因序列与待查的基因组序列进行比较,从中查找可与之匹配的碱基序列或蛋白质序列及其比例,这种识别基因的方法称为~。同源查询相似性的表现:存在某些完全相同的序列;ORF的排列类似,如等长的外显子;ORF的氨基酸序列相同;模拟的多肽高级结构相似。以上标准可单独使用,亦可综合考察;一般认为氨基酸的一致性或相似性在25%以上可视为同源基因。Ⅱ区分概念:
同源性、一致性和相似性同源性(homology):起源于同一祖先但序列已经发生变异的序列之间的关联性。
同源性只有“是”和“非”的区别,无所谓百分比。一致性(identity):同源DNA序列的同一碱基位置上相同的碱基成员,或者蛋白质中同一氨基酸位置上相同的氨基酸成员的比例。相似性(similarity):同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。
一致性和相似性可用百分比表示,相似性往往高于一致性。同源基因有关概念:直向同源基因(orthologousgene):指分布在不同物种之间的同源基因,它们来自物种分隔之前的同一祖先。共生同源基因(paralogousgene):指同一物种因基因倍增产生的同源基因。(旁系同源基因)倍增基因(ohnologousgene):因全基因组加倍产生的同源基因称~。异向同源基因(xenologousgene):不同物种之间因水平转移产生的同源基因称~。物种种化(speciationevent)而产生了直系同源(orthology)的基因序列,基因重复(duplicationevent)而产生了旁系同源(paralogy)的基因序列。globin
基因的直系同源、旁系同源关系图
在基因分类时,缺少同源序列的ORF被称为孤独基因(orphangene)。当某一序列从数据库中无法找到同源序列,又无法排除其是不是基因的可能性时,必须依靠实验来进一步确认。两点说明:在DNA水平上区分同源基因的难度要大于氨基酸水平。
原因:密码子的摇摆性,相似氨基酸的取代。确定两个基因是否同源,氨基酸序列的比较以及蛋白质高级结构的模拟给出的结果更为可靠。
原因:同源基因功能相似,关键位置氨基酸相同。Ⅲ基因注释软件信号指令(signalterm):如起始密码、终止密码、内含子分支点保守序列等;内容指令(contentterm):如密码子使用偏好等。Ⅳ基因注释水平的分类已知基因(knowngene):与已知cDNA和蛋白质序列同源的基因。新基因(novelgene):与其他物种cDNA或蛋白质序列同源的基因。新转录物(noveltranscript):与新基因相似,但缺少明确的ORF。可能的基因(putativegene):有同源EST支持,但缺少cDNA或ORF。预测基因(predictedgene):数据库中至少有一个外显子支持,但缺少cDNA或明确的ORF。假基因(pseudogene):与已知蛋白质有50%的一致性,但cDNA残缺,在其他位点存在正常的同源基因的序列。(DunhamI等,2001)5.1.3实验确认基因依据:任何基因都可转录为RNA拷贝。分子杂交可确定DNA片段是否含表达序列——Northern印迹(Northernboltting)。由EST和cDNA指认基因——搜集尽可能多的EST和cDNA成员是基因组注释最简单最可靠的方法。5.2基因功能预测根据基因结构、功能与进化的内在联系,采用生物信息学方法进行基因功能的预测已成为基因功能前期研究的主流内容。5.2.1计算机预测基因功能采用软件分析方法,根据已有的基因功能推测基因组中具有相似结构的基因的功能。依据:同源性比较
直向同源基因,共生同源基因蛋白质结构预测5.2.2蛋白质结构域在功能预测中的意义结构域(domain)(功能域):蛋白质高级结构中具有相对独立的亚结构区,通常它们含有数个二级结构基序(motif),具有相对独立的功能。真核生物中大约80%的蛋白质,原核生物中大约66%的蛋白质均含有多个结构域(ApicG等,2001)。蛋白质的域结构
(domainarchitecture)又称为蛋白质指纹(proteinfingerprint):用来特指蛋白质中结构域的组合形式及其排列次序。蛋白质的整体功能是通过各个结构域之间的协同作用实现的,结构域的组成提供了蛋白质功能解读的关键信息。举例:细胞跨膜信号传导蛋白的结构域接受外界信号的受体功能域;传达信号的胞内激酶域;蛋白质定位在细胞膜上的跨膜域。蛋白质结构域在基因的功能预测中起着极其重要的作用,是预测基因功能的主要依据之一。同一物种或不同物种中具有相同结构域的蛋白质可将其划归在同一蛋白质家族(proteinfamily),当其他物种相关蛋白质家族成员的功能已知时,根据同源性可以推知另一物种相同结构域蛋白质的功能。有时2个无明显亲缘关系的蛋白质含有个别相同的结构域:分析:可能具有相似的生物学功能,相似的结构域是蛋白质功能的核心区域。基因本身无共同的祖先,但其结构域却有共同的起源。举例:涉及mRNA加工的蛋白质共有结构域:RNA结合域承担功能:mRNA的转运;mRNA前体的剪接加工;mRNA的翻译;mRNA的编辑等。转录因子的共同特点是可与DNA结合,即具有DNA结合域。TIRG生物技术公司利用Pfam和InterPro蛋白质域软件包搜寻与注释水稻基因组序列,鉴别出2462个转录因子基因。5.2.3根据协同进化(co-evolved)注释基因功能为了加快基因功能的注释与分类,根据相关功能基因具有协同进化的特点,ZhengL等(2002)提出了一种协同进化基因功能注释策略,用以解决部分没
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学生实习期间家长保证书
- 版汽运运输合同
- 生鲜食品采购合同
- 煤炭购销合同范本模板
- 政府采购合同履行
- 招标谈判文件的编辑技巧
- 商场店铺接盘合同模板
- 房屋买卖合同补充协议范例
- 简单易懂的投资理财合同
- 业绩分享合同样本
- 2022年度个人政治素质考察自评报告三篇
- NB∕T 13007-2021 生物柴油(BD100)原料 废弃油脂
- 肺结核患者管理结案评估表
- T-JSTJXH 15-2022 装配式劲性柱-钢梁框架结构设计规程
- 市政工程人行道维修方案
- 2021离婚协议书电子版免费
- 《班主任工作常规》课件
- 初中英语期末考试方法与技巧课件
- 四年级上册综合实践试题-第一学期实践考查卷 粤教版 含答案
- 油烟管道清洗服务承诺书
- 卷积神经网络讲义课件
评论
0/150
提交评论