结构基因组学_第1页
结构基因组学_第2页
结构基因组学_第3页
结构基因组学_第4页
结构基因组学_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章第五章 基因组序列注释基因组序列注释n完成基因组测序仅仅是基因组计划的第一步,更完成基因组测序仅仅是基因组计划的第一步,更大的挑战在于弄清:大的挑战在于弄清:n基因组序列中所包含的全部遗传信息是什么;基因组序列中所包含的全部遗传信息是什么;n基因组作为一个整体如何行使其功能。基因组作为一个整体如何行使其功能。这两项任务都必须依赖于对基因组序列的正确这两项任务都必须依赖于对基因组序列的正确注注释释(annotation)。)。基因组注释方法:基因组注释方法: 自动注释自动注释:依据某些规则进行数据分析得出:依据某些规则进行数据分析得出是否为基因的结论。是否为基因的结论。 人工注释人工注释:

2、人为检测评价自动注释的结果并:人为检测评价自动注释的结果并根据其他数据进行分析与校正。根据其他数据进行分析与校正。 实验注释实验注释:根据实验结果进行检测,如:根据实验结果进行检测,如EST或全长或全长cDNA。自动注释自动注释的内容的内容:n依据基因结构的特点采用软件预依据基因结构的特点采用软件预测,不依赖已有的表达序列;测,不依赖已有的表达序列;n同源性比较,在同一物种或不同同源性比较,在同一物种或不同物种中查找已有的基因序列;物种中查找已有的基因序列;n功能域(功能域(domain)或基序)或基序(motif)分析。)分析。基因序列注释基因序列注释基因功能注释基因功能注释5非翻译区非翻译

3、区3非翻译区非翻译区5.1 搜寻基因搜寻基因5.1.1 根据基因结构特征搜寻基因根据基因结构特征搜寻基因基因(基因(gene). 开放读码框开放读码框 在在DNA链上,由蛋白质合成的起始密码子开始,链上,由蛋白质合成的起始密码子开始,到终止密码子为止的一个连续编码序列称为一到终止密码子为止的一个连续编码序列称为一个个开放读码框开放读码框(open reading frame, ORF)。)。读码框(读码框(reading frame)n任意一段任意一段DNA序列都有序列都有6种可能种可能的读码框。的读码框。n终止密码子终止密码子: TAA, TAG, TGA GC% = 50%,终止密码子每终

4、止密码子每 64 bp出现一出现一次;次; GC% 50%,终止密码子每,终止密码子每100200 bp 出现一次;出现一次;n由于多数基因由于多数基因 ORF 均多于均多于50个密码子,因个密码子,因此最可能的选择应该是此最可能的选择应该是 ORF 不少于不少于100 个个密码子。密码子。 ORF的长度:最长最长ORF法法n在细菌基因组中在细菌基因组中,蛋白质编码基因从起始密,蛋白质编码基因从起始密码子码子ATG到终止密码子平均有到终止密码子平均有100 bp,而,而300 bp长度以上的长度以上的ORF平均每平均每36 Kb才出现才出现一次,所以只要找出序列中最长的一次,所以只要找出序列中

5、最长的ORF(300 bp)就能相当准确地预测出基因。)就能相当准确地预测出基因。n在在真核生物真核生物中,存在大量非编码序列和内含中,存在大量非编码序列和内含子,子,ORF阅读比较复杂。阅读比较复杂。n全长全长cDNA的编码区一般也可以用最长的编码区一般也可以用最长ORF法,如水稻的法,如水稻的3万多条的全长万多条的全长cDNA的编码的编码区预测,有时例外。区预测,有时例外。全长全长cDNA的编码蛋白序列应为的编码蛋白序列应为4-029B,而非最,而非最长的长的4-029A。 起始密码子起始密码子 ATGn第一个第一个ATG的确定依据的确定依据Kozak规则规则。nKozak是一个女科学家,

6、她研究过起始密码子是一个女科学家,她研究过起始密码子ATG周边碱基定点突变后对转录和翻译所造成的影响,周边碱基定点突变后对转录和翻译所造成的影响,并总结出在并总结出在真核生物真核生物中,起始密码子两端序列中,起始密码子两端序列为:为:G/N-C/N-C/N-ANNATGG,如,如GCCACCATGG、GCCATGATGG时,转录和翻译效时,转录和翻译效率最高,特别是率最高,特别是-3位的位的A对翻译效率非常重要。对翻译效率非常重要。n该序列被后人称为该序列被后人称为Kozak序列序列,并被应用于表达载,并被应用于表达载体的构建中。体的构建中。 n若将第一个若将第一个ATG中的碱基中的碱基A、T

7、、G分别标为分别标为1、2、3位,则位,则Kozak规则规则可描述如下:可描述如下:(1) 第第4位的偏好碱基为位的偏好碱基为G;(2) ATG的的5端约端约15bp范围的侧翼序列内不含碱基范围的侧翼序列内不含碱基T;(3) 在在-3,-6和和-9位置,位置,G是偏好碱基;是偏好碱基;(4) 除除-3,-6和和-9位,在整个侧翼序列区,位,在整个侧翼序列区,C是偏好碱是偏好碱基。基。Kozak规则是基于已知数据的统计结果,不见得必须规则是基于已知数据的统计结果,不见得必须全部满足,一般来说,满足前两项即可。全部满足,一般来说,满足前两项即可。 Kozak规则的内容:规则的内容: 密码子偏爱性(

8、密码子偏爱性(codon bias)n编码同一氨基酸的不同密码子称为同义密码,编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第其差别仅在密码子的第3位碱基不同。不同位碱基不同。不同种属间使用同义密码的频率有很大差异:种属间使用同义密码的频率有很大差异:n如人类基因中,丙氨酸(如人类基因中,丙氨酸(Ale)密码子多为)密码子多为GCA、GCC或或GCT,而,而GCG很少使用。很少使用。n几乎所有基因(或操纵子)都有几乎所有基因(或操纵子)都有上游调控序列上游调控序列,它,它们可与们可与DNA结合蛋白作用,控制基因表达,如启动结合蛋白作用,控制基因表达,如启动子序列。子序列。n生物的生

9、物的基因组特有组成基因组特有组成也可作为判别依据,如几乎也可作为判别依据,如几乎所有的管家基因(所有的管家基因(House-Keeping gene)及约占)及约占40%的组织特异性基因的的组织特异性基因的5末端含有末端含有CpG岛。在大岛。在大规模规模DNA测序计划中,每发现一个测序计划中,每发现一个CpG岛,则预示岛,则预示可能在此存在基因。可能在此存在基因。 上游控制顺序上游控制顺序nChambon等发现等发现内含子内含子特点:特点:(1)内含子连接点具有很短的保守序列,称为)内含子连接点具有很短的保守序列,称为边界顺序边界顺序。其。其规律称为规律称为GT-AG法则(法则(GT-AG r

10、ule) 或或Chambon法则。法则。 。 外显子与内含子边界外显子与内含子边界 左左(5(5 ) )位点位点 右右(3(3 ) )位点位点 外显子外显子 A A6464G G73 73 G G100 100 T T100100A A6262A AG8G8G G8484T T6363 12PyNC 12PyNC6565A A100100G G100100 N N 外显子外显子内含子内含子 内含子和外显子的交界顺序内含子和外显子的交界顺序 GT-AG 法则法则 ( (仿仿 B.Lewin: GENES,1997,Fig30.3) P314OH G A G外显子外显子1 外显子外显子2OH 外显

11、子外显子1 UGO AG外显子外显子1 外显子外显子2核核 RNA 的剪接反应的剪接反应( (仿仿 B.Lewin:GENES,1997,Fig30.5)(2)分枝点顺序分枝点顺序:为:为Py80NPy87Pu75APy95 ,其,其中中A为百分之百的保守,为百分之百的保守,且具有且具有2-OH。(3)内含子内含子5端端有一保有一保守序列可以和守序列可以和U1 snRNA的的5 端的保守顺序互补。端的保守顺序互补。n3端的确认主要根据端的确认主要根据Poly(A)尾序列,若测尾序列,若测试序列不含试序列不含Poly(A),则根据,则根据加尾信号序列加尾信号序列“AATAAA”和和BLAST同源

12、性比较结果共同源性比较结果共同判断。同判断。 3端的确认端的确认 转录起始转录起始 延伸延伸 5 帽子帽子 AAUAAA 剪切剪切 Poly (A) 聚合酶聚合酶 5帽子帽子 AAUAAA An mRNA 3端加端加 Poly(A)尾巴尾巴 n由于内含子的进化没有外显子受到的选择压由于内含子的进化没有外显子受到的选择压力大,内含子的序列比外显子的序列更随机。力大,内含子的序列比外显子的序列更随机。n这是目前各种预测程序中被广泛应用的一种这是目前各种预测程序中被广泛应用的一种方法,如方法,如GCG的的TestCode、美国波士顿大学、美国波士顿大学GeneID和和Baylor Medcine C

13、ollege的的BCM Gene Finder等程序。等程序。 编码区与非编码区编码区与非编码区5.1.2 同源基因查询同源基因查询n物种之间存在着广泛的同源基因,包括编码和非编码序列。物种之间存在着广泛的同源基因,包括编码和非编码序列。生生 物物基因组相似性基因组相似性%资资 料料 来来 源源人类人类99.9Human Genome Project100孪生子孪生子黑猩猩黑猩猩98.4Americans for Medical Progress98.7Celera Genomics大猩猩大猩猩98.38Am J Hum Genet 2001, 682: 444 456.小鼠小鼠98Ameri

14、cans for Medical Progress85NHGRI狗狗95Jon Entine, in the San Francisco Examiner线虫线虫74Jon Entine, in the San Francisco Examiner注:以人类基因组注:以人类基因组DNA序列为基准,与其他生物基因组序列为基准,与其他生物基因组DNA序列对比。序列对比。 同源查询同源查询(homology search)n利用已存入数据库中的基因序列与待查利用已存入数据库中的基因序列与待查的基因组序列进行比较,从中查找可与的基因组序列进行比较,从中查找可与之匹配的之匹配的碱基序列碱基序列或或蛋白质

15、序列蛋白质序列及其及其比比例例,这种识别基因的方法称为,这种识别基因的方法称为。同源查询同源查询相似性相似性的表现:的表现:n存在某些完全相同的序列;存在某些完全相同的序列;nORF的排列类似,如等长的外显子;的排列类似,如等长的外显子;nORF的氨基酸序列相同;的氨基酸序列相同;n模拟的多肽高级结构相似。模拟的多肽高级结构相似。n以上标准可以上标准可单独单独使用,亦可使用,亦可综合综合考察;考察;n一般认为氨基酸的一致性或相似性在一般认为氨基酸的一致性或相似性在25%以以上可视为同源基因。上可视为同源基因。 区分概念:区分概念:同源性、一致性和相似性同源性、一致性和相似性n同源性同源性(ho

16、mology):起源于同一祖先但序列已):起源于同一祖先但序列已经发生变异的序列之间的关联性。经发生变异的序列之间的关联性。 同源性只有同源性只有“是是”和和“非非”的区别,无所谓百分比。的区别,无所谓百分比。n一致性一致性(identity):同源):同源DNA序列的同一碱基位序列的同一碱基位置上相同的碱基成员,或者蛋白质中同一氨基酸置上相同的碱基成员,或者蛋白质中同一氨基酸位置上相同的氨基酸成员的比例。位置上相同的氨基酸成员的比例。n相似性相似性(similarity):同源蛋白质的氨基酸序列中):同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。一致性氨基酸和可取代氨基酸所占

17、的比例。 一致性和相似性可用百分比表示,相似性往往高于一致性。一致性和相似性可用百分比表示,相似性往往高于一致性。同源基因有关概念:同源基因有关概念:n直向同源基因直向同源基因(orthologous gene):指分布在):指分布在不不同物种同物种之间的同源基因,它们来自物种分隔之前的之间的同源基因,它们来自物种分隔之前的同一祖先。同一祖先。n共生同源基因共生同源基因(paralogous gene):指):指同一物种同一物种因因基因倍增产生的同源基因。(旁系同源基因)基因倍增产生的同源基因。(旁系同源基因)n倍增基因倍增基因(ohnologous gene):因全基因组加倍):因全基因组加

18、倍产生的同源基因称产生的同源基因称。n异向同源基因异向同源基因(xenologous gene):):不同物种不同物种之之间因水平转移产生的同源基因称间因水平转移产生的同源基因称。物种种化物种种化(speciation event)而产生了直系同源而产生了直系同源(orthology)的基因序列的基因序列,基因重复基因重复(duplication event)而产生了旁系同源而产生了旁系同源(paralogy) 的基因序列的基因序列。globin 基因的直系同源基因的直系同源、旁系同源关系图旁系同源关系图 n在基因分类时,缺少同源序列的在基因分类时,缺少同源序列的ORF被称为被称为孤孤独基因独

19、基因(orphan gene)。)。n当某一序列从数据库中无法找到同源序列,又当某一序列从数据库中无法找到同源序列,又无法排除其是不是基因的可能性时,必须依靠无法排除其是不是基因的可能性时,必须依靠实验实验来进一步确认。来进一步确认。两点说明:n在在DNA水平上区分同源基因的难度要大于氨水平上区分同源基因的难度要大于氨基酸水平。基酸水平。 原因:密码子的摇摆性,相似氨基酸的取代。原因:密码子的摇摆性,相似氨基酸的取代。n确定两个基因是否同源,氨基酸序列的比较确定两个基因是否同源,氨基酸序列的比较以及蛋白质高级结构的模拟给出的结果更为以及蛋白质高级结构的模拟给出的结果更为可靠。可靠。 原因:同源

20、基因功能相似,关键位置氨基酸相同。原因:同源基因功能相似,关键位置氨基酸相同。 基因注释软件基因注释软件n信号指令信号指令(signal term):如起始密码、终止密码、内含子分支点保守序列等;n内容指令内容指令(content term):如密码子使用偏好等。 基因注释水平的分类基因注释水平的分类n已知基因已知基因(known gene):与已知cDNA和蛋白质序列同源的基因。n新基因新基因(novel gene):与其他物种cDNA或蛋白质序列同源的基因。n新转录物新转录物(novel transcript):与新基因相似,但缺少明确的ORF。n可能的基因可能的基因(putative g

21、ene):有同源EST支持,但缺少cDNA或ORF。n预测基因预测基因(predicted gene):数据库中至少有一个外显子支持,但缺少cDNA或明确的ORF。n假基因假基因(pseudogene):与已知蛋白质有50%的一致性,但cDNA残缺,在其他位点存在正常的同源基因的序列。(Dunham I 等,2001)5.1.3 实验确认基因实验确认基因n依据:依据:任何基因都可转录为任何基因都可转录为RNA拷贝。拷贝。n分子杂交分子杂交可确定DNA片段是否含表达序列Northern印迹(Northern boltting)。由由EST和和cDNA指认基因指认基因搜集尽可能多的EST和cDNA

22、成员是基因组注释最简单最可靠的方法。5.2 基因功能预测基因功能预测n根据基因结构、功能与进化的内在联系,根据基因结构、功能与进化的内在联系,采用生物信息学方法进行基因功能的预采用生物信息学方法进行基因功能的预测已成为基因功能测已成为基因功能前期研究前期研究的的主流内容主流内容。5.2.1 计算机预测基因功能计算机预测基因功能n采用软件分析方法,根据已有的基因功能推测采用软件分析方法,根据已有的基因功能推测基因组中具有相似结构的基因的功能。基因组中具有相似结构的基因的功能。n依据依据:同源性比较同源性比较 直向同源基因,共生同源基因直向同源基因,共生同源基因蛋蛋白白质质结结构构预预测测5.2.

23、2 蛋白质结构域在功能预蛋白质结构域在功能预测中的意义测中的意义n结构域结构域(domain)()(功能域功能域):蛋白质高):蛋白质高级结构中具有相对独立的亚结构区,通常它级结构中具有相对独立的亚结构区,通常它们含有数个二级结构们含有数个二级结构(motif),具有相),具有相对独立的功能。对独立的功能。n真核生物中大约真核生物中大约80%的蛋白质,原核生物中的蛋白质,原核生物中大约大约66%的蛋白质均含有多个结构域(的蛋白质均含有多个结构域(Apic G等,等,2001)。)。蛋白质的域结构蛋白质的域结构(domain architecture)n又称为又称为蛋白质指纹蛋白质指纹(prot

24、ein fingerprint):): 用来特指蛋白质中结构域的组合形式及其排用来特指蛋白质中结构域的组合形式及其排列次序。列次序。n蛋白质的整体功能是通过各个蛋白质的整体功能是通过各个结构域之间的结构域之间的协同作用协同作用实现的,结构域的组成提供了蛋白实现的,结构域的组成提供了蛋白质功能解读的关键信息。质功能解读的关键信息。举例:举例:细胞跨膜信号传导蛋白的结构域细胞跨膜信号传导蛋白的结构域n接受外界信号的接受外界信号的受体功受体功能域能域;n传达信号的胞内传达信号的胞内激酶域激酶域;n蛋白质定位在细胞膜上蛋白质定位在细胞膜上的的跨膜域跨膜域。n蛋白质结构域蛋白质结构域在基因的功能预测中起

25、着极其在基因的功能预测中起着极其重要的作用,是预测基因功能的重要的作用,是预测基因功能的主要依据之一主要依据之一。同一物种或不同物种中具有同一物种或不同物种中具有相同结构域相同结构域的蛋白的蛋白质可将其划归在同一蛋白质家族(质可将其划归在同一蛋白质家族(protein family),当其他物种相关蛋白质家族成员的),当其他物种相关蛋白质家族成员的功能已知时,根据同源性可以推知另一物种相功能已知时,根据同源性可以推知另一物种相同结构域蛋白质的功能。同结构域蛋白质的功能。n有时有时2个无明显亲缘关系的蛋白质含有个无明显亲缘关系的蛋白质含有个别相同的结构域:个别相同的结构域:分析:分析:n可能具有

26、相似的生物学功能,相似的结构域可能具有相似的生物学功能,相似的结构域是蛋白质功能的核心区域。是蛋白质功能的核心区域。n基因本身无共同的祖先,但其结构域却有共基因本身无共同的祖先,但其结构域却有共同的起源。同的起源。举例:举例:涉及涉及mRNA加工的蛋白质加工的蛋白质n共有结构域:共有结构域:RNA结合域结合域承担功能:承担功能:nmRNA的转运;的转运;nmRNA前体的剪接加工;前体的剪接加工;nmRNA的翻译;的翻译;A.mRNA的编辑等。的编辑等。转录因子的共同特点是可与转录因子的共同特点是可与DNA结合,即具有结合,即具有DNA结合域。结合域。TIRG生物技术公司利用生物技术公司利用Pf

27、am和和InterPro蛋白质域软件包搜寻蛋白质域软件包搜寻与注释水稻基因组序列,鉴别出与注释水稻基因组序列,鉴别出2462个转录因子基因。个转录因子基因。5.2.3 根据根据协同进化协同进化(co-evolved)注释基因功能)注释基因功能n为了加快基因功能的注释与分类,根据为了加快基因功能的注释与分类,根据相关相关功能基因功能基因具有具有协同进化协同进化的特点,的特点,Zheng L等等(2002)提出了一种)提出了一种协同进化基因功能注协同进化基因功能注释策略释策略,用以解决部分没有任何已知背景的,用以解决部分没有任何已知背景的基因的注释。基因的注释。协同进化基因功能注释方法协同进化基因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论