比较基因组学原理及应用_第1页
比较基因组学原理及应用_第2页
比较基因组学原理及应用_第3页
比较基因组学原理及应用_第4页
比较基因组学原理及应用_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、比较基因组学原理及应用,比较基因组学相关概念,基因组学概念及范畴,基因组(genome) 泛指一个有生命体、病毒或细胞器的全部遗传物质;在真核生物,基因组是指一套染色体(单倍体)DNA。,基因组学(genomics) 就是发展和应用DNA制图、测序新技术以及计算机程序,分析生命体(包括人类)全部基因组结构及功能。,基因组学概念,比较基因组学概念,定义:比较基因组学(Comparative Genomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。 研究内容:种间的比较基因组学 和 种内的比较基因组学,概念,工具: 1、FAST

2、A 2、BLAST 3、CLUSTAL W 基因组分类: 1、通过比较确知其功能的。 2、在数据库中有相匹配的蛋白,但不知道其功能。 3、在现有的数据库中找不到任何相匹配的蛋白质序列的新基因。,部分真核、原核生物基因组成成份分析,通过基因组数据进行比较基因组学研究,例子: 尿殖道支原体带有已知最小的基因组,可依此确定能自我复制的细胞必需的一套最少的核心基因。 流感嗜血杆菌的基因组为1.83MB,尿殖道支原体的基因组只有0.58Mb,二者相差3倍多,那么,基因组是大小影响了基因的数目还是基因的尺度?,流感嗜血杆菌的基因大小平均900bp,尿殖道支原体的基因为1040bp,他们基因大小差不多 流感

3、嗜血杆菌中平均1024bp有一个基因,尿殖道支原体平均1235bp有一个基因。 结论:基因尺度减小并不引起基因密度的增加和基因本身尺寸的减小。 二者的差别在于基因数量上,流感嗜血杆菌基因有1743个ORF,而尿殖道支原体只有470个ORF,比较基因组有助于解决进化距离问题,测序技术与 比较基因组学,阎永伟,比较基因组学是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。 该学科的发展及所取得的成果与序列的积累相同步,尤其是人类全基因组序列的分析与比较使比较基因组学成为整个生物学领域最新、最重要、进展最快和影

4、响最大的学科之一。,1. 已完成的测序 比较基因组学从一开始就是人类基因组计划的一部分。 人类基因组计划的原始计划是测定人类和一部分模式生物(如细菌,酵母,果蝇,秀丽隐杆线虫,小鼠等)的全基因组序列。,Homo sapiens 2010年全部完成 Pan troglodytes Lander et al. 2005 ; Mus musculus Waterston et al. 2002 ; Rattus norvegicus Gibbs et al. 2004 ; Drosophila melanogaster Adams et al. 2000 ; Escherichia coli Bla

5、ttner et al. 1997 ; Saccharomyces cerevisiae Goffeau et al. 1996 ; Ciona intestinalis Dehal et al. 2002, Small et al. 2007; Caenorhabditis elegans Stain et al. 2003, Stein et al. 1998 。,HGP完成以后: Gallus gallus 鸡 Blattner et al. 2004 , Bos taurus 牛 Elsik et al. 2009, Canis familiaris 狗 Lindblad-Toh et

6、 al. 2005, Apis mellifera 蜜蜂 Lindblad-Toh et al. 2006, Anthocidaris crassispina 紫海丹 Sodergren et al. 2006 Macaca mulatta 恒河猴 Gibbs et al. 2007,In Entrez Genome,1000 complete Prokaryotic Genomes are available!,测序完成情况统计,2.测序技术概述 绝大多数生物的遗传物质为DNA,然而遗传信息却仅仅由四种碱基A,T,C,G排列组合而成。 自从DNA的双螺旋结构被发现以后,能够知道DNA分子上四

7、种碱基的顺序就成为了一个新的热点。 于是,继蛋白质和RNA测序之后,又出现了DNA测序。,自1977年出现DNA测序技术至今, 第一代测序技术 第二代测序技术 第三代测序技术,(1)测序技术的出现及第一代测序技术 1)测序技术的出现 1975年,Sanger和Coulson发明了“加减法”测定DNA序列;1977年,又引入ddNTP,发明了双脱氧终止法; 1977,Maxam和Gilbert发明了化学降解法测定DNA序列。,Fig1. 双脱氧终止法测序,2)第一代测序技术 传统的化学降解法、双脱氧链终止法以及在它们的基础上发展来的各种DNA测序技术统称为第一代DNA测序技术。 第一代测序技术在

8、分子生物学研究中发挥过重要的作用,如人类基因组计划主要基于第一代DNA测序技术。,目前基于荧光标记和Sanger的双脱氧链终止法原理的荧光自动测序仪(如ABI 3730XL)仍被广泛地应用。 杂交测序技术也是第一代测序技术,但是并非基于以上两种原理。速度快,但是误差大。,Fig.2 ABI 3730XL,(2)第二代测序技术 后基因组时代亦即功能基因组时代的测序技术,显著特征是高通量、低成本。 主要包括罗氏454公司的GS FLX测序平台、Illumina公司的Solexa Genome Analyzer测序平台和ABI公司的SOLiD测序平台。,Fig.3 Roche 454 GS FLX

9、平台,Fig.4 Illumina Solexa平台,Fig.5 ABI SOLiD平台,参考文献: DNA测序技术的发展历史与最新进展, 解增言等; DNA测序技术发展及其展望, 孙海汐等。,(3)第三代测序技术 以单分子测序为特点; 如: BioScience Corporation的HeliScope Single Molecular Sequencer; Pacific Biosciences的Single Molecule RealTime (SMRT)DNA sequencing technology(正在研制);Oxford Nanopore Technologies Ltd的纳

10、米孔单分子测序技术。 中科院北京基因组研究所,2013年,第一台国产样机,测序技术与比较基因组学 DNA测序已经成为分子生物学研究中一种基本的研究手段与工具,对于这种手段的需要也已经极大地促进了DNA测序技术的进步与发展。 在此基础上,将会有更多的生物的全基因组序列被测定,那么针对任何一种生物的比较基因组学研究将会变得更加简单。,基因组序列分析的计算方法,1. 引言 2. 点阵图 3. 两序列比对 4. 多序列比对 5. 数据库搜索,朱琳,引言,人类基因组计划(HGP) 遗传图、物理图、序列图和转录图 区分两个概念: 同源性 -共同的祖先 相似性 -定量特征 高度相似很可能是同源序列;相似性很

11、低的序列也可能具有同源序列,点阵图,A C T G T T A G,| | | | | | |,A C T - T T A G,两序列比对,面临的问题: 进化的过程中同源序列可经过多次的插入或缺失,导致它们长度不同,这就给比对带来了麻烦。,要解决的问题: 最优比对算法-寻找最佳的缺失方式使比对序列的相似度达到整体最大,Needleman-wunsch全局比对算法,首先构建具有m行n列的矩阵M,根据残基配对的函数,给每个矩阵单元格赋值,将矩阵初始化。再进行变换操作,规则是将某单元格右下方路径中的最大值叠加到该单元格即 M(I,j)=M(I,j)+maxM(i+1,j+1);M(i+1,j+2,j

12、max)-gap penalty ; M(i+2,imax,j+1)-gap penalty 使用最简单的打分系统进行比对,残基相同时分值是1,不同时分值为0,空位罚分。 此外还有Smith-waterman 算法,基因组比对,只能对序列密切相关或非常相似的基因组比对,序列太长,既有的算法无能为力,方法:suffix tree 数据结构 软件MUMer 能找出两个基因组的DNA序列上最大且唯一的匹配区域,然后除去序列中用Smith-waterman 最佳局部比对算法对大量插入序列、重复序列、短变异区域进行局部鉴定时插入的空位,完成这两个基因组序列的比对。,多序列比对,三条或多条序列的同时比对是

13、序列的分析中最常用的技术之一。通过一系列同源序列的全局比对来实现的,递进法:基本思想是同源序列与系统发育相关。 具体步骤: 1、比对所有可能的序列对。 2、用相邻连接法使用两两比对的相似度分值构建(tree)。 3、这种树用于指导递进的多序列比对。,数据库搜索,三大核酸数据库:GenBank、EMBL、DDBJ,数据库搜索使用的最广泛的算法: FASTA算法和BLAST算法。,FASTA算法运用一种包括四个连续阶段的启发式方法来检测被查序列与一组序列是相似性。 BLAST算法采用非常快的算法来查找数据库中与预查询序列最相似是序列。基本思想是:两个同源序列即使有很大的差异,也有可能共有高分值的相

14、似片段,这使我们可以理解可靠的区分相关和非相关的序列。,蛋白质序列分析,对新蛋白质序列进行分析的第一步是用BLAST进行数据库搜索。 如果有明显相似性可以推测其序列的功能 如果没有,可用模式识别方法根据特定的结构域或蛋白质家族的特征进行搜索。 -模式数据库已经成为识别新序列的特定功能活性的重要工具。InterPro数据库是最重要的蛋白质模式数据库之一。,此外还有 蛋白质信号肽的识别及亚细胞定位的预测 预测卷曲螺旋和螺旋-转角-螺旋结构 蛋白质折叠的识别与分类等,种内比较基因组学 模式生物,姜南,种内基因组的比较 同种群体内基因组存在大量的变异和多态性,正是这种基因组序列的差异构成了不同个体与群

15、体对疾病的易感性和对药物与环境因子不同反应的遗传学基础。,我总结了: 凡是能够用来研究同一种群内两个个体基因组的不同的分子手段都属于种内比较基因组学的范畴。 主流方法是分子标记技术:RAPD,RFLP,AFLP,基因芯片。 回顾分子标记,水产界举例,李太武老师等用20条随机引物对皱纹盘鲍、杂色鲍进行RAPD分析, 结果均能产生清晰可重复扩增产物, 计算出各群体扩增位点的多态性比例分别为43.66%和53.05%, 群体平均遗传杂合度分别为0.1557和0.1686, 群体间的遗传距离0.2898, 表明皱纹盘鲍与杂色鲍的亲缘关系较远 。,模式生物,基因进化上的保守往性和遗传密码的通用性,从某一

16、生物得到的有关基因性质或功能方面的信息往往也适用于其他生物。 个体小,易操作,易培养,繁殖快。 病毒,大肠杆菌,酵母,线虫,果蝇,斑马鱼,小鼠,拟南芥,种间比较基因组学研究,马寿光 黄继,通过对不同亲缘关系物种的基因组序列进行比较,能够鉴定出编码序列、非编码调控序列及给定物种独有的序列。而基因组范围之内的序列比对,可以了解不同物种在核苷酸组成、同线性关系和基因顺序方面的异同,进而得到基因分析预测与定位、生物系统发生进化关系等方面的信息。,1 全基因组的比较研究 2 系统发生的进化关系分析,比较基因组学的基础是相关生物基因组的相似性。两种具有较近共同祖先的生物,它们之间具有种属差别的基因组是由祖

17、先基因组进化而来,两种生物在进化的阶段上越接近,它们的基因组相关性就越高。如果生物之间存在很近的亲缘关系,那么它们的基因组就会表现出同线性(synteny),即基因序列的部分或全部保守。,1.全基因组的比较研究,Synteny 可以这样假设,人与小鼠或其它哺乳动物有一个共同的祖先,在漫长的进化中,染色体发生断裂,重排,加上基因内部的变化,成为各种不同的物种。但是未发生断裂重排的完整片段内部的基因组织和连锁顺序在不同的物种中保持不变,这就是synteny,是基因组比较作图的基础所在。,在各种不同的物种中,绝大多数的核心生物功能是由相当数量的orthologous蛋白承担,所谓or-thologo

18、us蛋白就是一些在不同物种中有共同祖先的蛋白质。在不同的物种中这些蛋白的数量十分相似,它们主要是在生物体中执行中介代谢,DNA,RNA代谢,蛋白折叠,trafficking,和降解的功能。在较为复杂的生物中,随着功能不断地复杂,就会出现许多蛋白以执行其复杂的功能,而维持最基本生命活动的蛋白是保守的。两种物种中蛋白总数上的差别是由承担各自特有任务的蛋白数目的不同而造成的。,可以利用模基因组之间编码顺序上和结构上的同源性,通过已知基因组的作图信息定位另外基因组中的基因,从而揭示基因潜在的功能、阐明物种进化关系及基因组的内在结构。,人类与多个灵长类动物的比较基因组学研究,在阐明灵长类特异基因调节元件

19、和划分多基因的外显子方面显示出了很大的优势。 林木可与拟南芥(已经获得了全基因组序列,一些基因的功能已被注释)和毛果杨等功能基因组研究较深入的物种进行比较基因组学研究,这将为林木上相关基因功能的研究提供便利。,生物最本质的特征是进化,比较基因组学同样以进化理论作为理论基石,同时其研究结果又前所未有地丰富和发展了进化理论。 当在两种以上的基因组间进行序列比较时,实质上就得到了序列在系统发生树中的进化关系。基因组信息的增多使得在基因组水平上研究分子进化、基因功能成为可能。,2.系统发生的进化关系分析,通过对多种生物基因组数据及其垂直进化、水平演化过程进行研究,就可以对与生命至关重要的基因的结构及其

20、调控作用有所了解。但由于生物基因组中约有15145的基因与“横向迁移现象”有关,即基因可以在同时存在的种群间迁移,这样就会导致与进化无关的序列差异。,横向迁移现象 对人类基因组的分析发现,有几十个人的基因只与细菌基因相似,而在果蝇、线虫中都不存在。如果以人的这些基因序列来研究进化将会得到荒谬的结论。所以在当前的分子进化研究中必须选择垂直进化的分子作为样本 。并且在系统发生分析中需要建立较完整的生物进化模型,以避免基因转移和欠缺合适的多物种共有保守序列的影响。,Z曲线的GC轮廓图方法 基因组序列变换为等价的三维空间曲线Z 曲线,经过适当的投影和座标旋转后得到Z曲线,后者又称为累积GC 轮廓图(C

21、umulative GC profile)。定义:在基因组某一碱基处的G+C 含量正比于Z曲线在该点切线的斜率。而在某一窗口中的平均G+C 含量则正比于此量在该窗口内的定积分。 对于任一给定的DNA 序列,有唯一的一条Z 曲线与之对应;反之,给定一条Z 曲线,它所代表的DNA 序列可以唯一地导出。因此,Z 曲线携带了DNA 序列的全部息。对两个基因组或染色体序列的比较,可以通过对它们所对应的Z 曲线的比较来进行。,在研究物种间的进化关系时, 传统的分子进化研究方法一般选取一个大分子 ( 如16SRNA) 的序列为标准,研究其在各个物种同源序列之间的差异, 并以此构建进化树。但是一个物种的基因组

22、编码了成千上万个序列, 以其中一个序列的差异来代表整个生物体的差异是不全面的。因此, 从全基因组的水平来研究生物的进化应该更为合理。利用比较基因组学的方法在基因组水平上构建的进化树将会更加合理的阐述物种之间的进化关系。,物种序列的优化选择:当在比较 4080 My进化距离的 DNA序列时,其编码序列与一些重要的非编码序列将是保守的,如人与鼠。然而至今在这一进化距离内保守的非编码序列中只有少数被鉴定为有特征性的功能元件,其它的仅被认为是临近或 200 kb 附近基因的转录调控元件。在进化距离较远( 450 My ) 的序列比较时, 将主要揭示保守的编码序列, 主要是因为蛋白质要维持其功能, 因此

23、对替换更为严谨保守,进化的稍慢一点。所以在建立多序列比较时加入一支稍远的物种序列 ( 450 My ) 将提高保守序列的鉴别能力。比较分析较近的物种序列如: 人与himpanzees或与其它的类人猿可以用来鉴定在近期进化史上发生的基因改变和重组等。因此在建立多序列的比较分析中加入一支近距离的物种序列不仅有助于编码和非编码的功能序列的识别, 也能揭示那些相关物种特征的基因组信息、,在进行 DNA序列比较而鉴定保守序列时, 有两种比较分析手段: 局部比对和整体比对。局部比对是对序列亚区分析获得最高一致性的计算方法, 其基本原理是在两序列排队时采用不同的比对方法,排除了从头到尾的单一匹配方式。例如当

24、两长序列进行匹配时, 可能内含的同源基因亚区的排列顺序或基因的走向不同, 因此对这种比对采用多种方式进行搜索分析的结果将比较准确, 常用的分析工具是 PipMarker 服务器。整体比对是寻找所要比较的整个基因序列上的最大的同源性分值, 它适用于高度分化但组织结构同源的序列比对, 整体比对适用于基因序列整体上同源性较高的比较分析, 如保守片断 ( conserved segments ) 的比对, 可以使用 VISTA进行分析。,Smith-Waterman算法,时间复杂度O(n2); Sij = max of 0 Si-1,j-1 + (xi, yj) Si-1,j - d (从左到右) S

25、i,j-1 - d (从上到下) 本例中:gap: d=12,线性罚分模型。,例5: Smith-Waterman算法进行双序列局部比对,两条序列如下:,L D S C H G E S L C K,目标:使用局部优化算法寻找比对的结果,例5: Smith-Waterman算法进行双序列局部比对,两条序列如下:,L D S C H G E S L C K,目标:使用局部优化算法寻找比对的结果,Smith-Waterman算法,Smith-Waterman算法; Sij = max of Si-1, j-1 + (xi, yj) Si-1, j - d (从左到右) Si, j-1 - d (从上

26、到下) 0,Smith-Waterman算法,-12,-12,-3,Smith-Waterman算法,-12,-12,-4,Smith-Waterman算法,-12,-2,局部比对结果:,L D S C H G E S L C K,局部优化比对:9分,中性突变与随机漂移学说的核心就是认为大部分对生物种群的遗传结构与进化有贡献的分子突变在自然选择的意义上都是中性或近中性的,因而自然选择对这些突变并不起到筛选的作用。中性突变产生后是通过一代一代的随机漂移,或者被固定在种群中并占有一定的比例,或者消失。生物种群内的遗传多样性,如蛋白质(酶)以及DNA的多态性,都是通过这类中性或近中性突变的随机漂移而

27、产生的。中性理论并不是说所有突变都是中性的,实际上,相当大的一部分突变是有害的,这一部分突变具体有多少与有关分子本身可容许的变化程度有关。有害的突变产生后,会影响携带这些突变的蛋白质以及基因的正常功能,影响生物的生存与繁殖,因此很快就会被淘汰掉,从而在进化上是没有意义的。另一方面,对生物有利的所谓正突变其实是很少的,从而对种群的遗传结构也没有什么贡献,不能说明分子进化中的多态性现象。自然选择只对那些对种群的遗传结构并不重要的有害突变和正突变起作用,却不能决定对种群的遗传结构起重要作用的中性或近中性突变的命运,中性或近中性突变的命运是由随机因素决定的。因此,又可以把中性理论看作是一种“幸运者生存

28、”的学说。,3从模式生物基因组研究中得出一些规律 3.1模式生物基因组一般都比较小,但是编码基因的比例较高,重复顺序和非编码顺序较少,是一些“压缩”的基因组 3.2模式生物基因组的G+C%比较高同时 CpG岛的比例也比较高。Fugurubripes的G+C%时442%(这是脊椎动物种最高的),而人类则是403%。这可能是因为低等生物中编码顺序的比例比较高,另一个原因与模式生物的密码子第三位的碱基选择有关。 3.3模式生物的基因组中,内含子和外显子的结构组织比较保守,剪切位点在多种生物中一致。这是Fugu rubripes和现有的哺乳动物的基因组顺序比较的结果 3.4在几种模式生物都发现了重复(

29、duplication)。同时存在两份或两份以上的顺序一致或十分相似的编码蛋白的DNA顺序,称为冗余。理解重复的真正本质是阐明基因组中基因生物功能和物种进化的前提。 3.5生物体的复杂性一般表现在“生物学”的复杂性,与基因组的 C值大小及基因数量未必一定呈线性关系。,首先比较基因组学建立的基础是功能元件由于选择的作用其进化的速率稍慢一点, 这有背于中性理论; 其次在序列的比较中对保守区域的thresholds ( length and percent identity ) 的选择还没有一套有效的方法, 往往两个物种不同区域的thresholds 各异,比较基因组学的应用,揭示非编码功能序列 发

30、现新基因 发现功能性SNP 阐述物种间的进化史 阐明人类疾病过程的分子机制,李春丽,比较基因组学与进化,古细菌-产甲烷球菌 与原核生物共同之处: 1 染色体组织与结构:环状基因组、基因的操纵子结构等 2 能量产生和固氮基因与细菌基因有很高的同源 3 与细胞分裂有关的蛋白质、20多个编码无机离子运输蛋白的ORF与细菌基因同源 4 调控模式类似于原核生物 与真核生物共同之处: 1 细胞遗传信息传递,尤其是转录和翻译系统 2 分泌系统 说明该细菌与真核生物亲缘关系较近。,比较基因组学与进化,比较基因组学提供的结果表明,在进化系统树上,古细菌与真核生物亲缘关系比原核生物更近。 自养生物的三个分支,细菌

31、、古细菌和真核生物中,细菌的分化发生较早。,比较基因组学的具体应用方法和策略,序列的比对分析 确定基因组序列的进化关系 基因共线性synteny : 染色体片段的分析 物种序列的优化选择 对DNA序列的信息注释,比较基因组学研究举例,原核模式生物比较基因组学 酿酒酵母基因组 人类基因组,模式生物比较基因组研究特点,1 模式生物基因组一般都比较小,但编码基因的比例较高,重复序列和非编码序列较少,是 “压缩”的基因组。 2 模式生物基因组中G+ C%含量高,同时CpG岛的比例也比较高。 3 一些模式生物,特别在人的基因组中发现了重复。 4 各种不同的物种中,大多数重要生物学功能是由相当数量的同源序

32、列基因蛋白承担。 5 同线( synteny) 连锁的同源基因在不同物种基因组中有相同连锁关系。,模式生物基因组的研究,尿殖道支原体是已知最小的基因组0.58Mb ,由此可能确定能自我复制的细胞必需的一套最少的核心基因。 流感嗜血杆菌的基因组为1.83Mb 流感嗜血杆菌基因大小平均900 bp,尿殖道支原体的基因为1040bp,基因大小差不多; 流感嗜血杆菌中平均1042 bp 有1个基因,尿殖道支原体中平均1235 bp 有1个基因。 可见基因组尺度减小并不引起基因密度的增加和基因尺寸的减小。 二者差别在于基因数量上,流感嗜血杆菌基因组有1743个ORF,尿殖道支原体只有470个ORF。,模式生物基因组的研究,通过对尿殖道支原体与流感嗜血杆菌这两个亲缘关系较远的生物基因组的比较,选取其共同的基因(共240个),再加上一些其他基因,最后组成一套含256个基因的最小基因组。,人类基因组基因的三条推测依据,1. 根据已测定大片段DNA中ORF的比例;2. CpG island的个数(56%的已知基因5都与CpG相连,而人基因组中有4500

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论