基因组大作业论文_第1页
基因组大作业论文_第2页
基因组大作业论文_第3页
基因组大作业论文_第4页
基因组大作业论文_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、蕨类植物叶绿体基因组IR片段揭示蕨类植物演化过程摘要:在植物中,叶绿体基因组属于结构上高度保守的类型。因此在植物的分子演化和分类学及系统发生学研究上有非常高的研究价值。蕨类植物作为最原始的维管植物,同时又为孢子植物,还与苔藓植物同为高等植物,在进化中处于一个非常重要和微妙的位置。因此我们选择将蕨类植物的叶绿体全基因组作为研究对象,针对其进化关系进行研究。而反向重复序列存在很少的非同源性序列信息,在植物基因组中,其缺失和重复等变化在进化关系研究中提供了极佳的信号信息。因此我们着重关注了叶绿体基因组的IR片段,并通过GRAPPA算法,对序列进行分析。最终得到已完成测序的六种蕨类植物的进化关系。关键

2、词:蕨类植物;GRAPPA算法;进化树;系统发生树;1. 背景介绍突变,包括插入、缺失、重复等,不仅对基因组中的碱基对有改变作用;同时也会影响到染色体的结构1。从基因组的层面来看,进化上的变化对基因组结构的影响,我们知之甚少。考虑到大部分祖先的基因组均是在DNA水平上得到的,但是又被限制于几乎不发生重组的相近种族的相互预测,这很大一部分归咎于直系同源的重复序列的基因组分析的复杂性2。而由于叶绿体基因组的特殊性,对其基因组的研究可以获得包括系统发生学和基因组结构方面的很多有价值的信息。1.1 叶绿体基因组叶绿体具有独立的基因组,被认为是内共生起源的细胞器。叶绿体基因组是伴随着染色体外遗传现象的发

3、现而被认识的。于1909年在紫茉莉(Mirabilis jalapa)中发现了不符合孟德尔定律的遗传现象,并且认为这是由于叶绿体的独立自主性所造成的。1937年,日本学者金井提出了质体基因的概念,用来指叶绿体中的遗传因子。随着核酸化学的发展,上世纪50,60年代,科学家们开始时用组织化学和放射自显影技术对叶绿体DNA进行了直接的研究,在多种藻类和高等植物中直接发现了DNA的存在3。1.1.1 叶绿体基因组的结构特点叶绿体基因组是以环状双链DNA分子的形式存在的。叶绿体基因组的大小在120190kb左右,相当于一个较大的噬菌体的基因组大小。结构上,叶绿体基因组十分保守,为大单拷贝序列(large

4、 single copy,LSC)、小单拷贝序列(small singlecopy,SSC)和反向重复序列(inverted repeat sequence,IR)。叶绿体基因组的特点是具有相同或相关功能的基因组成复合操纵子结构。基因组的大小变化一般由反向重复序列的伸缩来决定,例如菠菜、莴苣的反向重复序列为头头相连,豌豆、蚕豆只有一份重复序列,纤细裸藻有5份首尾相连的重复序列。叶绿体的保守性同时也是相对的。一些低等植物和高等植物分异较早,其叶绿体基因具有十分惊人的独特性。Zhang4等人发现在双鞭甲藻(Dinoflagellate)中叶绿体基因组的结构十分特殊,不同的基因处在不同的微小环状DN

5、A上,存在着一个基因一个小环的对应关系。Jason5等人使用基于DNA纤维的原位杂交技术研究了叶绿体基因组在细胞中的组织结构,发现在叶绿体中DNA的高级结构的可变性比以往设想的要大。由一至四个拷贝的环形DNA分子构成线状或环状的DNA纤维,其中以单拷贝的DNA纤维为主。1.1.2 叶绿体基因组在系统发育学中的应用价值近年来,由于基因组测序工作的展开以及相关技术的成熟,DNA序列分析已然成为系统发育学中有潜力的工具。植物叶绿体基因组的两个特点为在种级以上较高阶元的系统发育研究提供了显著的优点。首先,叶绿体基因组是仅次于核基因组的第二大基因组,提供一个较大的数据基础。其次,叶绿体DNA的核酸置换率

6、适中,在应用上很有价值6。编码区的DNA变化会带来很大的表型变化,因此进化速度较慢,适用于较高阶元(科、目乃至更高)的系统发育学研究。非编码区的突变给表型带来的影响很小,因此进化速度较快,适用于较低阶元(种、属)的系统发育学研究。1.2 蕨类植物Figure 1.2根据现有研究成果所得的植物进化关系图谱蕨类植物简介蕨类植物是植物中主要的一类,是高等植物中比较低级的一门,也是最原始的维管植物。大都为草本,少数为木本。蕨类植物也称为羊齿植物,它和苔藓植物一样都具有明显的世代交替现象,无性生殖是产生孢子,有性生殖器官具有精子器和颈卵器。蕨类植物孢子体发达,有根、茎、叶之分,不具花,以孢子繁殖。通常可

7、分为水韭、松叶蕨、石松、木贼和真蕨五纲。但是蕨类植物的孢子体远比配子体为发达,并且有根、茎、叶的分化和由较原始的维管组织构成的输导系统,这些特征又和苔藓植物不同。蕨类植物产生孢子,而不产生种子,则有别于种子植物。蕨类植物的孢子体和配子体都能独立生活,这点和苔藓植物及种子植物均不相同。总之,蕨类植物是介于苔藓植物和种子植物之间的一个大类群。1.2.2 蕨类植物在进化上的重要地位叶绿体基因组研究表明,蕨类植物在演化史中,与两种截然不同的进化谱系有联系。蕨类植物和苔藓植物均为高等植物同时又为孢子植物,而蕨类植物又与种子植物共为维管植物,处于一个微妙的位置。1.3反向重复序列在研究中的重要作用先前已经

8、提及,在植物的系统发生研究中,叶绿体基因组具有很重要的地位和研究价值。而IR片段作为叶绿体基因组的固定组成部分,同样具有一定的重要性。IR的结构特征反向重复序列 (inverted repeat sequence)是指在同一多核苷酸链内下游存在着与上游某一段序列的互补序列反向的序列。正如Figure1所示,叶绿体基因组中的IR通常分为两段,被SSC和LSC隔开。而IR的共有的特征是具有三个rRNA基因(rrn5s, rrn16s and rrn23s, or rrf, rrs, and rrl),均与蓝藻的rrn操纵子基因同源7。陆生植物的叶绿体基因组结构高度同源,甚至在基因目录上存在着某种程

9、度的共线性8。但是叶绿体IR片段的基因目录却变化显著,这主要是由于在IR-SC连接边界的收缩和膨胀。这种IR边界的特有现象在很大范围内被观察到了9。Figure1.3 IR的简单结构示意图1.3.2 IR片段在系统发生学研究中的作用在陆生植物中,叶绿体基因组属于结构上高度保守的类型。基因突变,比如丢失、反向重复缺失、重复等也会在某些特定世系中发生,这为决定蕨类植物的系统发育关系提供了极好的信息。由于其反向重复的结构特性,叶绿体的IR序列比SSC及LSC更难发生随机突变,因为一旦发生变化,必然要涉及两段序列。比如,所有维管植物都有的某个30kb的倒位可以确认石松类植物是基础的维管植物。两种倒位和

10、反向重复扩充可以用来确认薄囊的基础节点10。2. 资源2.1 序列获得我们选取了蕨类植物作为研究对象,通过NCBI获得了全部6种研究涉及的已完成测序的蕨类植物叶绿体基因组序列铁线蕨(Adiantum capillus-veneris),木沙椤(Alsophila spinulosa),莲座蕨属(Angiopteris evecta),松叶蕨属(Psilotum nudum)和水蕨属(Ceratopteris richardii)。另外,我们选取了几个典型的陆地植物的叶绿体DNA的基因序列,对我们的算法进行测试。序列包括烟草 (Nicotiana tabacum, GenBank:NC_0018

11、79) 和地钱(Marchantia polymorpha,GenBank:NC_001319),两类绿藻 (Chaetosphaeridium globosum GenBank:NC_004115),绿藻(Nephroselmis olivacea GenBank:NC_000927,C.Vulgaris GenBank:NC_001865,C. reinhardtii GenBank:BK000554),一类鞭毛虫绿藻(Mesostigma viride GenBank:NC_002186),以及Cyanophora paradoxa的质体 GenBank:NC_001675。Figure

12、2.1序列文件,fasta格式。2.2 测序比对软件IR搜索算法为blast,如图所示,将序列与其本身的反向序列进行比对,反向加上窗长,进行搜索。 Figure2.2.1 IR搜索算法解说示意图此次我们用EMBOSS计算了叶绿体的IR序列。EMBOSS的palindrome搜索功能。在搜索出小段IR后,我们将其与GeneBank中的记录比对,结果基本一致。我们提取了两者的并集序列,进行比对。比对结果部分截图其他一些软件此次只是做了了解,并未应用:REPuter用于探测和分析基因组中的重复序列,并可视化展示出来,可以计算出给出序列中的最大重复序列,以及反向、互补、和反向互补序列,软件示意图DOG

13、MA (Dual Organellar GenoMe Annotator)一个网页版的工具包,用于自动完成细胞器(植物叶绿体和动物线粒体)基因组的识别和注解,提供GUI用于查看和编辑得到的注解,ARAGORN,用来识别核苷酸序列中的tRNA和tmRNA,ERPIN (Easy RNA Profile IdentificatioN),RNA motif搜索工具,TFAM Webserver v1.3,用于将RNA的功能进行分类的系统,GenomeVx一个基于网页的工具,用于将叶绿体、线粒体、质粒等的基因组描绘成图谱,具有可编辑、质量高等特点。可以清晰显示出基因位置、染色体特点、以及跨度等。对于G

14、enBank格式的序列,可以自动完成基因的提取和着色。输出为PDF,可用Adobe Illustrator编辑,zPicture,一个交互式基于网页的序列比对和图形化工具,用于识别进化上保守的片段(ECR),2.3 进化树计算软件我们使用的GRAPPA算法软件为msam11,软件基于c+,下载地址为.3. 研究方法3.1 GRAPPA算法基本思想假设基因序列: g1, g2, , gn 每个都标注正负方向,如gi或-gi。在基因突变过程中,会产生转座、倒位、插入、删除等情况。gi与gj之间的倒位让原序列变为:基因gi,gi+1, ,gj 转座到gk让

15、原序列变为对于基因组G1和G2,我们定义距离(G1, G2)为从G1到G2所需的最小变化步数。3.2GRAPPA算法描述一、确定各region的基因目录。基因目录的确定可以缩小研究范围并且提高全局精确度。由于不清楚基因的顺序,目录确定过程中顺序的决定基于猜测。这种猜测是基于以下:改变基因顺序的进化事件较为稀有;两个子系同时发生变化的可能性要小于其母系发生变化7。因此,对于每个内部节点,当两个子系的局部基因目录已知,就会面临三种可能性(对于母系基因的决定):1如果两个子系在同一个region具有基因g,则其母系在同region具有基因g。2如果两个子系均没有g,则母系也没有g。3g出现在两个子系

16、的不同region,则母系的任一个region都不会有g。二、.种系发生研究以及祖先基因组的重构在现有的基因目录基础上,进行种系发生的重构。通过第一步,将基因目录简化处理后,就可以通过GRAPPA来推断突变的系统发生学内容。测试所有可能的树,(枚举)找到其中拥有最少倒位的。对于每个树,设定了一个下限,来决定树是否值得进行打分操作。最低分的树被用作系统发生树。3.3GRAPPA算法优化过程GRAPPA算法起源于Sankoff and Blanchette (1998)的BP分析。为了确定最优重构树,这个程序将所给门类中所有可能的拓扑树打分(以树的边长总数为准),并且取得分最小的树。这是一个NP完

17、全问题,因为他要求计算内部基因组节点。在算法中,初始内部节点以某种方式集合,然后生成树向着降低总边界长度的方向,不断反向替代基因组节点,直至整棵树不再变化。早期GRAPPA算法只能计算长度相同序列(无法处理删除、插入、倒位)。这个限制后来被Jijun Tang et al(Scaling up accurate phylogenetic reconstruction)所解决。Moret et al. (2001)优化了此算法,Caprara (2001) 和 Siepel&Moret (2001)解决了断点和倒位的问题。Moret et al. (2002b)的研究显示了倒位中间值比断

18、点中间值更有效,所以优化后的GRAPPA算法用了这个中间值。在以前的研究中,许多算法,如贪心法、最小生成树法等,都被用来计算最小变化步数,其指导思想未有太大出入,只是算法优化程度有所差异,这里就不一一展开了。3.4GRAPPA算法的问题由于IR的序列特殊性,IR中基因突变的会造成GRAPPA算法误差。GRAPPA无法判断基因组中的IR序列,而叶绿体两段IR序列的变化基本是同时的。这样,一次IR序列的变化在GRAPA算法中就会被计算为两次。另外,由于其反向重复的结构特性,叶绿体的IR序列比SSC及LSC更难发生随机突变,因为一旦发生变化,必然要涉及两段序列。3.5 GRAPPA算法的改进我们此次

19、将叶绿体基因组的IR序列单独取出,进行计算。在进行GRAPPA计算之前,我们将基因组中IR序列抽出,将反向部分去除,将抽出后的IR序列合并为一个新序列,并以此序列构建进化树。在计算过程中,SSC与LSC被作为背景。4.结果4.1算法测试为了测试算法的准确度,我们选取了几个典型的陆地植物的叶绿体DNA的基因序列,对我们的算法进行测试。这些植物都有典型的四段结构(LSC-IRa-SSC-IRb)12。序列包括烟草 (Nicotiana tabacum, GenBank:NC_001879) 和地钱(Marchantia polymorpha,GenBank:NC_001319),两类绿藻 (Cha

20、etosphaeridium globosum GenBank:NC_004115),绿藻(Nephroselmis olivacea GenBank:NC_000927,C.Vulgaris GenBank:NC_001865,C. reinhardtii GenBank:BK000554),一类鞭毛虫绿藻(Mesostigma viride GenBank:NC_002186),以及Cyanophora paradoxa的叶绿体 GenBank:NC_001675。计算结果为:(Chaetosphaeridium globosum:847,(Nicotiana tomentosiformi

21、s:871,Nephroselmis olivacea:980):1021,Mesostigma viride:1009):1048,Alsophila spinulosa:980):1092,Marchantia polymorpha:827):0);如图所示:将其与真实情况下的进化树进行对比:对比两棵进化树可以发现,蕨类植物进化树节点之间的距离要远小于测试组之间的距离。预测算法与真实进化树略有出入。其中,Nephroselmis olivacea的结点误差较大。其他结点也存在两两互换之类的误差。4.2蕨类植物叶绿体进化树构建我们选取了6种已完成测序的蕨类植物叶绿体基因组序列铁线蕨(Adia

22、ntum capillus-veneris),木沙椤(Alsophila spinulosa),莲座蕨属(Angiopteris evecta),松叶蕨属(Psilotum nudum)和水蕨属(Ceratopteris richardii)。原始输出为:(Adiantumcapillusveneris:607,(Alsophila spinulosa:334,Angiopteris evecta:285):393,(Nostoc azollae:236,(Psilotum nudum:826,Pteridium aquilinum subsp:603):1892):665):0);进化树如下

23、图:5.分析5.1基于IR的GRAPPA算法存在缺陷的分析叶绿体IR序列通量较小,其遗传信息包含可能并不全面。由于目前计算机处理能力限制以及算法设计的限制,我们目前无法处理叶绿体基因组的全序列,故无法将IR序列计算结果与全序列进行比较。另外,叶绿体IR序列变化可能依赖于SSC与LSC的变化,且IR与SSC,LSC的边界部分的变化也应该被纳入计算范围。在基于进化过程中,SSC与LSC的基因也可能转座到IR段,直接提取IR进行计算,将会把这部分基因视作新出现的基因,从而引入误差。5.2扩展讨论5.2.1蕨类与其他植物叶绿体比对由于蕨类植物数据库较小,验证该算法的准确度的难度较大,故下步准备扩数据范

24、围,将亲缘关系远,但IR成分相对高的植物汇总,制作进化树,并与其他方法的计算结果进行比对。基于蕨类植物在进化上的特殊地位,考虑将目前所测的蕨类IR进行合并,成为一个节点,与其他植物进行比对,从而进一步确定蕨类植物在进化上的确切位置。算法优化由于目前计算机处理能力限制以及算法设计的限制,我们目前无法处理叶绿体基因组的全序列,之后的研究可以考虑将SSC,LSC做为背景,将IR的边界模糊化,并考虑从SSC与LSC转座来的基因与新基因的区别。具体可用以下方法:1.将IR段加权,将其与SSC、LSC进一步区分,并用已知进化树优化算法中的参数。2.将IR段的IRb段删去,将IRa做为单独一段进行计算,这样

25、可以消除反向重复序列给算法带来的误差。软件优化将IR的搜索和进化树的构建合并,软件自动搜索IR序列后自动进行进化树构建,并根据IR的情况半自动选择构建参数。6.参考文献1.Kent, W.J., et al., Evolution's cauldron: duplication, deletion, and rearrangement in the mouse and human genomes. Proc Natl Acad Sci U S A, 2003. 100(20): p. 11484-9.2.Blanchette, M., T. Kunisawa, and D. Sanko

26、ff, Gene order breakpoint evidence in animal mitochondrial phylogeny. J Mol Evol, 1999. 49(2): p. 193-203.3.燕安,俞利凤, 叶绿体基因组_起源_结构与表达调控. 2004.4.Zhang, Z., B.R. Green, and T. Cavalier-Smith, Single gene circles in dinoflagellate chloroplast genomes. 1999. 400(6740): p. 155-159.5.Lilly, J.W., et al., Cy

27、togenomic analyses reveal the structural plasticity of the chloroplast genome in higher plants. Plant Cell, 2001. 13(2): p. 245-54.6.燕安, 朱登云, 叶绿体基因组在系统发育学及基因工程领域的应用. 2004.7.Yue, F., et al., Gene rearrangement analysis and ancestral order inference from chloroplast genomes with inverted repeat. BMC Genomics,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论