系统发生足迹技术在巴西固氮螺菌基因组特征搜寻上的应用_第1页
系统发生足迹技术在巴西固氮螺菌基因组特征搜寻上的应用_第2页
系统发生足迹技术在巴西固氮螺菌基因组特征搜寻上的应用_第3页
系统发生足迹技术在巴西固氮螺菌基因组特征搜寻上的应用_第4页
系统发生足迹技术在巴西固氮螺菌基因组特征搜寻上的应用_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、系统发生足迹技术在巴西固氮螺菌基因组特征搜寻上的应用摘要巴西固氮螺菌是重要的植物促生内生菌之一。为了研究其未知基因,在巴西固氮螺菌和与其同源的五个菌种之间进展系统发生足迹研究。由于单机任务执行的串行性,效率较低。研究发现,整个过程包含了大量重复的、没有数据依赖的操作,如文本信息的提取,DNA序列的比拟等。因此,提出了局域网环境下基于客户机/效劳器形式的多机并行实现的思路。在充分利用资源的同时,显著进步了效率。关键词巴西固氮螺菌;同源;系统发生足迹;客户/效劳器形式;并行1.1巴西固氮螺菌巴西固氮螺菌(Azspirillubrasilene)是重要的植物促生内生菌之一,其质体上的不同基因分别控制

2、着其各种不同的特性。对巴西固氮螺菌的深化研究对我国农业的开展有着深远的影响。在巴西固氮螺菌的sp7菌株里,发现了两个质体,分子量分别为115Da(p115)和90Da(p90)。实验说明:p115质体会自发地从细菌细胞中消失,并且与原生型sp7比拟,由p115的衍生物来代替p115没有造成任何表现型如细菌的运动性、化学向性等的差异,而对p90的替代却使得细菌不能正常生存。由此得出结论:细胞存活必须的基因信息在p90质体上。11.2系统发生足迹技术P90的基因序列已经被微生物与植物遗传中心(KULeuven,Belgiu)破译,并且局部基因的位置和功能已经确认,如exB和ex控制着外聚多糖的合成

3、。然而还有一些基因如ndP和ndQ,它们的功能还有待确定。本文应用系统发生足迹技术对p90进展研究。系统发生足迹是用来识别DNA序列中的调控因子(tif)的方法,它通过在多个同源基因的调控序列基因间序列中寻找保守区域来确定调控因子。系统发生足迹技术认为:由于环境选择的压力,基因上的功能因子比那些非功能序列进化的速率慢。因此,对于同源物种而言,那些保守区域将成为功能/调控因子的主要侯选者。21.3局域网多机并行实现随着网络技术的开展,多机并行技术应用日益广泛。并行是指多台计算机同时运行,与单机串行运行相比,并行可以显著的进步执行速度。本系统构建客户/效劳器形式的局域网,即一台效劳器,多台客户机。

4、效劳器安装应用程序和存储必要的数据供客户机使用,同时协调客户机之间的同步运行。客户机从效劳器上下载文件并在效劳器的支配下并行执行任务。2.1系统任务提出及方案论证由于系统发生足迹是在同源基因的基因间序列中寻找调控因子,因此,首要的任务是寻找与p90同源的基因间序列。本系统中使用新月柄杆菌,根瘤菌,深红红螺菌,球形红杆菌和淡水菌五种细菌作为与巴西固氮螺菌p90基因比拟的对象。由于都属于a-蛋白菌,可以在它们的基因中寻找同源基因,进而找到这些同源基因的基因间序列。针对上述任务,本系统发生足迹研究共分为4大模块:2.1.1基因信息入库由于存储在NBI的基因信息是以文本文件的形式存放,为了便于计算机处

5、理,需要将文本中的各项信息提取出来存入数据库表中。并行性分析:基因信息入库是文本信息提取操作,信息量大,需要大量单一、重复的操作,必须借助计算机程序来高速、准确的完成。由于每次提取操作只针对一个文本文件,因此文本文件的信息提取操作之间没有任何数据依赖关系,可以将这些文件按照数量均分给多台计算机并行执行以进步信息的提取速率。2.1.2蛋白质比拟一般来说,假如两个蛋白质的序列相似,那么其功能也相近。基因间序列对基因编码起着重要的调节作用。假如两个基因间序列调控的基因编码的蛋白质序列相似,即蛋白质的功能相近,那么说明这两个编码基因序列有可能是同源关系,那么就可以将它们相应的基因间序列提取出来进展系统

6、发生足迹研究。因此需要寻找基因编码的蛋白质序列,由于蛋白质序列在NBI是以fasta文件形式存储,需要将文件中的信息进展提取并存到数据库表中。对所有的蛋白质序列进展BLAST比拟,寻找序列的相似性,结果如图1:图1.BLAST比拟结果为了排除偶尔因素造成的序列间的相似性,用期望值E来衡量结果的显著性。E值越小,结果越显著。并行性分析:fasta文本信息的提取与基因信息提取相似,可以并行实现;而序列间的BLAST比拟只需要参与比拟的蛋白质序列信息,并不依赖与别的蛋白质。因此,在保证所有的蛋白质之间都能比拟的前提下,可以把序列分组,由客户机并行执行。2.1.3基因序列分组根据BLAST计算出的相似

7、度,用TribeL对蛋白质进展分组,序列相似的蛋白质将被归为一组。为了利用序列相似的传递性,将各蛋白质之间的相似关系用图来表示,蛋白质作为结点,而边用来代表蛋白质之间的相似度,并且用-lg(E)作为相似度的权值。将图进一步转换为马尔可夫矩阵,矩阵中的元素代表蛋白质序列间的转换概率。通过矩阵自乘进一步寻找蛋白质之间的亲缘关系,防止将关系较远的蛋白质遗漏3。得到蛋白质的分组后,将蛋白质转换成其相应的编码基因,进而得到基因分组,由于只需要与p90相关的基因组,再将包含p90基因的分组挑选出来存入数据库中,结果如表1:表1:基因分组并行性分析:蛋白质分组需要将所有的蛋白质相似度信息进展比拟,因此本模块

8、不能并行执行,必须由一台计算机独立完成。2.1.4寻找tif系统发生足迹是在与p90相关的基因间序列中寻找tif,得到了基因分组后,根据基因名称将调控其编码的基因间序列提取出来。以同组的基因间序列作为输入,使用tifSapler软件来寻找侯选tif,该软件采用Gibbs采样算法,Gibbs通过随机采样不断更新tif模型和在各条序列中的出现位置以优化目的函数,当满足一定的迭代终止条件时就得到了最终的候选tif。4并行性分析:同BLAST相似,tif的寻找不存在数据依赖,可以并行执行。2.2系统设计本系统的四大模块之间必须是串行执行,即只有前一模块执行完后,后一模块才可以执行。系统模块之间的执行顺

9、序如图2所示:图2:系统模块执行顺序图由于除了基因序列分组,其余三个模块都可以并行执行,为了进步系统的数据处理效率,本文提出在局域网环境下多机并行处理生物信息的思路,采取客户/效劳器形式。网络连接如图3:图3:网络连接图2.2.1效劳器设计效劳器主要有四大功能:_x0001_务分配:为了让网络中的客户机并行执行模块中的任务,效劳器需要将任务按文件或序列的数量分解成大小均等的子块,分配给各客户机完成。_x0001_数据库共享:在效劳器上设置一级数据库,存储所有的关于基因和蛋白质的信息,供各客户机下载所需数据并上传处理结果。_x0001_同步控制:由于模块间的串行性,在多机并行处理数据时,必须保证

10、各客户机之间的同步。效劳器将任务分配给客户机时,需发送一个启动信号通知客户机开场执行任务。而当客户机完成当前任务时,需发送一个完毕信号通知效劳器任务完成,准备接收下一任务。只有当效劳器接收到所有客户机发来的完毕信号时,才开场下一任务的分配。_x0001_基因序列分组基因序列分组不能并行执行,在本系统中由效劳器单独完成。效劳器操作系统配置inds2000Server,数据库系统为SQLServer2000.2.2.2客户机设计各客户机在效劳器的支配下并行完成基因信息入库、蛋白质比拟和寻找tif的任务。客户机上配有二级数据库,当接收到效劳器分配的任务时,从主数据库中下载所需数据并存储在本机数据库中

11、,防止了屡次访问一级数据库造成的时间延迟。当完成当前任务时,需要将数据处理结果提交到效劳器,并发送完毕信号等待下一任务的分配。客户机操作系统配置inds98,数据库配置SQLServer2000。本系统将工作空间进展了划分,每个子空间可以独立计算,并且对各子空间的计算都是一样的,即除了基因分组模块以外,可以实现彻底的计算并行性。通过使用不同数目的客户机,得到不同的处理时间和加速比方表2:表2:并行处理时间及加速比客户机台数所需时间t(小时)加速比126.51214.61.8147.483.5484.396.03通过数据比照可以看出,由于并行运行的数据传输及同步等待等的开销,加速比与客户机数目并

12、不成正比。影响加速比的因素分析:1效劳器与客户机之间的通信发送启动和完毕信号延迟时间d,由于在局域网内部的数据传输间隔 短,速度快,d1inute,d/t1,所以对加速比的影响可以忽略不计。2各客户机之间的同步等待时间,由于效劳器在分配任务时只是根据文件或序列的数量,并不考虑其实际大小,所以可能造成任务分配的不均匀,进而使得各客户机之间的任务完成时间差异较大,而效劳器必须等待所有子任务都完成才能开场下一任务的分配,客户机数量增加,也随着增加。因此是影响加速比的重要因子。3客户机从效劳器下载数据及向效劳器上传运行结果的时间延迟u,由于各任务运行需要的数据量较大,所以u也是影响加速比的比拟重要的因

13、子。分析说明:各客户机之间的同步等待及数据传输成为影响速度进步的主要因素,需要在效劳器任务分配算法中加上文件大小因子以平衡各客户机之间的任务负载,进而降低同步开销;通过在客户机上存储主数据库中的所有数据,降低数据传输开销,进一步进步加速比。1Steenhudt,VanderleydenJ.Azspirillu,afree-livingnitrgen-fixingbateriulselyassiatedithgrasses:geneti,biheialandelgialaspets.JFESirbilRev.2000;24(4):487-506.2ZhangY,BurrisRH,LuddenP,RbertsGP,RegulatinfnitrgenfixatininAzspirillubrasilense.JFESirbilLett.1997Jul15;152(2):195-2043EnrightAJ,VanDngenS,uzunisA.Aneffiientalgrithfrlarge-saledetetinfprtEin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论