基因组岛的建模与识别课件_第1页
基因组岛的建模与识别课件_第2页
基因组岛的建模与识别课件_第3页
基因组岛的建模与识别课件_第4页
基因组岛的建模与识别课件_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原核生物基因组岛的

建模与识别ThedetectionOfGenomicIslandsinProkaryoticGenomes2010年7月北京师范大学数学科学学院北京师范大学生命科学学院生物信息实验室梁潇曹莎姜洁怡Directedby林魁毛永华原核生物基因组岛的

.背景介绍1研究计划2项目创新点3其它说明4.背景介绍1研究计划2项目创新点3其它说明4·研究背景微生物对人类最重要的影响之一是导致传染病的流行。在人类疾病中有50%是由病毒引起。世界卫生组织公布资料显示:传染病的发病率和病死率在所有疾病中占据第一位。微生物导致人类疾病的历史,也就是人类与之不断斗争的历史。在疾病的预防和治疗方面,人类取得了长足的进展。但是新现和再现的微生物感染还是不断发生,像大量的病毒性疾病一直缺乏有效的治疗药物。一些疾病的致病机制并不清楚。大量的广谱抗生素的滥用造成了强大的选择压力,使许多菌株发生变异,导致耐药性的产生。人类健康受到新的威胁一些分节段的病毒之间可以通过重组或重配发生变异,最典型的例子就是流行性感冒病毒。每次流感大流行流感病毒都与前次导致感染的株型发生了变异,这种快速的变异给疫苗的设计和治疗造成了很大的障碍。而耐药性结核杆菌的出现使原本已近控制住的结核感染又在世界范围内猖獗起来。幽门螺杆菌Helicobacterpylori革兰氏阴性菌,幽门螺杆菌是人类至今唯一一种已知的胃部细菌。由于长期的溃疡,会导致癌症,是第一个可致癌的原核生物。铜绿假单胞菌P.Aeruginosa原称绿脓杆菌,有复杂的耐药机制,影响肺部及泌尿道,造成烧伤、伤口及血液感染,如败血病;亦会造成肺炎。10%在医院感染的病症都是由绿脓杆菌所引致的。它亦是引致皮肤炎的其中一种细菌。鲍曼不动杆菌AcinetobacterBaumAnnie20世纪70年代,鲍曼不动杆菌几乎对所有抗生素都很敏感。由于它具有惊人的迅速获得抗药性的能力,目前已对多种抗菌药物表现耐药。·研究背景微生物对人类最重要的影响之一是导致传染病的流行。在基因组岛的研究价值微生物的致病作用抗生素抗性共生微生物的共生性外源性化合物的降解基因组岛的进化起源基因组岛的删除基因组岛的插入机制基因组岛在菌株间的转移机制基因组岛的研究价值微生物的致病作用抗生素抗性共生微生物的共生何为基因组岛?

一般是指原核生物基因组染色体上一段具有有别于该基因组背景典型特征的DNA片段基因簇,具有移动元件的特征,如G+C百分比和密码子使用情况与宿主菌不同,其通常具有移动元件的特征,常含移动基因,可以在同种甚至于不同种菌株间水平转移。FEMSMicrobiologyReviewsVol.33,2Pages:376-393何为基因组岛?一般是指原核生物基因组染色体上一段具.背景介绍1研究计划2项目创新点3其它说明4.背景介绍1研究计划2项目创新点3其它说明4.研究目标研究内容研究进度实验路线可行性分析预实验结果.研究目标研究内容研究进度实验路线可行性分析预实验结果

项目的研究目标

通过整合统计学、机器学习、比较基因组学等方法,设计并实现一个有较好性能的原核生物基因组岛识别分析系统。

项目的研究目标通过整合统计学、机器学习、比较基

项目的研究内容1.通过具有较高敏感性的方法寻找出待测基因组的基因组岛。2.用统计分析的方法研究基因组岛边缘序列的结构特征及其局部区域相关关系,建立起更准确的识别基因组岛的马尔可夫识别模型。整合我们自己研究的原核生物基因组进化方法进行备选基因组岛的比较基因组学鉴定。3.设计评价指标来评价所设计的系统,检验算法于模型的有效性及实用性。4.利用基于Linux的MySQL数据库系统,PERL/C++编程以及Apache服务器实现整个系统并提供给相关科学家使用。

拟解决的关键问题1.基于全基因组的基因组岛识别算法的优化模型建立

2.识别的性能(准确性)评价

项目的研究内容1.通过具有较高敏感性的方法寻找出待测全基因组序列数据Z-curve处理数据比较基因组法初步识别基因组岛第一阶段系统发育进化关系第二阶段第三阶段第四阶段实验路线流程图待分析序列建立隐马氏模型(HMM)提取特征参数基因组岛区域第一阶段第二阶段第三阶段第四阶段最终优化方案MYSQL数据库编程实现整个系统第一阶段第二阶段第三阶段第四阶段基因组岛区域准确性判断模型是否达到预设阀值?返回修改模型参数最终优化方案第一阶段第二阶段第三阶段第四阶段是否全基因组序列数据Z-curve比较基因组法初步识别第一阶段系实验的可行性分析1全基因组测序计划的实行,使我们通过互联网即可拥有可靠的已测序的全基因组数据来源,如GenBank数据库检索系统:/genbank/query_form.html。成熟的WEB程序及具体的数据、地址可在有关资料上找到,这给了我们开发相关程序很好的参考。2基因组岛识别研究的系统方法虽然还属于起步阶段,但基因识别从其初期的到现在已有多年,技术已相当成熟,与之相对应的软件系统开发也很全面、系统。利用统计学以及机器学习技术改进基因组岛识别的系统的可操作性很强,在我们的研究时段内可以顺利完成。实验的可行性分析1全基因组测序计划的实行,使我们通过互联网成果提供形式及初步预实验结果成果提供形式及初步预实验结果现有算法详细列表算法论文Islandpath/DIMOB(2005)WilliamWLHsiao,KorineUng,DanaAeschliman,JennyBryan,BBrettFinlay,andFionaSLBrinkman.Evidenceofalargenovelgenepoolassociatedwithprokaryoticgenomicislands.PLoSGenet,1(5):e62,Nov2005.原先是用来协助原核基因岛的识别。途径是通过可视化GI的几种共同的特点:例如序列组成偏向,tRNA,整合酶和转座酶。这些特征可以用于决定GI的位置。SIGI-HMM(2006)StephanWaack,OliverK,RomanA,ThomasB,CarstenD,WolfgangF.F,KatharinaS,PeterM,andRainerM.Score-basedpredictionofgenomicislandsinprokaryoticgenomesusinghiddenmarkovmodels.BMCBioinformatics,7:142,2006.这个算法利用了各分类的密码子使用的显著差异来识别pA基因和预测它们可能的起源。(用HMM,Viterbi算法,有高度可靠性)MobilomeFINDER(2007)Mobilomefinder:web-basedtoolsforInsilcoandexperimentaldiscoveryofbacterialgenomicislands.NucleicAcidsRes,35(WebServerissue):W97–W104,Jul2007.IslandPick(2008)MorganGILangille,WilliamWLHsiao,andFionaSLBrinkman.Evaluationofgenomicislandpredictorsusingacomparativegenomicsapproach.BMCBioinformatics,9:329,2008.使用比较基因组预测方法来建立严格的GI和非GI数据集,这些阳性和阴性的数据集被用来评价一些基于序列组成的GI预测方法。该方法可以自动选择用于比较的基因组,用户也可以根据子的的见解来选则。IslandViewer(2009)MorganGILongvilleandFionaSLBrinkman.Islandviewer:anintegratedinter-faceforcomputationalidentificationandvisualizationofgenomicislands.Bioinformatics,25(5):664–5,Mar2009.整合了两种基于序列组成的的GI预测方法:

SIGI-HMM和

IslandPath-DIMOB,以及一个比较基因组预测方法IslandPick.现有算法详细列表算法论文Islandpath/DIMOBWi.IslandPick1Z-Curve2SIGI-HMM3其它说明4.IslandPick1Z-Curve2SIGI-HMM3其BLASTBLAST(BasicLocalAlignmentSearchTool")是一个用来比对生物序列的一级结构(如不同蛋白质的氨基酸序列或不同基因的DNA序列)的算法。已知一个包含若干序列的数据库,BLAST可以让研究者在其中寻找与其感兴趣的序列相同或类似的序列。例如如果某种非人动物的一个以前未知的基因被发现,研究者一般会在人类基因组中做一个BLAST搜索来确认人类是否包含类似的基因(通过序列的相似性)。BLASTBLAST(BasicLocalAlig.IslandPick1Z-Curve2SIGI-HMM3其它说明4.IslandPick1Z-Curve2SIGI-HMM3其窗口化方法使用20kb的窗口在Bacilluscereus(蜡样芽孢杆菌)和Bacillusanthracis(炭疽芽孢杆菌)的全基因组上滑动所得到的GC含量的分布图。窗口化方法Z-curveDNA序列一一对应于一条Z-curveXn=(An+Gn)-(Cn+Tn)Yn=(An+Cn)-(Gn+Tn)Zn=(An+Tn)-(Gn+Cn)特别地,Zn分量体现了整个序列的GC/AT的分布Z-curveDNA序列一一对应于一条Z-curve对于一个AT丰富的基因组,Zn是近似的关于n的单调增的线性函数。反之,在GC含量比较丰富的区域,Zn是近似的关于n的单调减的函数。曲线Zn~n可以用一条直线使用最小二乘法拟合。该曲线为Z=kn,易知,它对应的基因组的GC含量是稳定的。令Zn’=Zn-kn,GC含量的改变被放大。(??)这样,Zn曲线和直线的偏差,即Z’曲线就可以突出地刻画基因组内GC含量的偏差了。Z-curve对于一个AT丰富的基因组,Zn是近似的关于n的单调增的线性函Z’曲线的几何意义Z’曲线被称为累积GC含量轮廓图对于序列上某一段特定的序列∆n,它内部的GC含量的平均值有如下关系:

Z’曲线的几何意义Z’曲线被称为累积GC含量轮廓图Z’曲线的几何意义从上式可以看出累积GC含量图——Z’曲线的特征:1)如果曲线的某一个区域接近于一条直线,则该区域的GC含量几乎保持不变;2)曲线上任何一个突然的最大(小)点预示着一个转折点——GC含量经历了一个很突然的从相对低(高)到相对高(低)的变化。Z’曲线的几何意义累积GC含量轮廓图在基因组某一碱基处的G+C含量是关于Z’曲线在该点切线的斜率的一个很简单函数。在某一窗口中的平均G+C含量则正比于此函数在该窗口内的定积分。这样,我们就把生物学中G+C含量的概念拓广了,使之在基因组处处都有定义。如果不从微积分的角度来看,很难理解基因组在某一碱基位置处的G+C含量是什么意思。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论