演示文稿操作过程多序列比对进化树_第1页
演示文稿操作过程多序列比对进化树_第2页
演示文稿操作过程多序列比对进化树_第3页
演示文稿操作过程多序列比对进化树_第4页
演示文稿操作过程多序列比对进化树_第5页
已阅读5页,还剩167页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(优选)操作过程多序列比对进化树目前一页\总数一百七十二页\编于十六点多序列比对

分子进化分析——系统发生树构建

核酸序列的预测与鉴定

酶切图谱制作

引物设计内容目前二页\总数一百七十二页\编于十六点多序列比对目前三页\总数一百七十二页\编于十六点内容:多序列比对多序列比对程序及应用目前四页\总数一百七十二页\编于十六点第一节、多序列比对

(Multiplesequencealignment)概念多序列比对的意义多序列比对的打分函数多序列比对的方法目前五页\总数一百七十二页\编于十六点1、概念多序列比对(Multiplesequencealignment)alignmultiplerelatedsequencestoachieveoptimalmatchingofthesequences.为了便于描述,对多序列比对过程可以给出下面的定义:把多序列比对看作一张二维表,表中每一行代表一个序列,每一列代表一个残基的位置。将序列依照下列规则填入表中:(a)一个序列所有残基的相对位置保持不变;(b)将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐(下表)。目前六页\总数一百七十二页\编于十六点1234567891ⅠYDGGAV-EALⅡYDGG---EALⅢFEGGILVEALⅣFD-GILVQAVⅤYEGGAVVQAL表1多序列比对的定义表示五个短序列(I-V)的比对结果。通过插入空位,使5个序列中大多数相同或相似残基放入同一列,并保持每个序列残基顺序不变目前七页\总数一百七十二页\编于十六点2、多序列比对的意义用于描述一组序列之间的相似性关系,以便了解一个分子家族的基本特征,寻找motif,保守区域等。用于描述一组同源序列之间的亲缘关系的远近,应用到分子进化分析中。序列同源性分析:是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。其他应用,如构建profile,打分矩阵等目前八页\总数一百七十二页\编于十六点手工比对在运行经过测试并具有比较高的可信度的计算机程序(辅助编辑软件如bioedit,seaview,Genedoc等)基础上,结合实验结果或文献资料,对多序列比对结果进行手工修饰,应该说是非常必要的。为了便于进行交互式手工比对,通常使用不同颜色表示具有不同特性的残基,以帮助判别序列之间的相似性。计算机程序自动比对通过特定的算法(如穷举法,启发式算法等),由计算机程序自动搜索最佳的多序列比对状态。3、多序列比对的方法目前九页\总数一百七十二页\编于十六点穷举法穷举法(exhaustivealignmentmethod)将序列两两比对时的二维动态规划矩阵扩展到多维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大,对于计算机系统的资源要求比较高,一般只有在进行少数的较短的序列的比对的时候才会用到这个方法DCA(Divide-and-ConquerAlignment):aweb-basedprogramthatissemiexhaustive目前十页\总数一百七十二页\编于十六点启发式算法启发式算法(heuristicalgorithms):大多数实用的多序列比对程序采用启发式算法(heuristicalgorithms),以降低运算复杂度。随着序列数量的增加,算法复杂性也不断增加。用O(m1m2m3…mn)表示对n个序列进行比对时的算法复杂性,其中mn是最后一条序列的长度。若序列长度相差不大,则可简化成O(mn),其中n表示序列的数目,m表示序列的长度。显然,随着序列数量的增加,序列比对的算法复杂性按指数规律增长。目前十一页\总数一百七十二页\编于十六点第二节多序列比对程序及应用ProgressiveAlignmentMethodIterativeAlignmentBlock-BasedAlignmentDNASTARDNAMAN目前十二页\总数一百七十二页\编于十六点1、ProgressiveAlignmentMethodClustal:Clustal,是由Feng和Doolittle于1987年提出的。Clustal程序有许多版本ClustalW(Thompson等,1994)是目前使用最广泛的多序列比对程序它的PC版本是ClustalX作为程序的一部分,Clustal可以输出用于构建进化树的数据。目前十三页\总数一百七十二页\编于十六点ClustalW程序:ClustalW程序可以自由使用在NCBI/EBI的FTP服务器上可以找到下载的软件包。ClustalW程序用选项单逐步指导用户进行操作,用户可根据需要选择打分矩阵、设置空位罚分等。

EBI的主页还提供了基于Web的ClustalW服务,用户可以把序列和各种要求通过表单提交到服务器上,服务器把计算的结果用Email返回用户(或在线交互使用)。ProgressiveAlignmentMethod目前十四页\总数一百七十二页\编于十六点ClustalW程序ClustalW对输入序列的格式比较灵活,可以是FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、GCG、PHYLIP和GDE等,用户可以根据自己的需要选择合适的输出格式。用ClustalW得到的多序列比对结果中,所有序列排列在一起,并以特定的符号代表各个位点上残基的保守性,“*”号表示保守性极高的残基位点;“.”号代表保守性略低的残基位点。ProgressiveAlignmentMethod目前十五页\总数一百七十二页\编于十六点ClustalW

使用输入地址:设置选项(next)ProgressiveAlignmentMethod目前十六页\总数一百七十二页\编于十六点ClustalW

使用一些选项说明PHYLOGENETICTREE有三个选项

TREETYPE:构建系统发育树的算法,有四个个选择none、nj(neighbourjoining)、phylip、distCORRECTDIST:决定是否做距离修正。对于小的序列歧异(<10%),选择与否不会产生差异;对于大的序列歧异,需做出修正。因为观察到的距离要比真实的进化距离低。IGNOREGAPS:选择on,序列中的任何空位将被忽视。详细说明参见ProgressiveAlignmentMethod目前十七页\总数一百七十二页\编于十六点ClustalW

使用输入5个16SRNA基因序列AF310602AF308147AF283499AF012090AF447394点击“RUN”ProgressiveAlignmentMethod目前十八页\总数一百七十二页\编于十六点ProgressiveAlignmentMethodT-Coffee(Tree-basedConsistencyObjectiveFunctionforalignmentEvaluation):ProgressivealignmentmethodInprocessingaquery,T-Coffeeperformsbothglobalandlocalpairwisealignmentforallpossiblepairsinvolved.Adistancematrixisbuilttoderiveaguidetree,whichisthenusedtodirectafullmultiplealignmentusingtheprogressiveapproach.OutperformsClustalwhenaligningmoderatelydivergentsequencesSlowerthanClustal目前十九页\总数一百七十二页\编于十六点ProgressiveAlignmentMethodPRALINE:web-based:

FirstbuildprofilesforeachsequenceusingPSI-BLASTdatabasesearching.Eachprofileisthenusedformultiplealignmentusingtheprogressiveapproach.theclosestneighbortobejoinedtoalargeralignmentbycomparingtheprofilescoresdoesnotuseaguidetreeIncorporateproteinsecondarystructureinformationtomodifytheprofilescores.Perhapsthemostsophisticatedandaccuratealignmentprogramavailable.Extremelyslowcomputation.目前二十页\总数一百七十二页\编于十六点ProgressiveAlignmentMethodDbClustal:http://igbmc.u-strasbg.fr:8080/DbClustal/dbclustal.htmlPoa(Partialorderalignments):目前二十一页\总数一百七十二页\编于十六点2、IterativeAlignmentPRRN:web-basedprogramUsesadoublenestediterativestrategyformultiplealignment.Basedontheideathatanoptimalsolutioncanbefoundbyrepeatedlymodifyingexistingsuboptimalsolutions目前二十二页\总数一百七十二页\编于十六点Block-BasedAlignmentDIALIGN2:awebbasedprogramItplacesemphasisonblock-to-blockcomparisonratherthanresidue-to-residuecomparison.Thesequenceregionsbetweentheblocksareleftunaligned.Theprogramhasbeenshowntobeespeciallysuitableforaligningdivergentsequenceswithonlylocalsimilarity.目前二十三页\总数一百七十二页\编于十六点Block-BasedAlignmentMatch-Box:web-basedserverAimstoidentifyconservedblocks(orboxes)amongsequences.TheserverrequirestheusertosubmitasetofsequencesintheFASTAformatandtheresultsarereturnedbye-mail.目前二十四页\总数一百七十二页\编于十六点DNASTARDNAMAN软件:目前二十五页\总数一百七十二页\编于十六点分子进化分析——系统发生树构建目前二十六页\总数一百七十二页\编于十六点本章内容:分子进化分析介绍系统发生树构建方法系统发生树构建实例目前二十七页\总数一百七十二页\编于十六点第一节分子进化分析介绍基本概念:系统发生(phylogeny)——是指生物形成或进化的历史系统发生学(phylogenetics)——研究物种之间的进化关系系统发生树(phylogenetictree)——表示形式,描述物种之间进化关系目前二十八页\总数一百七十二页\编于十六点分子进化研究的目的从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。蛋白和核酸序列通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律分子进化分析介绍目前二十九页\总数一百七十二页\编于十六点分子进化分析介绍分子进化研究的基础基本理论:在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。(分子钟理论,Molecularclock

1965)实际情况:虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统发生的内在规律目前三十页\总数一百七十二页\编于十六点分子进化分析介绍直系同源与旁系同源Orthologs(直系同源):Homologoussequencesindifferentspeciesthatarosefromacommonancestralgeneduringspeciation;mayormaynotberesponsibleforasimilarfunction.Paralogs(旁系同源):Homologoussequenceswithinasinglespeciesthatarosebygeneduplication.。以上两个概念代表了两个不同的进化事件。用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。目前三十一页\总数一百七十二页\编于十六点分子进化分析介绍目前三十二页\总数一百七十二页\编于十六点分子进化分析介绍系统发生树(phylogenetictree):又名进化树(evolutionarytree)已发展成为多学科交叉形成的一个边缘领域。包括生命科学中的进化论、遗传学、分类学、分子生物学、生物化学、生物物理学和生态学,又包括数学中的概率统计、图论、计算机科学和群论。闻名国际生物学界的美国冷泉港定量生物学会议于1987年特辟出"进化树"专栏进行学术讨论,标志着该领域已成为现代生物学的前沿之一,迄今仍很活跃。目前三十三页\总数一百七十二页\编于十六点分子进化分析介绍目前三十四页\总数一百七十二页\编于十六点分子进化分析介绍系统发生树结构Thelinesinthetreearecalledbranches(分支).Atthetipsofthebranchesarepresent-dayspeciesorsequencesknownastaxa

(分类,thesingularformistaxon)oroperationaltaxonomicunits(运筹分类单位).Theconnectingpointwheretwoadjacentbranchesjoiniscalledanode(节点),whichrepresentsaninferredancestorofextanttaxa.Thebifurcatingpointattheverybottomofthetreeistherootnode(根节),whichrepresentsthecommonancestorofallmembersofthetree.Agroupoftaxadescendedfromasinglecommonancestorisdefinedasacladeormonophyleticgroup

(单源群).Thebranchingpatterninatreeiscalledtreetopology(拓扑结构).目前三十五页\总数一百七十二页\编于十六点分子进化分析介绍有根树与无根树树根代表一组分类的共同祖先目前三十六页\总数一百七十二页\编于十六点分子进化分析介绍如何确定树根根据外围群:Oneistouseanoutgroup(外围群),whichisasequencethatishomologoustothesequencesunderconsideration,butseparatedfromthosesequencesatanearlyevolutionarytime.根据中点:Intheabsenceofagoodoutgroup,atreecanberootedusingthemidpointrootingapproach,inwhichthemidpointofthetwomostdivergentgroupsjudgedbyoverallbranchlengthsisassignedastheroot.目前三十七页\总数一百七十二页\编于十六点RootedbyoutgroupbacteriaoutgrouprooteukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaeaMonophyleticgroup(单源群)Monophyleticgroup外围群分子进化分析介绍目前三十八页\总数一百七十二页\编于十六点分子进化分析介绍树形系统发生图(Phylograms):有分支和支长信息分支图(Cladograms)只有分支信息,无支长信息目前三十九页\总数一百七十二页\编于十六点第二节系统发生树构建方法Molecularphylogenetictreeconstructioncanbedividedintofivesteps:(1)choosingmolecularmarkers;(2)performingmultiplesequencealignment;(3)choosingamodelofevolution;(4)determiningatreebuildingmethod;(5)assessingtreereliability.目前四十页\总数一百七十二页\编于十六点目前四十一页\总数一百七十二页\编于十六点第三节系统发生树构建实例系统发生分析常用软件(1)PHYLIP(2)PAUP(3)TREE-PUZZLE(4)MEGA(5)PAML(6)TreeView(7)VOSTORG

(8)Fitchprograms

(9)Phylo_win

(10)ARB

(11)DAMBE(12)PAL

(13)Bionumerics

其它程序见:

目前四十二页\总数一百七十二页\编于十六点系统发生树构建实例Mega3下载地址目前四十三页\总数一百七十二页\编于十六点目前四十四页\总数一百七十二页\编于十六点目前四十五页\总数一百七十二页\编于十六点目前四十六页\总数一百七十二页\编于十六点目前四十七页\总数一百七十二页\编于十六点目前四十八页\总数一百七十二页\编于十六点目前四十九页\总数一百七十二页\编于十六点目前五十页\总数一百七十二页\编于十六点目前五十一页\总数一百七十二页\编于十六点目前五十二页\总数一百七十二页\编于十六点目前五十三页\总数一百七十二页\编于十六点目前五十四页\总数一百七十二页\编于十六点目前五十五页\总数一百七十二页\编于十六点目前五十六页\总数一百七十二页\编于十六点目前五十七页\总数一百七十二页\编于十六点目前五十八页\总数一百七十二页\编于十六点目前五十九页\总数一百七十二页\编于十六点目前六十页\总数一百七十二页\编于十六点目前六十一页\总数一百七十二页\编于十六点目前六十二页\总数一百七十二页\编于十六点目前六十三页\总数一百七十二页\编于十六点目前六十四页\总数一百七十二页\编于十六点离散特征数据(discretecharacterdata):即所获得的是2个或更多的离散的值。如:DNA序列某一位置是或者不是剪切位点(二态特征);序列中某一位置,可能的碱基有A、T、G、C共4种(多态特征);相似性和距离数据(similarityanddistancedata):是用彼此间的相似性或距离所表示出来的各分类单位间的相互关系。目前六十五页\总数一百七十二页\编于十六点核酸序列的预测和鉴定目前六十六页\总数一百七十二页\编于十六点内容:序列概率信息的统计模型核酸序列的预测与鉴定目前六十七页\总数一百七十二页\编于十六点第一节、序列概率信息的统计模型Oneoftheapplicationsofmultiplesequencealignmentsinidentifyingrelatedsequencesindatabasesisbyconstructionofsomestatisticalmodels.Position-specificscoringmatrices(PSSMs)ProfilesHiddenMarkovmodels(HMMs).目前六十八页\总数一百七十二页\编于十六点收集已知的功能序列和非功能序列实例(这些序列之间是非相关的)训练集(trainingset)测试集或控制集(controlset)建立完成识别任务的模型检验所建模型的正确性对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。识别“功能序列”和“非功能序列”的过程

目前六十九页\总数一百七十二页\编于十六点多序列比对相关序列选取模型构建模型训练参数调整应用确立模型ProfileHMMHmmcalibrateClustalXHmmbuildHmmtHiddenMarkovModel目前七十页\总数一百七十二页\编于十六点HiddenMarkovModel应用HMMshasmorepredictivepowerthanProfiles.HMMisabletodifferentiatebetweeninsertionanddeletionstatesInprofilecalculation,asinglegappenaltyscorethatisoftensubjectivelydeterminedrepresentseitheraninsertionordeletion.目前七十一页\总数一百七十二页\编于十六点HiddenMarkovModel应用OnceanHMMisestablishedbasedonthetrainingsequences,Itcanbeusedtodeterminehowwellanunknownsequencematchesthemodel.Itcanbeusedfortheconstructionofmultiplealignmentofrelatedsequences.HMMscanbeusedfordatabasesearchingtodetectdistantsequencehomologs.HMMsarealsousedinProteinfamilyclassificationthroughmotifandpatternidentificationAdvancedgeneandpromoterprediction,Transmembraneproteinprediction,Proteinfoldrecognition.目前七十二页\总数一百七十二页\编于十六点第二节核酸序列的预测与鉴定本节内容核酸序列预测概念基因预测启动子和调控元件预测酶切位点分析与引物设计目前七十三页\总数一百七十二页\编于十六点1、核酸序列预测概念指利用一些计算方式(计算机程序)从基因组序列中发现基因及其表达调控元件的位置和结构的过程。包括:基因预测(GenePrediction

)基因表达调控元件预测(PromoterandRegulatoryElementPrediction)目前七十四页\总数一百七十二页\编于十六点

StructureofEukaryoticGenes目前七十五页\总数一百七十二页\编于十六点gene1gene2gene3exonintergenicregionintronAGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGC目前七十六页\总数一百七十二页\编于十六点第二节核酸序列的预测与鉴定本节内容核酸序列预测概念基因预测启动子和调控元件预测酶切位点分析与引物设计目前七十七页\总数一百七十二页\编于十六点基因预测的概念及意义原核基因识别真核基因预测的困难性真核基因预测的依据真核基因预测的基本步骤及策略真核基因预测方法及其基本原理2、基因预测目前七十八页\总数一百七十二页\编于十六点概念:GenePrediction:GivenanuncharacterizedDNAsequence,findout:Wheredoesthegenestartsandends?-detectionofthelocationofopenreadingframes(ORFs)Whichregionscodeforaprotein?-delineationofthestructuresofintronsaswellasexons(eukaryotic)2.1基因预测的概念及意义目前七十九页\总数一百七十二页\编于十六点基因预测的概念及意义意义:ComputationalGeneFinding(GenePrediction)isoneofthemostchallengingandinterestingproblemsinbioinformaticsatthemoment.ComputationalGeneFindingisimportantbecauseSomanygenomeshavebeenbeingsequencedsorapidly.Purebiologicalmeansaretimeconsumingandcostly.FindinggenesinDNAsequencesisthefoundationforallfurtherinvestigation(Knowledgeoftheprotein-codingregionsunderpinsfunctionalgenomics).

目前八十页\总数一百七十二页\编于十六点基因预测的概念及意义原核基因识别真核基因预测的困难性真核基因预测的依据真核基因预测的基本步骤及策略真核基因预测方法及其基本原理2、基因预测目前八十一页\总数一百七十二页\编于十六点2.2、原核基因识别原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。一个开放阅读框(ORF,openreadingframe)是一个没有终止编码的密码子序列。目前八十二页\总数一百七十二页\编于十六点原核基因预测工具介绍ORFFinderHMM-basedgenefindingprogramsGeneMarkGlimmerFGENESBRBSfinder原核基因识别目前八十三页\总数一百七十二页\编于十六点ORFFinder(OpenReadingFrameFinder)原核基因识别目前八十四页\总数一百七十二页\编于十六点zinc-bindingalcoholdehydrogenase,novicida(弗朗西丝菌

)目前八十五页\总数一百七十二页\编于十六点目前八十六页\总数一百七十二页\编于十六点目前八十七页\总数一百七十二页\编于十六点目前八十八页\总数一百七十二页\编于十六点目前八十九页\总数一百七十二页\编于十六点HMM-basedgenefindingprogramsGeneMark:Trainedonanumberofcompletemicrobialgenomes原核基因识别目前九十页\总数一百七十二页\编于十六点HMM-basedgenefindingprogramsGlimmer(GeneLocatorandInterpolatedMarkovModeler):AUNIXprogram原核基因识别目前九十一页\总数一百七十二页\编于十六点HMM-basedgenefindingprogramsFGENESB:Web-basedprogramTrainedforbacterialsequences原核基因识别目前九十二页\总数一百七十二页\编于十六点HMM-basedgenefindingprogramsRBSfinder:UNIXprogramPredictedstartsites原核基因识别目前九十三页\总数一百七十二页\编于十六点基因预测的概念及意义原核基因识别真核基因预测的困难性真核基因预测的依据真核基因预测的基本步骤及策略真核基因预测方法及其基本原理2、基因预测目前九十四页\总数一百七十二页\编于十六点HumanFuguwormE.coliWhyisGenePredictionChallenging?Codingdensity:asthecoding/non-codinglengthratiodecreases,exonpredictionbecomesmorecomplex.SomefactsabouthumangenomeCodingregionscompriselessthan3%ofthegenome

Thereisageneof2400000bps,only14000bpsareCDS(<1%)2.3真核基因预测的困难性目前九十五页\总数一百七十二页\编于十六点wormE.coliSplicingofgenes:findingmultiple(short)exonsisharderthanfindingasingle(long)exon.SomefactsabouthumangenomeAverageof5-6exons/geneAverageexonlength:~200bpAverageintronlength:~2000bp~8%geneshaveasingleexonSomeexonscanbeassmallas3bp.Alternatesplicingareverydifficulttopredict(next)真核基因预测的困难性目前九十六页\总数一百七十二页\编于十六点真核基因预测的困难性目前九十七页\总数一百七十二页\编于十六点基因预测的概念及意义原核基因识别真核基因预测的困难性真核基因预测的依据真核基因预测的基本步骤及策略真核基因预测方法及其基本原理2、基因预测目前九十八页\总数一百七十二页\编于十六点真核基因预测的依据功能位点Splicingsitesignals剪切供体位点和受体位点(Donor/Acceptor):thesplicejunctionsofintronsandexonsfollowtheGT–AGruleinwhichanintronatthe5splicejunctionhasaconsensusmotifofGTAAGT(Donor);andatthe3splicejunctionisaconsensusmotifof(Py)12NCAG(Acceptor)目前九十九页\总数一百七十二页\编于十六点NucleotideDistributionProbabilitiesaroundDonorSitesPositionp(A)p(C)p(G)p(T)-30.3330.3530.1930.12-20.5810.1440.1320.143-10.09690.03550.7790.088300.000480.000480.9990.0004810.000480.000480.000480.99920.4930.02780.4550.023530.7230.07530.1180.083540.05950.05130.8410.04850.1510.1670.210.472真核基因预测的依据目前一百页\总数一百七十二页\编于十六点NucleotideDistributionProbabilitiesaroundnonDonorSitesPositionp(A)p(C)p(G)p(T)-30.2620.2310.2360.272-20.2620.2310.2350.272-10.2620.2310.2360.27200.2620.2310.2350.27210.2620.2310.2360.27220.2620.2310.2350.27230.2620.2310.2360.27240.2620.2310.2350.27250.2620.2310.2360.272真核基因预测的依据目前一百零一页\总数一百七十二页\编于十六点NucleotideDistributionaroundSplicingSites目前一百零二页\总数一百七十二页\编于十六点功能位点Translationinitiationsitesignaltranslationstartcodon:MostvertebrategenesuseATGasthetranslationstartcodonandhaveauniquelyconservedflankingsequencecallaKozaksequence(CCGCCATGG).Translationterminationsitesignaltranslationstopcodon:TGA真核基因预测的依据目前一百零三页\总数一百七十二页\编于十六点功能位点TranscriptionstartsignalsTranscriptionstartsignals:CpGisland:toidentifythetranscriptioninitiationsiteofaeukaryoticgenemostofthesegeneshaveahighdensityofCGdinucleotidesnearthetranscriptionstartsite.ThisregionisreferredtoasaCpGisland。真核基因预测的依据目前一百零四页\总数一百七十二页\编于十六点酵母基因组两联核苷酸频率表仅为随机概率的20%但在真核基因启动子区,CpG出现密度达到随机预测水平。长度几百bp。人类基于组中大约有45000个CpG岛,其中一半与管家基因有关,其余与组织特异性基于启动子关联。目前一百零五页\总数一百七十二页\编于十六点功能位点TranscriptionstopsignalsTranscriptionstopsignals:.Thepoly-Asignalcanalsohelplocatethefinalcodingsequence真核基因预测的依据目前一百零六页\总数一百七十二页\编于十六点编码区与非编码区基因组成特征密码子使用偏好外显子长度等值区(isochore)真核基因预测的依据目前一百零七页\总数一百七十二页\编于十六点编码区与非编码区基因组成特征CodonUsagePreference(密码子使用偏好)Statisticalresultsshowthatsomecodonsareusedwithdifferentfrequenciesincodingandnon-codingregions,e.g:hexamerfrequenciesCodonUsageFrequency:真核基因预测的依据目前一百零八页\总数一百七十二页\编于十六点ForcodingregionFornon-codingregion编码区与非编码区基因组成特征CodonUsagePreference

Hexamer(Di-codonUsage,双连密码子)frequencies:hexamerfrequencies(连续6核苷酸)出现频率的比对是确定一个窗口是否属于编码区或非编码区的最好单个指标真核基因预测的依据目前一百零九页\总数一百七十二页\编于十六点编码区与非编码区基因组成特征CodonUsagePreference

CodonUsageFrequency(密码子的使用频率)由于密码子的简并性(degeneracy),每个氨基酸至少对应1种密码子,最多有6种对应的密码子。在基因中,同义密码子的使用并不是完全一致的。不同物种、不同生物体的基因密码子使用存在着很大的差异在不同物种中,类型相同的基因具有相近的同义密码子使用偏性对于同一类型的基因由物种引起的同义密码子使用偏性的差异较小真核基因预测的依据目前一百一十页\总数一百七十二页\编于十六点CodonUsageFrequencyForcodingregion目前一百一十一页\总数一百七十二页\编于十六点目前一百一十二页\总数一百七十二页\编于十六点LengthDistributionofInternalExonsofHumanGenes编码区与非编码区基因组成特征外显子长度真核基因预测的依据目前一百一十三页\总数一百七十二页\编于十六点编码区与非编码区基因组成特征等值区定义:具有一致碱基组成的长区域长度超过1000000bp同一等值区GC含量相对均衡,但不同等值区GC含量差异显著人类基因组划分为5个等值区L1:GC39%L2:GC42%L1和L2包含80%的组织特异性基因H1:GC46%H2:GC49%H3:GC54%。包含80%的管家基因真核基因预测的依据目前一百一十四页\总数一百七十二页\编于十六点TheDependenceofCodonUsageScoreonCGContent目前一百一十五页\总数一百七十二页\编于十六点基因预测的概念及意义原核基因识别真核基因预测的困难性真核基因预测的依据真核基因预测的基本步骤及策略真核基因预测方法及其基本原理2、基因预测目前一百一十六页\总数一百七十二页\编于十六点2.5真核基因预测的步骤和策略Themainissueinpredictionofeukaryoticgenesistheidentificationofexons,introns,andsplicingsites。目前一百一十七页\总数一百七十二页\编于十六点真核基因预测的步骤和策略目前一百一十八页\总数一百七十二页\编于十六点真核基因预测的步骤和策略基本步骤判定序列中的载体污染屏蔽重复序列发现基因结果评估目前一百一十九页\总数一百七十二页\编于十六点真核基因预测的步骤和策略序列中的污染和重复元件必须首先去除。序列污染(sequencecontamination)的来源:载体接头和PCR引物转座子和插入序列DNA/RNA样品纯度不高重复元件(repetitiveelement):散在重复元件、卫星DNA、简单重复序列、低复杂度序列等目前一百二十页\总数一百七十二页\编于十六点基因发现策略:Thecurrentgenepredictionmethodscanbeclassifiedintotwomajorcategories从头计算法或基于统计的方法(abinitio–basedapproachesorStatisticallybasedmethod):predictsgenesbasedonthegivensequencealone基于同源序列比对的方法(homology-basedapproachesorSequencealignmentbasedmethod):makespredictionsbasedonsignificantmatchesofthequerysequencewithsequencesofknowngenes.真核基因预测的步骤和策略目前一百二十一页\总数一百七十二页\编于十六点基因发现的策略选择真核基因预测的步骤和策略目前一百二十二页\总数一百七十二页\编于十六点基因预测的概念及意义原核基因识别真核基因预测的困难性真核基因预测的依据真核基因预测的基本步骤及策略真核基因预测方法及其基本原理2、基因预测目前一百二十三页\总数一百七十二页\编于十六点载体污染判定方法重复序列分析程序基因预测程序(Eukaryotic)2.6、真核基因预测方法及其基本原理目前一百二十四页\总数一百七十二页\编于十六点载体污染判定载体污染判定方法载体数据库相似性搜索搜索序列中的限制酶切位点工具:VecScreen:NCBIBlast2EVEC:EMBL真核基因预测方法及其基本原理目前一百二十五页\总数一百七十二页\编于十六点真核基因预测方法及其基本原理屏蔽重复序列重复序列分析程序RepeatMasker:针对灵长类、啮齿类、拟南芥、草本植物、果蝇XBLAST:适用于任何物种bioweb.pasteur.fr/seqanal/interfaces/xblast.html#-data/目前一百二十六页\总数一百七十二页\编于十六点真核基因预测方法及其基本原理GenePredictionPrograms(Eukaryotic)AbInitio–BasedProgramsHomology-BasedProgramsConsensus-BasedProgramsPerformanceEvaluation目前一百二十七页\总数一百七十二页\编于十六点真核基因预测方法及其基本原理AbInitio–BasedPrograms

Thegoaloftheabinitiogenepredictionprogramsistodiscriminateexonsfromnoncodingsequencesandsubsequentlyjointheexonstogetherinthecorrectorder.Thealgorithmsrelyontwofeatures:genesignalsgenecontentToderiveanassessmentforthisfeature,HMMsorneuralnetwork-basedalgorithmscanbeusedThefrequentlyusedabinitioprogramsaredescribednext.目前一百二十八页\总数一百七十二页\编于十六点AbInitio–BasedProgramsGENSCAN:Webbased:

makespredictionsbasedonfifth-orderHMMs.Itcombineshexamerfrequencieswithcodingsignals(initiationcodons,TATAbox,capsite,poly-A,etc.)inprediction.Putativeexonsareassignedaprobabilityscore(P)ofbeingatrueexon.OnlypredictionswithP>0.5aredeemedreliable.Thisprogramistrainedforsequencesfromvertebrates,Arabidopsis,andmaize.Ithasbeenusedextensivelyinannotatingthehumangenome.真核基因预测方法及其基本原理目前一百二十九页\总数一百七十二页\编于十六点AbInitio–BasedPrograms

GRAIL(GeneRecognitionandAssemblyInternetLink):aweb-basedprogram:

basedonaneuralnetworkalgorithm.Theprogramistrainedonseveralstatisticalfeaturessuchassplicejunctions,startandstopcodons,poly-Asites,promoters,andCpGislands.Theprogramscansthequerysequencewithwindowsofvariablelengthsandscoresforcodingpotentialsandfinallyproducesanoutputthatistheresultofexoncandidates.Theprogramiscurrentlytrainedforhuman,mouse,Arabidopsis,Drosophila,andEscherichiacoli

sequences.真核基因预测方法及其基本原理目前一百三十页\总数一百七十二页\编于十六点目前一百三十一页\总数一百七十二页\编于十六点目前一百三十二页\总数一百七十二页\编于十六点目前一百三十三页\总数一百七十二页\编于十六点AbInitio–BasedPrograms

FGENES(FindGenes)Web-basedprogram:UsesLDAtodeterminewhetherasignalisanexon.InadditiontoFGENES,therearemanyvariantsoftheprogram:FGENESH:makeuseofHMMs.FGENESHC:similaritybased.FGENESH+:combinebothabinitioandsimilarity-basedapproaches.真核基因预测方法及其基本原理目前一百三十四页\总数一百七十二页\编于十六点AbInitio–BasedPrograms

MZEF(MichaelZhang’sExonFinder)Webbased:UsesQDAforexonprediction.Hasnotbeenobviousinactualgeneprediction.真核基因预测方法及其基本原理目前一百三十五页\总数一百七十二页\编于十六点AbInitio–BasedPrograms

HMMgene:Webbased:

HMM-basedprogram.Theuniquefeatureoftheprogramisthatitusesacriterioncalledtheconditionalmaximumlikelihoodtodiscriminatecodingfromnoncodingfeatures.Ifasequencealreadyhasasubregionidentifiedascodingregion,whichmaybebasedonsimilaritywithcDNAsorproteinsinadatabase,theseregionsarelockedascodingregions.AnHMMpredictionissubsequentlymadewithabiastowardthelockedregionandisextendedfromthelockedregiontopredicttherestofthegenecodingregionsandevenneighboringgenes.Theprogramisinawayahybridalgorithmthatusesbothabinitio-basedandhomology-basedcriteria.真核基因预测方法及其基本原理目前一百三十六页\总数一百七十二页\编于十六点真核基因预测方法及其基本原理Homology-BasedPrograms

Homology-basedprogramsarebasedonthefactthatexonstructuresandexonsequencesofrelatedspeciesarehighlyconserved.Whenpotentialcodingframesinaquerysequencearetranslatedandusedtoalignwithclosestproteinhomologsfoundindatabases,nearperfectlymatchedregionscanbeusedtorevealtheexonboundariesinthequery.Thisapproachassumesthatthedatabasesequencesarecorrect.ItisareasonableassumptioninlightofthefactthatmanyhomologoussequencestobecomparedwitharederivedfromcDNAorexpressedsequencetags(ESTs)ofthesamespecies.目前一百三十七页\总数一百七十二页\编于十六点Homology-BasedPrograms:优势:Withthesupportofexperimentalevidence,thismethodbecomesratherefficientinfindinggenesinanunknowngenomicDNA.不足:Thedrawbackofthisapproachisitsrelianceonthepresenceofhomologsindatabases.Ifthehomologsarenotavailableinthedatabase,themethodcannotbeused.Novelgenesinanewspeciescannotbediscoveredwithoutmatchesinthedatabase.真核基因预测方法及其基本原理目前一百三十八页\总数一百七十二页\编于十六点Homology-BasedPrograms

GenomeScanweb-basedserver:CombinesGENSCANpredictionresultswithBLASTXsimilaritysearches.TheuserprovidesgenomicDNAandproteinsequencesfromrelatedspecies.ThegenomicDNAistranslatedinallsixframestocoverallpossibleexons.Thetranslatedexonsarethenusedtocomparewiththeuser-suppliedproteinsequences.Translatedgenomicregionshavinghighsimilarityattheproteinlevelreceivehigherscores.ThesamesequenceisalsopredictedwithaGENSCANalgorithm,whichgivesexonsprobabilityscores.Finalexonsareassignedbasedoncombinedscoreinformationfrombothanalyses.真核基因预测方法及其基本原理目前一百三十九页\总数一百七十二页\编于十六点Homology-BasedPrograms

EST2Genome:web-basedprogram:Todefineintron–exonboundaries.PurelybasedonthesequencealignmentapproachTheprogramcomparesanEST(orcDNA)sequencewithagenomicDNAsequencecontainingthecorrespondinggene.Thealignmentisdoneusingadynamicprogramming–basedalgorithm.真核基因预测方法及其基本原理目前一百四十页\总数一百七十二页\编于十六点Homology-BasedProgramsTwinScan

Asimilarity-basedgene-findingserver.PredictexonsHowtoworks:itusesGenScantopredictallpossibleexonsfromthegenomicsequence.TheputativeexonsareusedforBLASTsearchingtofindclosesthomologs.TheputativeexonsandhomologsfromBLASTsearchingarealignedtoidentifythebestmatch.Onlytheclosestmatchfromagenomedatabaseisusedasatemplateforrefiningthepreviousexonselectionandexonboundaries.真核基因预测方法及其基本原理目前一百四十一页\总数一百七十二页\编于十六点真核基因预测方法及其基本原理Consensus-BasedPrograms

Theseprogramsworkbyretainingcommonpredictionsagreedbymostprogramsandremovinginconsistentpredictions.Suchanintegratedapproachmayimprovethespecificitybycorrectingthefalsepositivesandtheproblemofoverprediction.However,sincethisprocedurepunishesnovelpredictions,itmayleadtoloweredsensitivityandmissedpredictions.Twoexamplesofconsensus-basedprogramsaregivennext.目前一百四十二页\总数一百七十二页\编于十六点Consensus-BasedPrograms

GeneComber:awebserver:

CombinesHMMgeneandGenScanpredictionresults.Theconsistencyofbothpredictionmethodsiscalculated.Ifthetwopredictionsmatch,theexonscoreisreinforced.Ifnot,exonsareproposedbasedonseparatethresholdscores.真核基因预测方法及其基本原理目前一百四十三页\总数一百七十二页\编于十六点Consensus-BasedPrograms

DIGIT:webserver:

First,existinggene-finders(–FGENESH,GENSCAN,andHMMgene)areappliedtoanuncharacterizedgenomesequence(inputsequence).Next,DIGITproducesallpossibleexonsfromtheresultsofgene-finders,andassignsthemtheirreadingframesandscores.Finally,DIGIT

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论