华中农业大学生物信息学Bioinf06_第1页
华中农业大学生物信息学Bioinf06_第2页
华中农业大学生物信息学Bioinf06_第3页
华中农业大学生物信息学Bioinf06_第4页
华中农业大学生物信息学Bioinf06_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

章基因预测和基因结构分析生物信息学WherearetheGenesintheGenome?GAGAAAATCAATTGGTTTAGAAGGTTTGGACTCACTTGACAGGTTCAGTTGGAGACGATCATAGGTGGCT

GCTGTGACAAAGGGAAATTGTGCTTTTCCAGCATGCTTACTGACCCTGATTTACCTCAGGAGTTTGAAAG

GATGTCTTCCAAGCGACCAGCCTCTCCGTATGGGGAAGCAGATGGAGAGGTAGCCATGGTGACAAGCAGA

CAGAAAGTGGAAGAAGAGGAGAGTGACGGGCTCCCAGCCTTTCACCTTCCCTTGCATGTGAGTTTTCCCA

ACAAGCCTCACTCTGAGGAATTTCAGCCAGTTTCTCTGCTGACGCAAGAGACTTGTGGCCATAGGACTCC

CACTTCTCAGCACAATACAATGGAAGTTGATGGCAATAAAGTTATGTCTTCATTTGCCCCACACAACTCA

TCTACCTCACCTCAGAAGGCAGAAGAAGGTGGGCGACAGAGTGGCGAGTCCTTGTCTAGTACAGCCCTGG

GAACTCCTGAACGGCGCAAGGGCAGTTTAGCTGATGTTGTTGACACCTTGAAGCAGAGGAAAATGGAAGA

GCTCATCAAAAACGAGCCGGAAGAAACCCCCAGTATTGAAAAACTACTCTCAAAGGACTGGAAAGACAAG

CTTCTTGCAATGGGATCGGGGAACTTTGGCGAAATAAAAGGGACTCCCGAGAGCTTAGCTGAGAAAGAAA

GGCAACTCATGGGTATGATCAACCAGCTGACCAGCCTCCGAGAGCAGCTGTTGGCTGCCCACGATGAGCA

GAAGAAACTAGCTGCCTCTCAGATTGAGAAACAGCGTCAGCAAATGGAGCTGGCCAAGCAGCAACAAGAA

CAAATTGCAAGACAGCAGCAGCAGCTTCTACAGCAACAACACAAAATCAATTTGCTCCAGCAACAGATCC

AGGTTCAAGGTCAGCTGCCGCCATTAATGATTCCCGTATTCCCTCCTGATCAACGGACACTGGCTGCAGC

TGCCCAGCAAGGATTCCTCCTCCCTCCAGGCTTCAGCTATAAGGCTGGATGTAGTGACCCTTACCCTGTT

CAGCTGATCCCAACTACCATGGCAGCTGCTGCCGCAGCAACACCAGGCTTAGGCCCACTCCAACTGCAGC

AGTTATATGCTGCCCAGCTAGCTGCAATGCAGGTATCTCCAGGAGGGAAGCTGCCAGGCATACCCCAAGG

CAACCTTGGTGCTGCTGTATCTCCTACCAGCATTCACACAGACAAGAGCACAAACAGCCCACCACCCAAA

AGCAAGGATGAAGTGGCACAGCCACTGAACCTATCAGCTAAACCCAAGACCTCTGATGGCAAATCACCCA

CATCACCCACCTCTCCCCATATGCCAGCTCTGAGAATAAACAGTGGGGCAGGCCCCCTCAAAGCCTCTGT

CCCAGCAGCGTTAGCTAGTCCTTCAGCCAGAGTTAGCACAATAGGTTACTTAAATGACCATGATGCTGTC

ACCAAGGCAATCCAAGAAGCTCGGCAAATGAAGGAGCAACTCCGACGGGAACAACAGGTGCTTGATGGGA

AGGTGGCTGTTGTGAATAGTCTGGGTCTCAATAACTGCCGAACAGAAAAGGAAAAAACAACACTGGAGAG

TCTGACTCAGCAACTGGCAGTTAAACAGAATGAAGAAGGAAAATTTAGCCATGCAATGATGGATTTCAAT

CTGAGTGGAGATTCTGATGGAAGTGCTGGAGTCTCAGAGTCAAGAATTTATAGGGAATCCCGAGGGCGTG

GTAGCAATGAACCCCACATAAAGCGTCCAATGAATGCCTTCATGGTGTGGGCTAAAGATGAACGGAGAAA

GATCCTTCAAGCCTTTCCTGACATGCACAACTCCAACATCAGCAAGATATTGGGATCTCGCTGGAAAGCT

ATGACAAACCTAGAGAAACAGCCATATTATGAGGAGCAAGCCCGTCTCAGCAAGCAGCACCTGGAGAAGT

ACCCTGACTATAAGTACAAGCCCAGGCCAAAGCGCACCTGCCTGGTGGATGGCAAAAAGCTGCGCATTGG

TGAATACAAGGCAATCATGCGCAACAGGCGGCAGGAAATGCGGCAGTACTTCAATGTTGGGCAACAAGCA

CAGATCCCCATTGCCACTGCTGGTGTTGTGTACCCTGGAGCCATCGCCATGGCTGGGATGCCCTCCCCTC

ACCTGCCCTCGGAGCACTCAAGCGTGTCTAGCAGCCCAGAGCCTGGGATGCCTGTTATCCAGAGCACTTA

CGGTGTGAAAGGAGAGGAGCCACATATCAAAGAAGAGATACAGGCCGAGGACATCAATGGAGAAATTTAT

GATGAGTACGACGAGGAAGAGGATGATCCAGATGTAGATTATGGGAGTGACAGTGAAAACCATATTGCAG

Genea基因预测和基因结构分析生物信息学中的重要内容之一预测编码蛋白质的基因(Protein-codinggene)预测非编码RNA基因(Non-codingRNAgene)排除重复序列()确定基因的结构开放阅读框(openreadingframe,ORF)基因的调控区-启动子(一)基因预测的基本分析内容确定开放读码框(ORF)ORFfinder输入序列或注册号,选择密码表显示结果,进行选择翻译为蛋白质序列比对、更改显示格式如果已知mRNA序列注意:本方法只适合于原核生物或mRNA序列(二)基因预测的基本方法1.序列相似性搜索(ExtrinsicApproaches)基因组DNA序列在6个阅读框中进行翻译并与蛋白质数据库中的序列进行比较分析(如Blastx)对EST/TSA数据库中同一生物的cDNA序列进行比较分析(如Blastn)确定基因数目和对应的ORFSimilarity-basedGenePrediction:forsequencesthatencodeaknownproteinoraproteinwithaknownhomolog分析举例:水稻Xa21基因序列(U37133)CDS:1-2677bp处和3521-3921bp处Blastx分析结果(检索蛋白质数据库):与水稻蛋白质序列比较Blastn分析结果(检索est数据库):与水稻cDNA序列比较取决于数据库中EST数据的数量和长度通过“Distancetreeofresults”查看与U37133序列同源的其它EST序列有些蛋白质序列是推测获得的分析举例:水稻Xa21基因序列(U37133)CDS:1-2677bp处和3521-3921bp处先通过Blastx获得同源蛋白,再通过GeneWise()预测基因结构优先选用最相似的蛋白(通过Totalscore排序,再看Querycoverage、E-value)使用其他物种的同源蛋白也可准确获得基因结构2.根据模式序列预测基因(AbinitioApproaches)各种基因预测软件取决于人们对已知基因结构特征的认识采用统计学方法基于一个或多个已知序列模式对未知序列进行分类密码子偏爱性对发现的模式进行统计检验启动子结构外显子、内含子原核生物(E.coli)与RNA聚合酶互作位点(-10、-35区)LexArepressor的结合位点(启动子区段)CTGNNNNNNNNNNCAG核糖体结合位点(转录起始位点后)GGAGG真核生物基因结构复杂已知外显子、内含子-外显子边界、启动子序列特征目前还没有一个基因预测工具可以完全正确地预测一个基因组中的所有基因(Matheetal.2002)不同的基因预测软件分析结果有差异综合多个基因预测软件的分析结果人类基因数目1000005000025000根据模式序列预测基因分析工具需要能识别基因的不同结构exon,poly-A,promoter重复序列某些分析工具可选择物种模式(matrix)作为参照比较对象某些分析工具可用不同的方式呈现分析结果(文字或图形)根据模式序列预测基因分析举例(1)GeneFindingSoftberry()的GeneFinding工具,分三大类GeneFindinginEukaryotaOperonandGeneFindinginBacteriaGeneFindinginViruses每一大类包括多个分析软件在Softberry主页选择“GeneFindinginEukaryota”类中的“FGENESH”在FGENESH网页输入D63710序列(fasta格式)、选择物种(human)作为参照分析结果(文字和图像)GenScan()用三个物种模式作为参照VertebrateArabidopsisMaize在GenScan主页输入D63710序列、选择物种(Vertebrate)作为参照分析结果(文字和图像)分析举例(2)GenScan评价Apredictedexonissaidtobe

exactlycorrect

ifitmatchesatrue(annotated)exonprecisely,i.e.bothendpointscorrect;

partiallycorrect

ifoneendpointiscorrect;

overlapping

ifneitherendpointiscorrect,butitoverlapsoneormoretrueexons;and

wrong

ifitdoesnotoverlapatrueexon.分析举例(2)GenScan分析举例(3)AUGUSTUSAUGUSTUS()用于真核基因的预测多种物种参照在AUGUSTUS的分析主页选择“webinterface”输入D63710的序列、选择物种“H.sapiens”分析结果分析举例(4)GeneMarkGeneMark()用于真核、原核和病毒等基因的预测多种物种参照在GeneMark的分析主页选择“GenePredictioninEukaryotes”在“GenePredictioninEukaryotes”网页输入D63710的序列、选择物种“H.sapiens”,选择输出格式选项分析结果3.利用比较基因组预测基因

(ComparativeGenomicsApproaches)结合模式法和同源序列法亲缘关系相近生物的基因序列具有保守性分析举例N-SCAN/Twinscan()选择N-SCAN在线分析(需免费注册)输入待分析序列,选择masking,clade,species和informant分析结果SoftBerryFGENESH+分析举例输入待分析序列及同源序列,选择对应的物种分析结果文字图形各种基因预测方法的比较NGASPThenematodegenomeannotationassessmentprojectSoftwaresAGENE,CRAIG,EUGENE,FGENESH,FGENESH++,G3A/mGene,GENEMARKHMM,SNAP,AUGUSTUS,ENSEMBL,EXONHUNTER,GENEID,GLIMMERHMM,MAKER,NSCAN,SGP2Results基因预测存在主要问题假阳性(FalsePositive):多预测了假的编码区,即在非编码区预测出基因假阴性(FalseNegative):漏掉了真实的编码区,即将基因预测为非编码区过界预测(OverPrediction):由于基因边界很难准确定位,预测经常会超过实际边界片段化(Fragmentation):内含子太大的基因,在预测时容易断裂成两个或多个基因融合化(Fusion):距离过近的两个或多个基因,在预测时容易被融合成一个很大的基因NNPP分析转录起始位点(三)基因精细结构分析分析结果:Promoter2.0predictstranscriptionstartsitesofvertebratePolIIpromotersinDNAsequences.分析启动子位点Promoter2.0PredictionServer

在“Promoter2.0”网页粘贴D63710序列分析结果分析转录因子结合位点Cis-actingelement(顺式元件)和trans-actingelement(反式元件)的互作分析举例JASPAR选择物种分类,在网页左侧选择转录因子结合位点模型,右侧粘贴序列(FASTA格式)分析结果分析举例PROSCAN在Proscan网页粘贴序列(FASTA格式)分析结果

分析结果分析举例PLACE(ADatabaseofPlantCis-actingRegulatoryDNAElement)在PLACE主页点击“SignalScanSearch”在“PLACEWebSignalScan”网页粘贴序列(FASTA)三种结果呈现方式:groupedbysignalmappedtosequencescanbysequenceorder点击相关链接查看什么类型的转录因子结合在相关cis-element上植物NewPLACE:结果一致包括多种RNA结构预测及基因鉴别软件假阳性是最大的问题

(四)非编码RNA基因预测ApracticalguidetotheartofRNAgenepredictionGene-findingsoftwareandresourcesSoftware

TutorialsBooks…综合多种方法(五)miRNA靶基因预测MethodTypeofMethodRefMethodAvailabilityDataavailabilityResourceStarket.alComplementary(Starket.al.,2003)OnlinesearchYesmiRandaComplementary(Johnetal.,2004)DownloadYesmiRanda

MiRBaseComplementary(Enrightetal.,2003)OnlinesearchYesmiRWalk--OnlinesearchYesTargetScanSeedComplementary(Lewisetal.,2005)OnlinesearchYesDIANA

microTThermodynamics(Kirakidouetal.,2004)DownloadYesPicTarThermodynamics(Kreketal.,2005)N/AYesRNAHybridThermodynamics&Statisticalmodel(Rehmsmeieretal.,2004)DownloadYesmiRGen++BaynesianInference(Huangetal.,2007b)MathlabCodeYesMiTargetSupportVectorMachine(Kimetal.2006)OnlinesearchYesMiRtaget2SupportVectorMachine(WangandElNaqa,2008)OnlinesearchYesTarBaseExp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论