




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
章基因预测和基因结构分析生物信息学WherearetheGenesintheGenome?GAGAAAATCAATTGGTTTAGAAGGTTTGGACTCACTTGACAGGTTCAGTTGGAGACGATCATAGGTGGCT
GCTGTGACAAAGGGAAATTGTGCTTTTCCAGCATGCTTACTGACCCTGATTTACCTCAGGAGTTTGAAAG
GATGTCTTCCAAGCGACCAGCCTCTCCGTATGGGGAAGCAGATGGAGAGGTAGCCATGGTGACAAGCAGA
CAGAAAGTGGAAGAAGAGGAGAGTGACGGGCTCCCAGCCTTTCACCTTCCCTTGCATGTGAGTTTTCCCA
ACAAGCCTCACTCTGAGGAATTTCAGCCAGTTTCTCTGCTGACGCAAGAGACTTGTGGCCATAGGACTCC
CACTTCTCAGCACAATACAATGGAAGTTGATGGCAATAAAGTTATGTCTTCATTTGCCCCACACAACTCA
TCTACCTCACCTCAGAAGGCAGAAGAAGGTGGGCGACAGAGTGGCGAGTCCTTGTCTAGTACAGCCCTGG
GAACTCCTGAACGGCGCAAGGGCAGTTTAGCTGATGTTGTTGACACCTTGAAGCAGAGGAAAATGGAAGA
GCTCATCAAAAACGAGCCGGAAGAAACCCCCAGTATTGAAAAACTACTCTCAAAGGACTGGAAAGACAAG
CTTCTTGCAATGGGATCGGGGAACTTTGGCGAAATAAAAGGGACTCCCGAGAGCTTAGCTGAGAAAGAAA
GGCAACTCATGGGTATGATCAACCAGCTGACCAGCCTCCGAGAGCAGCTGTTGGCTGCCCACGATGAGCA
GAAGAAACTAGCTGCCTCTCAGATTGAGAAACAGCGTCAGCAAATGGAGCTGGCCAAGCAGCAACAAGAA
CAAATTGCAAGACAGCAGCAGCAGCTTCTACAGCAACAACACAAAATCAATTTGCTCCAGCAACAGATCC
AGGTTCAAGGTCAGCTGCCGCCATTAATGATTCCCGTATTCCCTCCTGATCAACGGACACTGGCTGCAGC
TGCCCAGCAAGGATTCCTCCTCCCTCCAGGCTTCAGCTATAAGGCTGGATGTAGTGACCCTTACCCTGTT
CAGCTGATCCCAACTACCATGGCAGCTGCTGCCGCAGCAACACCAGGCTTAGGCCCACTCCAACTGCAGC
AGTTATATGCTGCCCAGCTAGCTGCAATGCAGGTATCTCCAGGAGGGAAGCTGCCAGGCATACCCCAAGG
CAACCTTGGTGCTGCTGTATCTCCTACCAGCATTCACACAGACAAGAGCACAAACAGCCCACCACCCAAA
AGCAAGGATGAAGTGGCACAGCCACTGAACCTATCAGCTAAACCCAAGACCTCTGATGGCAAATCACCCA
CATCACCCACCTCTCCCCATATGCCAGCTCTGAGAATAAACAGTGGGGCAGGCCCCCTCAAAGCCTCTGT
CCCAGCAGCGTTAGCTAGTCCTTCAGCCAGAGTTAGCACAATAGGTTACTTAAATGACCATGATGCTGTC
ACCAAGGCAATCCAAGAAGCTCGGCAAATGAAGGAGCAACTCCGACGGGAACAACAGGTGCTTGATGGGA
AGGTGGCTGTTGTGAATAGTCTGGGTCTCAATAACTGCCGAACAGAAAAGGAAAAAACAACACTGGAGAG
TCTGACTCAGCAACTGGCAGTTAAACAGAATGAAGAAGGAAAATTTAGCCATGCAATGATGGATTTCAAT
CTGAGTGGAGATTCTGATGGAAGTGCTGGAGTCTCAGAGTCAAGAATTTATAGGGAATCCCGAGGGCGTG
GTAGCAATGAACCCCACATAAAGCGTCCAATGAATGCCTTCATGGTGTGGGCTAAAGATGAACGGAGAAA
GATCCTTCAAGCCTTTCCTGACATGCACAACTCCAACATCAGCAAGATATTGGGATCTCGCTGGAAAGCT
ATGACAAACCTAGAGAAACAGCCATATTATGAGGAGCAAGCCCGTCTCAGCAAGCAGCACCTGGAGAAGT
ACCCTGACTATAAGTACAAGCCCAGGCCAAAGCGCACCTGCCTGGTGGATGGCAAAAAGCTGCGCATTGG
TGAATACAAGGCAATCATGCGCAACAGGCGGCAGGAAATGCGGCAGTACTTCAATGTTGGGCAACAAGCA
CAGATCCCCATTGCCACTGCTGGTGTTGTGTACCCTGGAGCCATCGCCATGGCTGGGATGCCCTCCCCTC
ACCTGCCCTCGGAGCACTCAAGCGTGTCTAGCAGCCCAGAGCCTGGGATGCCTGTTATCCAGAGCACTTA
CGGTGTGAAAGGAGAGGAGCCACATATCAAAGAAGAGATACAGGCCGAGGACATCAATGGAGAAATTTAT
GATGAGTACGACGAGGAAGAGGATGATCCAGATGTAGATTATGGGAGTGACAGTGAAAACCATATTGCAG
Genea基因预测和基因结构分析生物信息学中的重要内容之一预测编码蛋白质的基因(Protein-codinggene)预测非编码RNA基因(Non-codingRNAgene)排除重复序列()确定基因的结构开放阅读框(openreadingframe,ORF)基因的调控区-启动子(一)基因预测的基本分析内容确定开放读码框(ORF)ORFfinder输入序列或注册号,选择密码表显示结果,进行选择翻译为蛋白质序列比对、更改显示格式如果已知mRNA序列注意:本方法只适合于原核生物或mRNA序列(二)基因预测的基本方法1.序列相似性搜索(ExtrinsicApproaches)基因组DNA序列在6个阅读框中进行翻译并与蛋白质数据库中的序列进行比较分析(如Blastx)对EST/TSA数据库中同一生物的cDNA序列进行比较分析(如Blastn)确定基因数目和对应的ORFSimilarity-basedGenePrediction:forsequencesthatencodeaknownproteinoraproteinwithaknownhomolog分析举例:水稻Xa21基因序列(U37133)CDS:1-2677bp处和3521-3921bp处Blastx分析结果(检索蛋白质数据库):与水稻蛋白质序列比较Blastn分析结果(检索est数据库):与水稻cDNA序列比较取决于数据库中EST数据的数量和长度通过“Distancetreeofresults”查看与U37133序列同源的其它EST序列有些蛋白质序列是推测获得的分析举例:水稻Xa21基因序列(U37133)CDS:1-2677bp处和3521-3921bp处先通过Blastx获得同源蛋白,再通过GeneWise()预测基因结构优先选用最相似的蛋白(通过Totalscore排序,再看Querycoverage、E-value)使用其他物种的同源蛋白也可准确获得基因结构2.根据模式序列预测基因(AbinitioApproaches)各种基因预测软件取决于人们对已知基因结构特征的认识采用统计学方法基于一个或多个已知序列模式对未知序列进行分类密码子偏爱性对发现的模式进行统计检验启动子结构外显子、内含子原核生物(E.coli)与RNA聚合酶互作位点(-10、-35区)LexArepressor的结合位点(启动子区段)CTGNNNNNNNNNNCAG核糖体结合位点(转录起始位点后)GGAGG真核生物基因结构复杂已知外显子、内含子-外显子边界、启动子序列特征目前还没有一个基因预测工具可以完全正确地预测一个基因组中的所有基因(Matheetal.2002)不同的基因预测软件分析结果有差异综合多个基因预测软件的分析结果人类基因数目1000005000025000根据模式序列预测基因分析工具需要能识别基因的不同结构exon,poly-A,promoter重复序列某些分析工具可选择物种模式(matrix)作为参照比较对象某些分析工具可用不同的方式呈现分析结果(文字或图形)根据模式序列预测基因分析举例(1)GeneFindingSoftberry()的GeneFinding工具,分三大类GeneFindinginEukaryotaOperonandGeneFindinginBacteriaGeneFindinginViruses每一大类包括多个分析软件在Softberry主页选择“GeneFindinginEukaryota”类中的“FGENESH”在FGENESH网页输入D63710序列(fasta格式)、选择物种(human)作为参照分析结果(文字和图像)GenScan()用三个物种模式作为参照VertebrateArabidopsisMaize在GenScan主页输入D63710序列、选择物种(Vertebrate)作为参照分析结果(文字和图像)分析举例(2)GenScan评价Apredictedexonissaidtobe
exactlycorrect
ifitmatchesatrue(annotated)exonprecisely,i.e.bothendpointscorrect;
partiallycorrect
ifoneendpointiscorrect;
overlapping
ifneitherendpointiscorrect,butitoverlapsoneormoretrueexons;and
wrong
ifitdoesnotoverlapatrueexon.分析举例(2)GenScan分析举例(3)AUGUSTUSAUGUSTUS()用于真核基因的预测多种物种参照在AUGUSTUS的分析主页选择“webinterface”输入D63710的序列、选择物种“H.sapiens”分析结果分析举例(4)GeneMarkGeneMark()用于真核、原核和病毒等基因的预测多种物种参照在GeneMark的分析主页选择“GenePredictioninEukaryotes”在“GenePredictioninEukaryotes”网页输入D63710的序列、选择物种“H.sapiens”,选择输出格式选项分析结果3.利用比较基因组预测基因
(ComparativeGenomicsApproaches)结合模式法和同源序列法亲缘关系相近生物的基因序列具有保守性分析举例N-SCAN/Twinscan()选择N-SCAN在线分析(需免费注册)输入待分析序列,选择masking,clade,species和informant分析结果SoftBerryFGENESH+分析举例输入待分析序列及同源序列,选择对应的物种分析结果文字图形各种基因预测方法的比较NGASPThenematodegenomeannotationassessmentprojectSoftwaresAGENE,CRAIG,EUGENE,FGENESH,FGENESH++,G3A/mGene,GENEMARKHMM,SNAP,AUGUSTUS,ENSEMBL,EXONHUNTER,GENEID,GLIMMERHMM,MAKER,NSCAN,SGP2Results基因预测存在主要问题假阳性(FalsePositive):多预测了假的编码区,即在非编码区预测出基因假阴性(FalseNegative):漏掉了真实的编码区,即将基因预测为非编码区过界预测(OverPrediction):由于基因边界很难准确定位,预测经常会超过实际边界片段化(Fragmentation):内含子太大的基因,在预测时容易断裂成两个或多个基因融合化(Fusion):距离过近的两个或多个基因,在预测时容易被融合成一个很大的基因NNPP分析转录起始位点(三)基因精细结构分析分析结果:Promoter2.0predictstranscriptionstartsitesofvertebratePolIIpromotersinDNAsequences.分析启动子位点Promoter2.0PredictionServer
在“Promoter2.0”网页粘贴D63710序列分析结果分析转录因子结合位点Cis-actingelement(顺式元件)和trans-actingelement(反式元件)的互作分析举例JASPAR选择物种分类,在网页左侧选择转录因子结合位点模型,右侧粘贴序列(FASTA格式)分析结果分析举例PROSCAN在Proscan网页粘贴序列(FASTA格式)分析结果
分析结果分析举例PLACE(ADatabaseofPlantCis-actingRegulatoryDNAElement)在PLACE主页点击“SignalScanSearch”在“PLACEWebSignalScan”网页粘贴序列(FASTA)三种结果呈现方式:groupedbysignalmappedtosequencescanbysequenceorder点击相关链接查看什么类型的转录因子结合在相关cis-element上植物NewPLACE:结果一致包括多种RNA结构预测及基因鉴别软件假阳性是最大的问题
(四)非编码RNA基因预测ApracticalguidetotheartofRNAgenepredictionGene-findingsoftwareandresourcesSoftware
TutorialsBooks…综合多种方法(五)miRNA靶基因预测MethodTypeofMethodRefMethodAvailabilityDataavailabilityResourceStarket.alComplementary(Starket.al.,2003)OnlinesearchYesmiRandaComplementary(Johnetal.,2004)DownloadYesmiRanda
MiRBaseComplementary(Enrightetal.,2003)OnlinesearchYesmiRWalk--OnlinesearchYesTargetScanSeedComplementary(Lewisetal.,2005)OnlinesearchYesDIANA
microTThermodynamics(Kirakidouetal.,2004)DownloadYesPicTarThermodynamics(Kreketal.,2005)N/AYesRNAHybridThermodynamics&Statisticalmodel(Rehmsmeieretal.,2004)DownloadYesmiRGen++BaynesianInference(Huangetal.,2007b)MathlabCodeYesMiTargetSupportVectorMachine(Kimetal.2006)OnlinesearchYesMiRtaget2SupportVectorMachine(WangandElNaqa,2008)OnlinesearchYesTarBaseExp
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公共停车场车位产权及管理权转让协议书
- 农家乐项目合作开发与经营管理合同
- 热带雨林桥梁防潮处理
- 【课件】液体的压强教学课件+-2024-2025学年人教版(2024)物理八年级下册
- 智慧医院后勤建设方案
- 癌症患者肠梗阻的护理
- 中班我会排队常规教案
- 支气管肺炎患儿的护理
- 污水提升系统
- 住院部呕吐护理
- 口腔诊所前台主管述职报告
- 2024年石家庄市市属国有企业招聘笔试真题
- 2024年广东“三支一扶”计划招募笔试真题
- 设备租赁方案(3篇)
- 公关费用标准管理制度
- 2025-2030年中国洁净室风扇过滤单元行业市场现状供需分析及投资评估规划分析研究报告
- 2025至2030中国汽车租赁行业发展分析及发展战略与市场策略报告
- 2025年烟台市中考地理试卷真题
- 安徽省合肥市名校2025届八年级英语第二学期期末统考试题含答案
- 2024年广东省广州市初中生物会考真题(含答案)
- 2025年河北省中考麒麟卷生物(一)
评论
0/150
提交评论