基因组注释详解_第1页
基因组注释详解_第2页
基因组注释详解_第3页
基因组注释详解_第4页
基因组注释详解_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因组注释基因组测序相关技术发展

198119861989199119941998200020022003200620072008Inthecomingfuture200920102005AffylaunchesGeneExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomatedDNAsequencerLowhangingfruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirstmicroarraypublication-onArabidopsisILMNlaunchesgeneexpressionarraysHumanGenomeProject&CeleraGenomicscompletesfirstdraftgenomeHapmapprojectlaunchedHapmap1stphasedatareleaseAffy&ILMNbothlaunched100KgenotypingarraysRiseofGenomeWideAssociationStudies(GWAS)RocheGSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD1.0Launched!TheSequencingShakeup!!SOLiD3.0:100GBoutofthebox!The3rdGenerationSequencingwillbelaunchedILMNHiSeq2000launched<2weeks~$1,0000.010.101.0010.00100.001,000.0010,000.00100,000.00$MThroughput

(Gb)CostofperHumanGenomeInnovationofNGSthroughput3Gb6Gb20-30Gb0204060801001202402007200820092010199020012012200720100.001Moore’sLaw更低的价格使得基于测序的科研和临床应用越来越被接受13years~$3,000,000,000200Gb-300Gb测序技术的发展带来测序价格的下降Illumina/Solexa/GIIxGeneticAnalyzer50~95GB/runIllumina/Solexa/HiSeq200GB/runRoche/454GenomeSequencerFLX500Mb/runAppliedBiosystemsSOLiD4100GB/runAppliedBiosystemsSOLiD/HQ300GB/run成熟的二代测序技术平台高通量测序服务未知基因组测序(Denovogenomesequencing)基因组重测序(Wholegenomeresequencing)实验数据分析MatePair测序构建Scaffold30X的覆盖率

(454&(SolexaorSOLiD))序列预处理(质量控制)基因组拼接(基于reference拼接)注释(基因功能、代谢通路、比较基因组)SNP发现及注释实验数据分析30X以上的覆盖率

(Solexa

orSOLiD)序列预处理(质量控制)基因组分型技术SNP、Indel、CNV、染色体结构变异及注释与表型相关的全基因组关联分析和功能连锁性分析高通量测序服务外显子捕获测序(Targetexomecapture)全基因组甲基化测序(DNAmethylationsequencing)实验数据分析>30X的覆盖率

(SolexaorSOLiD)序列预处理(质量控制)基因组分型技术SNP、Indel、CNV、染色体结构变异及注释与表型相关的全基因组关联分析和功能连锁性分析实验数据分析30X以上的覆盖率(Solexa

orSOLiD)序列预处理(质量控制)甲基化位点检测及注释高通量测序服务转录组测序(RNA-seqsequencing)microRNA测序(microRNAsequencing)实验数据分析mRNA打断、反转录、加接头Denovo454构建转录图谱Reference

barcode建库Solexa,SOLiD

序列预处理(质量控制)表达丰度统计注释(功能、代谢通路、表达差异比较)未知转录本的分析实验数据分析microRNA提取、两头加接头、反转录、建库

(Solexa

orSOLiD)序列预处理(质量控制)已知microRNA丰度统计未知microRNA预测及丰度统计高通量测序服务元基因组测序(meta-genomesequencing)未知病毒检测(Unknown

virusdetecting)实验数据分析DNA提取、建库序列预处理(质量控制)拼接、注释(功能、代谢通路)丰度统计、比较元基因组实验数据分析低量RNA、DNA处理、建库与宿主、微生物、病毒数据库比较未知病毒的发现及预测两种测序策略:基于BAC的方法:先把基因组打碎成200-300kb的片段并制成BAC文库,再选择一些BAC进一步打碎成3kb左右的小片段,测序并拼接。全基因组鸟枪法:把基因组直接打碎成3kb左右的小片段,测序并拼接。基于BAC的方法全基因组DNA随机打成大片段选择并克隆大片段排序,选择再打碎,克隆,测序,拼接全基因组鸟枪法基因组DNA

随机打碎

测序并拼接

拼接软件的新需求能充分利用正反向测序的配对信息,避免重复序列造成的错误拼接能处理数以百万甚至千万计的数据

程序并行化高效率比对能逐步拼接基因组注释SequenceGENESCANORFFinderGENEMARKGenePrediction…BlastnFastaHomologySearchTranscriptionRegulatoryRegionDomainIdentify(HMMER,BLIMPS)Transmembrane(TMAP,TMHMM)LocalizationSites(Psort)Physical&ChemicalPara(PI/MW,EXTCOEF)Post-translationalmodifications(NetNGlyc…)ProteinAnnotation…GeneOntologyPathwayPredictedGeneOrGene原核(Prokaryote)基因编码区启动子转录起始位点非翻译区被转录区起始密码子终止密码子5’3’上游

转录终止位点下游基因组注释SequenceGENESCANORFFinderGENEMARKGenePrediction…BlastnFastaHomologySearchTranscriptionRegulatoryRegionDomainIdentify(HMMER,BLIMPS)Transmembrane(TMAP,TMHMM)LocalizationSites(Psort)Physical&ChemicalPara(PI/MW,EXTCOEF)Post-translationalmodifications(NetNGlyc…)ProteinAnnotation…GeneOntologyPathwayPredictedGeneOrGene开放阅读框ORF

(OpenReadingFrame)一段序列从起始密码子(startcodon)开始,到终止密码子(stopcodon)结束,而且其中不包含其它终止密码子。微生物基因发现要解决的问题微生物基因组中80%-90%的序列参与编码主要问题:如果有两个或更多重叠的阅读框,哪一个是基因(假定只可能有一个)最可靠的方法–

同源搜索(使用BLAST或FASTA等)主要困难:在无已知同源性信息的情况下寻找基因预测软件GetORFWebAccess

http://bioweb.pasteur.fr/seqanal/interfaces/getorf.htmlApplication(DownloadEmboss)

GETORF:AdvancedOptions

i.Codetouse:选择不同的codonusagetable,包含有:

(1)Standard

(2)Standard(withalternativeinitiationcodons)

(3)VertebrateMitochondrial

(4)YeastMitochondrial

(5)Mold,Protozoan,CoelenterateMitochondrialandMycoplasma/Spiroplasma

(6)InvertebrateMitochondrial

(7)CiliateMacronuclearandDasycladacean

(8)EchinodermMitochondrial

(9)EuplotidNuclear

(10)Bacterial

(11)AlternativeYeastNuclear

(12)AscidianMitochondrial

(13)FlatwormMitochondrial

(14)BlepharismaMacronuclear

(15)ChlorophyceanMitochondrial

(16)TrematodeMitochondrial

(17)Scenedesmusobliquus

(18)ThraustochytriumMitochondrialGETORF:AdvancedOptionsii.最小的开放阅读框由多少个核甘酸组成,预设值为30,也就是10个氨基酸。iii.Typeofoutput:可选择不同的输入结果,包含有:

(1)TranslationofregionsbetweenSTOPcodons

(2)TranslationofregionsbetweenSTARTandSTOPcodons

(3)NucleicsequencesbetweenSTOPcodons

(4)NucleicsequencesbetweenSTARTandSTOPcodons

(5)NucleotidesflankingSTARTcodons

(6)NucleotidesflankinginitialSTOPcodons

(7)NucleotidesflankingendingSTOPcodonsfastagcgphylipemblswissncbinbrfgenbankigcodatastrideracedbstadentextfitchmsfclustalphylipphylip3asn1Metagenomics

CommunityGenomics●EnvironmentalGenomicsWhoisthere?–diversity&abundanceWhattheyaredoing?–Metabolic&interactionWhytheyarethere?–EcologicalrelationsSpeciescomplexityAcidminedrainage1 100 1000 10000SeawaterHumangutSoilThecultivation-independentanalysisofthecollectivegenomesofmicrobialpopulationsobtaineddirectlyfromtheenvironmentTheComplexityofMetagenomicsAABCDA’Isolatedgenome–singlesourceofDNAMetagenome–multiplesourceofDNAXGenomeAnnotation,Metagenomics?readsassembliesgenesannotationTraditionalgenomicsreadsassembliesORFsannotationMetagenomics???

HugeMultipleorganismsFragmental

HugePartialORFsWrongORFsQ:Solution?

A:Clustering.ProteinfamiliesNovelfamiliesORFvalidation

HugeMultipleorganismsUnevencoverage真核生物的基因的完整结构

及它的表达过程transcriptionRNAsplicingproteintranslationexon1DNAexon2exon3intron1intron2promotergtgtagagupstreamdownstream5’UTR3’UTRgtgtagagPrimaryRNAtranscript3`5’MatureRNAUTSuga,uaa,uag3`aaa…5’基因识别找出在一段DNA序列中,是否存在ORF,亦及“基因”。判明基因的结构,包括起止位置,外显子/内含子边界,启动子,polyA区域,非转译区(UTR)等。预测真基因和“假基因”(pseudogene)及可能的剪切位点。基于同源性的基因预测法“从头开始”(Abinitio)预测法综合使用以上两种方法:如TwinScan其它方法:如数字信号处理,Z曲线,等基因预测方法分类基于序列相似性的基因预测将基因组序列与EST(expressedsequencetag,表达序列标记)或cDNA等相比较(用Sim4等方法),从而找出与mRNA相对应的区域。将基因组序列与蛋白质数据库相比较(用BLASTX等方法),从而找出可能的编码区。将预测得到的多肽与蛋白质数据库相比较将基因组序列与同源性相近物种的基因组相比较,找出保守区域。优点:基于已有的生物学数据,因此结果更有生物学意义缺点:

受限于已有的生物学数据数据库可能存在的误差对于相似程度应如何定义基于同源性的基因预测法优缺点同源搜索HomologySearcha.序列局部相似比较。试图发现有生物意义保守序列,而不一定要全局相似。可以由局部相似得出两序列可能有相同功能或功能相关。b.比较得到的是相似性,并非同源性,我们必须根据相似性结合其他证据做出判断。BlastWeb:/blast/Application:/BLAST/download.shtml如何正确看待比较结果BLAST找出的结果仅仅是表示两条序列之间有局部相似,与同源性关系不大,认定功能相同或相关也不是充分的。一定要结合其他的分析结果判断。BLAST结果中相似部分需要认真仔细观察。看看相似的部分是生物上功能重要的保守部分,还是一些无关紧要的重复序列结合已知的信息(比如该蛋白不可能有某种功能和可能有某种功能),注意在比较中排在后面的是否与其他已知信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论