




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基因组注释基因组测序相关技术发展
198119861989199119941998200020022003200620072008Inthecomingfuture200920102005AffylaunchesGeneExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomatedDNAsequencerLowhangingfruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirstmicroarraypublication-onArabidopsisILMNlaunchesgeneexpressionarraysHumanGenomeProject&CeleraGenomicscompletesfirstdraftgenomeHapmapprojectlaunchedHapmap1stphasedatareleaseAffy&ILMNbothlaunched100KgenotypingarraysRiseofGenomeWideAssociationStudies(GWAS)RocheGSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD1.0Launched!TheSequencingShakeup!!SOLiD3.0:100GBoutofthebox!The3rdGenerationSequencingwillbelaunchedILMNHiSeq2000launched<2weeks~$1,0000.010.101.0010.00100.001,000.0010,000.00100,000.00$MThroughput
(Gb)CostofperHumanGenomeInnovationofNGSthroughput3Gb6Gb20-30Gb0204060801001202402007200820092010199020012012200720100.001Moore’sLaw更低的价格使得基于测序的科研和临床应用越来越被接受13years~$3,000,000,000200Gb-300Gb测序技术的发展带来测序价格的下降Illumina/Solexa/GIIxGeneticAnalyzer50~95GB/runIllumina/Solexa/HiSeq200GB/runRoche/454GenomeSequencerFLX500Mb/runAppliedBiosystemsSOLiD4100GB/runAppliedBiosystemsSOLiD/HQ300GB/run成熟的二代测序技术平台高通量测序服务未知基因组测序(Denovogenomesequencing)基因组重测序(Wholegenomeresequencing)实验数据分析MatePair测序构建Scaffold30X的覆盖率
(454&(SolexaorSOLiD))序列预处理(质量控制)基因组拼接(基于reference拼接)注释(基因功能、代谢通路、比较基因组)SNP发现及注释实验数据分析30X以上的覆盖率
(Solexa
orSOLiD)序列预处理(质量控制)基因组分型技术SNP、Indel、CNV、染色体结构变异及注释与表型相关的全基因组关联分析和功能连锁性分析高通量测序服务外显子捕获测序(Targetexomecapture)全基因组甲基化测序(DNAmethylationsequencing)实验数据分析>30X的覆盖率
(SolexaorSOLiD)序列预处理(质量控制)基因组分型技术SNP、Indel、CNV、染色体结构变异及注释与表型相关的全基因组关联分析和功能连锁性分析实验数据分析30X以上的覆盖率(Solexa
orSOLiD)序列预处理(质量控制)甲基化位点检测及注释高通量测序服务转录组测序(RNA-seqsequencing)microRNA测序(microRNAsequencing)实验数据分析mRNA打断、反转录、加接头Denovo454构建转录图谱Reference
barcode建库Solexa,SOLiD
序列预处理(质量控制)表达丰度统计注释(功能、代谢通路、表达差异比较)未知转录本的分析实验数据分析microRNA提取、两头加接头、反转录、建库
(Solexa
orSOLiD)序列预处理(质量控制)已知microRNA丰度统计未知microRNA预测及丰度统计高通量测序服务元基因组测序(meta-genomesequencing)未知病毒检测(Unknown
virusdetecting)实验数据分析DNA提取、建库序列预处理(质量控制)拼接、注释(功能、代谢通路)丰度统计、比较元基因组实验数据分析低量RNA、DNA处理、建库与宿主、微生物、病毒数据库比较未知病毒的发现及预测两种测序策略:基于BAC的方法:先把基因组打碎成200-300kb的片段并制成BAC文库,再选择一些BAC进一步打碎成3kb左右的小片段,测序并拼接。全基因组鸟枪法:把基因组直接打碎成3kb左右的小片段,测序并拼接。基于BAC的方法全基因组DNA随机打成大片段选择并克隆大片段排序,选择再打碎,克隆,测序,拼接全基因组鸟枪法基因组DNA
随机打碎
测序并拼接
拼接软件的新需求能充分利用正反向测序的配对信息,避免重复序列造成的错误拼接能处理数以百万甚至千万计的数据
程序并行化高效率比对能逐步拼接基因组注释SequenceGENESCANORFFinderGENEMARKGenePrediction…BlastnFastaHomologySearchTranscriptionRegulatoryRegionDomainIdentify(HMMER,BLIMPS)Transmembrane(TMAP,TMHMM)LocalizationSites(Psort)Physical&ChemicalPara(PI/MW,EXTCOEF)Post-translationalmodifications(NetNGlyc…)ProteinAnnotation…GeneOntologyPathwayPredictedGeneOrGene原核(Prokaryote)基因编码区启动子转录起始位点非翻译区被转录区起始密码子终止密码子5’3’上游
转录终止位点下游基因组注释SequenceGENESCANORFFinderGENEMARKGenePrediction…BlastnFastaHomologySearchTranscriptionRegulatoryRegionDomainIdentify(HMMER,BLIMPS)Transmembrane(TMAP,TMHMM)LocalizationSites(Psort)Physical&ChemicalPara(PI/MW,EXTCOEF)Post-translationalmodifications(NetNGlyc…)ProteinAnnotation…GeneOntologyPathwayPredictedGeneOrGene开放阅读框ORF
(OpenReadingFrame)一段序列从起始密码子(startcodon)开始,到终止密码子(stopcodon)结束,而且其中不包含其它终止密码子。微生物基因发现要解决的问题微生物基因组中80%-90%的序列参与编码主要问题:如果有两个或更多重叠的阅读框,哪一个是基因(假定只可能有一个)最可靠的方法–
同源搜索(使用BLAST或FASTA等)主要困难:在无已知同源性信息的情况下寻找基因预测软件GetORFWebAccess
http://bioweb.pasteur.fr/seqanal/interfaces/getorf.htmlApplication(DownloadEmboss)
GETORF:AdvancedOptions
i.Codetouse:选择不同的codonusagetable,包含有:
(1)Standard
(2)Standard(withalternativeinitiationcodons)
(3)VertebrateMitochondrial
(4)YeastMitochondrial
(5)Mold,Protozoan,CoelenterateMitochondrialandMycoplasma/Spiroplasma
(6)InvertebrateMitochondrial
(7)CiliateMacronuclearandDasycladacean
(8)EchinodermMitochondrial
(9)EuplotidNuclear
(10)Bacterial
(11)AlternativeYeastNuclear
(12)AscidianMitochondrial
(13)FlatwormMitochondrial
(14)BlepharismaMacronuclear
(15)ChlorophyceanMitochondrial
(16)TrematodeMitochondrial
(17)Scenedesmusobliquus
(18)ThraustochytriumMitochondrialGETORF:AdvancedOptionsii.最小的开放阅读框由多少个核甘酸组成,预设值为30,也就是10个氨基酸。iii.Typeofoutput:可选择不同的输入结果,包含有:
(1)TranslationofregionsbetweenSTOPcodons
(2)TranslationofregionsbetweenSTARTandSTOPcodons
(3)NucleicsequencesbetweenSTOPcodons
(4)NucleicsequencesbetweenSTARTandSTOPcodons
(5)NucleotidesflankingSTARTcodons
(6)NucleotidesflankinginitialSTOPcodons
(7)NucleotidesflankingendingSTOPcodonsfastagcgphylipemblswissncbinbrfgenbankigcodatastrideracedbstadentextfitchmsfclustalphylipphylip3asn1Metagenomics
CommunityGenomics●EnvironmentalGenomicsWhoisthere?–diversity&abundanceWhattheyaredoing?–Metabolic&interactionWhytheyarethere?–EcologicalrelationsSpeciescomplexityAcidminedrainage1 100 1000 10000SeawaterHumangutSoilThecultivation-independentanalysisofthecollectivegenomesofmicrobialpopulationsobtaineddirectlyfromtheenvironmentTheComplexityofMetagenomicsAABCDA’Isolatedgenome–singlesourceofDNAMetagenome–multiplesourceofDNAXGenomeAnnotation,Metagenomics?readsassembliesgenesannotationTraditionalgenomicsreadsassembliesORFsannotationMetagenomics???
HugeMultipleorganismsFragmental
HugePartialORFsWrongORFsQ:Solution?
A:Clustering.ProteinfamiliesNovelfamiliesORFvalidation
HugeMultipleorganismsUnevencoverage真核生物的基因的完整结构
及它的表达过程transcriptionRNAsplicingproteintranslationexon1DNAexon2exon3intron1intron2promotergtgtagagupstreamdownstream5’UTR3’UTRgtgtagagPrimaryRNAtranscript3`5’MatureRNAUTSuga,uaa,uag3`aaa…5’基因识别找出在一段DNA序列中,是否存在ORF,亦及“基因”。判明基因的结构,包括起止位置,外显子/内含子边界,启动子,polyA区域,非转译区(UTR)等。预测真基因和“假基因”(pseudogene)及可能的剪切位点。基于同源性的基因预测法“从头开始”(Abinitio)预测法综合使用以上两种方法:如TwinScan其它方法:如数字信号处理,Z曲线,等基因预测方法分类基于序列相似性的基因预测将基因组序列与EST(expressedsequencetag,表达序列标记)或cDNA等相比较(用Sim4等方法),从而找出与mRNA相对应的区域。将基因组序列与蛋白质数据库相比较(用BLASTX等方法),从而找出可能的编码区。将预测得到的多肽与蛋白质数据库相比较将基因组序列与同源性相近物种的基因组相比较,找出保守区域。优点:基于已有的生物学数据,因此结果更有生物学意义缺点:
受限于已有的生物学数据数据库可能存在的误差对于相似程度应如何定义基于同源性的基因预测法优缺点同源搜索HomologySearcha.序列局部相似比较。试图发现有生物意义保守序列,而不一定要全局相似。可以由局部相似得出两序列可能有相同功能或功能相关。b.比较得到的是相似性,并非同源性,我们必须根据相似性结合其他证据做出判断。BlastWeb:/blast/Application:/BLAST/download.shtml如何正确看待比较结果BLAST找出的结果仅仅是表示两条序列之间有局部相似,与同源性关系不大,认定功能相同或相关也不是充分的。一定要结合其他的分析结果判断。BLAST结果中相似部分需要认真仔细观察。看看相似的部分是生物上功能重要的保守部分,还是一些无关紧要的重复序列结合已知的信息(比如该蛋白不可能有某种功能和可能有某种功能),注意在比较中排在后面的是否与其他已知信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 硫酸锌生产工艺与环保处理考核试卷
- 森林改培与生态保护与森林资源合理开发考核试卷
- 玻璃泵阀制造考核试卷
- 空调器湿度传感器的选型与优化考核试卷
- 纸板容器盈利模式分析考核试卷
- 森林资源调查方法与实务操作考核试卷
- 组织领导力发展与绩效改进考核试卷
- 苏州工艺美术职业技术学院《幼儿园课程与教学》2023-2024学年第二学期期末试卷
- 四川省自贡市普高2025年招生全国统一考试仿真卷(七)-高考物理试题仿真试题含解析
- 南京财经大学红山学院《传播中的法与理》2023-2024学年第二学期期末试卷
- 高中地理气候的分布规律试题及答案
- (新版)知识产权知识竞赛考试题库(含答案)
- 民宿合作协议
- (2025)全国交管12123学法减分测试题库及答案(带图版)
- 篮球裁判员手册
- 2025年开封文化艺术职业学院单招职业技能测试题库及参考答案
- 教师课题研究中的常见问题与解决策略
- 【沪教】期中模拟卷02【U1~U4】
- DB34-4239-2022 医院保洁服务规范
- 2025年北师大版数学六年级下册教学计划(含进度表)
- 2025年海南港航控股有限公司招聘笔试参考题库含答案解析
评论
0/150
提交评论