基因组测序的原理与方法_第1页
基因组测序的原理与方法_第2页
基因组测序的原理与方法_第3页
基因组测序的原理与方法_第4页
基因组测序的原理与方法_第5页
已阅读5页,还剩121页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大规模基因组测序的

原理与方法

基因组测序的原理与方法

元素周期表的发现奠定了二十世纪物理、化学研究和发展的基础元素周期表“基因组序列图”将奠定二十一世纪生命科学研究和生物产业发展的基础!

“基因组”----生命科学的“元素周期表”人体解剖图奠定了现代医学发展的基础基因组测序的原理与方法生命的奥秘蕴藏于“四字天书”之中…GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCATCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCTCCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATCTCGCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT…基因组测序的原理与方法基因组学的基础理论研究基因组学是要揭示下述四种整合体系的相互关系:基因组作为信息载体

(碱基对、重复序列的整体守恒与局部不平衡的关系)基因组作为遗传物质的整合体

(基因作为功能和结构单位与遗传学机制的关系)基因组作为生物化学分子的整合体

(基因产物作为功能分子与分子、细胞机制的关系)物种进化的整合体

(物种在地理与大气环境中的自然选择)基因组测序的原理与方法

基因组学是一个大学科“界门纲目科属种”,地球上现存物种近亿,所有生生灭灭的生物,无一例外,都有个基因组。基因组作为信息载体,它所储存的信息是最基本的生物学信息之一;既是生命本质研究的出发点之一,又是生物信息的归宿。基因组学研究包括对基因产物(转录子组和蛋白质组)的系统生物学研究。基因多态性的规模化研究就是基因组多态性的研究。基因组学的研究必然要上升到细胞机制、分子机制和系统生物学的水平。基因组的起源与进化和物种的起源与进化一样是一个新的科学领域。基因组信息正在以天文数字计算,规模化地积累,它的深入研究必将形成一个崭新的学科。基因组测序的原理与方法

基因组学是一门大科学基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化、内在规律、和相互关系。基因组的信息含量高。基因组学的研究又在于基因组间的比较。基因组学的复杂性必然导致多学科的引进和介入(各生物学科、医学、药学、计算机科学、化学、数学、物理学、电子工程学、考古学等)。基因组学研究的手段和技术已经走在生命科学研究的最前沿。基因组信息来自于高效率和规模化所产生的实验数据。人类基因组计划证明了基因组研究的迫切性和可行性。基因组测序的原理与方法基因组与生命之谜基因组的产生与进化。基因组DNA组分的变化、GC百分比、嘌呤:嘧啶守恒。遗传密码的发生、发展和进化。内含子(尤其是大于100,000核苷酸的大内含子)剪出后的运输和降解。最小内含子的生物学意义。动物基因组与植物基因组在基因分布上的共性和个性。物种衍变过程中基因组水平的变化。基因组大小变化与遗传、分子、细胞机制的关系。“JUNKDNA”的发生、分类、进化与功能。基因组测序的原理与方法测序设备的垄断和高速度换代199020052020Year2015201020001995Mb1000Mb4000ABI373ABI377ABI3130ABI3730ABI3730xlGA-I

GA-IILessThan5yrsHiSeq1000/2000Mb4500ABI3700ABI3700xlSOLiDSOLiD2SOLiD35500xlSOLiDABI3130xlGA-IIx5500SOLiD8基因组测序的原理与方法测序设备发展现状第一代(稳定需求)ABi3130xL3730xL3500xL第三代(即将面市)HelicosBiosciencesHelicosGeneticAnalysisSystemPacificBiosciencesRSSystem第二代(高速发展)RocheGenomeSequencerFLXSystemGSJuniorSystemIlluminaGenomeAnalyzerIIxMiSeqHiSeq1000HiSeq2000LifeTechnologies(ABi)5500SOLiD™System5500xLSOLiD™SystemIon

TorrentPGM™DanaherMotionPolonatorG.007CompleteGenomics无锡艾吉因生物信息技术有限公司AG-100深圳华因康基因科技有限公司Pstar-1中科院北京基因组所/半导体所BIGIS-1BIGIS-49基因组测序的原理与方法大规模基因组测序的几个支撑技术

Sanger双脱氧末端终止法

PCR技术

DNA自动测序仪的发展生物信息学分析软硬件设施基因组测序的原理与方法“双脱氧末端终止”的含义基因组测序的原理与方法

PCR(聚合酶链式反应)原理反应所需物质:DNA模板、引物、DNA聚合酶、dNTP、缓冲液每个循环包括:变性(90℃)、退火(54

℃)、延伸(72℃)基因组测序的原理与方法Sanger双脱氧末端终止法测序原理基因组测序的原理与方法大规模基因组测序的

两种策略逐步克隆法(ClonebyClone)全基因组霰弹法(WholeGenomeShot-gun)基因组测序的原理与方法………ATGCCGTAGGCCTAGCTAGGCCTAGCTCGGA……………ATGCCGTAGGCCTAGCTCGGA……基因组DNABAC文库根据物理图谱正确定位的BAC或contig用于霰弹法测序的候选克隆用于霰弹法测序的亚克隆测序并组装完整的基因组序列逐步克隆法(ClonebyClone)

全基因组霰弹法(WholeGenomeShot-gun)基因组DNA

霰弹法克隆测序并进行全基因组序列组装完整的基因组序列基因组测序的原理与方法

两种大规模基因组测序策略的比较

项目

策略全基因组霰弹法逐步克隆法

遗传背景不需要需要(需构建精确的物理图谱)速度快慢费用低高计算机性能高(以全基因组为单位进行拼接)低(以BAC为单位进行拼接)适用范围工作框架图精细图代表测序物种果蝇、水稻人、线虫基因组测序的原理与方法BACbyBACWholeGenomeShotgun…thesequencingofthehumangenomeislikelytobetheonlylargesequencingprojectcarriedtocompletionbythemethodsdescribedinthisissue.MaynardV.Olson,Themaps:Clonebyclonebyclone,Nature409,816-818(2001)基因组测序的原理与方法“WorkingDraft”(90%;4X)FinishedGenome(99.99%;8X)Gap1Gap2Chromosome工作草稿(框架图)与完成图基因组测序的原理与方法BACbyBAC

基因组测序的原理与方法ThesequenceofthehumangenomeC.Venteretal.Science16Feb.291:1304–1351,2001基因组测序的原理与方法人类基因组计划研究的主要成果和进展表现在这“四张图”上

遗传图谱

又称为连锁图谱(linkagemap),指基因或DNA标志在染色体上的相对位置与遗传距离物理图谱

以定位的DNA标记序列如STS作为路标,以DNA实际长度即bp、kb、Mb为图距的基因组图谱。转录图谱

利用EST(expressedsequencetags

表达序列标签)作为标记所构建的分子遗传图谱序列图谱

通过基因组测序得到的,以A、T、G、C为标记单位的基因组DNA序列

基因组测序的原理与方法逐步克隆法(ClonebyClone)物理图谱的构建大片段克隆的筛选霰弹法测序与“工作框架图”的构建序列的全组装与“完成图”构建基因组测序的原理与方法物理图谱的制作

基因组测序的原理与方法物理图谱的制作——序列标签位点(STS)作图

物理图谱是以特异的DNA序列为标志所展示的染色体图。标志之间的距离或图距以物理距离如碱基对(basepair;bp,Kb,Mb)表示。最精细的物理图是核苷酸顺序图,最粗略的物理图是染色体组型图。

STS图谱是最基本和最为有用的染色体物理图谱之一,STS(SequenceTaggedSite)本身是随机地从人类基因组上选择出来的长度在200~300bp左右的特异性短序列(每个STS在基因组中是唯一的,STS图谱就是以STS为路标(平均每100Kb一个),将DNA克隆片段有序地定位到基因组上。STS的来源随机基因组序列表达基因序列,如EST遗传标记序列,如微卫星标记有关STS的信息可在基因组数据库GDB中找到.gdb.org基因组测序的原理与方法物理图谱构建的步骤确定各STS序列及其在基因组中的位置大插入片段基因组文库的构建(BAC文库)

以特定STS为标记筛选并定位克隆含有STS的克隆在基因组中排序基因组数据库(GDB)中至少含有24568个STS路标信息

基因组测序的原理与方法关于文库作为载体的基本要求

能在宿主细胞中进行独立的复制具有多克隆位点,可插入外源

DNA片段有合适的筛选标记,如抗药性大小合适,易于分离纯化拷贝数多

文库的概念

含有某种生物体全部基因的随机片段的重组DNA克隆群体载体:能携带外源DNA进入宿主细胞的工具,常用的载体有质粒载体、噬菌体载体、细菌人工染色体等宿主:能容纳外源DNA片段的生物体,常用的有大肠杆菌、酵母等基因组测序的原理与方法BAC文库的构建NotI、SacI脉冲场凝胶电泳得200Kb左右的大片段DNA

纯化后与载体连接

电转化,将连接产物导入大肠杆菌感受态细胞插有外源DNA片段的BAC载体在含有氯霉素的固体培养基中培养每一个菌落为带有相同外源DNA片段的单克隆基因组测序的原理与方法BAC克隆的筛选“STS-PCR反应池”方案筛选种子克隆特定的STS标记

相互间具有重叠片段的BAC克隆根据STS信息组装成contig,并定位于基因组上Contig每一个菌落为带有相同外源DNA片段的单克隆基因组测序的原理与方法基因组测序的原理与方法Regionalmapping基因组测序的原理与方法Regionalmapping基因组测序的原理与方法Minimaltilingpathselectedforsequencing.Regionalmapping基因组测序的原理与方法BeijingMap基因组测序的原理与方法基因组测序的原理与方法共48个每组8个每8个96孔板组成1个superpool,384个96孔板组成48个superpools

48superpools基因组测序的原理与方法

Columnpools

Rowpools

123456789101112第八板第二板Platepools第一板

platepools,rowpools,columnpools的构成

基因组测序的原理与方法“STS-PCR反应池”方案(PoolingProtocol)

1234567891011

12超级池(8个96孔板,共768个克隆)板池(96个克隆)行池(12个克隆)列池(8个克隆)大大减少筛选的工作量,降低成本,所得筛选结果准确可靠

28

VS

768基因组测序的原理与方法sheetofsuperpools,platepools,rowpools,columnpools

基因组测序的原理与方法

一BACScreening前48个样品为引物OGG1.51对superpool(sp)的筛选结果后48个样品为引物OGG1.52对superpool(sp)的筛选结果

基因组测序的原理与方法引物OGG1.52对应sp#27,34,45的plate,row,columnpools的筛选结果基因组测序的原理与方法BACclone确定

(+为阳性克隆)

基因组测序的原理与方法引物OGG1.52的Colony-PCR

基因组测序的原理与方法延伸克隆的筛选

STS的密度尚未达到绘制高精度物理图谱的要求,且在基因组中的分布不均匀,造成很多区域没有阳性克隆覆盖,形成空洞。因此需用指纹图谱(FPC法)或末端序列(WalkingbyEndSequence)步移等手段对种子克隆进行延伸,形成连续克隆群。利用延伸方法筛选得到的克隆称为延伸克隆。

Contig1Contig2重叠序列重叠序列延伸引物筛选到的延伸克隆基因组测序的原理与方法>20kb~300bpMolecularweightmarkerevery5thlaneBACclones在96深孔板中培养-HindIII完全酶切-1%琼脂糖凝胶电泳

指纹图谱法

(WalkingbyFingerprintingdatabase)

挑取靠近空洞的种子克隆,酶切构建其指纹图谱,在FPC数据库中进行比对,搜索含有此克隆的重叠克隆群信息,从中确定覆盖空洞区域的克隆,达到延伸目的。基因组测序的原理与方法HindIII完全酶切HindIII完全酶切FPC数据库中比对CloneACloneBCloneCCAB基因组测序的原理与方法contig搭建中克隆的错位

基因组测序的原理与方法末端序列步行法(WalkingbyEndSequence)

挑取靠近空洞的种子克隆进行末端测序,然后在基因组数据库中进行比对,确定专一性的序列片段作为新的STS路标。最后设计新路标的PCR引物,按照STS—PCR“反应池”方案筛选新的克隆,达到延伸的目的。克隆350A18序列输入endsequencedatabase的查询结果基因组测序的原理与方法四、CloneIdentification

1、STS-PCR

2、BACendsequencing

3、Fingerprinting

4、FISH

基因组测序的原理与方法CK2CK1CK2CK113f06267l16481o07250a15204c23340j13对15个克隆进行HindIII酶切后电泳结果

基因组测序的原理与方法基因组测序的原理与方法“工作框架图”绘制根据序列与STSdatabase进行blastn比较结果,将克隆定位末端序的比较,判定延伸在contig外的一端序列。并可及时进行walking,筛选新的克隆

基因组测序的原理与方法霰弹法测序组装与Finishing基因组测序的原理与方法工作流程图

基因组测序的原理与方法ShotgunSequencingI:RANDOMPHASEBacClone:100-200kbShearedDNA:1.0-2.0kbSequencingTemplates:RandomReads基因组测序的原理与方法ShotgunSequencingII:ASSEMBLYConsensusSequenceGap

LowBaseQualitySingleStrandedRegionMis-Assembly(Inverted)基因组测序的原理与方法ConsensusSequenceGap

LowBaseQualitySingleStrandedRegionMis-Assembly(Inverted)ShotgunSequencingIII:FINISHING基因组测序的原理与方法ConsensusSequenceGap

SingleStrandedRegionMis-Assembly(Inverted)ShotgunSequencingIII:FINISHING基因组测序的原理与方法ConsensusSequenceGap

Mis-Assembly(Inverted)ShotgunSequencingIII:FINISHING基因组测序的原理与方法ConsensusMis-Assembly(Inverted)ShotgunSequencingIII:FINISHING基因组测序的原理与方法ShotgunSequencingIII:FINISHINGHighAccuracySequence:<1error/10,000bases基因组测序的原理与方法Consed软件显示序列组装结果界面

1、Filling“intraclonegaps”基因组测序的原理与方法BAC-----453F3’sfinishing>>Sp6<<T7?First4primers1234Allthecontigswalkedhundreds’bpstowardthegaps.453F3’s2600reads12contigsOverlappingBAC-454F24’s200reads+>>Sp6<<T71324abcSecond3primers

1200bp’sAT-rich,(CATATATA)nrepeat.Finally,filledbyusingETsequencingKit.

1240bp’sGC-rich,GC-contentis69.03%;theBAC’sis39.98%.WeuseddGTPKitfillingit.>>Sp6<<T7Completedsequence基因组测序的原理与方法

SequencedcloneBACselectedbyend-sequence113L10324K11173F11101A4167P17586C2116K5572B22544N5R-155E142006P232306M15R-149E1560K?Gapfillingbyendsequences2、Filling“interclonegaps”基因组测序的原理与方法

TheactualandpredictedfingerprintofR-260J13digestedwithHindIII

Lane1:marker,Lane2:R-260J13digestedwithHindIII,3:thepredicted

基因组测序的原理与方法克隆211B19组装后的序列的错误率为零

基因组测序的原理与方法WholeGenomeShotgun

基因组测序的原理与方法Thisbacteriumhasacirculargenomestructurewith2,689,445basepairs,thesecondlargestoneofthermophilesdecodedcompletelytodate.CircularrepresentationofthegenomeofT.tengcongensis

基因组测序的原理与方法Whatisunderheavenisforall.

SunYat-sen,thefatherofmodernChina

天下为公DDBJ/EMBL/GenBank:AAAA01000000基因组测序的原理与方法国际一流测序生产线7万克隆,3000万碱基/天高产出、低成本:$/bp¥/bp美分/bp分/bp基因组学:数据导向的大科学有数据才是硬道理世上无难事只要肯登攀基因组测序的原理与方法Contigs:127,550

(N50=6,688bp)Scaffolds:102,444(N50=11,764bp)Quality:546bpatQ20基因组测序的原理与方法DeNovoSequencingtheGenomeinBIGHuSongnianBeijingInstituteofGenomics,ChineseAcademyofSciencesNextGenerationSequencing(NGS)Technology基因组测序的原理与方法Secondgenerationsequencers4541Solexa3SOLiD5DenovosequencingRNA-seq,Re-sequencingChIP-seq,Meth-seqMetagenomicsDenovosequencingRNA-seqRe-sequencingChIP-seqRNA-seq“known”GenomeNovelgenome(s)Bothtypes基因组测序的原理与方法1x4545xSOLiD4.02x5500xl3xSOLEXA2xHiseq20003x3730xl1xsequenom1000CPUcores800TBStorage数据中心完善的试验与测序体系和流程强有力的计算、存储及数据库支持体系成熟的生物信息数据处理和分析流程2023/7/6基因组测序的原理与方法SecondgenerationsequencersinBIG测序仪PlatformNumRaw/runlengthSolid4580~100Gb50bpGAII340~60Gb120bp4541400Mb400bpSolid5500xl0150~200Gb50bpHiseq20001200~300Gb100bp高通量测序仪10台,3730XL测序仪2台,Sequenom仪器1台,高性能计算机刀片服务器100余台,大内存服务器4台,存储设备约800TB。基因组测序的原理与方法测序平台SOLiDSolexaGA454DNAFragment2-5ug2-5ug2-5ugPair-end2-5ug2-5ugMate-pair5-100ug5-100ug5-100ugRNA转录组10-20ug10ug10ugSmallRNA10-15ug10-15ugMicroRNA40-50ug40-50ug建库时间1-2周1-2周1-2天上机时间单向6天双向12天单向5天双向10天10小时基因组测序的原理与方法SequencingGlossaryReads.Acollectionofclonesthatover-samplethetargetgenome.Pair-endreads.Sequencereadsderivedfrombothendsofasequencing-libraryclone.Mate-pairreads.Sequencereadsderivedfrombothendsofamate-pairlibraryclonewhichinsertsizeisusually>1kb.Insertsize.Thesizeoftheclone-insertfromwhichaclone-endpairistaken.Contig.

Theresultofjoininganoverlappingcollectionofsequencereads.Scaffold.

Theresultofconnectingnon-overlappingcontigsbyusingpair-endreads.N50size.Asappliedtocontigsorscaffolds,thatsizeabovewhich50%oftheassembledsequencecanbefound.基因组测序的原理与方法GenomeassemblystrategyContigassemblyScafffoldingInternalgapclosing基因组测序的原理与方法RecentwholegenomesequencingprojectsTable.BasicinformationofRrecentlysequencedgenomes.OrganismGenomesizestrategyCoverageContigScafffolds#N50MaxTotal#N50MaxTotalHuman3.0GbSolexa45x2.76M1.5Kb18.8Kb2.18GbNRNRNRNRApple742.3MbSangr+4544.4x+12.5x122,14616,171NR603.9Mb1,629102KbNR598.3Castor320MbSanger4.59x54,00021.1kb190kb324Mb25,828496.5kb4.7Mb350.6MbGrapevine500MbSangr+4547x+4.2x58,61118.2Kb238kb531Mb2,0931.33Mb7.8Mb421MbPanda2.4GbSolexa74x200,60436,728434,6352.25Gb81,4961.22Mb6.05Mb2.30GbStraberry220Mb454+solexa+solid24.5x+6.4x+6.4x16,48728,072215,349202Mb3,2631.44Mb4.1Mb214MbCacoo430Mb454+sanger+solexa16.7x+44x25,91219.8kb190Kb291.44,792473.8Kb3415Kb326.9MbTomato900Mb454+sanger+solexa+solid31x+3.6x+82x+140x110,87255.7kbNR763Mb3,7614.45MbNR782MbPotato840Mb454+solexa+solid11x+106x+0.2x111,18731KbNR683Mb66,301387KbNR727Mb基因组测序的原理与方法基因组测序的原理与方法

FlowchartoftheWGSdenovoassemblyGenomicDNADNAfragmentation,constructfragmentedlibrariesGeneratesequencingreadsusing454technologySequencingerrorcorrectionOutputcontigsFillinintra-scaffoldgapsandgetthefinalscaffoldsGenomicDNADNAfragmentation,constructpaired-endlibrarieswithvariantinsertsizesGeneratesequencingreadsusingIlluminaGAtechnologySequencingpre-processOutputcontigsandminiscaffoldsSolexapart454partHybridassemblyandscffolding基因组测序的原理与方法

454readsprocessRawreadsKmerevaluationQ20,removeadaptor,trimSequencingpre-processNewblerassemblyAssembledreadsUnassembledreadsUnigenecoverageKmerevaluationSolexamappingNr/NtblastContigstatusAssemblyHybridscaffolding基因组测序的原理与方法

SolexareadsprocessRawreadsKmerevaluationSequencingpre-processSoapassemblyAssembledreadsUnassembledreadsUnigenecoverageKmerevaluationSolexamappingNr/NtblastContigstatusAssemblyMappingto454contigHybridscaffoldingCov/Comp基因组测序的原理与方法longreadsassemblycontigsshortreadsA+C–B–scaffoldingA+B–C–scaffoldsFixgapHybridassembly基因组测序的原理与方法ESTUnigeneScafAScafCScafBScafDNewScafABCDESTbasedAssemblyinshortreadsofNGS:ConstructeBIGerScaffording基因组测序的原理与方法Rawsequencingreadspre-processingISignificanceandpurposeSequencinglibraryqualitycontrolSequencingbiasanalysisInheritedprosperitiesoncertainsecondgenerationsequencerGenomesequencingblackholeeffectTranscriptomesamplingandquantificationbiasReadyformappingReadyfordenovoassembly基因组测序的原理与方法Rawsequencingreadspre-processingIISequencingreadsnumbersDuplicatesdetection,regionaldistributionanalysisandtrimmingAdapterdetectionandtrimmingReadsqualityanalysisandlowqualityreadsfilterAveragequalitydensitydistributionAveragequalitypositionaldistributionregionaldistributionF-RcorrelationGCcontent-qualitycorrelationInsertlengthdistribution

Pipeline基因组测序的原理与方法rawdatapre-process基因组测序的原理与方法ImageanalysisandbasecallingGOATpipeline(OLB1.6),CASAVA基因组测序的原理与方法QualityControlGERALDSummary.htmLaneLaneYield(kbases)Clusters(raw)Clusters(PF)1stCycleInt(PF)%intensityafter20cycles(PF)%PFClusters%Align(PF)AlignmentScore(PF)%ErrorRate(PF)152630597464+/-487887676+/-921975+/-2186.17+/-5.2589.76+/-5.9599.06+/-0.25102.41+/-1.621.30+/-0.22基因组测序的原理与方法FastqandQualitySolexareadsoftheFastqformats_1_1_sequence.txt…@HWI-EAS724_0001:8:32:374:374#0/1GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTATAAAGTCTGCTAAAATAAAGGTACAACG+HWI-EAS724_0001:8:32:374:374#0/1fcfcfggdfggggfggggcggggggggfgggggcgggfWgggggggggfgcggdgcgcggggfacbbb][bgcgggggds_1_2_sequence.txt…@HWI-EAS724_0001:8:32:374:374#0/2TACCGTTAATAGCAGTAATATCATAATAGTAATAGCATCATAACGGTAGTCCCATAAAAGTGTGTCAGTAGTAGTAGTA+HWI-EAS724_0001:8:32:374:374#0/2ggggfgggggd_adcggggeggfggeggegf`geececdegggggfegcfegggegggfgac[aced`bd__\_c[[YbIllumina1.3formatencodesaPhredqualityscorefrom0to40usingASCII64to104errorprobability(p):#forsolexa:p=0.01,Q=19;p=0,05,Q=12.8,p=0.10,Q=9.5;#forphred:p=0.01,Q=20;p=0,05,Q=13,p=0.10,Q=10;基因组测序的原理与方法DataassessmentI–Readqualitydistribution基因组测序的原理与方法LowQualityHighQuality

Trim:3’endtrimifQN<20Filter:Percent(hightqualityQ>30)>60Assessment:DistanceDistrubitionbetweentwoLowquality(Q<20)基因组测序的原理与方法454dinucleotideproportioncheck454rawreadsquality基因组测序的原理与方法DataassessmentII–Libraryinsertsize基因组测序的原理与方法Numbersofreadswithnon-insertDNA(fulllengthadapter)indifferentinsertsizelibraries

基因组测序的原理与方法DataassessmentIII–MappingRate基因组测序的原理与方法SolexaSequencingDataUsagein500bpLibraryDataassessmentIV–Duplicationassessment基因组测序的原理与方法DuplicatesdetectionandfilterFRNN2NQaverage>20?基因组测序的原理与方法Lanedatausageindifferentsolexalibrary

-Fiterduplicationreads基因组测序的原理与方法AverageReadsperStartPoint基因组测序的原理与方法ReadCorrection

CorrectIlluminaGAshortreadsKmer=17GenomeSizePrediction:M=N*(L-K+1)/LN=TotalLength(bp)/GenomesizeL=AverageRadsLength(bp)M基因组测序的原理与方法GenomesizeestimationusingKmerBeforeestimatingthegenomesize,wesetahypothesis:thek-merwepickedoutfromthegenomecanergodicthewholegenomesequence.AccordingtotheLanderwatermanalgorithm,thealgorithmshouldberepresentedas:

G=Knum/KdepthHere,Gisthegenomesize,Knumisthetotalnumberofk-merandKdepthistheexpecteddepthofthek-mer.Ifweobtaintheexpecteddepthofk-mer,wecancalculatethegenomesize.Becausethedistributionofk-merfrequencyyieldstoPoissondistribution,wecanconsiderthepeakofthek-merdistributioncurveastheexpecteddepthofk-merandcalculatethegenomesize.Note:Atotalof15,437,084,746Kmers,thepeakvalueontherightfigureis8,sothegenomesizeisestimatedas:15,437,084,746/8=1.93G基因组测序的原理与方法HighQualityReadRateafterpreprocessAssembly:RawdataVSpreprocessedData?基因组测序的原理与方法QuestionsGenomesizeestimationmethods(K-mer&Cov)Assemblyoptimization(parameters)Assemblyevaluation(454_SolexaEST)Unmappablesolexareadsreuse(filter->assemble)Scaffoldingcomparison(ABI&BIG&Bambus&blat)

solexatosolidfeasible?Assemblyassessment(BAC,3730,necessary?)基因组测序的原理与方法SequencingStrategyforsolexaSamplepreperFragmentorPairedEndorMatePairSequencingdifferentlibraries:Datacoverage(<=500bp),Data300/Data500=?Datacoverage(>500bp).10X,20X…..Largergenomesize,L

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论