生物信息资源 基因组测序的原理与方法学习资料_第1页
生物信息资源 基因组测序的原理与方法学习资料_第2页
生物信息资源 基因组测序的原理与方法学习资料_第3页
生物信息资源 基因组测序的原理与方法学习资料_第4页
生物信息资源 基因组测序的原理与方法学习资料_第5页
已阅读5页,还剩128页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大规模基因组测序的

原理与方法胡松年husn@

元素周期表的发现奠定了二十世纪物理、化学研究和发展的基础元素周期表“基因组序列图”将奠定二十一世纪生命科学研究和生物产业发展的基础!

“基因组”----生命科学的“元素周期表”人体解剖图奠定了现代医学发展的基础生命的奥秘蕴藏于“四字天书”之中…GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCATCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCTCCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATCTCGCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT…基因组学的基础理论研究基因组学是要揭示下述四种整合体系的相互关系:基因组作为信息载体

(碱基对、重复序列的整体守恒与局部不平衡的关系)基因组作为遗传物质的整合体

(基因作为功能和结构单位与遗传学机制的关系)基因组作为生物化学分子的整合体

(基因产物作为功能分子与分子、细胞机制的关系)物种进化的整合体

(物种在地理与大气环境中的自然选择)

基因组学是一个大学科“界门纲目科属种”,地球上现存物种近亿,所有生生灭灭的生物,无一例外,都有个基因组。基因组作为信息载体,它所储存的信息是最基本的生物学信息之一;既是生命本质研究的出发点之一,又是生物信息的归宿。基因组学研究包括对基因产物(转录子组和蛋白质组)的系统生物学研究。基因多态性的规模化研究就是基因组多态性的研究。基因组学的研究必然要上升到细胞机制、分子机制和系统生物学的水平。基因组的起源与进化和物种的起源与进化一样是一个新的科学领域。基因组信息正在以天文数字计算,规模化地积累,它的深入研究必将形成一个崭新的学科。

基因组学是一门大科学基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化、内在规律、和相互关系。基因组的信息含量高。基因组学的研究又在于基因组间的比较。基因组学的复杂性必然导致多学科的引进和介入(各生物学科、医学、药学、计算机科学、化学、数学、物理学、电子工程学、考古学等)。基因组学研究的手段和技术已经走在生命科学研究的最前沿。基因组信息来自于高效率和规模化所产生的实验数据。人类基因组计划证明了基因组研究的迫切性和可行性。基因组与生命之谜基因组的产生与进化。基因组DNA组分的变化、GC百分比、嘌呤:嘧啶守恒。遗传密码的发生、发展和进化。内含子(尤其是大于100,000核苷酸的大内含子)剪出后的运输和降解。最小内含子的生物学意义。动物基因组与植物基因组在基因分布上的共性和个性。物种衍变过程中基因组水平的变化。基因组大小变化与遗传、分子、细胞机制的关系。“JUNKDNA”的发生、分类、进化与功能。大规模基因组测序的几个支撑技术

Sanger双脱氧末端终止法

PCR技术

DNA自动测序仪的发展生物信息学分析软硬件设施“双脱氧末端终止”的含义

PCR(聚合酶链式反应)原理反应所需物质:DNA模板、引物、DNA聚合酶、dNTP、缓冲液每个循环包括:变性(90℃)、退火(54

℃)、延伸(72℃)Sanger双脱氧末端终止法测序原理大规模基因组测序的

两种策略逐步克隆法(ClonebyClone)全基因组霰弹法(WholeGenomeShot-gun)………ATGCCGTAGGCCTAGCTAGGCCTAGCTCGGA……………ATGCCGTAGGCCTAGCTCGGA……基因组DNABAC文库根据物理图谱正确定位的BAC或contig用于霰弹法测序的候选克隆用于霰弹法测序的亚克隆测序并组装完整的基因组序列逐步克隆法(ClonebyClone)

全基因组霰弹法(WholeGenomeShot-gun)基因组DNA

霰弹法克隆测序并进行全基因组序列组装完整的基因组序列

两种大规模基因组测序策略的比较

项目

策略全基因组霰弹法逐步克隆法

遗传背景不需要需要(需构建精确的物理图谱)速度快慢费用低高计算机性能高(以全基因组为单位进行拼接)低(以BAC为单位进行拼接)适用范围工作框架图精细图代表测序物种果蝇、水稻人、线虫BACbyBACWholeGenomeShotgun…thesequencingofthehumangenomeislikelytobetheonlylargesequencingprojectcarriedtocompletionbythemethodsdescribedinthisissue.MaynardV.Olson,Themaps:Clonebyclonebyclone,Nature409,816-818(2001)“WorkingDraft”(90%;4X)FinishedGenome(99.99%;8X)Gap1Gap2Chromosome工作草稿(框架图)与完成图BACbyBAC

ThesequenceofthehumangenomeC.Venteretal.Science16Feb.291:1304–1351,2001人类基因组计划研究的主要成果和进展表现在这“四张图”上

遗传图谱

又称为连锁图谱(linkagemap),指基因或DNA标志在染色体上的相对位置与遗传距离物理图谱

以定位的DNA标记序列如STS作为路标,以DNA实际长度即bp、kb、Mb为图距的基因组图谱。转录图谱

利用EST(expressedsequencetags

表达序列标签)作为标记所构建的分子遗传图谱序列图谱

通过基因组测序得到的,以A、T、G、C为标记单位的基因组DNA序列

逐步克隆法(ClonebyClone)物理图谱的构建大片段克隆的筛选霰弹法测序与“工作框架图”的构建序列的全组装与“完成图”构建物理图谱的制作

物理图谱的制作——序列标签位点(STS)作图

物理图谱是以特异的DNA序列为标志所展示的染色体图。标志之间的距离或图距以物理距离如碱基对(basepair;bp,Kb,Mb)表示。最精细的物理图是核苷酸顺序图,最粗略的物理图是染色体组型图。

STS图谱是最基本和最为有用的染色体物理图谱之一,STS(SequenceTaggedSite)本身是随机地从人类基因组上选择出来的长度在200~300bp左右的特异性短序列(每个STS在基因组中是唯一的,STS图谱就是以STS为路标(平均每100Kb一个),将DNA克隆片段有序地定位到基因组上。STS的来源随机基因组序列表达基因序列,如EST遗传标记序列,如微卫星标记有关STS的信息可在基因组数据库GDB中找到http://gdbwww.gdb.org物理图谱构建的步骤确定各STS序列及其在基因组中的位置大插入片段基因组文库的构建(BAC文库)

以特定STS为标记筛选并定位克隆含有STS的克隆在基因组中排序基因组数据库(GDB)中至少含有24568个STS路标信息

关于文库作为载体的基本要求

能在宿主细胞中进行独立的复制具有多克隆位点,可插入外源

DNA片段有合适的筛选标记,如抗药性大小合适,易于分离纯化拷贝数多

文库的概念

含有某种生物体全部基因的随机片段的重组DNA克隆群体载体:能携带外源DNA进入宿主细胞的工具,常用的载体有质粒载体、噬菌体载体、细菌人工染色体等宿主:能容纳外源DNA片段的生物体,常用的有大肠杆菌、酵母等BAC文库的构建NotI、SacI脉冲场凝胶电泳得200Kb左右的大片段DNA

纯化后与载体连接

电转化,将连接产物导入大肠杆菌感受态细胞插有外源DNA片段的BAC载体在含有氯霉素的固体培养基中培养每一个菌落为带有相同外源DNA片段的单克隆BAC克隆的筛选“STS-PCR反应池”方案筛选种子克隆特定的STS标记

相互间具有重叠片段的BAC克隆根据STS信息组装成contig,并定位于基因组上Contig每一个菌落为带有相同外源DNA片段的单克隆RegionalmappingRegionalmappingMinimaltilingpathselectedforsequencing.RegionalmappingBeijingMap共48个每组8个每8个96孔板组成1个superpool,384个96孔板组成48个superpools

48superpools

Columnpools

Rowpools

123456789101112第八板第二板Platepools第一板

platepools,rowpools,columnpools的构成

“STS-PCR反应池”方案(PoolingProtocol)

1234567891011

12超级池(8个96孔板,共768个克隆)板池(96个克隆)行池(12个克隆)列池(8个克隆)大大减少筛选的工作量,降低成本,所得筛选结果准确可靠

28

VS

768sheetofsuperpools,platepools,rowpools,columnpools

BACScreening前48个样品为引物OGG1.51对superpool(sp)的筛选结果后48个样品为引物OGG1.52对superpool(sp)的筛选结果

引物OGG1.52对应sp#27,34,45的plate,row,columnpools的筛选结果BACclone确定

(+为阳性克隆)

引物OGG1.52的Colony-PCR

延伸克隆的筛选

STS的密度尚未达到绘制高精度物理图谱的要求,且在基因组中的分布不均匀,造成很多区域没有阳性克隆覆盖,形成空洞。因此需用指纹图谱(FPC法)或末端序列(WalkingbyEndSequence)步移等手段对种子克隆进行延伸,形成连续克隆群。利用延伸方法筛选得到的克隆称为延伸克隆。

Contig1Contig2重叠序列重叠序列延伸引物筛选到的延伸克隆>20kb~300bpMolecularweightmarkerevery5thlaneBACclones在96深孔板中培养-HindIII完全酶切-1%琼脂糖凝胶电泳

指纹图谱法

(WalkingbyFingerprintingdatabase)

挑取靠近空洞的种子克隆,酶切构建其指纹图谱,在FPC数据库中进行比对,搜索含有此克隆的重叠克隆群信息,从中确定覆盖空洞区域的克隆,达到延伸目的。HindIII完全酶切HindIII完全酶切FPC数据库中比对CloneACloneBCloneCCABcontig搭建中克隆的错位

末端序列步行法(WalkingbyEndSequence)

挑取靠近空洞的种子克隆进行末端测序,然后在基因组数据库中进行比对,确定专一性的序列片段作为新的STS路标。最后设计新路标的PCR引物,按照STS—PCR“反应池”方案筛选新的克隆,达到延伸的目的。克隆350A18序列输入endsequencedatabase的查询结果四、CloneIdentification1、STS-PCR2、BACendsequencing3、Fingerprinting4、FISH

CK2CK1CK2CK113f06267l16481o07250a15204c23340j13对15个克隆进行HindIII酶切后电泳结果

“工作框架图”绘制根据序列与STSdatabase进行blastn比较结果,将克隆定位末端序的比较,判定延伸在contig外的一端序列。并可及时进行walking,筛选新的克隆

霰弹法测序组装与Finishing工作流程图

ShotgunSequencingI:RANDOMPHASEBacClone:100-200kbShearedDNA:1.0-2.0kbSequencingTemplates:RandomReadsShotgunSequencingII:ASSEMBLYConsensusSequenceGap

LowBaseQualitySingleStrandedRegionMis-Assembly(Inverted)ConsensusSequenceGap

LowBaseQualitySingleStrandedRegionMis-Assembly(Inverted)ShotgunSequencingIII:FINISHINGConsensusSequenceGap

SingleStrandedRegionMis-Assembly(Inverted)ShotgunSequencingIII:FINISHINGConsensusSequenceGap

Mis-Assembly(Inverted)ShotgunSequencingIII:FINISHINGConsensusMis-Assembly(Inverted)ShotgunSequencingIII:FINISHINGShotgunSequencingIII:FINISHINGHighAccuracySequence:<1error/10,000basesConsed软件显示序列组装结果界面

1、Filling“intraclonegaps”BAC-----453F3’sfinishing>>Sp6<<T7?First4primers1234Allthecontigswalkedhundreds’bpstowardthegaps.453F3’s2600reads12contigsOverlappingBAC-454F24’s200reads+>>Sp6<<T71324abcSecond3primers

1200bp’sAT-rich,(CATATATA)nrepeat.Finally,filledbyusingETsequencingKit.

1240bp’sGC-rich,GC-contentis69.03%;theBAC’sis39.98%.WeuseddGTPKitfillingit.>>Sp6<<T7Completedsequence

SequencedcloneBACselectedby

end-sequence113L10324K11173F11101A4167P17586C2116K5572B22544N5R-155E142006P232306M15R-149E1560K?Gapfillingbyendsequences2、Filling“interclonegaps”

TheactualandpredictedfingerprintofR-260J13digestedwithHindIII

Lane1:marker,Lane2:R-260J13digestedwithHindIII,3:thepredicted

克隆211B19组装后的序列的错误率为零

WholeGenomeShotgun

Thisbacteriumhasacirculargenomestructurewith2,689,445basepairs,thesecondlargestoneofthermophilesdecodedcompletelytodate.CircularrepresentationofthegenomeofT.tengcongensis

Whatisunderheavenisforall.

SunYat-sen,thefatherofmodernChina

天下为公

/riceDDBJ/EMBL/GenBank:AAAA01000000国际一流测序生产线7万克隆,3000万碱基/天高产出、低成本:$/bp

¥/bp美分/bp分/bp基因组学:数据导向的大科学有数据才是硬道理世上无难事只要肯登攀Contigs:127,550

(N50=6,688bp)Scaffolds:102,444(N50=11,764bp)Quality:546bpatQ20DeNovoSequencingtheGenomeinBIGHuSongnianBeijingInstituteofGenomics,ChineseAcademyofSciencesNextGenerationSequencing(NGS)TechnologySecondgenerationsequencersinBIG4541Solexa3SOLiD5DenovosequencingRNA-seq,Re-sequencingChIP-seq,Meth-seqMetagenomicsDenovosequencingRNA-seqRe-sequencingChIP-seqRNA-seq“known”GenomeNovelgenome(s)BothtypesSequencingGlossaryReads.Acollectionofclonesthatover-samplethetargetgenome.Pair-endreads.Sequencereadsderivedfrombothendsofasequencing-libraryclone.Insertsize.Thesizeoftheclone-insertfromwhichaclone-endpairistaken.Contig.

Theresultofjoininganoverlappingcollectionofsequencereads.Scaffold.

Theresultofconnectingnon-overlappingcontigsbyusingpair-endreads.N50size.Asappliedtocontigsorscaffolds,thatsizeabovewhich50%oftheassembledsequencecanbefound.OverviewImageanalysisandbasecallingDataassessmentRawdatapreprocess

-FilterPCRduplicationreads

-Filterortrimadapterreads

-Filterlowqualityreads

-Removecontaminatereads

-CorrectorlowfrequencyKmer

readsApplicationsResequencing-SNP

-Indel-StructurevariationsDenovosequencing

-Genome

-Transcriptome

FlowchartoftheWGSdenovoassemblyGenomicDNADNAfragmentation,constructfragmentedlibrariesGeneratesequencingreadsusing454technologySequencingerrorcorrectionOutputcontigsFillinintra-scaffoldgapsandgetthefinalscaffoldsGenomicDNADNAfragmentation,constructpaired-endlibrarieswithvariantinsertsizesGeneratesequencingreadsusingIlluminaGAtechnologySequencingpre-processOutputcontigsandminiscaffoldsSolexapart454partHybridassemblyandscffolding

454readsprocessRawreadsKmerevaluationQ20,removeadaptor,trimSequencingpre-processNewblerassemblyAssembledreadsUnassembledreadsUnigenecoverageKmerevaluationSolexamappingNr/NtblastContigstatusAssemblyHybridscaffolding

SolexareadsprocessRawreadsKmerevaluationSequencingpre-processSoapassemblyAssembledreadsUnassembledreadsUnigenecoverageKmerevaluationSolexamappingNr/NtblastContigstatusAssemblyMappingto454contigHybridscaffoldingCov/ComplongreadsassemblycontigsshortreadsA+C–B–scaffoldingA+B–C–scaffoldsFixgapHybridassemblyESTUnigeneScafAScafCScafBScafDNewScafABCDESTbasedAssemblyinshortreadsofNGS:ConstructeBIGerScaffordingScaffoldingACBContigs:SolexaMPReads:NewScaffoldingContigIDContigID#LinksInsertLength(bp)ContigAContigB10005000ContigAContigC2007000…………ContigLinksFixgapDenovosequencing-AssemblyAssemblypipelineContigsassembly:Shortreads:Solexa,SolidLongreads:3730,454readsHybridreads:short+longreadsScaffoldingFixgapMainDenovoAssemblySoft:VelvetSOAPdenovoABySSForge……Contignumber249Max217409Min50Mean22262Meadian3720N5092045N9017603Assemblylength5543466Example:5MbgenomePair-endreads:13,489,780Insertlength:200bpSOAPdenovorawdatapre-processRawsequencingreadspre-processingISignificanceandpurposeSequencinglibraryqualitycontrolSequencingbiasanalysisInheritedprosperitiesoncertainsecondgenerationsequencerGenomesequencingblackholeeffectTranscriptomesamplingandquantificationbiasReadyformappingReadyfordenovoassemblyRawsequencingreadspre-processingIISequencingreadsnumbersDuplicatesdetection,regionaldistributionanalysisandtrimmingAdapterdetectionandtrimmingReadsqualityanalysisandlowqualityreadsfilterAveragequalitydensitydistributionAveragequalitypositionaldistributionregionaldistributionF-RcorrelationGCcontent-qualitycorrelationInsertlengthdistribution

PipelineImageanalysisandbasecallingGOATpipeline(OLB1.6),CASAVAQualityControlGERALDSummary.htmLaneLaneYield(kbases)Clusters(raw)Clusters(PF)1stCycleInt(PF)%intensityafter20cycles(PF)%PFClusters%Align(PF)AlignmentScore(PF)%ErrorRate(PF)152630597464+/-487887676+/-921975+/-

2186.17+/-5.2589.76+/-5.9599.06+/-0.25102.41+/-1.621.30+/-0.22FastqandQualitySolexareadsoftheFastqformats_1_1_sequence.txt…@HWI-EAS724_0001:8:32:374:374#0/1GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTATAAAGTCTGCTAAAATAAAGGTACAACG+HWI-EAS724_0001:8:32:374:374#0/1fcfcfggdfggggfggggcggggggggfgggggcgggfWgggggggggfgcggdgcgcggggfacbbb][bgcgggggds_1_2_sequence.txt…@HWI-EAS724_0001:8:32:374:374#0/2TACCGTTAATAGCAGTAATATCATAATAGTAATAGCATCATAACGGTAGTCCCATAAAAGTGTGTCAGTAGTAGTAGTA+HWI-EAS724_0001:8:32:374:374#0/2ggggfgggggd_adcggggeggfggeggegf`geececdegggggfegcfegggegggfgac[aced`bd__\_c[[YbIllumina1.3formatencodesaPhredqualityscorefrom0to40usingASCII64to104errorprobability(p):#forsolexa:p=0.01,Q=19;p=0,05,Q=12.8,p=0.10,Q=9.5;#forphred:p=0.01,Q=20;p=0,05,Q=13,p=0.10,Q=10;DataassessmentI–ReadqualitydistributionLowQualityHighQuality

Trim:3’endtrimifQN<20Filter:Percent(hightqualityQ>30)>60Assessment:DistanceDistrubitionbetweentwoLowquality(Q<20)454dinucleotideproportioncheck454rawreadsqualityIlluminaGenomicDNA

oligonucleotidesequences(fragment)Adapters5'P-GATCGGAAGAGCTCGTATGCCGTCTTCTGCTTG||||||||||||3’TCTAGCCTTCTCGCAGCACATCCCTTTCTCACA-5’AtaileddsDNA------------A

A-------------PCRprimer15‘AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT3’Fragment

SequencingPrimer5'ACACTCTTTCCCTACACGACGCTCTTCCGATCT

Adapters5'P-GATCGGAAGAGCTCGTATGCCGTCTTCTGCTTG||||||||||||3’TCTAGCCTTCTCGCAGCACATCCCTTTCTCACA-5’AtaileddsDNA5’----------A3’A----------5’

Adapters

5‘ACACTCTTTCCCTACACGACGCTCTTCCGATCT

3’ |||||||||||||3‘GTTCGTCTTCTGCCGTATGCTCGAGAAGGCTAG-p5‘+PCRprimer23’TCTAGCCTTCTCGAGCATACGGCAGAAGACGAAC5’PCRLigationSequencingIlluminaGenomicDNA

oligonucleotidesequences(PairedEnd)5'P-GATCGGAAGAGCGGTTCAGCAGGAATGCCGAG|||||||||||||

TCTAGCCTTCTCGCAGCACATCCCTTTCTCACAPEPCRPrimer1.015‘-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’PERead1SequencingPrimer5'ACACTCTTTCCCTACACGACGCTCTTCCGATCT5'ACACTCTTTCCCTACACGACGCTCTTCCGATCT3’|||||||||||||

GAGCCGTAAGGACGACTTGGCGAGAAGGCTAG-p5’AtaileddsDNA5’----------A3’A----------5’5'ACACTCTTTCCCTACACGACGCTCTTCCGATCT3’|||||||||||||

GAGCCGTAAGGACGACTTGGCGAGAAGGCTAG-p5’AtaileddsDNA5’----------A3’A----------5’+PERead2SequencingPrimer3’-TCTAGCCTTCTCGCCAAGTCGTCCTTACGGCTCTGGC-5’PEPCRPrimer2.013’-TCTAGCCTTCTCGCCAAGTCGTCCTTACGGCTCTGGCTAGAGCATACGGCAGAAGACGAAC-5’LigationPCRSequencingSolexaPaired-EndInternalAdapterInternalAdapterSequence:NewPaired-EndReadsGenerateafterTrimmingInternalAdapterInternaladaptersequenceF/RF1R1AdapterTrimandFilterTransferofflowcelltosequencer(Paired-End)Firstroundofsequencing:5’-PS-TTTTTTTTTCAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT..........AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATTTCTAGCCTTCTCGCAGCACATCCCTTTCTCACA-5'READ1:READ2:AAAAAAAAAGTTCGTCTTCTGCCGTATGCTCTAGCCAGAGCCGTAAGGACGACTTGGCGAGAAGGCTAGAGTTCGTCTTCTGCCGTATGCTCTAGCCAGAGCCGTAAGGACGACTTGGCGAGAAGGCTAGA.........TCTAGCCTTCTCGCAGCACATCCCTTTCTCACATCUAGAGCCACCAGCGGCATAGTAATTTTTTTTTT-PS-5'CGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCTAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATTAAAAAAAAAAExample:ClipperGAATGATGTGATGTGTGGGAGCTGTTCAGCGTATTTGAGATCGGAAGAGCGGTTCAGCAGGAATGCCGAGACCGATATCAGATCGGAAGAGCGGAATGATGTGATGTGTGGGAGCTGTTCAGCGTATTTGXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGAATGATGTGATGTGTGGGAGCTGTTCAGCGTATTTGNumbersofreadswithnon-insertDNA(fulllengthadapter)indifferentinsertsizelibraries

DataassessmentII–LibraryinsertsizeDataassessmentIII–MappingRateSolexaSequencingDataUsagein500bpLibraryDataassessmentIV–DuplicationassessmentDuplicatesdetectionandfilterFRNN2NQaverage>20?Lanedatausageindifferentsolexalibrary

-FiterduplicationreadsAverageReadsperStartPointReadCorrection

CorrectIlluminaGAshortreadsKmer=17GenomeSizePrediction:M=N*(L-K+1)/LN=TotalLength(bp)/GenomesizeL=AverageRadsLength(bp)MHighQualityReadRateafterpreprocessAssembly:RawdataVSpreprocessedData?ApplicationI:SequencingDenovosequencingvsResequencingQuestionsGenomesizeestimationmethods(K-mer&Cov)Assemblyoptimization(parameters)Assemblyevaluation(454_SolexaEST)Unmappablesolexareadsreuse(filter->assemble)Scaffoldingcomparison(ABI&BIG&Bambus&blat)

solexatosolidfeasible?Assemblyassessment(BAC,3730,necessary?)CompetewithMexicaSequencingStrategyforsolexaSamplepreperFragmentorPairedEndorMatePairSequencingdifferentlibraries:Datacoverage(<=500bp),Data300/Data500=?Datacoverage(>500bp).10X,20X…..Largergenomesize,Largerlibrariesneeded.>10K?LengthofsolexaReads?>100bp?F+R=OneReads?OtherData:3730,454,solid.EST.OVERVIEWOFTESTEDASSEMBLERSEffectofAssemblyIEffectofAssemblyIIDepthVSCoverageHybridassembly454/3730,Solexa,SolidSeparatedassemblytocontigsScaffolding(Yezhq,AB)Gapfix(Yezhq)Solexa,454/3730Localassemblyalgorithm/softCheckmisassemblyAssemblyerrordetectionExample:ContigsContignumber:58473Max:54255Min:100N50:6135N90:895Assemblylength:126772827PE500bp,MP2kbContignumber:7859Max:2544Min:100Mean:498

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论