slaf-遗传图谱结题报告无参考基因组_第1页
slaf-遗传图谱结题报告无参考基因组_第2页
slaf-遗传图谱结题报告无参考基因组_第3页
slaf-遗传图谱结题报告无参考基因组_第4页
slaf-遗传图谱结题报告无参考基因组_第5页
免费预览已结束,剩余39页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高密度遗传图谱构建及QTL定位项结题报客户单位 报告单位 北京百迈客生物科技有限公联系人 联系电话 传真 XXXXXXXX项目概 项目研究背 项目报告重要名词及术 材料基本信 合同关键指标情 项目执行情 分析结果概 项目流 酶切方案设 文库构建及测 信息分析流 生物信息学分析结 酶切方案设 测序数据统计与评 测序质量值分布检 碱基分布检 测序数据产出和质量统 实验建库评 比对效率统 酶切效率评估统 片段选择评 SLAF标签开 SLAF多态性标签分 多态性SLAF标签编 遗传图谱构 上图标记筛 绘制连锁 连锁分 遗传图谱评 遗传图谱基本信息统 上图标记SNP信息统 偏分离标记信息统 上图标记深度信息统 上图标记完整度统 单体来源评 连锁关系评 性状关联分 QTL分 3.7数据可视 项目总 数据查 结果文件查看说 SVG文件格式的查 附件1生物信息分析流 附件2英文材料方 项目研究背遗传连锁图谱(GeneticMap),是指分子标记在染色体上的相对位置与遗DNA片段在染色体交换过程中的分离频率厘摩(cM)来本项目利用北京百迈客生物科技有限公司自主研发的SLAF-seq[1]技术和HighMap[2]软件 物

遗传分离群体(2

个子代)QTL关联分析,获得与性状紧项目报告重要名词及术英文名 中文名 名词解Pair-end 双端序 的是双端 SLAF标 段就是一个SLAF标Polymorphic 多态性SLAF标 群体中存在多态性的SLAF标签,多态性的SLAF中要存在的变异类型是Repetitive 重复序列区中的标

位于重复序列区的SLAF标签,在数据上的表现SLAF DNA序列上出现的单碱基变binant 两个标记间的连锁强度,LOD=3表示两个标记的连可能性是不连锁的1000Map 图 两个分子标记之间的遗传距离,单位为厘摩1cM表示两个标记间的重组率约为Genetic 因或DNA片段在染色体交换过程中的QTLQTL定法,在遗传连锁图上标定有关的QTL位置(材料基本信合同关键指标情SLAF本项目共开发577,828个SLAF标签,亲本有效多态性为9.59%,上图标记为4,155,上图标记亲本平均测序深度为114.81X;子代平均测序深度18.24X,项目执行情 XXXX月XX XXXX月XX XXXX月XX分析结果概具体情 备酶切方Clean平均平均GC含开发SLAF总连锁群性状数酶切方案设XX基因组[3]GC含量等信息,最终选取棉花基因组作为参考GC酶切片段长度与具体实验体系的吻合程度最终获得酶切片段(SLAF标签)A分别进行酶切(SLF标签′端加Aulinde[4]PRIllumina测序平台测序。为评估建库实验的准确性,选用日本晴水稻(aatia.japonia)作为对照(ontrol)进行相同的处理参与建库和测序。1SLAF信息分析流Dual-indexreads。readsControl数据的比对效率评估酶的酶切效率,判断实验过程的准确性和有效性。通过reads聚类的方法,在亲本和子代中开发SLAF标签,寻找多态性的SLAF标签[1]。对多态性的SLAFHighMap作图软件[2],构建遗传图谱,进行图谱评估。通过QTL定位软件进行QTL关联分析获得与性状紧密关联的SLAF1。2酶切方案设对参考物种基因组序列进行电子酶切预测根据酶切方案选择原(见2.1选择最适内切酶为RsaI+HaeIII314-414bp的序列定义为SLAF120,236个SLAF标签,具体酶切方案信息见下表:4SLAF注InsertSize:酶切片段的长度范围;SLAFNumber:酶切方案预测的可以得到的SLAF需要过滤掉含有接头序列的当read中含有的N的含量超过该条read长度比例的10%测序质量值分布碱基识别(BaseCalling)过程中每个碱基都会得到一个测序质量值,用于eQ的对应公式:,如果某碱基测序出错的概率为0.001,则该碱基的质量值Q应该为30。本项目母本样品(75)样品测序质量分布情况见下图:3注:横坐标为reads150bp为双端测序序列的第一端测序reads的质量值分布,后150bp为另一端测序reads的质量值分布。同一个位置对应的不同质量的测序reads,颜碱基分布检碱基类型分布检查用于检测有无T、CSLFqrds为基因APR(75)C含量分布基本正常。4为双端测序序列的第一端测序Reads的碱基分布,后125/150bp为另一端测序reads的碱基分布。如第一个位置代表测序的reads在第一个碱基的 测序数据产出和质量统5

1-M2-P注BMKID:百迈客对样品的统一编号,P代表父本,M代表母本TotalReads:各样品的reads数TotalBases:各样品的bases数Q30Percentage:测序质量值大于或等于30的碱基所占百分比;GCPercentage:测序结果中G和C两种碱基所占总碱基的百分比;Total:整体数据信息(除control数据外)实验建库评本实验,日本晴水稻(rytivL.japoniaontrol,通过对ontrol数据的评估监控实验过程是否正常,确定酶切方案实施的有效性。本项目中ontrol所用日本晴水稻(rytivL.japonia),382.8b,下载地址:http://ric.plantbiolo.mu.du/。比对效率统Control538,614reads的数据量,通过90.37%,比对效率基本正常。6Control测序reads

MappedReads

MappedReads

Unmapped 注Paired-EndMappedReads:一条序列两端在参考基因组上的比对跨度介于50bp~1kb的readsreads的比Single-EndMappedReads:一条序列两端在参考基因组上的比对跨度小于50bp,或大于1kb的reads占readsUnmappedReads:未比对到基因组上的reads占总reads的比例Single-EndMappedReads和UnmappedReads来源:由于接头过滤不全,reads中碱基错配,异常的插入片酶切效率评估统()NA开。通过统计测序rds插入片段中残留酶切位点的比例,统计比例越低,酶切效率越好[6]。从下表中可知,本项目ontrol95.23%7ControlDigestion Digestion 注DigestionNormally:reads中间不存在未被酶切开的酶切位点;DigestionPartly:reads中间存在未被酶切开的酶切位点;Total:reads片段总数。片段选择评根据Control测序Pair-endmappedreads在基因组中的位置计算SLAF标签的实际长度,Control测序reads插入片段分布见下图:5Controlreads注:横坐标表示reads的插入片段长度,纵坐标表示reads所占的比例SLAF标签开利用自主研发的SLAFreads作为一个SLAF210,484SLAF标签,SLAF标签亲本平均测序深度为111.71X22.05X。具体统计见下表:8SLAFSampleBMKSLAFTotal1-M2-P注SampleID:样品信息单中样品编号;BMKID:百迈客对样品的统一编号;SLAFNumber:SLAF标签数量;TotalDepth:测序reads数;AverageDepth:平均每个SLAF上该样品的测序reads数SLAF多态性标签共开发得到的210,484个SLAF标签,各类型SLAF标签结果统计见下表。从下表可以看出,多态性SLAF47,83222.72%。9SLAFNon-注PolymorphicSLAF:表示在一个SLAF标签中存在多态性位点,多态性位点主要包括是SNP和InDel;Non-PolymorphicSLAF:表示在SLAF标签中没有多态性位点;RepetitiveSLAF:指位于重复序列区的SLAFTotalSLAF:所有的SLAFaa(父本)和bb(母本),子代基因型ab则表示该样品在这个标记的编码类型型适用于近交群体(如F2,RIL,DH),其余标记适用于杂交群体(如10ac,bc,-ac,bc,-注PaternalGenotype:父本基因型;MaternalGenotype:母本基因型;OffspringGenotype:子代基因型;码规则对本项目获得的47,832个多态性SLAF标签进行分型37,603个标签成功6选择aaxbb类型(纯合)的多态性标签作为符合群体特征的有效标签,本项目构9.59%。遗传图谱构上图标记筛为保证遗传图谱质量,将多态性SLAFSNP5。由于SNP200bp,出现过多的SNP被70个个体有确定基因型。QTL定位有影响。借鉴多数文献对偏分离标记处理方法对严重偏分离(卡方检验P<0.01)的多态性标记进行过滤。最终得到可用于作图的SLAF476511SLAF SLAF 注SLAFNumber:用于构建遗传图谱的SLAF标签数;Percentage:各类型SLAF标签占有效SLAF标签总数百分比;Total:有效SLAF标签总数。绘制连锁4765个SLAF标签,通过两两标签之间计算MLOD值[7],设置MLODMLOD值从小到大排列,标签之间MLODSLAF标签的MLOD5的标签,定位为上图标记(Marker)。12MarkerMarker注LGID:连锁群ID号MarkerNumber:上图标记数目连锁分HighMap[2]Marker的线性排列,并估算相邻Marker间的遗传距离,最终得到总图距为1,976.68cM的遗传图7遗传图谱评遗传图谱基本信息统各个连锁群Marker13Group<5注LinkagegroupID:连锁群编号,本项目与基因组的编号一致;AverageDistance:平均图距,表示平均一条连锁群上标记的平均遗传距离;Gap<5cM:gap小于5cM占总gap数的比例,比例越高,代表图谱越均匀;MaxGap:连锁群中最大的gap,最大gap越小,表示图谱越均匀;Total:所有连锁群总的标签数、总图距、平均图距和最大的Gap上图标记SNP信息统各个连锁群上图SNP5,323个上图LinkageGroupSNP 注LinkageGroupIDSNPNumber:SNP类型的MarkerTotal:连锁群SNP标记转换/颠换总数偏分离标记信息偏分离标记(Segregationdistortion)普遍存在,并且会影响图谱构建结果及15LinkageGroupMP00000060600000020200000000000000000000000001014040000注LinkageGroupID:本项目连锁群编号;TotalBS:该连锁群上图偏分离标记数目;M:在这条连锁群上子代基因型偏向母本的SLAF个数上图标记深度信息统16SampleBMKMarker1-M2-PAverageof注SampleID:样品信息单中样品编号;BMKID:百迈客对样品的统一编号;MarkerNumber:各样品的上图标记数;TotalDepth:各样品上图标记总深度;AverageofOffspring:代表所有子代的平均值,分别是平均Marker数,上图标记总深度的平均值(所有标上图标记完整度统标记的比例)98.06%,保证了图谱基因分型图8单体来源评定的问题,通常双交换控制在3%以下,LG1的单体来源评估如下图所示。本项9LG1横行代表一个akeGroup03000000注LinkageGroupID:连锁群ID;SingletonPercent:双交换的位点比例;MissingPercent:缺失的比例。连锁关系评遗传图谱实质上是多点重组分析,Marker间距离越近,重组率越小。分析10LG1Marker红到紫的变化代表重组率从小到大变化。距离越近的Marker重组率越小,颜色越接近黄色,距离越远的Marker重组率越大,越接近紫色。性状关联分QTL分本项目采用/qtl进行L定位分析,首先通过PT检验1000次设定阈值,先考虑0.99置信度对应的阈值,若没有定位区间则考虑0.95置信度对应的阈值;若没有定位区间则考虑0.90PT手动降低阈值到3.0;若3.0没有区间则降到.;若2.5没有区间则降到2。18GroupGroup38--39

注LODthreshold:该性状的关联阈值;LinkageGroupID:连锁群编号;MaxLOD:该性状的关联的最大LOD值;QTL分布图,19QTL注:横坐标是连锁群Marker的排列顺序,左纵坐标是LOD值,右纵坐标是表型贡献率,蓝线表示marker对应的LOD值,红线表示marker对应的表型贡献率,灰线是阈值线,阈值线以上的区域即关联到的QTL3.7数据可视结合上述内容,将图谱基本信息,SLAF信息,QTL定位信息绘制到Circos图距;第二圈为SLAF标记连锁群分布,区域内SLAF标记越多,颜色越深;第20Circos平均GC含量为40.43%,样本GC分布正常。综上所述,数据量、质量均达到实验建库评估总结:Control数据的双端比对效90.37%,酶切效率为95.23%,SLAF建库正常。酶切方案总结:本项目通过棉花基因组进行酶切预测,选择RsaI+HaeIII酶切组合进行酶切,SLAF标签长度选择在314-441bp,预测到120,236个SLAF多态性SLAF标签开发总结:本项目共获得210,484SLAF标签,其中多态性SLAF标签有47,832个,共有37,603个标签成功编码,过滤前满足群体分离类型编码的标签数为21,153个,构建遗传图谱时有效多态性为9.59%。本项目共构建18条连锁群,上图4,155Marker,总图距为1,976.68cM,上图标记完整度为98.06%,发生双交换的比例为0.36%,亲本测序深度为114.81X,子代为18.24X。结合18个连锁群的图谱和分型数据,以及14个数量性状表型数据,进行数量性状QTL定位分析,14个性状用MapQTL获得了52个性状关联区域。上传目录中有Readme.txt结果数据文件多以文本格式为主(fa文件、txt文件、detail文件、xls文件等)。在WindowsEditplusUltraEdit作为文本浏览程序,Unix或Linux系统下可以浏览较大的文本文件,用Less等操作命令可以顺利地查看。SVG文件格式的查报告文件含有SVG格式的图片文件,SVG是矢量化的图片文件,可以随意放大而不失真。要查看SVG格式的文件,请先安装SVG插件。【参考文献SunX,LiuD,ZhangX,etal.SLAF-seq:anefficientmethodoflarge-scaleDenovoSNPdiscoveryandgenotypingusinghigh-throughputsequencing[J].PloSONE,2013,8(3):e58700.LiuD,MaC,HongW,HuangL,LiuM,etal.ConstructionandAnalysisofHigh-DensityLinkageMapUsingHigh-ThroughputSequencingData[J].PLoSONE,2014,9(6):e98855.DaveyJW,CezardT,Fuentes‐UtrillaP,etal.SpecialfeaturesofRADSequencingdata:implicationsforgenotyping[J].Molecularecology,2013,22(11):3151-3164.KozichJJ,WestcottSL,BaxterNT,etal.Developmentofadual-indexsequencingstrategyandcurationpipelineforanalyzingampliconsequencedataontheMiSeqIlluminasequencingplatform[J].Appliedandenvironmentalmicrobiology,2013,79(17):5112-5120.LiR,LiY,KristiansenK,etal.SOAP:shortoligonucleotidealignmentBioinformatics,2008,24(5):713-ArabidopsisGenomeInitiative.AnalysisofthegenomesequenceofthefloweringplantArabidopsisthaliana[J].Nature,2000,408(6814):796.Stam.Constructionofintegratedgeneticlinkagemapsbymeansofanewcomputerpackage:JOINMAP.ThePlantJournal,19933(5):739-744.1需要过滤掉含有接头序列的当read中含有的N的含量超过该条read长度比例的10%SLAF将测序产生的reads通过blat90%进行聚类,groupSLAFSLAF标签,进行分子标记的开发。针对每一个SLAF标签,根据亲本深度大于10X的序列确定每个SLAF标记的基因型,要求每个基因型序列包含30%的子代信根据每个SLAF标签中SLAF标记的基因型的个数,区分SLAF的类型,其5SLAFSLAF,2~4个基因型的SLAF为多态性SLAF,1个基因型的即为非多态的SLAFSLAF进对已经成功编码的SLAF标记进行过滤,筛选高质量的SLAF标记进行后续的图谱构建和分析,标记过滤的标准为:1每个SLAF3个SNP2子70%以上;3偏分离标记(p<0.01);4亲本测序深度小于QTL与标记之间的重组率和MLODMLOD值将分子标记分为不同的连Kosambi函数完成。QTLR/qtlCIMPermutationtest(P<0.05)QTL阈值的QTL区域。HighMapHighMap是百迈客自主研发的高密度遗传图谱构建软件,HighMap构图过4JoinMap4.1JoinMap4.0。利用该构R/qtlR/qtl是在实验群体中定位数量性状位点的一个可扩展的交互环境。它作为RR的一个附加包,R里面最基本的数学、统计以及作图功能。更可以方便使用者将一般的统计分析程序和QTL定位软件完美结合。目前的R/qtl版本,通过利用区间作图(EM算法),Haley-Knott回归和多重插补,包括了估算遗传图谱,鉴定基因型错误,进行单QTL基因组扫描,双QTL和二维基因组扫描。所SOAPSOAP,全称短寡聚核苷酸分析包,已经从一个单一的比对工具进化成为二代测序数据提供数据分析的软件包。当前,它包含有新型比对程序结构差异扫描程序(SOAPsv)和短序列片段reads从头开始组装程序BlatBlatTheBLAST-LikeAlignmentTool,类BLAST比对工具,由W.JamesKent2002年开发。当时随着人类基因组计划的进展,把大量基因和ESTs快速定位到较大的基因组上成为一种迫切需要。Blast相对于这种比对有几个缺陷:速度偏慢、结果难于处理、无法表示出包含intron的基因定位。于是用于比较小的序列(cDNA等)对大基因组的比对。Blast会把每一个比对作Blat把相关的呈共线性的比对结果连接成为更大的比对结果,exonsintrons。因此,在相近物种的同源性分析和EST分析中,blat得到了广泛的应用。2SLAFlibraryconstructionandhigh-throughputAnimprovedSLAF-seqstrategywasutilizedinourexperiment.FortheXXEnglandBiolabs,NEB,USA)wereusedtodigestthegenomicDNA.Asinglenucleotide(A)overhangwasaddedsubsequentlytothedigestedfragmentsusingKlenowFragment(3´→5´exo–)(NEB)anddATPat37°C.Duplextag-labeledsequencingadapters(purified,LifeTechnologies,USA)werethenligatedtotheA-tailedfragmentsusingT4DNAligase.Polymerasechainreaction(PCR)wasperformedusingdilutedrestriction-ligationDNAsamples,dNTP,Q5®High-FidelityDNAPolymeraseandPCRprimers(Forwardprimer: 5’-CAAGCAGAAGACGGCATACG-3’)(purified,LifeTechnologies).PCRproductswerethenpurifiedusingAgencourtAMPureXPbeads(BeckmanCoulter, be,UK)andpooled.Pooledsampleswereseparatedby2%agarosegelelectrophoresis.FragmentsrangingfromXXtoXX(切胶范围)basepairs(withindexesandadaptors)insizewereexcisedandpurifiedusingaQIAquickgelextractionkit(Qiagen,Hilden,Germany).Gel-purifiedproductswerethendiluted.Andpair-endsequencing(Eachend125bp)wasperformedonanIlluminaHiSeq2500system(Illumina,Inc;SanDiego,CA,USA)accordingtotheSequencedatagroupingandSLAFmarkeridentificationandgenotypingwereperformedusingproceduresdescribedbySunetal1.Briefly,low-qualityreads(qualityscore<20e)werefilteredoutandthenrawreadsweresortedtoeachprogenyaccordingtoduplexbarcodesequences.Afterthebarcodesandtheterminal5-bppositionsweretrimmedfromeachhigh-qualityreads,cleanreadswereclusteredbysimilarityabove90%.SequencesclusteredtogetherweredefinedasoneSLAFlocus3.Singlenucleotidepolymorphism(SNP)lociofeachSLAFlocuswerethendetectedparents,andSLAFswithmorethan3SNPswerefilteredoutfirstly.AllelesofeachSLAFlocuswerethendefinedaccordingtoparentalreadswithdepth>XX-fold(亲本测序深度),whileforeachoffspringthereadswithsequencedepth>X-fold(子代测序深度)wereusedtodefineallelesFordiploidspeciesoneSLAFlocuscancontainatmost4genotypes,soSLAFlociwithmorethanfourallelesweredefinedasrepetitiveSLAFsanddiscardedsubsequently.OnlySLAFswithtwotofouralleleswereidentifiedaspolymorphicandconsideredpotentialmarkers.AllpolymorphismSLAFslociweregenotypedwithconsistencyintheparentalandoffspringSNPloci.ThemarkercodeofthepolymorphicSLAFswereanalysedaccordingtothepopulationtypeXX(群体类型),whichconsistofonesegregationtypes(aa×bb).GenotypescoringwasthenperformedusingaBayesianapproachtofurtherensurethegenotypingquality1.Firstly,aposterioriconditionalprobabilitywascalculatedusingthecoverageofeachalleleandthenumberofsinglenucleotidepolymorphism.Then,genotypingqualityscoretranslatedfromtheprobabilitywasusedtoselectqualifiedmarkersforsubsequentanalysis.{Sun,2013#26}Low-qualitymarkersforeachmarkerandeachindividualwerecountedandtheworsemarkerorindividualweredeletedduringthedynamicprocess.WhentheaveragegenotypequalityscoresofallSLAFmarkersreachedthecutoffvalue,theprocessstopped.High-qualitySLAFmarkersforthegeneticmappingwerefilteredbythefollowingcriteria.First,averagesequencedepthsshould>X-foldineachprogenyand>XX-foldintheparents.Second,markerswithmorethanXX%missingdatawerefiltered.Third,thechi-squaretestwasperformedtoexaminethesegregationdistortion.Markerswithsignificantsegregationdistortion(P<0.05)wereinitiallyexcludedfromthemapconstructionandwerethenaddedlaterasaccessorymarkers.LinkagemapMarkerlociwerepartitionedprimarilyintolinkagegroups(LGs)bythemodifiedlogarithmofodds(MLOD)scores>5.Toensureefficientconstructionofthehigh-densityandhigh-qualitymap,anewlydevelopedHighMapstrategywasutilizedtoordertheSLAFmarkersandcorrectgenotypingerrorswithinLGs.4Firstly,binantfrequenciesandLODscoreswerecalculatedbytwo-pointanalysis,whichwereappliedtoinferlinkagephases.Then,enhancedgibbssampling,spatialsamplingandsimulatedannealingalgorithmswerecombinedtoconductaniterativeprocessofmarkerordering.5,6Briefly,inthefirststageoftheorderingprocedure,SLAFmarkerswereselectedusingspatialsampling.Onemarkerwastakenrandomlyinapriorityorderoftestcross,andmarkerswitha binationfrequencysmallerthanagivensamplingradiusareexcludedfromthemarkerset.Subsequently,simulatedannealingwasappliedtosearchingforthebestmaporder.Summationof binationfractionswascalculatedasillustratedbyLiuetal4.Theannealingsystemcontinueduntil,inanumberofsuccessivesteps,thenewlygeneratedmaporderisrejected.BlockedGibbssamplingwasemployedtoestimate binationfrequenciesoftheparentsaftertheoptimalmaporderofsamplemarkerswereobtained4.Theupdated binationfrequencieswereusedtointegratethetwoparentalmaps,whichoptimizethemaporderinthenextcycleofsimulatedannealing.Onceastablemaporderwasobtainedafter3-4cycles,weturnedtothenextmapbuildinground.Asubsetofcurrentlyunmappedmarkerswasselectedandaddedtotheprevioussamplewithdecreasedsampleradius.Themappingalgorithmrepeatsuntilallthemarkersweremappedappropriately.TheerrorcorrectionstrategyofS

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论