![多样本混合测序的编码设计和解码算法_第1页](http://file4.renrendoc.com/view15/M00/0E/14/wKhkGWebqrmAPB3KAAD0sKP2KbM124.jpg)
![多样本混合测序的编码设计和解码算法_第2页](http://file4.renrendoc.com/view15/M00/0E/14/wKhkGWebqrmAPB3KAAD0sKP2KbM1242.jpg)
![多样本混合测序的编码设计和解码算法_第3页](http://file4.renrendoc.com/view15/M00/0E/14/wKhkGWebqrmAPB3KAAD0sKP2KbM1243.jpg)
![多样本混合测序的编码设计和解码算法_第4页](http://file4.renrendoc.com/view15/M00/0E/14/wKhkGWebqrmAPB3KAAD0sKP2KbM1244.jpg)
![多样本混合测序的编码设计和解码算法_第5页](http://file4.renrendoc.com/view15/M00/0E/14/wKhkGWebqrmAPB3KAAD0sKP2KbM1245.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Bioinformatics多样本混合测序的编码设计和解码算法孙啸
生物电子学国家重点实验室东南大学
2017.04.23长沙1BioinformaticsDNA测序技术快速发展2全球首批NovaSeq进驻南京2017.03.30Bioinformatics多样本混合测序3充分利用测序通量——同时测序多个样本关键问题区分不同样本——编码(1)Barcoding(显性编码)(2)Overlappooling(隐性编码)NatRevGenet.2014,15(11):749-63Bioinformatics多样本混合测序4Barcoding(显性编码)readBarcode样本标记NatMethods.2008,5(3):235-7.关注的问题编码的数量编码的容错和纠错能力Bioinformatics多样本重叠混合测序5Overlappooling(隐性编码)GenomeRes.200919:1243-1253GenomeRes.200919:1254-1261NatureBiotechnology,2009.以样本的混合模式作为编码提高测序效率编码设计复杂,解码困难多样本混合测序实验设计及数据解码CaoCC,SunX.QuantitativeBiology,2016,
4(1):36–46.重叠混合测序编码解码6OverlappingPoolSequencing重叠混合7混合池1混合池2混合池3样本混合模式样本之间重叠混合样本混合矩阵一个混合池测序多个样本一个样本在多个池中测序重叠混合测序的编码与解码
筛选稀有变异携带者8问题:保证准确解码辨别测序误差与突变辨别多个阳性样本重叠混合测序的优化设计测序深度模型分组重叠混合模型OptimalsequencingdepthsofcoverageforpooledsequencingofdiploidsamplesDatarequirementfordifferentnumberofblocks9重叠混合测序的优化设计测序深度模型分组重叠混合模型优化选择代价模型:文库+数据+混合
根据代价选择最优设计CaoCC,SunX.GeneticEpidemiology.201310重叠混合测序的优化设计优化选择样本混合方案利用群试理论进行解码单独测序成本大幅降低筛选稀有突变携带者的测序成本CaoCC,SunX.GeneticEpidemiology.2013在不同混合样本数目下的测序代价11STD设计参数:n=200,d=2基于定量群试的重叠混合测序设计及解码前面只用到每个混合池的阳性样本定性检测结果携带突变的测序片段个数能够反映携带者的比例定量群试:利用覆盖变异位点测序片段个数信息1号2号3号4号5号6号7号8号I号II号III号IV号V号12基于定量群试的重叠混合测序设计及解码样本混合设计定义PI指标评价样本混合设计PI为阳性混合池数目比阳性样本数目
与不确定属性的阴性样本数目之和还高的概率值
PI能够反映识别稀有突变携带者的可能性大小根据PI选择随机设计的最优设计参数
解码:识别突变携带者贝叶斯解码算法A:样本混合模式O:测序结果13基于定量群试的重叠混合测序设计及解码与普通群试相比,该方法能够容许检测更多的稀有变异携带者CaoCC,SunX.BMCBioinformatics.2014Leastsequencingdatathroughputrequiredtoachievea95%correctdecodingrate.Only36poolswereallowedtoidentifyheterozygousvariantcarriersamong100diploidsamples.Performanceofoverlappingpoolsequencingusingrandomk-setpooldesign14正确解码前提下的数据通量需求面向单倍型的混合测序解码从混合测序结果中准确估计单倍型频率,并判断稀有单倍型携带者Ehapp—新算法CaoCC,SunX.Bioinformatics.2015.15面向单倍型的混合测序解码Ehapp在较短的测序读长下具有较大的优势应用重叠混合测序筛选稀有单倍型携带者CaoCC,SunX.Bioinformatics.2015.16基于重叠混合的单倍型测序方法研究动机:尝试将重叠混合测序方法应用于单倍型测序,解决存在的问题,以期提高单倍型构建性能17Bioinformatics单倍型测序18单倍型测序的主要方法
物理分割克隆测序稀释基因组DNAGlusmanetal.GenomeMedicine2014,6:73NatureBiotechnology,29:38–39(2011)单倍型测序基于克隆或稀释的单倍型测序
基因组片段混合在各个池子中
每个池中局部单倍型尽量不重叠NatRevGenet.2015Jun;16(6):344-58.基于重叠混合的单倍型测序方法待解决两个问题
克隆重叠问题
错误连接问题解决问题的思路准确识别覆盖每个allele的克隆提高单倍体构建的准确性Chimericfragments…A…A…C……A…T…G……G…T…G……A…A…G…20Bioinformatics基于重叠混合的单倍型测序方法21
多次混合——将克隆看成为重叠混合测序的样本Someotheroverlappingpools利用不同的Overlap信息解码根据不同混合池中的不同覆盖判断重叠部分的归属解决问题的基本策略核心准确识别SNP位点以及覆盖每个allele的所有克隆进而确定每个克隆上各个allele及其顺序前提:覆盖某allele的克隆个数相对于整个克隆文库来说是稀有的SNP位置重叠混合测序解码SNP集覆盖SNP的克隆集形成局部单倍型并组装22基于重叠混合的单倍型测序方法稀释到多个混合池构建测序文库并测序比对&检测SNP重构局部单倍型连接局部单倍体构建个体克隆文库完整单倍体基因组23解码方法Figure1.Illustrationofallelesassignment.(A)Fiveclonesarepooledintothreepools,whichmeanspool#1containsclones1,4and5;pool#2containsclones2and4;andpool#3containsclones3and5.(B)Thesequencingresults.Forexample,allele2issequencedthree,twoandonetimesinpools#1,#2and#3,respectively.(C)AccordingtoMandY,thevectorxforeveryallelecouldbesolvedandthefiveclonescouldbereconstructedaccordingly,asshownin(C).Forexample,thesequencingresultofallele2is(3,2,1)T,equalingthedot-productofthevectorMwiththetargetvectorxof(1,1,0,1,1)T,whichmeansallele2iscontainedinclone1,clone2,clone4andclone5,butnotinclone3.DecodingAlgorithmAllelesassignmentM:poolingmatrixY:countofallelejintheithpoolx:either1or0,indicatingiftheclonecontainsthealleleLiCetal.NucleicAcidsRes.201624实验设计25Experimentaldesign(分组设计)HapMapsampleNA12878:producedtwohaplotypesequencesThelengthoftheclonesfollowedaPoissondistribution,wheretheaveragelengthwasapproximately140kb.130110clonesweregenerated,with6×clonecoverage.实验结果LiCetal.NucleicAcidsRes.2016Thecorrectdecodingratefordifferentcombinationsofvariousk(thepercentofclonesthatarepooledineachpool),t(thenumberofpools)anddtvalues(thedatathroughputforeachpool).Thecolorandsizeofthecircledenotethecorrectdecodingrateforeachscenario解码正确率随混合池个数及数据通量的变化选择最优的混合测序参数,以获得最高的解码正确率26实验结果LiCetal.NucleicAcidsRes.201627在1号染色体上,221,009个同时被来自于两个同源染色体的克隆所覆盖的变异位点中有220,734(99.9%)个被准确的恢复。Table2.Thestatisticsoftheassembledhaplotypesforchromosome1准确地识别变异位点构建的单倍体更长实验结果Thenumberofallelesineachreconstructedclonesequencethatsupporteachhaplotypeinthediploidindividual.LiCetal.Nuc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年全球及中国牙釉质粘结剂行业头部企业市场占有率及排名调研报告
- 2025年全球及中国塑料用群青紫行业头部企业市场占有率及排名调研报告
- 2025-2030全球健康饮食膳食计划应用程序行业调研及趋势分析报告
- 2025-2030全球大型扫描电子显微镜(SEM)行业调研及趋势分析报告
- 2025-2030全球螯合锌钾硼尿素行业调研及趋势分析报告
- 2025年全球及中国化学镀化学品行业头部企业市场占有率及排名调研报告
- 2025年全球及中国危险区域轨道衡行业头部企业市场占有率及排名调研报告
- 2025-2030全球磁性长度和角度测量系统行业调研及趋势分析报告
- 2025-2030全球食用菌灭菌设备行业调研及趋势分析报告
- 2025-2030全球军用航空平视显示器行业调研及趋势分析报告
- 电除颤并发症的处理及预防
- 智慧体育场馆建设方案
- 避暑旅游目的地评价指标、阈值和评价等级表、人体舒适度、度假气候指数和旅游气候指数计算方法
- 允许一切发生:过不紧绷松弛的人生
- 注塑生产过程控制流程
- 教科版六年级科学下册 (厨房里的物质与变化)教学课件
- 公务员面试应急应变题目大全及解析
- 浙江省炮制规范2015版电子版
- 冰心《童年的春节》
- 郑州小吃详细地点
- 上海高考英语词汇手册
评论
0/150
提交评论