多样本混合测序的编码设计和解码算法_第1页
多样本混合测序的编码设计和解码算法_第2页
多样本混合测序的编码设计和解码算法_第3页
多样本混合测序的编码设计和解码算法_第4页
多样本混合测序的编码设计和解码算法_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多样本混合测序的编码设计和解码算法多样本混合测序的编码设计和解码算法BioinformaticsDNA测序技术快速发展2全球首批NovaSeq 进驻南京2017. 03.30BioinformaticsDNA测序技术快速发展4全球首批Bioinformatics多样本混合测序3充分利用测序通量 同时测序多个样本关键问题区分不同样本 编码(1)Barcoding(显性编码)(2)Overlap pooling(隐性编码)Nat Rev Genet. 2014 , 15(11):749-63Bioinformatics多样本混合测序5充分利用测序通量Bioinformatics多样本混合测序4 B

2、arcoding(显性编码)readBarcode样本标记Nat Methods. 2008, 5(3):235-7.关注的问题编码的数量编码的容错和纠错能力Bioinformatics多样本混合测序6 BarcodBioinformatics多样本重叠混合测序5 Overlap pooling(隐性编码)Genome Res. 2009 19: 1243-1253Genome Res. 2009 19: 1254-1261Nature Biotechnology,2009.以样本的混合模式作为编码提高测序效率编码设计复杂,解码困难Bioinformatics多样本重叠混合测序7 Overl多

3、样本混合测序实验设计及数据解码Cao CC, Sun X. Quantitative Biology, 2016, 4(1): 3646.重叠混合测序 编码 解码6Overlapping Pool Sequencing多样本混合测序实验设计及数据解码Cao CC, Sun X.重叠混合7混合池1混合池2混合池3样本混合模式样本之间重叠混合样本混合矩阵一个混合池测序多个样本一个样本在多个池中测序重叠混合9混合池1样本之间样本混合矩阵一个混合池测序多个样本重叠混合测序的编码与解码 筛选稀有变异携带者8问题:保证准确解码辨别测序误差与突变辨别多个阳性样本重叠混合测序的编码与解码 筛选稀有变异携带者1

4、0问题:重叠混合测序的优化设计测序深度模型分组重叠混合模型Optimal sequencing depths of coverage for pooled sequencing of diploid samplesData requirement for different number of blocks9重叠混合测序的优化设计测序深度模型分组重叠混合模型Optim重叠混合测序的优化设计测序深度模型分组重叠混合模型优化选择 代价模型:文库+数据+混合 根据代价选择最优设计Cao CC, Sun X. Genetic Epidemiology. 201310重叠混合测序的优化设计测序深度模型C

5、ao CC, Sun X重叠混合测序的优化设计优化选择样本混合方案利用群试理论进行解码单独测序成本大幅降低筛选稀有突变携带者的测序成本Cao CC, Sun X. Genetic Epidemiology. 2013在不同混合样本数目下的测序代价11STD设计参数: n=200, d=2重叠混合测序的优化设计优化选择样本混合方案单独测序成本大幅降基于定量群试的重叠混合测序设计及解码前面只用到每个混合池的阳性样本定性检测结果携带突变的测序片段个数能够反映携带者的比例定量群试:利用覆盖变异位点测序片段个数信息1号2号3号4号5号6号7号8号I号II号III号IV号V号12基于定量群试的重叠混合测序

6、设计及解码前面只用到每个混合池的阳基于定量群试的重叠混合测序设计及解码 样本混合设计定义PI指标评价样本混合设计PI为阳性混合池数目比阳性样本数目 与不确定属性的阴性样本数目之和还高的概率值 PI能够反映识别稀有突变携带者的可能性大小 根据PI选择随机设计的最优设计参数 解码:识别突变携带者贝叶斯解码算法A:样本混合模式 O:测序结果13基于定量群试的重叠混合测序设计及解码 样本混合设计A:样本混基于定量群试的重叠混合测序设计及解码与普通群试相比,该方法能够容许检测更多的稀有变异携带者Cao CC, Sun X. BMC Bioinformatics. 2014Least sequencing

7、 data throughput required to achieve a 95% correct decoding rate. Only 36 pools were allowed to identify heterozygous variant carriers among 100 diploid samples. Performance of overlapping pool sequencing using random k-set pool design14正确解码前提下的数据通量需求基于定量群试的重叠混合测序设计及解码与普通群试相比,该方法能面向单倍型的混合测序解码从混合测序结果

8、中准确估计单倍型频率,并判断稀有单倍型携带者Ehapp新算法Cao CC, Sun X. Bioinformatics. 2015.15面向单倍型的混合测序解码从混合测序结果中准确估计单倍型频率,面向单倍型的混合测序解码Ehapp在较短的测序读长下具有较大的优势应用重叠混合测序筛选稀有单倍型携带者Cao CC, Sun X. Bioinformatics. 2015.16面向单倍型的混合测序解码Ehapp在较短的测序读长下具有较大基于重叠混合的单倍型测序方法研究动机:尝试将重叠混合测序方法应用于单倍型测序,解决存在的问题,以期提高单倍型构建性能17基于重叠混合的单倍型测序方法研究动机:19Bi

9、oinformatics单倍型测序18单倍型测序的主要方法 物理分割 克隆测序 稀释基因组DNAGlusman et al. Genome Medicine 2014, 6:73Nature Biotechnology,29: 3839 (2011)Bioinformatics单倍型测序20单倍型测序的主要方单倍型测序基于克隆或稀释的单倍型测序 基因组片段混合在各个池子中 每个池中局部单倍型尽量不重叠Nat Rev Genet. 2015 Jun;16(6):344-58.单倍型测序基于克隆或稀释的单倍型测序Nat Rev Gene基于重叠混合的单倍型测序方法待解决两个问题 克隆重叠问题 错误

10、连接问题解决问题的思路准确识别覆盖每个allele的克隆提高单倍体构建的准确性Chimeric fragmentsA ACA TGG TGA AG20基于重叠混合的单倍型测序方法待解决两个问题Chimeric Bioinformatics基于重叠混合的单倍型测序方法21 多次混合 将克隆看成为重叠混合测序的样本Some other overlapping pools利用不同的Overlap信息解码根据不同混合池中的不同覆盖判断重叠部分的归属Bioinformatics基于重叠混合的单倍型测序方法23解决问题的基本策略核心准确识别SNP位点以及覆盖每个allele的所有克隆进而确定每个克隆上各个

11、allele及其顺序前提:覆盖某allele的克隆个数相对于整个克隆文库来说是稀有的SNP位置重叠混合测序解码SNP集覆盖SNP的克隆集形成局部单倍型并组装22解决问题的基本策略核心准确识别SNP位点以及覆盖每个alle基于重叠混合的单倍型测序方法稀释到多个混合池构建测序文库并测序比对 & 检测SNP重构局部单倍型连接局部单倍体构建个体克隆文库完整单倍体基因组23基于重叠混合的单倍型测序方法稀释到多个混合池构建测序比对 &解码方法Figure 1. Illustration of alleles assignment. (A) Five clones are pooled into three

12、 pools, which means pool #1 contains clones 1, 4 and 5; pool #2 contains clones 2 and 4; and pool #3 contains clones 3 and 5. (B) The sequencing results. For example, allele 2 is sequenced three, two and one times in pools #1, #2 and #3, respectively. (C) According toMand Y, the vector x for every a

13、llele could be solved and the five clones could be reconstructed accordingly, as shown in (C). For example, the sequencing result of allele 2 is (3, 2, 1)T, equaling the dot-product of the vectorMwith the target vector x of (1, 1, 0, 1, 1)T, which means allele 2 is contained in clone 1, clone 2, clo

14、ne 4 and clone 5, but not in clone 3.Decoding Algorithm Alleles assignment M : pooling matrixY : count of allelej in the ith poolx: either 1 or 0, indicating if theclone contains the alleleLi C et al. Nucleic Acids Res. 201624解码方法Figure 1. Illustration of 实验设计 25Experimental design (分组设计)HapMap samp

15、le NA12878:produced two haplotype sequencesThe length of the clones followed a Poisson distribution, where the average length was approximately 140 kb. 130 110 clones were generated, with 6 clone coverage. 实验设计 27Experimental design (分组实验结果 Li C et al. Nucleic Acids Res. 2016The correct decoding rat

16、e for different combinations of various k (the percent of clones that are pooled in each pool), t (the number of pools) and dt values (the data throughput for each pool). The color and size of the circle denote the correct decoding rate for each scenario 解码正确率随混合池个数及数据通量的变化选择最优的混合测序参数,以获得最高的解码正确率26实

17、验结果 Li C et al. Nucleic Acids实验结果 Li C et al. Nucleic Acids Res. 201627在1号染色体上,221,009个同时被来自于两个同源染色体的克隆所覆盖的变异位点中有220,734 (99.9%)个被准确的恢复。Table 2. The statistics of the assembled haplotypes for chromosome 1 准确地识别变异位点 构建的单倍体更长实验结果 Li C et al. Nucleic Acids实验结果The number of alleles in each reconstructed clone sequence that support each haplotype in the diploid individual. Li C et al. Nucleic Acids Res. 2016我们的方法 能够准确判定alleles的归属 没有错误切换28Alleles were

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论