生物信息学是数据导向科学,大规模测序是其最重要数据来源_第1页
生物信息学是数据导向科学,大规模测序是其最重要数据来源_第2页
生物信息学是数据导向科学,大规模测序是其最重要数据来源_第3页
生物信息学是数据导向科学,大规模测序是其最重要数据来源_第4页
生物信息学是数据导向科学,大规模测序是其最重要数据来源_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学是数据导向科学,大规模测序是其最重要数据来源生物信息学是数据导向的科学, 大规模测序是其最重要的数据来源之一大规模测序与实验室测序的不同实验室测序: 手工操作,效率低,结果是第一位的大规模测序: 流水线操作,自动化 追求稳定、高效、低本钱两种测序策略:基于BAC的方法: 先把基因组打碎成200300kb的片段并制成BAC文库,再选择一些BAC进一步打碎成3kb左右的小片段,测序并拼接。全基因组鸟枪法: 把基因组直接打碎成3kb左右的小片段,测序并拼接。基于BAC的方法全基因组DNA随机打成大片段 选择并克隆大片段排序,选择再打碎,克隆,测序,拼接全基因组鸟枪法基因组DNA随机打碎测序

2、并拼接近来测序技术的进展从基于BAC的策略转向全基因组鸟枪法毛细管自动测序仪的广泛使用全基因组鸟枪法测序的拼接困难: 数据量极大 大量重复序列造成拼接途径的不确定拼接软件的新需求能充分利用正反向测序的配对信息, 防止重复序列造成的错误拼接能处理数以百万甚至千万计的数据 程序并行化 高效率比对 能逐步拼接水稻基因组拼接步骤:采用数学模型识别重复序列 把重复序列屏蔽掉后,根据是否具有重叠局部进行分组采用大型计算机并行拼接恢复重复序列,延伸contig构建scanfold识别重复序列的数学模型重复序列识别:假设repeat有m个拷贝,且随机序列覆盖深度为0,1,2的概率:g0 , g1 , g2 ,

3、那么一次抽样repeat覆盖深度为0,1,2,的概率P0, P1, P2,为:n次抽样,其中i次以上深度在j以上的概率Pij设一次抽样深度在j以上和以下的概率分别为:Pj,Pj+;n次抽样,其中i次以上深度在j以上那么认为是repeat,此时犯两类错误的概率 为:设repeat在基因组中的比例为b,出现概率为P,非repeat出现概率为P* ,那么:MDR (Mathematically-Defined Repeat) vs. BDRs (Biologically-Defined Repeats)BDR(25%)BDR(50%?)MDR(42.2%) 人与水稻基因组中重复序列分布的差异Contigs:127,550 (N50=6,688 bp)Scaffolds: 102,444(N50=11,764 bp)Quality: 546 bp at Q20进一步工作的设想新拼接程序步骤:利用覆盖深度模型纠正测序错误采用严格比对快速确定所有可能的重叠利用图论或线性代数方法完成拼接纠正测序错误对6X左右鸟枪法测序数据,统计所有20碱基长小片段出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论