高通量数据处理流程.ppt_第1页
高通量数据处理流程.ppt_第2页
高通量数据处理流程.ppt_第3页
高通量数据处理流程.ppt_第4页
高通量数据处理流程.ppt_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据处理流程 计算机集群 测序控制PC 测序仪 1 控制测序过程决定测序长度 填加试剂 控制温度 控制反应时间 拍照2 图像分析对测序仪拍照的图片进行图像分析 得到亮点的光强度和坐标3 basecalling由光强度得到碱基序列 4 数据传输将basecalling结果 二进制文件bcl 传输到计算机集群的存储上 5 数据处理将bcl文件转化为后续信息分析所使用的文本文件 fastq qseq 6 index拆分7 数据质量分析8 数据备份9 后续信息分析 图像分析及basecalling基本原理 Cycle1Cycle2Cycle3 对A发出的光拍照 对C发出的光拍照 对G发出的光拍照 对T发出的光拍照 图像分析及basecalling基本原理 Cycle1Cycle2Cycle3 由4个cluster得到4条序列 ATA CCT GCG GAC 图像分析 对每个图片独立的处理图像锐化对图片进行快速傅里叶变换 FFT 在傅里叶空间乘以滤波函数后反变换识别cluster 亮点信噪比 亮度 背景值 大于阈值的亮点区域计算亮点光强度和位置坐标在亮点区域 对光强度进行二维插值 求出最大光强度 以及最大光强度对应的位置坐标 将同一个tile的所有图片中的亮点坐标对齐重叠不同图片之间存在偏移 拉伸 压缩 offset 系统 稳定的 4种光折射率不同 滤波片不同 光路不同 所以造成成像的偏移 拉伸 压缩 可利用crosstalk 计算出偏移 拉伸 压缩的数值 offset参数 偶然 随机的 flowcell表面不平 自动调整焦距 机械移动不够精确 随机振动 可利用crosstalk解决 CrosstalkAC光谱间有交叠 GT光谱间有交叠 所以 碱基A的图片中包含C发出的光碱基C的图片中包含A发出的光碱基T的图片中包含G发出的光不利 不能直接比较光强度大小而得到碱基有利 利用图片中共同的亮点 将所有图片对齐重叠 解决offset问题 图像分析流程 TemplateGeneration利用AC之间的crosstalk GT之间的crosstalk 将前2个cycle的图片 与第一个cycle的A的图片对齐重叠 确定所有cluster的位置坐标 x y RegistrationandIntensityExtraction对于每一个cycle 将4张图片 ACGT 中的所有亮点与cluster坐标 x y 对应 计算每个cluster的4种光强度 对每个图片独立的处理图像锐化 识别cluster 亮点 计算亮点光强度和位置坐标 TemplateGeneration利用AC之间的crosstalk GT之间的crosstalk 将前2个cycle的图片 与第一个cycle的A的图片对齐重叠 确定所有cluster的位置坐标 x y 图像分析结果 Basecalling Crosstalk校正4种光强度归一化 用DNA样品计算参数 Phasing Prephasing校正 用DNA样品计算参数 对于每个cluster 在每个cycle中 比较4种光强度 光强度最大的就是当前cycle测到的碱基 各cycle测到的碱基连起来组成这个cluster的碱基序列 计算每个碱基的质量值 4种光强度归一化 A C G T phasing Sequencingprimer prephasing Basecalling结果 qseq文件 每一行表示一条reads 一个cluster 每行有11列 tab分隔 机器编号 run序号 Lane号 Tile号 X坐标 Y坐标 index标志 read1 read2标志 碱基序列 质量序列 是否通过默认的质量筛选标准Single end SE 测序 1个qseq文件Pair end PE 测序 2个qseq文件分别存放read1和read2的数据 2个文件的同一行属于同一个cluster每条序列 reads 长度 上机测序循环 cycle 数量 测序cycle数量受测序试剂盒的试剂量限制 对于GA有 36SE 36 7 8SEindex 45PE 36 7 45PEindex 76PE 74 7 76PEindex 73 8 76PEindex 101PE 101 7 8 101PEindex等对于Hiseq 91PE 91 8 91PEindex 101PE 101 8 101PEindex Basecalling结果 qseq文件 fastq文件 每4行表示一条reads 一个cluster 第一行 序列ID 包含index序列及read1或read2标志 第二行 碱基序列 大写 ACGTN 第三行 省略了序列ID第四行 质量值序列 字符的ASCII码值 64 质量值Single end SE 测序 1个fastq文件Pair end PE 测序 2个fastq文件分别存放read1和read2的数据 Read1的fastq文件 1 fq中第一条reads FC61FL8AAXX 1 17 1012 19200 GCCAAT 1CCACTGTCATGTGAACATCACAGAGACATTTCTTGA bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa Read2的fastq文件 2 fq中第一条reads FC61FL8AAXX 1 17 1012 19200 GCCAAT 2AAAATTAGCCAGGCAATGGTGGTGCATGCCTTTAATCCCAGCTA QVVV V YVYWWYPWYYTYYWUYYYVV WW 质量值 FC61FL8AAXX 1 17 1012 19200 GCCAAT 1CCACTGTCATGTGAACATCACAGAGACATTTCTTGA bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa 表示方法Illumina 字符的ASCII值 64 质量值 Sanger 字符的ASCII值 33 质量值 范围GAIllumina1 3 09年3月之后 2 35 B c GAIllumina1 0 09年3月之前 5 40 h Hiseq 2 38 B f 质量值与错误率理论关系 Q 10log10 e 质量值计算方法 根据光强信号信噪比 光强度衰减 GC含量等参数 计算质量值 fastq文件 fastq文件 每条序列 reads 长度read1和read2分别去除了最后一个碱基 即 36SE有效长度为35101PE有效长度为100 read1 100 read2 101 8 101PEindex有效长度为100 read1 100 read2 Read1中所有reads长度相同 Read2中所有reads长度相同 但是Read1和Read2长度可以不相同 取决于上机测序循环 cycle 数量质量筛选 PF Illumina标准流程输出的fastq文件 去除了qseq文件中没有通过默认质量筛选标准的低质量序列 reads GA正常PF比例 DNA80 90 RNA70 85 每个Lane的正常产量范围 GA20 30MPFreads Read1和Read2各有20 30MHiseq60 80MPFreads Read1和Read2各有60 80M碱基总产量 Read1的产量 Read2的产量 reads数量 Read1的长度 Read2的长度 fastq文件产量 GA fastq文件产量 HiseqvsGA 文库质控问题1 Pair end关系 800bp及以下文库 与参考序列比较或者 总之 Read1 Read2与参考序列比对结果 一正 F 一反 R 且F的位点坐标小于R的位点坐标 Read1 总之 Read1 Read2于参考序列比对结果 一正 F 一反 R 且F的位点坐标小于R的位点坐标文库插入片段长度 F 2100检测报告文库长度分布 与参考序列比对得到insert size分布 正常insert size分布 基因组DNA 外显子 PCR free文库 异常insert size分布 2K及以上文库 文库质控问题1 Pair end关系 与参考序列比较或者 总之 Read1 Read2于参考序列比对结果 一正 F 一反 R 且F的位点坐标大于R的位点坐标 正常insert size分布 2K 5 6K PCR free文库 10K 异常insert size分布 文库问题2 adapter污染 空载 adapter与adapter直接连接 中间没有插入片段 导致read1测到3 adapter read2测到5 adapter的反向互补reads尾部测到adapter插入片段过短插入片段长度小于上机测序循环 cycle 数 导致read1尾部测到3 adapter read2尾部测到5 adapter的反向互补 adapter空载较多导致碱基含量波动 客户PCR引物污染导致碱基含量波动 文库质控问题3 文库随机性 GC含量偏差 实验技术 打断 PCR 测序 本身特点 导致高GC和低GC区域测序覆盖度偏低 甚至某些区域覆盖不到 PCR free建库技术可减少PCR带来的随机性问题duplicationPCR扩增出很多一模一样的母版分子 测序结果中很多条reads是一样的 基因组自身重复序列含量高导致duplication偏高 数据量越大 duplication比例越高 文库质控问题4 其它物种 样品污染 测序质控问题 rawCluster密度正常rawCluster密度 20 30万 GAtile 200 350万 HiSeqtileCluster制备时 控制文库浓度 达到适当的rawCluster密度密度过低 产量低 密度过高 质量差样品差异 200小片段能够容忍的密度较高 800bp片段以及RNA样品 特殊样品 应适当降低密度通过默认质量筛选标准比例 PF 用read1前25cycle的信噪比进行筛选 正常PF比例 DNA 80 RNA 70 rawCluster密度越高 PF比例越低 当rawCluster密度超高时 图像分析识别出的rawCluster数量小于真实值 此时PF比例会低于正常 测序质控问题 光强度信号受到环境温度 测序仪温度控制 测序仪聚焦 CS试剂 测序试剂 样品等因素共同影响 测序长度越长 光强度降低越多 碱基含量不均匀的样品 光强度会有波动 但属于正常碱基含量样品本身测序问题导致有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论