高通量数据处理流程.ppt

上传人：努*** IP属地：江西上传时间：2020-01-11 格式：PPT 页数：36 大小：1.33MB 积分：15 举报 版权申诉

已阅读5页，还剩31页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据处理流程计算机集群测序控制PC 测序仪 1 控制测序过程决定测序长度填加试剂控制温度控制反应时间拍照2 图像分析对测序仪拍照的图片进行图像分析得到亮点的光强度和坐标3 basecalling由光强度得到碱基序列 4 数据传输将basecalling结果二进制文件bcl 传输到计算机集群的存储上 5 数据处理将bcl文件转化为后续信息分析所使用的文本文件 fastq qseq 6 index拆分7 数据质量分析8 数据备份9 后续信息分析图像分析及basecalling基本原理 Cycle1Cycle2Cycle3 对A发出的光拍照对C发出的光拍照对G发出的光拍照对T发出的光拍照图像分析及basecalling基本原理 Cycle1Cycle2Cycle3 由4个cluster得到4条序列 ATA CCT GCG GAC 图像分析对每个图片独立的处理图像锐化对图片进行快速傅里叶变换 FFT 在傅里叶空间乘以滤波函数后反变换识别cluster 亮点信噪比亮度背景值大于阈值的亮点区域计算亮点光强度和位置坐标在亮点区域对光强度进行二维插值求出最大光强度以及最大光强度对应的位置坐标将同一个tile的所有图片中的亮点坐标对齐重叠不同图片之间存在偏移拉伸压缩 offset 系统稳定的 4种光折射率不同滤波片不同光路不同所以造成成像的偏移拉伸压缩可利用crosstalk 计算出偏移拉伸压缩的数值 offset参数偶然随机的 flowcell表面不平自动调整焦距机械移动不够精确随机振动可利用crosstalk解决 CrosstalkAC光谱间有交叠 GT光谱间有交叠所以碱基A的图片中包含C发出的光碱基C的图片中包含A发出的光碱基T的图片中包含G发出的光不利不能直接比较光强度大小而得到碱基有利利用图片中共同的亮点将所有图片对齐重叠解决offset问题图像分析流程 TemplateGeneration利用AC之间的crosstalk GT之间的crosstalk 将前2个cycle的图片与第一个cycle的A的图片对齐重叠确定所有cluster的位置坐标 x y RegistrationandIntensityExtraction对于每一个cycle 将4张图片 ACGT 中的所有亮点与cluster坐标 x y 对应计算每个cluster的4种光强度对每个图片独立的处理图像锐化识别cluster 亮点计算亮点光强度和位置坐标 TemplateGeneration利用AC之间的crosstalk GT之间的crosstalk 将前2个cycle的图片与第一个cycle的A的图片对齐重叠确定所有cluster的位置坐标 x y 图像分析结果 Basecalling Crosstalk校正4种光强度归一化用DNA样品计算参数 Phasing Prephasing校正用DNA样品计算参数对于每个cluster 在每个cycle中比较4种光强度光强度最大的就是当前cycle测到的碱基各cycle测到的碱基连起来组成这个cluster的碱基序列计算每个碱基的质量值 4种光强度归一化 A C G T phasing Sequencingprimer prephasing Basecalling结果 qseq文件每一行表示一条reads 一个cluster 每行有11列 tab分隔机器编号 run序号 Lane号 Tile号 X坐标 Y坐标 index标志 read1 read2标志碱基序列质量序列是否通过默认的质量筛选标准Single end SE 测序 1个qseq文件Pair end PE 测序 2个qseq文件分别存放read1和read2的数据 2个文件的同一行属于同一个cluster每条序列 reads 长度上机测序循环 cycle 数量测序cycle数量受测序试剂盒的试剂量限制对于GA有 36SE 36 7 8SEindex 45PE 36 7 45PEindex 76PE 74 7 76PEindex 73 8 76PEindex 101PE 101 7 8 101PEindex等对于Hiseq 91PE 91 8 91PEindex 101PE 101 8 101PEindex Basecalling结果 qseq文件 fastq文件每4行表示一条reads 一个cluster 第一行序列ID 包含index序列及read1或read2标志第二行碱基序列大写 ACGTN 第三行省略了序列ID第四行质量值序列字符的ASCII码值 64 质量值Single end SE 测序 1个fastq文件Pair end PE 测序 2个fastq文件分别存放read1和read2的数据 Read1的fastq文件 1 fq中第一条reads FC61FL8AAXX 1 17 1012 19200 GCCAAT 1CCACTGTCATGTGAACATCACAGAGACATTTCTTGA bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa Read2的fastq文件 2 fq中第一条reads FC61FL8AAXX 1 17 1012 19200 GCCAAT 2AAAATTAGCCAGGCAATGGTGGTGCATGCCTTTAATCCCAGCTA QVVV V YVYWWYPWYYTYYWUYYYVV WW 质量值 FC61FL8AAXX 1 17 1012 19200 GCCAAT 1CCACTGTCATGTGAACATCACAGAGACATTTCTTGA bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa 表示方法Illumina 字符的ASCII值 64 质量值 Sanger 字符的ASCII值 33 质量值范围GAIllumina1 3 09年3月之后 2 35 B c GAIllumina1 0 09年3月之前 5 40 h Hiseq 2 38 B f 质量值与错误率理论关系 Q 10log10 e 质量值计算方法根据光强信号信噪比光强度衰减 GC含量等参数计算质量值 fastq文件 fastq文件每条序列 reads 长度read1和read2分别去除了最后一个碱基即 36SE有效长度为35101PE有效长度为100 read1 100 read2 101 8 101PEindex有效长度为100 read1 100 read2 Read1中所有reads长度相同 Read2中所有reads长度相同但是Read1和Read2长度可以不相同取决于上机测序循环 cycle 数量质量筛选 PF Illumina标准流程输出的fastq文件去除了qseq文件中没有通过默认质量筛选标准的低质量序列 reads GA正常PF比例 DNA80 90 RNA70 85 每个Lane的正常产量范围 GA20 30MPFreads Read1和Read2各有20 30MHiseq60 80MPFreads Read1和Read2各有60 80M碱基总产量 Read1的产量 Read2的产量 reads数量 Read1的长度 Read2的长度 fastq文件产量 GA fastq文件产量 HiseqvsGA 文库质控问题1 Pair end关系 800bp及以下文库与参考序列比较或者总之 Read1 Read2与参考序列比对结果一正 F 一反 R 且F的位点坐标小于R的位点坐标 Read1 总之 Read1 Read2于参考序列比对结果一正 F 一反 R 且F的位点坐标小于R的位点坐标文库插入片段长度 F 2100检测报告文库长度分布与参考序列比对得到insert size分布正常insert size分布基因组DNA 外显子 PCR free文库异常insert size分布 2K及以上文库文库质控问题1 Pair end关系与参考序列比较或者总之 Read1 Read2于参考序列比对结果一正 F 一反 R 且F的位点坐标大于R的位点坐标正常insert size分布 2K 5 6K PCR free文库 10K 异常insert size分布文库问题2 adapter污染空载 adapter与adapter直接连接中间没有插入片段导致read1测到3 adapter read2测到5 adapter的反向互补reads尾部测到adapter插入片段过短插入片段长度小于上机测序循环 cycle 数导致read1尾部测到3 adapter read2尾部测到5 adapter的反向互补 adapter空载较多导致碱基含量波动客户PCR引物污染导致碱基含量波动文库质控问题3 文库随机性 GC含量偏差实验技术打断 PCR 测序本身特点导致高GC和低GC区域测序覆盖度偏低甚至某些区域覆盖不到 PCR free建库技术可减少PCR带来的随机性问题duplicationPCR扩增出很多一模一样的母版分子测序结果中很多条reads是一样的基因组自身重复序列含量高导致duplication偏高数据量越大 duplication比例越高文库质控问题4 其它物种样品污染测序质控问题 rawCluster密度正常rawCluster密度 20 30万 GAtile 200 350万 HiSeqtileCluster制备时控制文库浓度达到适当的rawCluster密度密度过低产量低密度过高质量差样品差异 200小片段能够容忍的密度较高 800bp片段以及RNA样品特殊样品应适当降低密度通过默认质量筛选标准比例 PF 用read1前25cycle的信噪比进行筛选正常PF比例 DNA 80 RNA 70 rawCluster密度越高 PF比例越低当rawCluster密度超高时图像分析识别出的rawCluster数量小于真实值此时PF比例会低于正常测序质控问题光强度信号受到环境温度测序仪温度控制测序仪聚焦 CS试剂测序试剂样品等因素共同影响测序长度越长光强度降低越多碱基含量不均匀的样品光强度会有波动但属于正常碱基含量样品本身测序问题导致有

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

高通量数据处理流程.ppt

文档简介

温馨提示

最新文档

评论

高通量数据处理流程.ppt

文档简介

温馨提示

最新文档

评论

相关文档