版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、旗开得胜读万卷书行万里路1巳;读万卷书行万里路1TOC o 1-5 h z HYPERLINK l bookmark0 摘要1 HYPERLINK l bookmark2 合同关键指标1 HYPERLINK l bookmark4 分析结果概述1 HYPERLINK l bookmark6 1项目基本信息1 HYPERLINK l bookmark8 2实验流程1 HYPERLINK l bookmark10 3测序数据质控33.1测序数据介绍3 HYPERLINK l bookmark18 3.2碱基测序质量分布4 HYPERLINK l bookmark22 3.3碱基类型分布5 HYPE
2、RLINK l bookmark24 3.4低质量数据过滤63.5数据质量统计7 HYPERLINK l bookmark38 3.6NT库比对7 HYPERLINK l bookmark40 4数据下载94.1数据下载方法9摘要合同关键指标对XX个样品进行建库测序,呆证每个样品产生XXGb数据量,Q30达到80%。分析结果概述测序共获得XXGbp的RawData,过滤后得到的CleanData为XXGbp,Q30达到XX%。1项目基本信息样品信息样品编号BMK编号XXR01XXR02注:BMK编号:百迈客对样品的统一编号,实验建库和后续信息分析均使用该编号。2实验流程实验流程按照Illumi
3、na公司提供的标准protocol执行,包括样品质量检测、文库构建、文库质量检测和文库测序等流程,具体流程图如下:旗开得胜-读万卷书行万里路1薙接产物预实验2-A文库纯优去摄头污染RtgonaraieCriJilarsiQniiii*S|unct!PaindCnd-上机测序实验流程图样品基因组DNA检测合格后,用机械打断的方法(超声波)将DNA片段化,然后对片段化的DNA进行片段纯化、末端修复、3端加A、连接测序接头,再用琼脂糖凝胶电泳进行片段大小选择,进行PCR扩增形成测序文库,建好的文库先进行文库质检,质检合格的文库用IlluminaHiSeq进行测序。旗开得胜读万卷书行万里路13测序数据
4、质控3.1测序数据介绍高通量测序(如IllunimaHiSeq测序平台)得到的原始图像数据文件,经碱基识别(BaseCalling)分析转化为原始测序序列(SequencedReads),我们称之为RawData或RawReads,结果以FASTQ(简称为fq)文件格式存储,其中包含测HWI-700U55:133:C1PWW:4:2311:2D?72:9(l?841;Y:e:CTTACTCfllflCCTCTCCITCCTCTCIICCTCrCTCIATCnCACTCTrCTClCTCTCfiCTGlCnCGGGCflGTGCftfiGGGCGfiGftGGIGGGCGGCGGCGCflflG
5、CGGCn=;?7A+22R:DD&:?(AFE9:+3ft3AEflF9EaE?D?CDCDm*O?B0?ftEDDflfl&0RDED1;Ah3?31py8?mttltmOIIII序序列(Reads)的序列信息以及其对应的测序质量信息。测序样品中真实数据随机截取结果如下:FASTQ格式文件中每个Read由四行描述,其中第一行以“”开头,随后为Illumina测序识别符(SequenceIdentifiers)和描述文字(可选部分);第二行是碱基序列;第三行以“+”开头,随后为Illumina测序识别符(可选部分);第四行是对应序列的测序质量。Illumina测序识别符(SequenceId
6、entifiers)详细信息如下:川umina测序标识详细信息HWI-7001455Uniqueinstrumentname110RunIDC3B41ACXXFlowcellIDFlowcelllane1101Tilenumberwithintheflowcelllane1401x-coordinateoftheclusterwithinthetile2163y-coordinateoftheclusterwithinthetile1Memberofapair,1or2(paired-endormate-pairreadsonly)NYifthereadfailsfilter(readisba
7、d),Notherwise00whennoneofthecontrolbitsareon,otherwiseitisanevennumberTAAGGCIndexsequence通过使用第四行中每个字符对应的ASCII值进行计算很卩得到对应第二行碱基的测序质量值。如果测序错误率用e表示,IllunimaHiSeq的碱基质量值用Qphred表示,则有下列关系:公式一:Q=10log(e)phred10IllunimaCasava1.8版本测序错误率与测序质量值简明对应关系如下表所示:IllunimaCasava1.8版本测序错误率与测序质量值简明对应关系测序错误率测序质量值对应字符5%13.1%
8、2050.1%30?0.01%40I注:碱基识别(BaseCalling)分析软件:IlluminaCasava1.8版本;测序参数:双端测序(Pairedend);测序序列读长:151bp(或者单位为循环数(cycle)3.2碱基测序质量分布,Qphred)通过公每个碱基测序错误率是通过测序Phred数值(Phredscore旗开得胜_读万卷书行万里路1式一转化得到,而Phred数值是在碱基识别(BaseCalling)过程通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所显示:预测碱基判别发生错误概率Phred分值不正确的碱基识别碱基正确识别率Q-sorce101/1090%
9、Q10201/10099%Q20301/100099.9%Q30401/1000099.99%Q40在Hiseq测序系统测序时,首先会对文库进行芯片制备,目的是将文库DNA模板固定到芯片上,在固定DNA模板的过程中,每个DNA分子会形成一个簇,一个簇就是一个测序位点,在进行固定过程中极少量的簇与簇之间物理位置会发生重叠,在测序时,测序软件通过前4个碱基对这些重叠的点进行分析和识别,将这些重叠点位置分开,保证每个点测到的是一个DNA分子,因此测序序列5端前几个碱基的错误率相对较高。另外测序错误率会随着测序序列(SequencedReads)的长度的增加而升高,这是由于测序过程中化学试剂的消耗而导
10、致的。因此在进行碱基测序质量分布分析时,样品的碱基质量分布在前4个碱基和后十几个碱基的质量值会低于中间测序碱基,但其质量值都高于Q30%,根据质量值和错误率的关系,我们将质量值转换成错误率,绘制错误率分布图如下:旗开得胜3ReadsAverageErrorRatefR01)2Q10Qscq脚。Positionalongreads图3样品碱基错误率分布注:横坐标为reads的碱基位置,纵坐标为单碱基错误率前151bp为双端测序序列的第一端测序Reads的错误率分布情况,后151bp为另一端测序reads的错误率分布情况。3.3碱基类型分布碱基类型分布检查用于检测有无AT、GC分离现象,而这种现象
11、可能是测序或者建库所带来的,并且会影响后续分析。高通量所测序列为基因组随机打断后的DNA片段,由于位点在基因组上的分布是近似均匀的,同时,G/C、A/T含量也是近似均匀的。因此,根据大数定理,在每个测序循环上,GC、AT含量应当分别相等,且等于基因组的GC、AT含量。同样因为重叠簇的关系会导致样品前几个碱基AT、GC不等波动较大,高于其他测序区段,而其它区段的GC、AT的含量相等,且分布均匀无分离现象,下图所示:-怨万行万SB1旗开得胜Basescontentaionreads(ROl)O叽ZflO300Fosiligrialong!reads1:图4样品各碱基比例分布注:横坐标为测序read
12、s的碱基位置,纵坐标为碱基所占的比例;不同颜色代表不同的碱基类型,绿色代表碱基A,蓝色代表碱基T,红色代表碱基C,橙色代表碱基G,灰色代表测序中识别不出的碱基N。前150bp为双端测序序列的第一端测序Reads的碱基分布,后150bp为另一端测序reads的碱基分布。每个cycle代表测序的每个碱基,如第一cycle即表示该项目所有测序reads在第一个碱基的A、T、G、C、N的分布情况。该图的结果显示AT、CG碱基基本不发生分离,且曲线较平缓,说明测序结果正常。3.4低质量数据过滤测序得到的原始测序序列(SequencedReads)或者RawReads,里面含有带接头的、低质量的Reads
13、,为了保证信息分析质量,对RawReads进行过滤,得到CleanReads,用于后续信息分析。数据过滤的主要步骤如下:(1)去除带接头(adapter)的reads。过滤N含量超过10%的reads和质量值低于10的碱基_AF读万卷书行万里路1旗开得胜”读万卷书行万里路1超过50%的reads。(3)去除低质量reads。3.5据质量统计数据过滤统计表BMKIDRawReadsAdapterRelatedContainNLowQualityCleanReadsR01XXXXXXXXXXXXXR02XXXXXXXXXXXXX注:BMKID:百迈客对项目样品的统一编号;RawReads:原始测序
14、reads数;AdapterRelated:含接头被过滤的reads数;ContainN:由于N比例大于10%而被过滤的reads数;LowQuality:质量值过低被过滤的reads数;CleanReads:过滤后剩余的reads数。各样品测序产出数据质量统计方法如下:RawReads:统计原始序列数据,以四行为一个单位,统计Pair-end序列的个数。CleanReads:计算方法同RawReads,统计过滤后的序列文件用于后续生物信息学分析。Cleanbases:CleanReads数乘以序列长度。Q20(%)、Q30(%):分别计算Phred数值大于20、30的碱基占总体碱基的百分比。
15、GC(%):计算碱基G和C的数量总和占总的碱基数量的百分比。各样品测序产出数据评估结果见下表:样品测序数据评估统计旗开得胜读万卷书行万里路1BMKIDRawReadsCleanReadsCleanBasesQ20(%)Q30(%)GC(%)R01XXXXXXXX%XX%XX%R02XXXXXXXX%XX%XX%注:BMK_ID:百迈客对项目样品的统一编号;Raw_Reads:初始测序reads数目,以四行为一个单位,统计Pair-end序列的个数;Clean_Reads:过滤后的reads数,计算方法同RawReads;Clean_bases:过滤后的碱基数,CleanReads数乘以序列长度;Q20(%):质量值大于等于20的碱基占总碱基数的百分比;Q30(%):质量值大于等于30的碱基占总碱基数的百分比;GC(%):样品GC含量,即G和C类型的碱基占总碱基的百分比。3.6NT库比对对过滤后的高质量数据随机抽取2000条Reads数据,通过Blast软件比对NT库。结合本物种在NT库中的注释情况以及本次的比对结果,本项目没有污染。具体结果如下表所示:表NT比对结果SampleHit1Hit2B332-R01SorghumbicolorSaccharumhybridB332-R02SorghumbicolorSaccharumhybrid注:Sa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年台江区人民法院四五普法的工作总结
- 水果种植机械化应用-洞察分析
- 微纳尺度磁电耦合设计-洞察分析
- 网络明文流量分析-洞察分析
- 外分泌激素信号通路-洞察分析
- 医学人文教育创新-洞察分析
- 图例无障碍设计的标准化路径-洞察分析
- 2024年05月江苏2024届宁波银行无锡分行实习生招考(519)笔试历年参考题库附带答案详解
- 2024年柳钢集团职工医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 2024年柳州市康华骨伤科医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 英国文学史及选读复习要点总结
- 贵州省贵阳市花溪区2023-2024学年数学三年级第一学期期末联考试题含答案
- 中小学校园人车分流方案模板
- 广东省惠州市博罗县2022-2023学年六年级上学期期末数学试卷
- 2023年04月2023年外交学院招考聘用笔试参考题库附答案解析
- 中国自身免疫性脑炎诊治专家共识2023年版
- 单片机与微机原理及应用第二版张迎新习题答案
- 深部真菌病课件
- 用户界面测试
- 人工气道湿化的护理培训课件
- GB/T 4269.3-2000农林拖拉机和机械、草坪和园艺动力机械操作者操纵机构和其他显示装置用符号第3部分:草坪和园艺动力机械用符号
评论
0/150
提交评论