版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二代测序数据分析原理徐汪节当前第1页\共有66页\编于星期三\9点三代DNA测序技术之比较第一代测序技术:Sanger测序法第二代测序技术:454测序……
第三代测序技术:?直接测序法:?2023/5/292当前第2页\共有66页\编于星期三\9点第一代测序技术:
Sanger测序法
——简便、快速2023/5/293当前第3页\共有66页\编于星期三\9点逐渐被遗忘的测序技术:
Maxam-Gilbert的DNA化学降解法
2023/5/294当前第4页\共有66页\编于星期三\9点Sanger测序的局限通过几十年的改进,第1代测序仪的读长可以超过1000bp,原始数据的准确率可以高达99.999%,测定每千碱基序列的成本是0.5美元,每天的数据通量可以达到60万碱基。但是,不管怎么改进,第1代测序技术在速度和成本方面都已达到了极限(因为对电泳分离技术的依赖,使其难以进一步提升分析的速度和提高并行化程度,并且难以通过微型化降低测序成本)。在此种情况下,第二代测序技术(Next-generationsequencing)应运而生。2023/5/295当前第5页\共有66页\编于星期三\9点概要主要的测序平台基因组分析原理转录组分析原理分析策略的选择当前第6页\共有66页\编于星期三\9点第二代测序技术454测序IlluminaSOLIDPolonatorCompleteGenomics……2023/5/297当前第7页\共有66页\编于星期三\9点4542023/5/298当前第8页\共有66页\编于星期三\9点SOLID2023/5/299当前第9页\共有66页\编于星期三\9点Illumina2023/5/2910当前第10页\共有66页\编于星期三\9点其他PolonatorCompleteGenomics……2023/5/2911当前第11页\共有66页\编于星期三\9点2023/5/2912当前第12页\共有66页\编于星期三\9点第二代测序技术的共同点1将目标DNA剪切为小片段2单个小片段DNA分子结合到固相表面3单分子独立扩增4每次只复制一个碱基(A,C,T,G)并检测信号5高分辨率的成像系统。2023/5/2913当前第13页\共有66页\编于星期三\9点第二代测序技术的局限与第一代测序仪相比,以合成测序为基础的下一代测序平台速度显著提高,成本明显降低。每台设备每天产出千兆碱基的序列不足为奇。但是,除了罗氏的454平台之外,读长短成了下一代测序平台的致命伤,这主要是由于DNA簇中存在的光学信号移相造成的。而应运而生的单分子测序技术是解决这一问题的一种方法。2023/5/2914当前第14页\共有66页\编于星期三\9点第三代测序技术:单分子测序HelicosBiosciencesVisiGenPacificBiosciencesMobiousNexusI……2023/5/2915当前第15页\共有66页\编于星期三\9点2023/5/2916当前第16页\共有66页\编于星期三\9点直接测序法在所有上述三代测序技术中,序列都是在荧光或者化学发光物质的协助下,通过读取DNA聚合酶或DNA连接酶将碱基连接到DNA链上过程中释放出的光学信号而间接确定的。除了需要昂贵的光学监测系统,还要记录、存储并分析大量的光学图像,这都使仪器的复杂性和成本增加。依赖生物化学反应读取碱基序列更增加了试剂、耗材的使用,在目前测序成本中比例相当大。直接读取序列信息,不使用化学试剂,对于进一步降低测序成本是非常可取的。为了实现这样的目标,目前就有很多人在研究纳米物理技术。在全球,许多公司和组织,如Agilent,DNAElectronics,IBM,NabSys,OxfordNanoporeTechnologies,Sequenom等都在进行纳米孔测序的开发,不同的只是采用的方法或策略。2023/5/2917当前第17页\共有66页\编于星期三\9点2023/5/2918当前第18页\共有66页\编于星期三\9点2023/5/2919当前第19页\共有66页\编于星期三\9点SecondgenerationsequenceRoche454MetagenomicsDenovosequencingRNA-seqillumiaSolexaDenovosequencingRe-sequencingRNA-seq(ChromatinImmunoprecipitation,ChIP)Meth-seqABISOLiDRe-sequencingChIP-seq
RNA-seq当前第20页\共有66页\编于星期三\9点ExperimentsDNA-seq:denovo,resequencingRNA-seq:mRNA,ncRNA,smRNA...ChIP-seq:ChromatinImmunoPrecipitationMethyl-seq:methylatedDNA(epigenome)当前第21页\共有66页\编于星期三\9点主要的测序平台基因组分析原理转录组分析原理分析策略的选择当前第22页\共有66页\编于星期三\9点SequencingGlossaryReads.Acollectionofclonesthatover-samplethetargetgenome.Pair-endreads.Sequencereadsderivedfrombothendsofasequencing-libraryclone.Mate-pairreads.Sequencereadsderivedfrombothendsofamate-pairlibraryclonewhichinsertsizeisusually>1kb.Insertsize.Thesizeoftheclone-insertfromwhichaclone-endpairistaken.Contig.Theresultofjoininganoverlappingcollectionofsequencereads.Scaffold.Theresultofconnectiingnon-overlappingcontigesbyusingpir-endreads.N50size.Asappliedtocontigsorscaffolds,thatsizeabovewhich50%odtheassembled当前第23页\共有66页\编于星期三\9点当前第24页\共有66页\编于星期三\9点当前第25页\共有66页\编于星期三\9点当前第26页\共有66页\编于星期三\9点 全基因组denove分析工具当前第27页\共有66页\编于星期三\9点分析所需工具BowtiesoftwareSAMtoolsTopHatsoftareCufflinkssoftwareCummeRbundsoftware当前第28页\共有66页\编于星期三\9点外显子组分析工具当前第29页\共有66页\编于星期三\9点主要的测序平台基因组分析原理转录组分析原理分析策略的选择当前第30页\共有66页\编于星期三\9点常规分析TranscriptsquantificationSplicingsitesdiscoveryandquantificationGenediscoverySNP/INDELdetectionAllelespecificexpression当前第31页\共有66页\编于星期三\9点当前第32页\共有66页\编于星期三\9点当前第33页\共有66页\编于星期三\9点当前第34页\共有66页\编于星期三\9点UniGene拼接目的:将预处理后reads进行拼接,得到拼接结果。
原理:应用deBruijngraphpath算法对reads进行denovo拼接;对上一步的拼接结果,再用HamiltonPath算法拼接。
结果:UniGene序列,UniGene统计信息,序列长度分布图当前第35页\共有66页\编于星期三\9点当前第36页\共有66页\编于星期三\9点3.数据库注释目的:对拼接得到的UniGene进行功能注释
原理:通过blast+算法将拼接得到的UniGene序列与数据库进行比对
结果:比对结果表格,物种分布统计和Evalue分布统计
当前第37页\共有66页\编于星期三\9点当前第38页\共有66页\编于星期三\9点UniGene表达分析目的:UniGene定量分析。
原理:以UniGene为reference,分别将每个样本的reads进行referencemapping,从而得到每个样本在每个UniGenes中的一个reads覆盖度,然后应用RPKM/FPKM标准化公式对富集片段的数量进行归一化。
RPKM:ReadsPerKilobaseofexonmodelperMillionmappedreads,公式下:当前第39页\共有66页\编于星期三\9点UniGene表达分布图,1X,5X分别为FPKM=1,FPKM=5分界点,可以大体观察到低表达,中表达以及高表达的比例关系当前第40页\共有66页\编于星期三\9点UniGene样本间表达相关性散点图当前第41页\共有66页\编于星期三\9点样本间表达差异程度的MA图,可以体现差异表达总体偏差当前第42页\共有66页\编于星期三\9点UniGene表达差异分析目的:对定量结果进行统计检验分析,找出差异表达UniGene
原理:双层过滤筛选差异基因
FC值筛选:采用Fold-change(FC),表达差异倍数进行第一层此的差异基因筛选
FDR检验:一般采用卡方检验中的fisher精确检验进行p值检验,采用BenjaminiFDR(Falsediscoveryratio)校验方法对p值进行假阳性检验,即,通过FDR显著性参数进行第二层次的差异基因筛选。
当前第43页\共有66页\编于星期三\9点组间差异基因上调与下调个数统计,可以通过此图观察上调与下调的一个总体趋势当前第44页\共有66页\编于星期三\9点差异基因火山图,可以观察到差异基因总体分布当前第45页\共有66页\编于星期三\9点GO功能分类
目的:利用数据库注释信息将UniGene进行GO功能分类。
原理:利用数据库的注释结果,应用blast2GO算法进行GO功能分类,得到所有序列在GeneOntology的三大类:molecularfunction,cellularcomponent,biologicalprocess的各个层次所占数目,一般取到14层。
结果:MF,BP,CC三大分类结果文件以及UniGene2GO关系列表,三大类别中第二层次上的柱状分布图和饼图,GO功能的层次分布图。
当前第46页\共有66页\编于星期三\9点当前第47页\共有66页\编于星期三\9点当前第48页\共有66页\编于星期三\9点当前第49页\共有66页\编于星期三\9点当前第50页\共有66页\编于星期三\9点KEGG代谢通路分析目的:对拼接得到UniGene进行KEGGpathway映射。
原理:应用KEGGKAAS在线pathway比对分析工具对拼接得到的UniGene进行KEGG映射分析。
结果:标记的Pathway通路图。当前第51页\共有66页\编于星期三\9点当前第52页\共有66页\编于星期三\9点IPApathwayanalysis
(/)当前第53页\共有66页\编于星期三\9点COG注释目的:对拼接得到UniGene进行COG功能分类。
原理:利用blast+算法将拼接得到的UniGene与CDD库中的COG/KOG库进行比对,进行COG功能分类预测,将其映射到COG分类中。
结果:COG分类分布情况图。当前第54页\共有66页\编于星期三\9点当前第55页\共有66页\编于星期三\9点SSR重复序列注释目的:对拼接得到UniGene进行SSR简单重复序列的查找。
原理:筛选标准:单核苷酸重复的次数在10次或10次以上,二核苷酸重复的次数在6次或6次以上,三至六核苷酸重复的次数在5次或5次以上。同时,也筛选中间被少数碱基(间隔小于100或等于100)打断的不完全重复的SSR。
结果:重复序列的信息文件以及统计文件。
当前第56页\共有66页\编于星期三\9点LncRNA预测目的:对拼接得到的UniGene进行LncRNA(LongnoncodingRNA)预测。
原理:通过以下过程对UniGene进行过滤,最终得到候选LncRNA序列。
1)Unigenelength>200bp;
2)UnigeneORF(OpenReadingFrame)length<300;
3)将满足长度条件的UniGene与多个近源物种进行进化分析,得到序列的保守性和进化特性;
4)根据上述的特性和已知数据库中coding、noncoding区域的特性建立编码筛选模型;
5)将符合noncoding模型的UniGene与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深度解析(2026)《GBT 39261-2020纳米技术 纳米材料毒理学评价前理化性质表征指南》(2026年)深度解析
- 深度解析(2026)《GBT 39236-2020能效融资项目分类和评估指南》
- 期末真题重组卷01(北京专用)-统编版七年级《语文》上学期期末复习讲义
- 深度解析(2026)《GBT 34367-2017轻型输送带 松弛弹性模量的测定 》
- 深度解析(2026)《GBT 34201-2017结构用方形和矩形热轧无缝钢管》
- 2026年七年级历史上册期末考试试卷及答案(五)
- 广州期货交易所科技有限公司2025-2026年招聘备考题库及答案详解一套
- 2026年富宁县紧密型医共体花甲分院招聘编外专业技术人员的备考题库及参考答案详解
- 2026年丹东市疾病预防控制中心(丹东市卫生监督所)面向普通高校公开招聘急需紧缺人才备考题库及答案详解参考
- 2026年东莞市高埗镇东联小学招聘临聘教师备考题库及完整答案详解1套
- 花青素行业研究报告
- 【化 学】金属活动性顺序的验证与探究专项训练-2024-2025学年九年级化学人教版(2024)下册
- 2023特斯拉企业文化手册
- 新疆克拉玛依市(2024年-2025年小学六年级语文)统编版期末考试(上学期)试卷及答案
- 防火门新标准知识培训
- 2024年WPS计算机二级考试题库350题(含答案)
- 《文创产品策划运营人员要求》征求意见稿
- 国家开放大学《合同法》章节测试参考答案
- 皮肤管理师行业现状分析
- 肩关节镜手术的麻醉管理
- 《干部履历表》1999版电子版
评论
0/150
提交评论