版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学2014.10.15高通量测序技术及数据分析介绍高通量测序技术及数据分析介绍背景介绍第一代测序技术第二代(高通量)测序技术基因芯片与高通量测序的比较高通量测序技术的应用高通量测序数据分析概览高通量测序数据质量评估与过滤基因组测序RNA-seqChIP-seqUCSCGenomeBioinformatics背景介绍背景介绍第二代测序技术边合成边测序2005年左右Sequeningbysynthesis代表性测序技术Illumina/SolexaRoche/454ABI/SOLiDPolonatorHeliScope参考文献Metzker,M.L.(2010).Sequencingtechnologies-thenextgeneration.NatRevGenet11,31-46.IlluminaHiSeq2500背景介绍高通量测序文库构建单末端测序,single-end首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow
cell上生成DNA簇,上机测序单端读取序列。双末端测序,paired-end在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。背景介绍以Illumina为例简单介绍测序原理IlluminaHiSeq2500cBot背景介绍高通量测序数据格式fasta序列文件的第一行是由大于符号(>)打头的任意文字说明,主要为标记序列用。从第二行开始是序列本身,标准核苷酸符号,通常核苷酸符号大小写均可fastq第一行由‘@’开始,后面跟着序列的描述信息,这点跟fasta格式是一样的;第二行是序列;第三行由‘+’开始,后面也可以跟着序列的描述信息;第四行是第二行序列的质量评价(qualityvalues),字符数跟第二行的序列是相等的。基因芯片与高通量测序的比较芯片与测序比较高通量测序约10年的历史,发展快速,成本逐步减少原理边合成边测序碱基用荧光基团标记直接测定碱基序列应用全基因组测序转录组测序(smallRNAseq,RNA-seq),可以检测已知基因的表达水平,可以发现全新的转录本ChIP-seqCLIP-seq,…高通量测序技术的应用测序应用高通量测序数据分析概览测序应用QualityAssessmentRawDataFastQC;fastx_quality_statsRemoveadaptor/linkerfastx_trimmerfastx_clipperSplitaccordingtobarcodefastx_barcode_splitter.plfastx_trimmerQualityControlfastq_quality_trimmerfastq_quality_filterFurtherAnalysis高通量测序数据质量评估与过滤FastQCFASTX-Toolkit测序应用全基因组测序第一期:基因组调研图整体测序深度不低于20倍覆盖度。进行初步的数据分析,对基因组大小,GC含量等做出初步评估,确定框架图梯度文库构建具体策略第二期:基因组框架图基因组覆盖度达到90%以上,基因区覆盖度达到95%以上,单碱基的错误率达到1万分之一以内,整体测序覆盖深度不低于60倍覆盖度。同时对框架图进行基本基因注释和功能注释,和简单的比较基因组学分析。第三期:基因组精细图基因组覆盖度达到95%以上,基因区覆盖度达到98%以上,单碱基的错误率达到10万分之一以内,整体基因组覆盖度不低于100倍,ScaffoldN50大小不低于300Kb,对基因组精细图进行详细基因注释,基因功能注释,基因代谢途径注释和比较基因组学分析。测序应用转录组测序SmallRNAseq检测smallRNA(主要是miRNA)的表达水平发现新的smallRNARNA-seqPoly(A)检测蛋白质编码基因的可变剪切体及表达水平TotalRNA(exceptrRNA)检测mRNA及longnoncodingRNA的表达水平发现新的longnoncodingRNA数据分析工具Bowtie()TopHat()Cufflinks()测序应用OverviewofTopHat测序应用SplicingJunctionsExonskipping
or
cassetteexonMutuallyexclusiveexonsAlternativedonorsiteAlternativeacceptorsiteIntronretentionExonskipping
or
cassetteexonMutuallyexclusiveexonsAlternativedonorsiteAlternativeacceptorsiteIntronretention测序应用TopHat:DiscoveringsplicejunctionsTopHatv1.0.7andlaterasegmentsifailstoalignbecauseitcrossesasplicejunction,butsi-1
andsi+1arealigned.si-1Si+1si12345678910111213141516171819202122232425simbpk-mbpm=1,…,24m=12测序应用OverviewofCufflinks测序应用转录本拼接算法中涉及到的概念偏序关系非严格偏序,自反偏序给定集合S,“≤”是S上的二元关系,若“≤”满足:自反性:∀a∈S,有a≤a;反对称性:∀a,b∈S,a≤b且b≤a,则a=b;传递性:∀a,b,c∈S,a≤b且b≤c,则a≤c;则称“≤”是S上的非严格偏序或自反偏序严格偏序,反自反偏序给定集合S,“<”是S上的二元关系,若“<”满足:反自反性:∀a∈S,有a≮a;非对称性:∀a,b∈S,a<b⇒b≮a;传递性:∀a,b,c∈S,a<b且b<c,则a<c;则称“<”是S上的严格偏序或反自反偏序。测序应用转录本拼接算法中涉及到的概念偏序集合链偏序集合的子集,满足其中任意两个元素可比反链偏序集合的子集,满足其中任意两个元素不可比链划分将偏序集合拆分成很多子集称作划分。子集全为链的划分叫做链划分子集全为反链的划分叫反链划分。偏序集合的两个对偶定理定理1令(S,≤)是一个有限偏序集,并令r是其最大链的大小。则S可以被划分成r个但不能再少的反链。定理2(Dilworth定理)
令(S,≤)是一个有限偏序集,并令m是反链的最大的大小。则S可以被划分成m个但不能再少的链。测序应用转录本拼接算法中涉及到的概念二分图指顶点可以分成两个不相交的集使得在同一个集内的顶点不相邻(没有共同边)的图。设G=(V,E)是一个无向图,如果顶点V可分割为两个互不相交的子集(U,V),并且图中的每条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集(iinU,jinV),则称图G为一个二分图。测序应用转录本拼接算法中涉及到的概念二分图最大匹配最小点覆盖König定理:最大匹配数等于最小点覆盖数测序应用转录本拼接DefinitionTranscriptprimarytranscriptgenomiclocationTranscriptometranscriptionlociThegenomiclocationofatranscriptt∈g∈Gdoesnotoverlapthegenomiclocationofanytranscriptuwhereu∈h∈Gandh≠g.Transcriptionlocusisnotbiological.测序应用转录本拼接Cufflinksisdesignedtoaimforthefollowing:(1)Everyfragmentisconsistentwithatleastoneassembledtranscript.(2)Everytranscriptistiledbyreads.(3)Thenumberoftranscriptsisthesmallestrequiredtosatisfyrequirement(1).测序应用转录本拼接Apartialorderonfragmentalignmentsx1andy1arecompatiblex2andy2areincompatibley3isnestedinx3x4isuncertain,becausey4andy5areincompatiblewitheachother.测序应用转录本拼接AssemblingaparsimonioussetoftranscriptsAssembleasetoftranscriptsFindaminimumpartitionPintochainsFindamaximumantichainFindamaximummatchinginbipartitegraphFindaminimumvertexcoverKönig'stheoremDilworththeoremHopcroft-Karpalgorithm测序应用ChIP-seq数据分析发现转录因子结合位点MACSModel-basedAnalysisforChIP-Seq测序应用UCSCGenomeBioinformatics
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 融合信息技术的2024《小学教育学》课件
- 《基础性原因分析》课件
- 《番石榴的保鲜技术》课件
- 《人体解剖学脑干》课件
- 《留存收益的核算》课件
- 2024买卖合同管辖权申请书
- 电子血压计的课程设计
- 电子秒表的设计课程设计
- 电子皮肤医疗领域研究报告
- 电子电工综合课程设计
- 劳动模范评选管理工作制度
- 火龙罐综合灸疗法
- 2022年GOLD慢阻肺诊治指南
- 上海版六年级英语期末试卷(附听力材料和答案)
- 污水处理厂管道工程施工方案1
- 【中医治疗更年期综合征经验总结报告3800字】
- 齿轮类零件加工工艺分析及夹具设计
- 14S501-1球墨铸铁单层井盖及踏步施工
- 人教PEP四年级英语上册 Unit2-A-Lets-spell公开课课件
- 不合格品处理单和纠正措施单
- 人工智能智慧树知到课后章节答案2023年下复旦大学
评论
0/150
提交评论