




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2代测序技术共同点:1、首先也是将基因组DNA随机切割成小片段DNA分子,然后在体外给这些小片段分子的末端连接上接头制成文库,也可以使用配对标签(mate-pairedtag)制成跨步文库(jumpinglibraries)。2、通过原位polon、微乳液PCR(emulsionPCR)或桥式PCR(bridgePCR)等方法获得测序模板。这些方法有一个共同点,那就是任何一个小片段DNA分子的PCR扩增产物都是在空间上聚集的:原位polony法和桥式PCR法中所有的产物都集中在平板的某处,在微乳液PCR法(emulsionPCR)中所有的产物都集中在微珠的表面。3、真正的测序反应本身和传统测序法一样,是由重复的聚合酶促反应和最后的荧光读取分析反应组一、ABISOLiD技术平台SOLiD使用连接法测序获得基于“双碱基编码原理”的SOLiD颜色编码序列,随后的数据分析比较原始颜色序列与转换成颜色编码的参考序列,把SOLiD颜色序列定位到reference上,同时校正测序错误,并可结合原始颜色序列的质量信息发现潜在SNP位点。测序实验流程:1、文库制备:随机片段文库、末端配对文库2、模板磁珠制备:油包水微型反应体系;DNA片段在磁珠上扩增3、磁珠固定:磁珠随机固定在测序玻片表面;可增大每个测序玻片上的磁珠密度4、边连接边测序:四色荧光标记寡核苷酸;边连接边测序5、测序引物重置:每一个模板选用5个引物进行连接反应测序技术特点:高通量,SOLiD4.0每个测序反应能够获得50G的数据量;高准确性,每个DNA碱基检测2次,增加了序列读取的准确性;高稳定性,测序时采用连接反应,有效地解决了多聚核苷酸序列难读取的问题;系统中两个独立控制的流动池和条码标定技术运用可以在单个测序中做很多不同的样品。详细过程SOLiD文库构建使用SOLiD测序时,可根据实际需要,制备片段文库(fragmentlibrary)或末端配对文库(mate-pairedlibrary)。制备片段文库就是在短DNA片段(60〜110bp)两端加上SOLiD接头(P1、P2adapter)。而制备末端配对文库,先通过DNA环化、Ecop151酶切等步骤截取长DNA片段(600bp到10kb)两末端各25bp进行连接,然后在该连接产物两端加上SOLiD接头。两种文库的最终产物都是两端分别带有P1、P2adapter的DNA双链,插入片段及测序接头总长为120〜180bp。2油包水PCR文库制备得到大量末端带P1、P2adapter但内部插入序列不同的DNA双链模板。和普通PCR一样,油包水PCR也是在水溶液进行反应,该水相含PCR所需试剂,DNA模板及可分别与P1、P2adapter结合的P1、P2PCR引物。但与普通PCR不同的是P1引物固定在P1磁珠球形表面(SOLiD将这种表面固定着大量P1引物的磁珠称为P1磁珠)。PCR反应过程中磁珠表面的P1引物可以和变性模板的P1adapter负链结合,引导模板合成,这样一来,P1引物引导合成的DNA链也就被固定到P1磁珠表面了。油包水PCR最大的特点是可以形成数目庞大的独立反应空间以进行DNA扩增。其关键技术是“注水到油”,基本过程是在PCR反应前,将包含PCR所有反应成分的水溶液注入到高速旋转的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴。这些小水滴就构成了独立的PCR反应空间。理想状态下,每个小水滴只含一个DNA模板和一个P1磁珠,由于水相中的P2引物和磁珠表面的P1引物所介导的PCR反应,这个DNA模板的拷贝数量呈指数级增加,PCR反应结束后,P1磁珠表面就固定有拷贝数目巨大的同来源DNA模板扩增产物。含DNA模板P1磁珠的固定SOLiD测序反应在SOLiD玻片表面进行。含有DNA模板的P1磁珠共价结合在SOLiD玻片表面。磁珠是SOLiD测序的最小单元。每个磁珠SOLiD测序后形成一条序列。SOLiD双碱基编码原理及测序流程SOLiD"双碱基编码原理”实质上是阐明了荧光探针的颜色类型与探针编码区碱基对的对应关系。SOLiD连接反应的底物是8碱基单链荧光探针混合物。连接反应中,这些探针按照碱基互补规则与单链DNA模板链配对。探针5’末端可分别标记“CY5,TexasRed,CY3,6-FAMTM”4种颜色的荧光染料,并且这四种颜色用数字“3,2,1,0”示意;探针3’端1〜5位为随机碱基,可以是“A,T,C,G”四种碱基中的任何一种碱基,其中第1、2位构成的碱基对是表征探针染料类型的编码区,“双碱基编码矩阵”规定了该编码区16种碱基对和4种探针颜色的对应关系,而3〜5位的“n”表示随机碱基,6〜8位的“z”指的是可以和任何碱基配对的特殊碱基,由上可知,SOLiD连接反应底物中共有45种底物探针。单向SOLiD测序包括五轮测序反应每轮测序反应含有多次连接反应(一般情况下片段文库是7次mate-paired文库是5次,所以片段文库共有35个连接反应,而末端配对文库共有25次连接反应)。每轮测序反应的第一次连接反应由与P1引物区域互补的“连接引物”介导这五种连接引物长度相同但在P1引物区域的位置相差一个碱基(分别用n,n-1,n-2,n-3,n-4表示),都含有5’端磷酸,所以可以介导连接反应的进行。数据分析原理SOLiD测序完成后,获得了由颜色编码组成的SOLiD原始序列。理论上来说,按照“双碱基编码矩阵”,只要知道所测DNA序列中任何一个位置的碱基类型,就可以将SOLiD原始颜色序列“解码”成碱基序列。但由于双碱基编码规则中双碱基与颜色信息的兼并特性(一种颜色对应4种碱基对),前面碱基的颜色编码直接影响紧跟其后碱基的解码,所以一个错误颜色编码就会引起“连锁解码错误”,改变错误颜色编码之后的所有碱基。和所有其它测序仪一样,测序错误在所难免,关键是对测序错误的评价和后续处理。为避免“连锁解码错误”的发生SOLiD数据分析软件不直接将SOLiD原始颜色序列解码成碱基序列,而是依靠reference序列进行后续数据分析。SOLiD序列分析软件首先根据“双碱基编码矩阵”把reference碱基序列转换成颜色编码序列,然后与SOLiD原始颜色序列进行比较,来获得SOLiD原始颜色序列在reference的位置,及两者的匹配性信息。Reference转换而成的颜色编码序列和SOLiD原始序列的不完全匹配主要有两种情况:“单颜色不匹配”和“两连续颜色不匹配”。由于每个碱基都被独立地检测两次,且SNP位点将改变连续的两个颜色编码,所以一般情况下SOLiD将单颜色不匹配处理成测序错误,这样一来,SOLiD分析软件就完成了该测序错误的自动校正;而连续两颜色不匹配也可能是连续的两次测序错误,SOLiD分析软件将综合考虑该位置颜色序列的一致性及质量值来判断该位点是否为SNP。二、IlluminaSolexa技术平台Solexa技术的基本原理:1、基因组DNA被随机打断成为小的DNA片断;并在DNA片断的两端连上接头(adapter);2、Solexa测序专用的测序芯片(flowcell)表面连接有一层单链引物,单链状态的DNA片断与芯片表面的引物通过碱基互补被一端“锚定”在芯片上;3、通过扩增反应使得单链DNA成为双链DNA;4、双链再次变性后成为单链,其一端“锚定”在测序芯片上,另外一端6'或3’)随机和附近的另外一个引物互补,被“锚定”住,形成“桥“(bridge);5、在测序芯片上同时有上千万DNA单分子发生以上的反应;6、4中形成的单链桥,以周围的引物为扩增引物,在测序芯片表面再次进行扩增,形成双链;7、双链经变性成单链,再次形成桥,成为下一轮扩增的模板继续扩增反应;8、在反复进行30轮扩增,每个单分子得到了1000倍扩增,成为单克隆“DNA簇群”;9、“DNA簇群”在Solexa测序仪上进行序列分析;10、测序反应:“可逆性末端终结反应”,提高碱基合成来进行测序。四种碱基分别标记四种不同荧光,每个碱基末端被保护基团封闭,单次反应只能加入一个碱基,经过扫描,读取该次反应颜色后,该保护基团被除去,下一个反应可继续进行,如此反复,得出碱基的精确序列;技术特色突出表现在:1、每张测序芯片有8个通道,每个通道可单独运行一个样品,也可以把多个样品混合在一起检测;2、一次实验可读取大于15亿个碱基/芯片;3、可精确读取重复序列如:AAAAAAAAAAAAAAAAA,TTTTTTTTTTTTT;4、实验费用低,测序成本为传统测序方法的1/100;5、无需建库,自动化样品制备,简单,成本低;6、样本使用效率极高,所以对少量样本也可以极灵敏精确地检测;7、可以进行35碱基长度的末端双向测序反应;三、Roche454技术平台(1)454GSFLX原理基于pyrosequencing(焦磷酸测序)的原理,DNAPolymerase在将一个dNTP聚合到模板上的时候,释放出一个PPi(焦磷酸分子)在ATP-Sulfurylase(ATP硫酸化酶)催化下,PPi与APS生成一个ATP分子;ATP分子在Luciferase(荧光素酶)的作用下,将luciferin(荧光素)氧化成oxyluciferin,同时产生的可见光被CCD光学系统捕获,获得一个特异的检测信号,信号强度与相应的碱基数目成正比。(2)454FLX的工作流程1样品的准备:样品可以是gDNA、cDNA、BACs和PCR产物等,用物理方法破碎成300-800bp的DNA片段2文库的制备:将特异性接头(A和B)连接到DNA片段的3’端和5’端,然后将DNA片段变性成单链模板3固定到磁珠:将单链模板文库中的DNA片段固定到DNA捕获磁珠上,每一个磁珠只携带唯一一个单链模板4emPCR扩增:用emPCR扩增试剂,将磁珠乳化成一个个油包水的PCR微反应体系,然后进行emPCR扩增5加载到PTP板:将emPCR扩增好的磁珠加载到PTP板,板上有上百万个微孔,每个微孔只能容纳一个磁珠6上机测序:将PTP板,连同测序反应的酶和底物,一起放在GSFLXTitanium上进行大规模平行测序7数据的处理:系统自带GSAssemblerSoftware等软件,会对测序得到的序列进行的聚类和组装等处理。DNA甲基化测序DNA甲基化——表观遗传学的重要组成部分©表观遗传的分子机制可以通过DNA和组蛋白的共价修饰,以及包装DNA的蛋白起作用的。这些DNA和组蛋白的共价修饰决定了特定的基因表达形式。©组蛋白有着众多的共价修饰形式,包括甲基化、乙酰化、泛素化以及磷酸化等。根据修饰的种类,位点以及修饰的个数不同,这些修饰可引发不同的效果,或者引起基因沉默,或者引起基因激活。©包含有:RNA干扰、DNA的共价修饰,可引起基因失活以及转座子沉默©DNA甲基化的重要作用:维持细胞正常功能、生长发育、遗传印记、疾病©DNA甲基化与疾病:甲基化将导致如染色体的不稳定、可移动遗传因子的激活、致病基因的表达,抑病基因的不表达。肿瘤如:神经胶质瘤细胞的7种肿瘤基因甲基化;胰岛素样生长因子-2(IGF-2)基因印记丢失,致癌;抑脑肿瘤基因启动子高甲基化……(老年痴呆抑制老年痴呆症的基因被甲基化而失活、红斑狼疮)NA甲基化减少、脐疝-巨舌-巨人症综合症11号染色体上两个印记基因错表达、衰老)DNA甲基化是指DNA碱基上特定位置的碳被添加甲基的过程。其主要形式有N5-mC(胞嘧啶)、N6-mA(腺嘌吟)、N7-mG(鸟嘌吟)。一般DNA甲基化不做特殊说明是指在甲基化转移酶的作用下,胞嘧啶形成5-甲基胞嘧啶的过程CpG岛:DNA甲基化是个动态过程,如在衰老的过程中,整体甲基化水平降低,局部甲基化水平增高。哺乳动物基因组,CpG仅1%,但有些区域CpG的密度很高,均值5倍以上,哺乳动物约4万个CpG岛。多数甲基化位点不在3pG岛,CpG岛甲基化,启动子区CpG岛。甲基化和去甲基化DNA甲基化转移酶1)DNMT1:持续性DNA甲基转移酶,作用于仅有一条链甲基化的DNA双链,使其完全甲基化,可参与DNA复制双链中的新合成链的甲基化;2)DNMT3a、DNMT3b:从头甲基转移酶,它们可甲基化CpG,使其半甲基化,继而全甲基化。从头甲基转移酶可能参与细胞生长分化调控,其中DNMT3b在肿瘤基因甲基化中起重要作用。DNA去甲基化有两种方式:1)被动途径:由于核因子NF粘附甲基化的DNA,使粘附点附近的DNA不能被完全甲基化,从而阻断DNMT1的作用;2)主动途径:是由去甲基酶的作用,将甲基集团移去的过程。重亚硫酸盐(Bisulfite)处理结合测序分析是研究甲基化最常用也是最准确的方法。基于重亚硫酸盐高效处理结合新一代高通量测序技术IlluminaHiseq2000使得基因组整体水平高精度的甲基化检测成为现实。该技术主要流程:先将基因组DNA或大片段DNA随机打断,加上特定接头后用重亚硫酸盐高效处理,对处理好的^入文库在基因组水平上进行大规模测序,然后进行全基因组范围内高精度的甲基化状况分析。文库制备的整个过程需要3天,CT转换率达到98%以上。该技术可在全基因组水平上最大限度的、完整的获取甲基化状态信息和与基因表达调控的多重关系,可高效精确完成全基因组甲基化测序及高分辨)NA甲基化谱式绘制,并可对发现的靶点区进行甲基化特异性PCR验证。
重亚硫酸盐建库测序C:nmethylatedCUn-methyliltedWatson»AC-GTTCGCIIGAG>>CrickC:nmethylatedCUn-methylilted〉〉AOUTTriPTTURU■:、Cri<k<<TfiCraAAaCRAAC!TC<<2)BisulfiteTreatment〉〉AOUTTriPTTURU■:、\ar^rzTTrrt^TTTTcm■>%*、<<gf八STTSATITTK<PCRAmplificationbsw>>AC*nGTTTGTTTGAG>>bswr<<TGbsw>>AC*nGTTTGTTTGAG>>bswr<<TGCAAACAAACTC<<bsc<<TGC二AAGTGAATTT<<
bscr»ACGTTCACTTAAA>>实验流程:基因组DNA随机打断IDNA片段的末端修复I末端加上特别处理的甲基化接头I重亚硫酸盐处理I文库检测IDNA在cBot上的成簇扩增I将‘A’碱基加入到DNA片段的3’末端IDNA片段I去盐处理IPCR扩增连上接头的DNA片段IlluminaHiseq2000上的测序I生物信息学分析转录组测序转录组测序(RNA-seq)技术转录组是某个物种或者特定细胞类型产生的所有转录本的集合。转录组研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理,已广泛应用于基础研究、临床诊断和药物研发等领域。基于Illumina高通量测序平台的转录组测序技术使能够在单核苷酸水平对任意物种的整体转录活动进行检测,在分析转录本的结构和表达水平的同时,还能发现未知转录本和稀有转录本,精确地识别可变剪切位点以及cSNP(编码序列单核苷酸多态性),提供最全面的转录组信息。相对于传统的芯片杂交平台,转录组测序无需预先针对已知序列设计探针,即可对任意物种的整体转录活动进行检测,提供更精确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具。技术优势:数字化信号:直接测定每个转录本片段序列,单核苷酸分辨率的精确度,同时不存在传统微阵列杂交的荧光模拟信号带来的交叉反应和背景噪音问题。高灵敏度:能够检测到细胞中少至几个拷贝的稀有转录本。任意物种的全基因组分析:无需预先设计特异性探针,因此无需了解物种基因信息,能够直接对任何物种进行转录组分析。同时能够检测未知基因,发现新的转录本,并精确地识别可变剪切位点及cSNP,UTR区域。更广的检测范围:高于6个数量级的动态检测范围,能够同时鉴定和定量稀有转录本和正常转录本。应用领域:转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变异研究(如基因融合、编码区SNP研究),非编码区域功能研究(Non-codingRNA研究、microRNA前体研究等),基因表达水平研究以及全新转录本发现。RNA-seq技术服务实验流程:样品RNA准备测序文库构建使用oligodT微珠纯化mRNA>RNA片段化处理反转录反应合成合成双链cDNA>双链DNA末端修复及3’末端加‘A’>使用特定的测序接头连接DNA片段两端>高保真聚合酶扩增构建成功的测序文库DNA成簇(Cluster)扩增高通量测序(IlluminaGenomeAnalyzerIIx)数据分析原始数据读取与数据库比对并进行注释深层次数据分析提供实验报告原始数据报告(Fasta-Q格式),包含所有测序序列信息,碱基读取质量评估基本数据分析报告(Excel表格),包含有效序列的序列信息、与参考基因组比对后的注释信息等。
高级数据分析,如基因覆盖率和测序深度分析,基因表达差异分析,基因结构分析,鉴定选择性剪切现象,发现新基因,鉴定基因融合现象。基因转录组测定和分析一.大规模表达序列标签(EST)测定及分析ESTs(ExpressedSequencetags)是从已建好的cDNA库中随机取出一个克隆,从5’末端或3’末端对插入的cDNA片段进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。EST相关数据库储存EST原始数据的一级数据库:EMBL,GenBank(dbEST),DDBJ对EST进行聚类拼接的二级数据库:UniGene,TIGRGeneIndices,STACKEST的应用:ESTs与基因识别ESTs已经被广泛的应用于基因识别,因为ESTs的数目比GenBank中其它的核苷酸序列多,研究人员更容易在EST库中搜寻到新的基因(Boguskietal.,1994).在同一物种中搜寻基因家族的新成员(paralogs)。ESTs与基因图谱的绘制aaaaaTTTTT-bc-^dStmRNA片段蚀2处同£aaaaaJTTTT高级数据分析,如基因覆盖率和测序深度分析,基因表达差异分析,基因结构分析,鉴定选择性剪切现象,发现新基因,鉴定基因融合现象。基因转录组测定和分析一.大规模表达序列标签(EST)测定及分析ESTs(ExpressedSequencetags)是从已建好的cDNA库中随机取出一个克隆,从5’末端或3’末端对插入的cDNA片段进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。EST相关数据库储存EST原始数据的一级数据库:EMBL,GenBank(dbEST),DDBJ对EST进行聚类拼接的二级数据库:UniGene,TIGRGeneIndices,STACKEST的应用:ESTs与基因识别ESTs已经被广泛的应用于基因识别,因为ESTs的数目比GenBank中其它的核苷酸序列多,研究人员更容易在EST库中搜寻到新的基因(Boguskietal.,1994).在同一物种中搜寻基因家族的新成员(paralogs)。ESTs与基因图谱的绘制aaaaaTTTTT-bc-^dStmRNA片段蚀2处同£aaaaaJTTTTDNA.末端H修攵及3'外#tinAlFC只扩增测序文「车IlluminaGenomeAnalyzzer^i]Jp图像以别ESTs与SNPs来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs。应注意区别真正的SNPs和由于测序错误(ESTs为单向测序得来,错误率可达2%)而引起的本身不存在的SNPs。解决这一问题可以通过:提高ESTs分析的准确性,对所发现的SNPs进行实验验证。利用ESTs大规模分析基因表达水平因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到,所以可以用利用未经标准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱。标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平。基因表达系列分析(SerialAnalysisofGeneExpression,SAGE)分析流程SAGE文库的构建:NlaIII(锚定酶)酶切,该酶能够识别CATG位点并在其3’端进行酶切;链霉素包被的磁珠进行亲和纯化;将cDNA分为A和B两部分,分别连接接头A或接头B,每一种接头都含有CATG四碱基突出端、限制性内切酶BsmFI的识别序列和一个PCR引物序列(引物A或B);用标签酶BsmFI酶切,该酶在其识别位点3’端下游的14—17bp处进行酶切,产生连有接头的短cDNA片段;混合并连接两个短cDNA片段,构成双标签(ditag)后,用引物A和B进行PCR扩增;锚定酶NlaIII切割扩增产物,抽提SAGE双标签片段;并用T4DNA连接酶连接成多聚体(concaterner);选择合适的片断长度,克隆进载体;得到的克隆插入序列由一系列的20—22bp长的SAGE双标签组成,每两个双标签中间由4bp的NlaIII酶切位点分隔开。SAGE文库的测序:单向测序。在双标签多聚体序列中定位NlaIII酶切位点(即CATG);提取CATG位点之间的20—22bp长的双标签序列;•去除重复出现的双标签序列,包括反向互补方向上重复的双标签序列;•截取每个双标签序列最靠近两头末端的10个碱基,即为标签序列;去除与接头序列相对应的标签(即TCCCCGTACA和TCCCTATTAA),同时去除含有不确定碱基(即除A、C、T、G四种碱基以外的碱基)的标签;•计算每个标签的出重复次数,以列表的形式给出一个包含每个标签及其表达丰度的报告。基因表达系列分析是一种用于定量,高通量基因表达分析的实验方法(Velculescuetal.,1995)。SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签(约9-14个碱基对),这些短的序列被连接、克隆和测序,特定的序列标签的出现次数就反应了对应的基因的表达丰度。DNA微阵列或基因芯片的研究高密度寡核苷酸cDNA芯片或cDNA微阵列是一种新的大规模检测基因表达的技术,具有高通量分析的优点。在许多情况下,cDNA芯片的探针来源于3'EST(Dugganetal.,1999),所以EST序列的分析有助于芯片探针的设计。几种大规模分析基因表达水平的方法的比较:ESTSAGEMicroarrayGeneChip发现新基因是是否否有序列是(可直接进行可变剪切的分析)否否否主要问题米样量实验过程重复性成本高ESTs数据的不足ESTs很短,没有给出完整的表达序列;低丰度表达基因不易获得。由于只是一轮测序结果,出错率达2%-5%;有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染;有时出现镶嵌克隆;序列的冗余,导致所需要处理的数据量很大cDNA文库构建非标准化的cDNA文库的构建。(可用于基因表达量的分析)经标准化或扣除杂交处理的cDNA文库。(富集表达丰度较低的基因)Oligod(T)cDNA文库。(非翻译区由于不含有编码序列,与编码区保守序列相比所受到的选择压力比较小,因而其多态性程度比较高,便于多态性位点的选择以用于遗传图谱的构建。)随机引物cDNA文库。(所获得的EST在基因功能的鉴定时具有更多的信息含量,并且在构建EST数据库时更有优势,同时有利于利用EST数据库聚类完整的基因和阅读框的寻找,便于利用更敏感的蛋白质比较来寻找同源基因。)cDNA文库构建常见问题RNA得率低mRNA分离效率低cDNA产物少原因:多糖、多酚、内源性核酸蛋白酶、miRNA等•多糖-糖蛋白(核酸蛋白酶,植物血凝素等)、多酚类等次生代谢产物在RNA分离时,经常与RNA共沉降,导致RNA丢失。或导致分离后的RNA严重不纯,影响mRNA分离的得率。•内源性核酸酶存在较多的情况下,可降解双链DNA、RNA或者DNA-RNA杂合体,致使RNA易降解,转录后的DNA接头无法连接,是cDNA得率低的原因之一。•miRNA的存在导致mRNA的降解测序方向的选择根据不同的实验目的选择不同的测序方向:5’端5’上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5’端EST较好,大部分EST计划都是选用5’端进行测序的,而且从5’端测序有利于将EST拼接成较长的基因序列。3’端3’端mRNA有一20—200bp的plyA结构,同时靠近plyA又有特异性的非编码区,所以从3’端测得
EST含有编码的信息较少.但研究也表明,10%的mRNA3’端有重复序列,这可以作为SSR标记;非编码区有品种的特异性,可以作为STS标记.♦两端测序获得更全面的信息。序列测定及数据分析序列前处理---随机挑取克隆进行5’或3’端测序——聚类和拼接---基因注释及功能分类----后续分析序列前处理(pre-processing)去除低质量的序列(Phred)应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactualsequences)。•载体序列(/repository/vector)•重复序列(RepBase,)•污染序列(如核糖体RNA、细菌或其它物种的基因组DNA等)去除其中的镶嵌克隆。最后去除长度小于100bp的序列。ESTs的聚类和拼接聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(over—lapping)的ESTs整合至单一的簇(cluster)中。聚类作用:♦:♦产生较长的一致性序列(consensussequence),用于注释。•:・降低数据的冗余,纠正错误数据。・♦・可以用于检测选择性剪切。・♦•基因表达谱分析不严格的和严格的聚类(looseandstringentclustering)looseclustering•产生的一致性序列比较长•表达基因ESTs数据的覆盖率高•含有同一基因不同的转录形式,如各种选择性剪接体•每一类中可能包含旁系同源基因(paralogousexpressedgene)的转录本•序列的保真度低stringentclustering•产生的一致性序列比较短•表达基因ESTs数据的覆盖率低•因此所含有的同一基因的不同转录形式少序列保真度高有参照的和无参照的聚类(Supervisedandunsupervisedclustering)♦Supervisedclustering根据已知的参考序列(如全长mRNA、已拼接好的一致性序歹列)聚类。♦Unsupervisedclustering没有根据参考序列进行分类。ESTs聚类的数据库主要有三个:UniGene、TIGRGeneIndices、STACK常用的拼接软件:♦Phrap、CAP3、TIGR_Assember基因注释及功能分类:注释:♦序列联配:Blastn,Blastx♦蛋白质功能域搜索(二结构比对):Pfam、InterproscanRNA-seq技术与芯片技术的比较
方法分辨率成本表达芯片::Tilling芯片与基因组大小相关•,方法分辨率成本表达芯片::Tilling芯片与基因组大小相关•,N/A《人/小鼠M35bp)•低•低-高,与芯片密度相关检测范围•灵敏度<4个数量级,中-<2数量级看.限,照可变剪接:不可仅:r?有限可变调控区不可以:可以,反义转录本•N/A:'M/A'''SNPs,突变:有限:有限.等位表达差异..有限:...有限...数据量0.01-0.05Gb0j-1Gb生物信息分析•低高RNA-seq1bp高与测序量及实际表达量相关:高:以以以以以以可可可可可可1-15Tb
极高••文库构建过程中大片段的RNA必须经过片段化处理,会引入一定的偏倚。•PCR会造成表达量的变化。•海量短序列数据的比对或拼接情况复杂,对重复序列和多匹配序列的精确定位存在明显问题。•高等真核生物可变剪接和反式剪接的鉴定仍有相当的误差。•测序深度的确定因物种、器官、组织、时期而变,很难有统一公式直接计算。微生物基因组学微生物基因组研究概况:研究现况及内容:细菌研究内容代表菌株病原菌毒力因子、致病岛、耐药基因、耐药机制以及与寄主的关系等肺炎链球菌、致病性大肠杆菌、沙门氏菌等极端环境生长的细菌极端环境下的生存机制,如嗜热菌的热稳定性詹氏甲烷球菌、热自养甲烷杆菌、甲烷嗜热菌、腾冲嗜热菌等工业和环境有影响的细菌CC>2固定、固氮、硫氧化和氢代谢等单细胞蓝细菌、丝状蓝细菌、原绿藻等二微生物基因组的特点1.特点原核生物基因组的大小原核生物基因组的编码序列(CDS/ORF)原核生物染色体结构GC含量重复序列DNA链组成的非对称性最小基因组微生物基因组的特点类别特征染色体结构多为一条环状闭合双链DNA基因组大小从0.16-13Mb编码序列占基因组总长的90%,平均为1Kb左右GC含量16.6%-74.9%DNA链组成的非对称分布GCskew、ATskew、基因方向性偏好、密码子使用偏好原核生物基因组的编码序列ORF:占原核生物基因组总序列的90%,基因的平均大小为1kb基因组编码序列的注释:确定编码序列:序列同源性比较,如BLAST概率型方法,基于隐马尔可夫模型的GENSCAN基因的功能注释:已知功能的蛋白质基因的序列已知功能蛋白质的motif/domain有同源序列的未知基因无同源序列的疑是基因原核生物染色体结构大多数原核生物:一条环状闭合双链DNA
Brucellasuis1330:两条环状闭合双链DNA2,107,792bp(ChrI1,207,381bp(ChrII)Vibriocholerae:两条环状闭合双链DNATreponemapallidum:一条环状闭合双链DNAGC含量原核生物基因组GC含量为:25.5-67.9%嗜温菌基因组GC含量与rRNA、tRNA的GC含量成正比嗜热菌rRNA、tRNA的GC含量与基因组GC含量不成正比,但与OGT(最适生长温度)成正比tRNAGC含量总是大于rRNA的GC含量基因组非编码区序列的注释:非编码区的注释(各类重复序列,基因表达的调控序列,信号序列等)DNA链组成的非对称性前导链含有较多的G(A)而后随链含有较多的C(T)•计算公式为(nG-nC)/(nG+nC)(nA-nT)/(nA+nT)•累计skew(cumulativeskew)•用于复制起点和终点的定位密码子使用偏好(codonusagebias):先导链和后随链密码子的不同在先导链,以G或T开头或结尾的密码子显著地多于后随链,常见的有GTG、GCG和GAG;在后随链以C或A开头或结尾的密码子多于先导链,如CTC、GCC、CCC、ATC和ACC基因密度和密码子使用的差别:高度表达基因:核蛋白体蛋白基因,与翻译和转录有关的因子基因,分子伴侣基因和与主要的能量代谢相关的基因•大多编码于前导链•通常都有密码子偏好(核蛋白体蛋白基因密码子的第三位多为G)•快速生长的细菌(大肠杆菌、霍乱弧菌、枯草芽抱杆菌和流感嗜血杆菌)主要的糖酵解和三羧酸循环基因为高度表达基因|Shot-gun全基因绷序,序列疝割一药物疫苗治疗提供理论依据毒力基因致病岛及其毒力相关物预龄面蛋白,信号蛋白,分泌蛋白等•产甲烷菌,与甲烷代谢有关的基因为高度表达基因•高度表达基因:那些在密码子使用上与一般基因相差很大,与核蛋白体蛋白基因,翻译和转录相关基因,伴侣-降解蛋白基因等在密码子使用上高度相似的基因为高度表达基因。一药物疫苗治疗提供理论依据毒力基因致病岛及其毒力相关物预龄面蛋白,信号蛋白,分泌蛋白等三.微生物测序及分析流程图数据分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南京理工大学《居住区规划及住宅设计》2023-2024学年第一学期期末试卷
- 火力发电厂施工中的暖通工程管理考核试卷
- 矿物加工厂人力资源管理与培训考核试卷
- 玻璃熔化过程中的节能减排考核试卷
- 硅冶炼厂的生产成本控制考核试卷
- 监理工程师合同条款解释与应用能力考核试卷
- 海洋工程船舶拆解与回收考核试卷
- 棉花加工设备的自动化改造案例考核试卷
- 期货市场业务外包管理与合作考核试卷
- 玉米加工过程中的能源回收与利用考核试卷
- DB44-T 2198-2019城乡社区协商工作规范-(高清现行)
- 血液科疾病诊疗规范诊疗指南诊疗常规2022版
- PDCA降低I类切口感染发生率
- 幼儿园《开关门要小心》
- 《运营管理》第2版题库与参考答案
- 基于PLC的自动配料系统毕业设计论文
- 企业事业单位突发环境事件应急预案备案表范本
- 烟花爆竹工程设计安全规范
- 回旋加速器的五个有关问题
- 四川省中学生学籍卡片
- 夕阳箫鼓-钢琴谱(共11页)
评论
0/150
提交评论