4大规模测序及一二三代测序仪介绍_第1页
4大规模测序及一二三代测序仪介绍_第2页
4大规模测序及一二三代测序仪介绍_第3页
4大规模测序及一二三代测序仪介绍_第4页
4大规模测序及一二三代测序仪介绍_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大规模测序1.RNA测序(RNA Sequencing)高速序列比对2.转录组测序(Transcriptome sequencing)3.宏基因组测序1.转录组是指某个物种的特定组织或细胞在某一生理功能状态下所有转录的mRNA产物的集合,是基因组遗传信息传递和表达的重要步骤和过程。高通量转录组测序可以获得大量转录本序列信息,定量基因转录表达水平,获得基因组转录区域及其位点信息等,在基因组序列拼接注释、样品间基因转录差异表达(差异表达分析为考点)及其功能研究等方面有重要作用。1. 有参考基因组的转录组分析技术路线推荐平台:Illumina HiSeq 2000、Illumina MiSeq 2.

2、 无参考基因组的转录组分析推荐平台: Roche 454 FLX+二、生物信息学分析1) 有参考基因组的转录组1. 原始数据整理、过滤及质量评估2. 转录组测序分析l 与参考基因组比对l 蛋白编码基因的表达量分析l 蛋白编码基因的表达量差异分析l 差异表达的蛋白编码基因的聚类分析(热图)l 差异表达基因富集分析(GO、KEGG)l SNPs的分析(SNPs鉴定、同义/非同义突变、与已有SNPs数据库比对)l 可变剪切分析l UTR区域鉴定l 新基因/新转录本分析3. 根据客户需求进行个性化分析2) 无参考基因组的转录组1. 原始数据整理、过滤及质量评估2. 转录组测序分析:l 序列拼装及拼装统

3、计l Unigene功能注释l Unigene的功能聚类分析(KOG、GO)l Unigene的代谢途径分析(KEGG pathway)l Unigene的表达量分析l Unigene的表达量差异分析l 差异表达的Unigene的聚类分析(热图)l 差异表达的Unigene的富集分析(KOG、GO、KEGG)l SNPs的鉴定3. 根据客户需求进行个性化分析四、经典案例案例1:人前列腺癌融合基因鉴定背景:人前列腺癌发病率位于男性恶性肿瘤的首位,并且发病率近年呈上升趋势。目的:对人前列腺癌及癌旁组织基因转录组进行检测分析。了解人前列腺癌的种族特异性及其可能的分子生物学机制。结果:人前列腺癌的融合

4、基因具有种群特异性,在欧美人群中普遍高频表达(50-80%)的融合基因TMPRSS2-ERG在中国人群中的表达率仅有20%左右,而在欧美人群中尚未发现的融合基因CTAGE5-KHDRBS3和USP9Y-TTTY15在中国人群中却有很高的表达频率,分别为37%和35.2%。案例2:玉米不同发育阶段转录组研究背景:在单子叶植物中,分生组织分化产生叶片和叶鞘。玉米叶片发育的整个顺序都是沿着长度分布的,不同的部位也呈现出不同的发育阶段。目的:对玉米叶片转录组进行分析,了解基因结构和表达差异。结果:定位了超过120 Mb条序列,定量叶片各发育阶段中成熟维管束鞘和叶肉细胞中的转录本丰度,发现在发育各个阶段

5、的维管束鞘和叶肉细胞中分别有64%和21%的基因差异表达。同时发现一个动态转录组,其中叶基部初级细胞壁和基本细胞代谢的转录本向顶端次级细胞壁生物合成和C4光合作用的转录本转变。案例3: 西葫芦(基因组未知)转录组研究背景:西葫芦属于葫芦科,富含维生素等营养成分,是一种重要的蔬菜。然而与其相关的研究报道较少,限制了分子育种的发展。目的:采用Roche 454 FLX对西葫芦的根、叶、花等组织进行转录组测序,分析SSR和SNPs位点。结果:通过从头组装获得平均长度为626 bp的unigene 49,610条。发现超过60%的unigene被注释分类到一个或者多个GO分类信息中。在检出的SSR中共

6、有1,882种基序类型和9,043个SNPs位点。大量的分子标记,为遗传性状和数量性状位点分析发挥了重要的作用。五、 常见问题解答1. Q:转录组测序与基因表达芯片相比有哪些优势?A:与基因表达芯片相比,转录组测序具有如下优势:首先,应用范围广。转录组测序无需预先设计探针或了解物种的基因组信息,同样适用于基因组序列未知物种;第二,准确性高。基因芯片原理是基于核酸单链间的互补杂交,当杂交条件不同时,或者丢失低拷贝转录本信息,或者假阳性率高。而转录组测序是基于对转录本序列的测定,准确性很高,而且当测序深度足够时,能够检测到极低低丰度表达的转录本信息。第三,信息丰富。转录组测序除了可以用于基因组注释

7、和基因转录表达分析,而且能发现新基因,检测可变剪切,SNPs,融合基因等。因此,转录组测序在诸多方面优于基因表达芯片,已经成为基因注释、表达检测和发现新基因等方面的主流技术。2. Q:如何进行原核生物转录组分析?A:针对原核生物的mRNA没有poly A尾巴的情况,需要提供去除rRNA后经过纯化的原核生物mRNA或cDNA样品。3. Q:转录组测序需要多少测序量?A:转录组测序所需的测序量随物种转录组大小的不同而有所差异。而转录组的大小受基因数目和丰度双重影响,不同物种间变化很大。因此在测序之前,需要对转录组的大小进行评估。针对有参考基因组的物种,可通过分析基因组信息,统计编码基因个数及其碱基

8、数来评估转录组的大小,同时也可参考相近或相关物种转录组研究的文章;针对无参考基因组的物种,只能参考相近物种的转录组大小。4. Q:转录组测序和数字表达谱测序有什么区别?A:转录组测序和数字表达谱测序相比,主要有如下不同:第一,测序目标不同。转录组测序可以测定特定组织中全部mRNA,而表达谱测序只是测定mRNA的酶切标签序列(21 bp);第二,代表性不同。数字表达谱测序只测定21bp序列,而转录组测序测定转录本全长,因而可以更准确地代表样品转录表达情况;第三,应用范围不同。转录组测序应用范围广泛,不仅可以检测表达量差异,而且可以发现新的转录本和可变剪切等。而表达谱测序只能粗略检测表达量差异,不

9、能反映基因转录表达的特点和规律;第四,参考序列要求不同。转录组测序不仅可以适用于基因组序列已知的物种,而且也适用于基因组序列未知的物种。而表达谱测序只适用于基因组序列已知的物种。因此,对于想要检测表达量差异的客户,我们推荐进行转录组测序,以获知更精确的转录组信息。3.宏基因组测序(Metagenome sequencing)宏基因组学(Metagenomics)也称为元基因组学,是以样品中的微生物群落作为整体进行研究的学科。自然界中约有99%的微生物是不能在实验室条件下进行纯化培养的。宏基因组学研究不要求对每个微生物进行分离纯化培养,而是直接从样品中提取基因组DNA后进行测序分析。通过宏基因组

10、测序,能够解释微生物群落多样性、种群结构、进化关系、功能活性及环境之间的相互协作关系,极大地扩展了微生物学研究范围。目前宏基因组测序可以分为环境微生物多样性检测和宏基因组de novo测序。其中环境微生物多样性检测是指通过对环境中微生物16S rDNA高变区/ITS 的PCR扩增产物进行高通量测序,分析该环境下微生物群落的多样性和分布规律。宏基因组de novo测序是指对环境样品中所有微生物基因组DNA片段化后进行高通量测序,然后进行序列组装和基因注释,获得部分不可纯培养微生物的基因组序列,分析该环境下所有微生物基因集信息。环境微生物多样性检测(Environmental microbial

11、diversity detection)一、 技术路线推荐平台: Roche 454 FLX+、Illumina MiSeq二、生物信息分析1. 原始数据整理、过滤及质量评估2. OTU列表生成及注释3. 基于物种丰度分析:l 稀释曲线l Alpha多样性分析l 物种丰度差异分析l 聚类分析(热图)l 多元统计分析(根据实验设计)4. 基于群落结构分析:l 单样品物种分布l 多样品物种分布l 含进化关系的物种分布l Beta多样性分析(PCoA、NMDS)5. 根据客户需求进行个性化分析案例1:人类“肠型”研究背景:人体肠道微生物与人类健康息息相关,是否能以这些微生物的多样性来划分不同的肠型是

12、一个值得探讨的问题。目的:利用Illumina和Roche 454测序平台对不同年龄、体重、性别及国籍的人群肠道微生物多样性进行研究。结果:研究发现人体胃肠道微生物区系并不是随机组合而成的,在所有受检人群中大致可以分为三种类型(enterotypes):拟杆菌型(Bacteroides)、普氏菌型(Prevotella)、瘤胃球菌型(Ruminococcus)。对更大规模的人群(154名美国人和85名丹麦人)进行调查也得到了同样的结论,这说明在人体的肠道内真正存活较好的微生物生态组,其数量可能并不太多。不过这种分型方法和人体的年龄、体重、性别或国籍都没有任何关联。案例2:北极多年海冰和表层海水

13、微生物多样性研究背景:北极多年海冰(multiyear ice,MYI)的急剧减少表明这种环境可能在100年后就会消失,为了了解这种微生物多样性丧失的影响,对北极附近的两处多年海冰的微生物群落进行研究。目的:利用Roche 454 FLX测序平台对2个多年海冰和3个海水样本中的微生物16S rDNA的V3区进行测序,揭示出北极多年海冰和表层海水的微生物群落结构。结果:北极多年海冰与周围的海水中微生物存在很大的差异。其中,多年海冰中的微生物群落多样性与海水相当,但是丰度较少。此外,还首次在北极海冰中发现蓝藻以及一些过去未曾报道的低丰度微生物物种。五、常见问题解答1. Q:哪些环境样品可以进行微生

14、物多样性检测?A:针对宿主相关样品如皮肤、口腔、呼吸道、消化道、生殖道等进行研究;针对环境相关样品,如土壤、水体、空气、盐湖、沼泽等进行研究。2. Q:基于高通量测序的环境微生物多样性检测技术有何优势? A:常规的宏基因组学研究方法包括基因克隆文库、变性梯度凝胶电泳DGGE/TGGE等,但这些方法的通病是信息量太小,不能充分反映复杂的环境微生物多样性和分布。基因克隆文库构建和检测的工作量大,且自然界中99%的微生物在实验室都没有办法纯化培养,从培养基上挑取克隆菌株,摇菌转化测序,效率低下。DGGE法曾经广泛应用于检测微生物群落结构的多态性,但是需要标准菌株,且受到凝胶电泳特性的局限,无法检测到

15、稀有菌群的种类,因此其重复性和分辨率都不甚理想。第二代高通量测序无需构建质粒克隆文库,这避免了文库构建过程中利用宿主菌对样品进行克隆而引起的系统偏差,可以直接对环境样品中的基因组片段进行测序,简化了基本操作,提高了测序效率,它能够对一个群落中微生物的多样性作更加深入和全面的描述,且具有通量高,重复性好,精确度高的优点,因而在微生物生态学研究中逐渐占据了优势。3. Q:人体为什么又叫“超级生物体”?A:1958年的诺贝尔生理及医学奖得主Joshua Lederberg提出了“超级生物体”(Superorganism)”的概念,是指人体由真核细胞与体内共生的微生物共同组成。研究发现正常人体肠道中存

16、在约1000-1500种微生物,重量达到1-1.5 kg。微生物数量是人体细胞总数的10倍,微生物基因数量是人类基因数量的100多倍。宏基因组 de novo测序(Metagenome de novo sequencing)一、 技术路线推荐平台: Roche 454 FLX+、Illumina HiSeq 2000二、生物信息分析1. 原始数据整理、过滤及质量评估2. 基因集分析l 基因功能注释l 基因功能丰度差异分析l 丰度差异的基因 GO 富集分析l 丰度差异的基因 KEGG 富集分析l 聚类分析(热图)l 多元统计分析(根据实验设计)3. 基于物种丰度分析:l 稀释曲线l Alpha多

17、样性分析l 物种丰度差异分析l 聚类分析(热图)l 多元统计分析(根据实验设计)4. 基于群落结构分析:l 单样品物种分布l 多样品物种分布5. 微生物基因组序列组装和拼接6. 根据客户需求进行个性化分析三、样品要求1. 样品采集:采集条件的一致是最为重要的环节,需严格按照标准采样,采样后立即冷冻保存。2. 样品DNA:环境因素异常复杂,许多物质或抑制因子会影响后续PCR、测序文库构建和序列测定,常规提取方法不一定适合,建议按公司要求采用专用试剂盒提取。基因组DNA浓度100 ng/l,总量20 g,OD 260/280在1.8-2.0之间,并确保电泳检测无明显RNA条带,基因组条带清晰、完整

18、;基因组DNA完全无降解;提供DNA电泳检测照片,用自封袋密封后随样品一起送样。3. 样品保存期间切忌反复冻融。4. 送样管务必标清样品编号,管口使用Parafilm膜密封。四、经典案例案例1:牛瘤胃中纤维素降解微生物de novo测序背景:纤维素是自然界中最丰富的碳水化合物资源。牛在反刍过程中涉及到纤维素的分解,研究牛的消化机制,将为寻找可用于生产生物燃料的酶奠定基础。目的:研究人员将柳枝稷样品置于牛的瘤胃中培养72 h,采用Illumina平台对附着在样品上的所有微生物进行基因组分析。结果:测序分析得到268 Gb的宏基因组数据,确定了超过27,775个碳水化合物相关的酶基因和15个高丰度

19、不可培养的微生物基因组。将部分基因导入细菌,然后由这些细菌产生了90种蛋白质酶。这一数据集极大地丰富了纤维素相关降解微生物基因组及降解基因集。五、常见问题解答1. Q:针对16S rDNA测序和宏基因组de novo测序有什么不同?A:16S rDNA测序是针对细菌核糖体小亚基的特定高变区进行PCR扩增,反映物种。测序仪简介技术原理Read 长度数据量/run耗时/run错误替换率插入率第一带测序Sanger/AB 3730DNA AnalyzerrSanger 双脱氧终止法1000bp56kb二代测序Solexa/Illumina Genome Analyzer 边合成边测序,2*75bp2

20、0.5-25Gb9.5d替换1.5%0.003%454/GS FLXTitanium Series焦磷酸测序400bp400-600Mb10h插入,缺失0.004%0.5%三代测序Heliscope/HelicosGenetic AnalysisSystem边合成边测序30-35bp21-28Gb8d插入0.2%4.5%对于测序仪的评价指标1、读长:长读长在序列拼接、定位、跨越重复区域的应用中有着极大优势。如在De novo assembly(无参考序列基因组)时,困难在于如何跨越高/低GC含量而完成整个基因组的拼接。NGS的读长都很短(通常为100-150bp),拼接完整的难度很大,长读长还

21、可以帮助变异检测的准确定位。2、耗时3、准确率第一代测序:1、Sanger 双脱氧核苷酸末端终止测序法 原理:由于ddNTP的2´和3´都不含羟基,在DNA合成反应中不能形成磷酸二酯键,因此可以被用来中断DNA合成反应。在4个DNA合成反应体系中分别加入一定比例的带有放射性同位素标记的某种ddNTP,通过凝胶电泳和放射自显影后,可以根据电泳带的位置确定待测分子的DNA序列。(放射性标记,对人体有害,后来发明以荧光标记代替放射性同位素标记、以荧光信号接收器和计算机信号分析系统代替放射性自显影的自动测序仪)2、Gilbert 化学讲解法 原理:用特定的化学试剂标记碱基再用化学方

22、法打断待测序列毛细管电泳技术一次可以测48-384个独立样品,一天1-8Mb的碱基信息。第一代测序:工作量大,耗时多,花费更多,但读取长度大。第二代测序(高通量测序)(NGS)一、Illumina 测序仪原理:1. 文库制备将基因组DNA打成几百个碱基(或更短)的小片段,在片段的两个末端加上接头(adapter)。2. 产生DNA簇(DNA簇和可逆终止子为其核心专利技术)利用专利的芯片,其表面连接有一层单链引物,DNA片段变成单链后通过与芯片表面的引物碱基互补被一端“固定”在芯片上。另外一端(5或3)随机和附近的另外一个引物互补,也被“固定”住,形成“桥 (bridge) “。反复30轮扩增,

23、每个单分子得到了1000倍扩增,成为单克隆DNA簇。DNA簇产生之后,扩增子被线性化,测序引物随后杂交在目标区域一侧的通用序列上。由独立软件自动生成DNA簇在5小时内完成(手动30min)3. 测序边合成边测序(Sequencing By Synthesis),加入改造过的DNA聚合酶和带有4种荧光标记的dNTP。 这些核苷酸是“可逆终止子”,因为3羟基末端带有可化学切割的部分,它只容许每个循环掺入单个碱基。此时,用激光扫描反应板表面,读取每条模板序列第一轮反应所聚合上去的核苷酸种类。之后,将这些基团化学切割,恢复3'端粘性,继续聚合第二个核苷酸。如此继续下去,直到每条模板序列都完全被

24、聚合为双链。这样,统计每轮收集到的荧光信号结果,就可以得知每个模板DNA片段的序列。目前的配对末端读长可达到2×50 bp,更长的读长也能实现,但错误率会增高。读长会受到多个引起信号衰减的因素所影响,如荧光标记的不完全切割。4. 数据分析:自动读取碱基,数据被转移到自动分析通道进行二次分析。5、优点:(1)可扩展的高通量,目前每次运行后可获得超过20 GB的高品质过滤数据,流动池支架,使每轮运行所得的高质量数据增加20%;(2)需要样品量少,系统需要的样品量低至100ng,能应用在很多样品有限的实验(比如免疫沉淀、显微切割等)中。(3)运行成本比其他测序仪可能更低。(4)简单快速自动

25、化,制备样本文库可以在几个小时内完成,一个星期就可以得到高质量的数据,支持超过100个测序循环,易用且自动(5)新颖的测序化学技术通过合成测序来支持大规模并行测序,专利的可逆荧光标记终止子,在DNA延伸过程中检测到单个碱基的掺入,四个可逆终止子在每轮测序循环都存在,自然的竞争减少了掺入的误差。单个或配对末端支持。文库构建过程简单,减少了样品分离和制备时间,制备基因组DNA的单个片段或配对末端文库需要6个小时,只有3个小时需要手工操作,2X50个碱基或更长的读长增加了比对基因组的能力,并拓展了再其他方面的应用。二、ROCH-454 测序仪焦磷酸测序试剂:GS FLX Titanium seque

26、ncing Kit XL+产量:100万序列Run读长:最高可达1000bp测序通量每次实验可以产生400800Mb数据运行时间每次实验只需23h序列读长单条序列的平均读长在600bp以上序列质量单碱基准确率为99%序列产量平均每次实验可以产生100万条的序列应用:基因组de novo测序、转录组de novo测序、宏基因组测序、重测序原理:1)样品输入并片段化:GS FLX系统支持各种不同来源的样品,包括基因组DNA、PCR产物、BAC、cDNA、小分子RNA等等。大的样品例如基因组DNA或者BAC等被打断成300800 bp的片段;对于小分子的非编码RNA或者PCR扩增产物,这一步则不需要

27、。短的PCR产物则可以直接跳到步骤3)。2)文库制备:借助一系列标准的分子生物学技术,将A和B接头(3和5端具有特异性)连接到DNA片段上。接头也将用于后续的纯化,扩增和测序步骤。具有A、B接头的单链DNA片段组成了样品文库。3)一个DNA片段一个磁珠:单链DNA文库被固定在特别设计的DNA捕获磁珠上。每一个磁珠携带了一个独特的单链DNA片段。磁珠结合的文库被扩增试剂乳化,形成油包水的混合物,这样就形成了只包含一个磁珠和一个独特片段的微反应器。4)乳液PCR扩增:每个独特的片段在自己的微反应器里进行独立的扩增,而没有其他的竞争性或者污染性序列的影响。整个片段文库的扩增平行进行。对于每一个片段而

28、言,扩增后产生了几百万个相同的拷贝。随后,乳液混合物被打破,扩增的片段仍然结合在磁珠上。5)一个磁珠一条读长:携带DNA的捕获磁珠随后放入PTP板中进行后继的测序。PTP孔的直径(29um)只能容纳一个磁珠(20um)。然后将PTP板放置在GS FLX中,测序开始。放置在四个单独的试剂瓶里的四种碱基,依照T、A、C、G的顺序依次循环进入PTP板,每次只进入一个碱基。如果发生碱基配对,就会释放一个焦磷酸。这个焦磷酸在ATP硫酸化酶和萤光素酶的作用下,经过一个合成反应和一个化学发光反应,最终将萤光素氧化成氧化萤光素,同时释放出光信号。此反应释放出的光信号实时被仪器配置的高灵敏度CCD捕获到。有一个

29、碱基和测序模板进行配对,就会捕获到一分子的光信号;由此一一对应,就可以准确、快速地确定待测模板的碱基序列。这也就是大名鼎鼎的焦磷酸测序。 优点:GS FLX系统的准确率在99%以上。其主要限制来自同聚物,也就是相同碱基的连续掺入,如AAA或GGG。由于没有终止元件来阻止单个循环的连续掺入,同聚物的长度就需要从信号强度中推断出来。这个过程就可能产生误差。因此,454测序平台的主要错误类型是插入-缺失,而不是替换,454技术最大的优势在于较长的读取长度,使得后继的序列拼接工作更加高效、准确,目前每轮运行能获得4-6个碱基对,所需时间为10h。与其他新一代测序平台相比,454平台的突出优势是读长。目

30、前GS FLX系统的序列读长已超过400 bp,第400个碱基的准确率是99%。虽然454平台的测序成本比其他平台要高很多,不过对于那些需要长读长的应用,如从头拼接和宏基因组学,它仍是最理想的选择。三、Ion Torrent测序仪Ion Torrent平台是基于半导体技术的台式高通量测序仪。该平台使用了一种布满小孔的高密度半导体芯片,一个小孔就是一个测序反应池,孔底部带有感应器。当DNA聚合酶把核苷酸聚合到延伸的DNA链上时,会释放出一个氢离子,反应池中的PH发生改变,位于池下的离子感受器就会感受到信号,把化学信号直接转化为数字信号,从而读出DNA序列。与其它新一代测序仪相比,Ion Torr

31、ent平台不需要激发光、CCD成像仪及荧光标记,能直接并快速“读”出DNA序列,具有简单、快速、准确、灵活和低成本等显著优势,是中等规模测序项目的最佳选择。华大基因目前拥有数十台中低通量的Ion Torrent PGM Systems和中高通量的Ion Torrent Proton Systems。技术特点1、简单:基于半导体技术测序原理,不用荧光、化学发光和酶级联反应;消耗样本少;2、快速:从文库构建到数据产出只需2天,上机测序只需23小时;3、灵活性:可满足不同通量的测序需求。314 TMChip(10Mb/run),316 TMChip(100Mb/run),318 TMChip(1Gb

32、/run),PI Chip (10Gb/run),PII Chip (100Gb/run,预计2014年推出)。4、准确性:99.97%应用范围:1、小基因组测序(如:微生物和病毒的从头测序和重测序;线粒体测序等)2、扩增子重测序(如:16S宏基因组测序)3、靶向重测序4、转录组/全外显子测序(Ion Proton)四、ABI测序仪SOLiD测序平台(supported oligo ligation detetion)1、原理:以四色荧光标记寡核苷酸的连续连接合成为基础,取代了传统的聚合酶连接反应,可对单拷贝DNA片段进行大规模扩增和高通量并行测序。2、文库制备SOLiD系统能支持两种测序模板

33、:片段文库(fragment library)或配对末端文库(mate-paired library)。片段文库就是将基因组DNA打断,两头加上接头,制成文库。适用于转录组测序、RNA定量、miRNA探索、重测序、3, 5-RACE、甲基化分析、ChIP测序等。配对末端文库是将基因组DNA打断后,与中间接头连接,再环化,然后用EcoP15酶切,使中间接头两端各有27bp的碱基,再加上两端的接头,形成文库。全基因组测序、SNP分析、结构重排/拷贝数,则需要用配对末端文库。2. 乳液PCR/微珠富集在微反应器中加入测序模板、PCR反应元件、微珠和引物,进行乳液PCR(Emulsion PCR)。P

34、CR完成之后,变性模板,富集带有延伸模板的微珠,去除多余的微珠。微珠上的模板经过3修饰,可以与玻片共价结合。此步骤与454的GS FLX基本相同。但其微珠只有1 um。乳液PCR最大的特点是可以形成数目庞大的独立反应空间以进行DNA扩增。每个小水滴只含一个DNA模板和一个P1磁珠,由于水相中的P2引物和磁珠表面的P1引物所介导的PCR反应,这个DNA模板的拷贝数量呈指数级增加,PCR反应结束后,P1磁珠表面就固定有拷贝数目巨大的同来源DNA模板扩增产物。微珠沉积,3修饰的微珠沉积在一块玻片上。在微珠上样的过程中,沉积小室将每张玻片分成1个、4个或8个测序区域。3. 连接测序没有采用惯常的聚合酶

35、而用了连接酶。SOLiD连接反应的底物是8碱基单链荧光探针混合物。连接反应中,这些探针按照碱基互补规则与单链DNA模板链配对。探针的5末端分别标记了CY5、Texas Red、CY3、6-FAM这4种颜色的荧光染料。探针3端15位为随机碱基,可以是ATCG四种碱基中的任何一种碱基,其中第1、2位构成的碱基对是表征探针染料类型的编码区,下图的双碱基编码矩阵规定了该编码区16种碱基对和4种探针颜色的对应关系,而35位的“n”表示随机碱基,68位的“z”指的是可以和任何碱基配对的特殊碱基。向SOLiD测序包括五轮测序反应,每轮测序反应含有多次连接反应。第一轮测序的第一次连接反应由连接引物“n”介导,

36、由于每个磁珠只含有均质单链DNA模板,所以这次连接反应掺入一种8碱基荧光探针,SOLiD测序仪记录下探针第1、2位编码区颜色信息,随后的化学处理断裂探针3端第5、6位碱基间的化学键,并除去68位碱基及5末端荧光基团,暴露探针第5位碱基5磷酸,为下一次连接反应作准备。因为第一次连接反应使合成链多了5个碱基,所以第二次连接反应得到模板上第6、7位碱基序列的颜色信息,而第三次连接反应得到的是第11、12位碱基序列的颜色信息个循环之后,引物重置,开始第二轮的测序。由于第二轮连接引物n-1比第一轮错开一位,所以第二轮得到以0,1位起始的若干碱基对的颜色信息。五轮测序反应反应后,按照第0、1位,第1、2位

37、. 的顺序把对应于模板序列的颜色信息连起来,就得到由“0,1,2,3”组成的SOLiD原始颜色序列5. 数据分析SOLiD测序完成后,获得了由颜色编码组成的SOLiD原始序列。理论上来说,按照“双碱基编码矩阵”,只要知道所测DNA序列中任何一个位置的碱基类型,就可以将SOLiD原始颜色序列“解码”成碱基序列。但由于双碱基编码规则中双碱基与颜色信息的简并特性(一种颜色对应4种碱基对),前面碱基的颜色编码直接影响紧跟其后碱基的解码,所以一个错误颜色编码就会引起“连锁解码错误”,改变错误颜色编码之后的所有碱基。和其它所有测序仪一样,测序错误在所难免,关键是对测序错误的评价和后续处理。由于SOLiD系

38、统采用了双碱基编码技术,在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。这样,双保险确保了SOLiD系统原始碱基数据的准确度大于99.94%,而在15X覆盖率时的准确度可以达到99.999%,是目前新一代基因分析技术中准确度最高的。为避免“连锁解码错误”的发生,SOLiD数据分析软件不直接将SOLiD原始颜色序列解码成碱基序列,而是依靠reference序列进行后续数据分析。SOLiD序列分析软件首先根据“双碱基编码矩阵”把reference碱基序列转换成颜色编码序列,然后与SOLiD原始颜色序列进行比较,来获得SOLiD原始颜色序列在reference的位置,及两者

39、的匹配性信息。Reference转换而成的颜色编码序列和SOLiD原始序列的不完全匹配主要有两种情况:“单颜色不匹配”和“两连续颜色不匹配”。由于每个碱基都被独立地检测两次,且SNP位点将改变连续的两个颜色编码,所以一般情况下SOLiD将单颜色不匹配处理成测序错误,这样一来,SOLiD分析软件就完成了该测序错误的自动校正;而连续两颜色不匹配也可能是连续的两次测序错误,SOLiD分析软件将综合考虑该位置颜色序列的一致性及质量值来判断该位点是否为SNP。6. 优点系统可扩展性SOLiD系统采用开放玻片式的结构,使用包被DNA样品的微珠来输入基因组信息。微珠密度并不是一成不变的,系统支持更高密度的微

40、珠富集。开放式玻片形式、微珠富集、以及软件算法的结合,能使平台轻松升级到更高的通量,而无需对基础技术和配置做重大改变。无以伦比的通量目前SOLiD 3系统单次运行能产生50 GB的人基因组序列数据,相当于基因组的17倍覆盖度。最大的灵活性SOLiD 3系统具有两个独立的流动室,让用户能在一台SOLiD分析仪中运行两个完全独立的实验同时提供两套仪器。玻片也能分成1个、4个或8个小室。而20个条形码序列则提供了额外的灵活性,显著增加了定向重测序、表达和ChIP分析的经济性。目前最多能同时运行320个样品(2×8×20)。除了测序和重测序,还能进行全基因表达图谱分析、SNP、mi

41、croRNA、ChIP、甲基化等多种分析。全基因表达图谱分析芯片大概是目前应用最广泛的从全局角度分析基因表达整体模式的方法。然而,基于杂交技术的微阵列技术只限用于已知序列,无法检测新的mRNA;而且杂交技术灵敏度有限,难以检测低丰度的目标(需要更多的样品量),难以检测重复序列;也无法捕捉到目的基因表达水平的微小变化-而这恰恰是研究在刺激下或环境变化时的生物反应所必需的。与芯片技术相比,基于测序的高灵敏SOLiD技术可对单个细胞和癌症样品中存在的痕量RNA进行整体的全基因组表达图谱分析,每次运行能定位高达2亿4千万个标签(mRNA的相对表达水平可通过系统产生的序列标签数目来计算),可检测低至每个

42、细胞中10-40pg的总RNA,即使mRNA表达水平很低,SOLiD系统也能够无偏向性地分析样品中存在的已知和未知mRNA,从而定量特定mRNA的差异表达模式。起始样品比微阵列技术要少得多,尤其适用于来源极为有限的生物样品分析,如癌症干细胞-分析其基因和非编码RNA的表达图谱有助于有助于加速发掘潜在的生物标志物,从而更准确区分不同的疾病类型以及识别疾病易感性,帮助于研究人员更好地了解病变细胞的特性。更多RNA研究除了单细胞基因表达图谱分析,SOLiD系统在RNA方面的其他应用还包括利用SOLiD Small RNA Expression Kit来发现和筛选小分子RNA,实现在无需预先知道序列信

43、息的情况下高通量发现新的RNA分子。这个方案有望显著地提高研究人员鉴别小分子RNA的能力,将过去不可能完成的实验变为可能。目前已发现的microRNAs还非常有限,SOLiD可在不知道目标分子DNA序列的情况下进行检测和定量小的RNA分子,可将样品制备工作从常规方法的四天缩短为仅需一天,是分析在生物样品中表达的已知和未知miRNA及其它小分子RNAs的有效工具。利用SOLiD Whole Transcriptome Kit还可以探索和鉴定全转录本。SOLiD无可比拟的高通量和测序数据的高精确性使得可以用短序列读长即可测序整个转录组。了解转录组对有助于解开导致复杂疾病的分子通路的秘密。这一系列应

44、用补充使研究人员能在单个超高通量平台上开展综合的RNA研究。SNP分析尽管绝大多数的人类遗传信息在所有人中都相同,但是研究人员通常更感兴趣的是研究个体之间微小的遗传差异。这种差异包括单碱基变异,以及被称为结构变异的各种较大片段DNA序列变异。结构变异包括DNA片段的插入、缺失、倒位和易位,结构变异的DNA片段范围可从几个碱基对到数百万个碱基对,可能对基因产生重要影响,并导致人类疾病的发生。SOLiD流程获得的严密的片段范围,使研究人员可以鉴别出很宽范围内的插入和缺失片段,结构重排也能很容易鉴别出来。这个平台的超高通量使研究人员可轻而易举地获得高度基因组覆盖率的数据,精确鉴定个体基因组中存在的数

45、百万个单碱基多态性SNP,揭示大量此前未知、具有潜在医学价值的遗传变异,从而促进我们对正常/疾病状态下DNA结构变异的了解,以及在更高的分辨率下对结构变异进行深入分析,解释个体之间的易感性差异和对疾病治疗应答的差异,最终实现个性化医疗。甲基化分析甲基化是自然发生的DNA化学修饰的一种。已知抑癌基因的失活与DNA序列特定区域的甲基化有关。而去甲基化则可能导致基因组不稳定和表达模式变化。DNA甲基化区域可能作为基因在癌症过程中的标记。研究人员一直致力研究从正常到癌变过程中甲基化模式如何变化的,原癌基因异常甲基化模式在癌变过程中扮演怎样的角色。SOLiD系统运行通量非常惊人,很快就可以做多个样本全基

46、因组甲基化模式检测,使得研究人员可以鉴别基因组中对应元件的甲基化状态,从而帮助研究人员检测甲基化模式是否可以作为癌症的生物标识,以及更好了解甲基化在癌变过程中扮演的角色。三代测序1、单分子测序Helicos公司的Heliscope单分子测序仪基于边合成边测序的思想,将待测序列随机打断成小片段并在3'末端加上Poly(A),用末端转移酶在接头末端加上Cy3荧光标记。用小片段与表面带有寡聚Poly(T)的平板杂交。然后,加入DNA聚合酶和Cy5荧光标记的dNTP进行DNA合成反应,每一轮反应加一种dNTP。将未参与合成的dNTP和DNA聚合酶洗脱,检测上一步记录的杂交位置上是否有荧光信号,

47、如果有则说明该位置上结合了所加入的这种dNTP。用化学试剂去掉荧光标记,以便进行下一轮反应。经过不断地重复合成、洗脱、成像、淬灭过程完成测序。Heliscope的读取长度约为30-35 bp,每个循环的数据产出量为21-28 Gb。值得注意的是,在测序完成前,各小片段的测序进度不同。另外,类似于454技术,Heliscope在面对同聚物时也会遇到一些困难。但这个问题并不会十分严重,因为同聚物的合成会导致荧光信号的减弱,可以根据这一点来推测同聚物的长度。此外,可以通过二次测序来提高Heliscope的准确度,即在第一次测序完成后,通过变性和洗脱移除3'末端带有Poly(A)的模板链,而第

48、一次合成的链由于5'末端上有固定在平板上的寡聚Poly(T),因而不会被洗脱掉。第二次测序以第一次合成的链为模板,对其反义链进行测序。 对Heliscope来说,由于在合成中可能掺有未标记的碱基,因此其最主要的错误来源是缺失。一次测序的缺失错误率约为2-7 %,二次测序的缺失错误率约为0.2-1 %。相比之下替错误率很低,一次测序的替换错误率仅为0.01-1 %。总体来说,采用二次测序方法,Heliscope可以实现目前测序技术中最低的替换错误率,即0.001 %。2 PacBio RS测序仪原理:实时记录DNA链荧光时,周围众多的荧光标记导致背景色过强,从而使观测单分子荧光难以实现,

49、Zero-mode waveguide(零模式波导)ZMW是一个直接为几十纳米的小孔,可阻止可见的激光(波长约为600nm)完全透过ZME激光进入ZMW后迅速衰减,故只有底部30nm被照亮,在每个ZMW中,利用专利技术使DNA聚合酶分子固定于底部玻璃表面,随后核苷酸涌入ZMW中,并在阵列表面扩散。当聚合酶检测到正确的核苷酸时,便将其掺入新生链中,此过程消耗的几毫秒与单纯扩散的几微秒产生的时间差,使得掺入的核苷酸产生了很高的信号强度,是ZMW记录下来SMRT cell 上开展测序,其上有一个含有15万个ZMW的阵列,每个ZMW都能够包含一个DNA聚合酶及一条不同的DNA样品链,每次运行能够平行检测大约75000个单分子测序反应。且有改进的荧光标记方法,传统的方法是将荧光标记到核苷酸的碱基上,也就是掺入DNA链中,但大分子的染料会干扰DNA 聚合酶的活性,或会造成聚合反应提取终止,而新的标记方法是在核苷酸德尔磷酸链上进行标记,则当核苷酸掺入到新生DNA链上,标记基团就是自动脱落。PacBioRS:用于记录ZMW中的反应,一旦测序开始,实时数据开始分析。优点:速度,样本制备到测序,所需不到一天,典型的测序运行时间低于30min,序列数据在几

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论