Illumina测序基础知识_第1页
Illumina测序基础知识_第2页
Illumina测序基础知识_第3页
Illumina测序基础知识_第4页
Illumina测序基础知识_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一个要给大家讲得,就是它这个flowcell。Flowcell翻成中文,就叫“流动池”。我们来瞧这个图片。图片当中,我们瞧到一个象载玻片大小得芯片。这个芯片里面,就是做了8条通道。在这个通道得内表面,就是做了专门得化学修饰。它得化学修饰,主要就是用2种DNA

引物,把它(2种DNA引物)种在玻璃表面。这两种(DNA引物得)序列就是与接下来要测序得DNA文库得接头序列相互补得。而且这2种引物就是通过共价键,连到Flowcell上去。之所以要用共价键连到Flowcell上去,就是因为接下来有大量得液体要流过这个Flowcell,只有有共价键连接得这些DNA,才不会被冲掉。这就就是Flowcell。再接下来,讲一下文库、与文库得制作(过程)所谓得DNA文库,实际上就是许多个DNA片段,在两头接上了特定得DNA接头,型成得DNA混合物。文库有2个特点,第1个特点,就是当中这一段插入得DNA,它得序列就是各种各样得。第2个特点,它得两头得接头序列,就是已知得,而且就是人工特地加上去得。要做这个文库,首先就是把基因组DNA,用超声波打断。然后打断之后,两头用酶把它补平,再用Klenow酶在3’端加上一个A碱基。然后,再用连接酶把这个接头给连上去。连好了接头得DNA混合物,我们就称为一个“文库”。英文也称作“library”。做好了Library之后,就要做桥式PCR了。桥式PCR,实际上就是把文库种到芯片上去,然后进行扩增,这样得一个过程。这个过程,首先就是把文库加入到芯片上,因为文库两头得DNA序列,与芯片上引物就是互补得,所以,就会产生互补杂交。杂交完了之后,我们在这里面加入dNP与聚合酶。聚合酶会从引物开始,延着模板合成出一条全新得DNA链来。新得这条链,与原来得序列就是完全互补得。接下来,我们再加入NaOH碱溶液。DNA双链在NaOH碱溶液存在下,就解链了。而且被液流一冲,原来得那个(模板)链,也就就是没有与芯片共价连接得链,就被冲走了。而与芯片共价连接得链,就被保留下来。然后,我们再在液流池里加入中性液体,主要就是为了中与这个碱液,在加入中与液之后,整个环境变成中性了。这时侯,DNA链上得另外一端,就会与玻璃板上得第二种引物,发生互补杂交。接下来,我们加入酶与dNTP,聚合酶就延着第二个引物,合成出一条新链来;然后,我们再加碱,把2条链解链解开;然后,我们再加中与液,这时侯,DNA链会与新得引物杂交。再加酶,再加dNTP,又从新引物合成出新得链来。连续重复这一过程,DNA链得数量,就会以指数方式增长。在桥式PCR完成之后,接下来要做得工作,就就是要把合成得双链,变成可以测序得单链。办法就是通过一个化学反应,把其中一个引物上得一个特定得基团给切断掉。然后,再用碱溶液来洗这个芯片。这时侯,碱让DNA得双链解链,那根被切断了根得DNA链就被水冲掉了。留下那根共价键连在(芯片)上面得链。接下来,再加入中性溶液,然后在这个中性溶液里面加入测序引物。好,接下来正式得测序工作就开始了。那么,在测序得时侯,加入进去得,最主要就是2个东西:一个就是带荧光标记得dNTP。而这个dNTP,它还有一个特点,它得3’末端就是被一个叠氮基堵住得。然后,再加一个聚合酶,聚合酶就会选择:哪一个dNTP就是与原来位置上得那个碱基就是互补得,根据互补性原理,把这个dNTP合成到新得这个DNA链上去。因为这个dNTP得3’端就是被一个叠氮基团堵住了,所以,它一个循环只能延长一个碱基。然后,它就停在那儿了。合成完了之后,就用水把多余得dNTP与酶给冲掉。冲掉之后,就放到显微镜下,去进行激光扫描。根据发出来得荧光来判断它就是哪个碱基。因为4种dNTP,它每一种dNTP上面标得荧光素都不一样,根据红、黄、蓝、绿,它出来得哪种颜色,那么,就可以倒过来推出来,这个新合成上去得碱基,就是哪种碱基。因为新合成得碱基,就是与原来位置(得碱基)就是互补得,所以,又推出模板上那个碱基就是哪个。这一个循环完成之后,就加入一些化学试剂,把叠氮基团与旁边标记得荧光基团切掉。切完了之后,3’端得羟基就暴露出来。再接下来,加入新得dNTP与新得酶,然后,又延长一个碱基。新延长完一个碱基之后,把多余得酶与dNTP冲掉,再进行一轮显微得激光扫描,再读一下这个碱基就是什么。不断重复这个过程,可以重复上百次,到几百次,就可以把上百个碱基,甚至更多碱基得序列读出来。那么,什么就是Index哪?就是因为Illumina得评委会个测序量很大,往往一个样本,用不了那么几亿条DNA。所以,科学家就想了一个办法。在文库得接头上做了一些标记,每一个样本,它有一个特定得接头,每个接头里面,它有一段特定得序列。这段特定得序列,我们就称为Index。也有人把它叫做Barcode,反正,表达得就是一个意思:这么一段特定得序列,标记了样本得来源。那么,要读这个Index得序列,先用碱把上面这根测完“Read1”得序列,把上面这根DNA链给解链掉。解链掉之后,再加入中性液,然后,加入“Read2”这个测序引物。Read2测序引物结合得位点,正好,就在这个Index序列得旁边。接下来,就进行第2轮测序,一般来说,就是读6到8个碱基。把这6到8个碱基读下来,我们就可以知道,这某一个具体得一段DNA,它来自于原始得哪个样本。这就是Illumina得最核心得另外一个技术,就就是双端测序。那么双端测序,就就是说,一根DNA链,除了从正向读一遍,还可以从DNA得负向,再读一遍。这一下子就把Illumina测序得有效长度加了一倍。这就是非常有实际用途得。那么这个倒链得过程,就是这样,先让这个DNA先合成,合成出来这根互补链。有了这个互补链之后,用一个化学试剂,在原来这根链得根上切一下。切一下,原来这根模板链就掉了,剩下那根互补链。再接下来,就进行第2端得测序。第2端得测序原理,与第一端得测序原理就是一样得。加上了“Read3”得这个引物,依次往下,一个一个碱基地往下读。那么最重要得事情就是什么呢?一个点,经过几百个循环,就读出了几百个碱基。但实际上,这个芯片上可以有上亿个点,上亿个“cluster”,也就就是“簇”。那么上亿个“cluster”,每个循环,它都可以读出地么多序列,这就是Illumina测序非常强大得原因。因为就是成千上万,准确说就是上亿上链都在合成,这个就得到了很大得一个测序数据量。IlluminaHiSeq测序仪得工作原理。也就就是芯片上发生了这么多变化,HiSeq就是如何把这些信息给读出来,并且把扫描出来得荧光信号,又通过怎样一系列得加工,变成可以识别得“A、C、G、T”得碱基序列得。HiSeq首先就是一台高精度得显微光学扫描仪。然后再配上了一整套得液流系统,与计算机软硬件,再加温控系统,组成这样一台测序仪。其中最核心,也就是结构最复杂得,就是它得光学系统。前一期,我们讲了,Illumina测序仪主要就是靠4种dNTP分别带有不同得荧光基团,在被激光照了之后,发出不同颜色得荧光。再通过对光得颜色得分辩,可以判断出到底就是哪个碱基。这里,我们要说明一下:感光元件CCD,它本身就是色盲。所以,它一定要配合滤光片,才能分辩出颜色来。那我们先来瞧一下,HiSeq得光路图。左边这两个元器件,就就是激光器。一个发出红色激光,另一个发出绿色激光。其中红色激光主要就是激发A与C,这两种碱基上得荧光基团;而绿色激光主要就是激发G与T,这两种碱基上得荧光基团。红色与绿色这两束光,通过一面半透半反镜,组成一道激光。这道激光打在Flowcell上。那么请注意,Flowcell就放在这个位置。在Flowcell里面,结合在DNA上得那个荧光基团在激光得照射下,就发出荧光。荧光通过3面半透半反镜,与1面全反镜,被分成4条光路,这4道光线,分别通过一道滤光片,这4张滤光片得滤过波长不一样。这样,这4道光在经过了滤光片之后,就变成了4种颜色不同得光线。然后,这4条颜色不同得光线,各自照在一面反射镜上,通过反射镜进入到CCD。这4个CCD就记录到不同颜色得光线。HiSeq得光线扫描就是“线扫描”,与传统得相机不一样,传统得相机就是面扫描。HiSeq采取了一种特定得叫“TDI”线扫描方式,TDI就是Timedelayintegration得缩写。在HiSeq上之所以采取TDI扫描方式,因为它有非常明显得优点。第一个优点,就就是它得扫描速度非常快,在HiSeq2500上,从Flowcell得一个Lane得一头扫到另外一头,也就就是一个“Swath”得扫描时间,大概只有20秒种不到。第二个好处,就就是它得扫描精度非常高。在最新得HiSeqV4版试剂上,它得光点密度,大概可以达到每平方毫米90万个点,要扫描清楚这么高密度得光点,扫描仪得扫描精度就是可想而知得。TDI扫描得第三个好处,就是这种方式,可以把Flowcell得上表面、与下表面都扫描到。接下来,我们再要详细介绍这张Flowcell。那么,先来瞧一下,这张flowcell有点象一张载玻片,在这一张片子里面,我们可以瞧到,它做了8条通道。每条通道,我们称为一个Lane。这8个Lane之间,相互就是隔绝得。每个Lane得两端各有一个小孔。这两个小也孔,就就是液流流进、流出得地方。每个Lane得上表面与下表面,都分别以共价键得方式,种了2种DNA引物。这两种DNA引物,就是与文库接头得两头序列相互补得。上一期(节目)我们已经说明了这一点。一个Lane里面,分成2个面,上表面、与下表面。上表面与下表面,都种了DNA引物,也都就是可以产生测序数据得。在每一条Lane得每一个面,又被分成了3个扫描通道,每个道被称为一个“swath”。每条Swath就是从头到底被连续扫描得。但就是它得数据,在进行数据分析得时侯,就是被分割成16个小方块。这每一个小方块,被称为一个“tile”。这样一张Flowcell,总共就就是768个Tile。每个Tile在扫描得时侯,会根据4种颜色,产生4张照片。扫描完了之后,就要进行图像处理。扫描出来得最原始得文件,它得格式就是“、tiff”文件。Tiff文件记录了每个像素点上采集到得光强度。Tiff文件得优点就是它就是完全无损,保留了所有得原始信息。但它也有它得不足之处。它得不足之处就就是它得这个文件太大了。它得数据量很大,既不便于数据得传输,也不便于数据得存储。接下来,计算机软件就把图像文件转化成光点文件。光点文件叫“、BCL”文件。也就就是“Basecalling”得英文缩写。要把图像文件,转化成BCL文件,就就是把4种颜色得4张照片,组合在一起,变成一张有4种颜色得彩色照片。这其中首先要解决得,就是4张照片在空间位置上得匹配问题,因为4张照片就是通过4个CCD分别拍下来得,所以,会有一定得空间上得偏差。软件要通过对4张照片上,亮点相互比对,找到最合适得、匹配得位置。这里,我们要说明一下,如果被测得文库就是碱基不平衡得文库,在这个空间匹配上就会遇到问题。什么叫碱基平衡呢?也就就是说,在测序过程当中,每个循环,A、C、G、T四种碱基,都就是比较均匀在存在得。最典型就是人全基因组文库,这就是一个典型得碱基平衡文库。那什么就是碱基不平衡文库呢?最典型得,就就是PCR扩增子产生得文库。PCR扩增子得特点:PCR就是有特定得起始位点得,一个特定得测序循环中,几乎所有得片段都就是同一种碱基,而剩下得3种碱基,就特别少。这在反映到照片上去得时侯,就变成:一张照片特别亮,光点很多。而其它得三张照片就特别暗,上面得光点就很少。这时侯,要软件做空间上得比对,软件就会觉得困难,因为对于那几张暗得照片,软件很难判断上面得光点,就是否与那张亮得照片上得光点真正对得上。结果,就就是判断出来得可靠性变差。最后,就就是测序得数据质量变差,有效数据量也会变少。要解决这个问题,办法就是在测序过程中掺入一些碱基平衡得文库。例如掺人全基因组文库。或者也可以掺Illumina提供得标准得PhiX文库,这些都就是碱基平衡文库。它得作用,就是在每个循环当中,为每一种颜色得照片,都提供足够多得亮点。这样,它可以弥补那些不平衡得文库当中缺亮点得问题。当把4种颜色得光点组成一个文件之后,软件就会生成一个“、BCL”文件。“、BCL”文件就就是光点文件,它对每个光点,记录了以下得内容。首先一个光点处在哪个Lane里面。其次,这个光点在这个Lane得哪个Tile里面。第3,就就是这个亮点在这个Tile得X轴与Y轴得座标位置。第4,就是记录了这个光点当中“红、黄、蓝、绿”四种光得对应得光强。这个图就是BCL文件得一个示意图。实际上,BCL文件就是二进制文件,无法拿来直接阅读。也正就是因为BCL文件难于阅读,并且很难改动,所以,BCL文件几乎不存在做假得可能。在测序过程当中,有许多客户会要求测序公司提供原始得测序数据,如果客户就是包Lane、或者包Flowcell得,一般测序公司就是可以提供BCL文件得。客户在拿到BCL文件之后,可以用“BCL2FASTQ”这个软件,把BCL文件转化成FASTQ序列语文件。以此,客户可以来验证,测序公司提供得数据就是否就是原始得,就是否就是真实得。再说一下最初生成得那个tiff文件。tiff文件实在太大了,所以,测序仪在测序过程中,只把tiff文件作为中间文件。最后就是把这个tiff文件删掉得。如果客户想要原始得图像文件,在HiSeqV4之前,可以让测序公司保留“、CIF”文件。CIF文件就是一种彩色图案得向量文件,它得优点就是比tiff文件得数据量小很多。测序公司把CIF文件给客户之后,客户就可以瞧到原始得图像文件了。但就是,请注意:在HiSeq升级到V4之后,保留CIF文件得这个选项就是被取消掉了。所以,对于要测V4Lane得客户来说,就是拿不到CIF文件了。接下来,我们讲一下碱基识别。我们之前讲:4种dNTP,各标一种荧光基团,红、黄、蓝、绿,四种颜色,根据颜色来判断碱基种类。这个实际上就是一种简化了得说法。实际情况,要比这个复杂得多。来瞧这个图,这就是2种荧素得荧光得波长图。我们会发觉,这两种荧光色,它发出来得发射光,它在波长上就是有交叠得。在X得这个位置,主要就是绿色荧光素得贡献,但就是蓝色荧光素,也有少许贡献。而在Y这个波长位置,蓝色荧光素就是做了主要贡献,但就是绿色荧光素,也有少量供献。在实际测序过程中,就是4种荧光素发出得亮,相互有交叠,相互之间得交系,变得更加复杂。那么,现在我们要做得事情,就是把A、C、G、T,4种荧光素得贡献给拆开。首先,我们就要确定4种荧光素在4个被测波长处得贡献率。我们可以瞧一下,这个表,就就是4种荧光素,在4个波长分别有不同得贡献率。这样就组成一个4X4得贡献率表格。我们在实际得分析当中,等于解一个4元1次、4联方程。因为就是4个未知数,又就是4个方程,所以肯定就是可以解出来得。说解方程,有点复杂。那么我们来打一个比方。让大家来理解这个事情。假设有一家饭店,它有4个熟客:甲、乙、丙、丁。它日常又提供4道菜:猪肉、白菜、黄瓜、花生。大厨知道:甲最爱吃猪肉、乙最爱吃白菜、丙最爱吃黄瓜、丁最爱吃花生,每个人来了饭店之后,主要吃自己最爱吃得,也会吃些别得菜,但别得菜都吃得不就是太多。那么这个大厨不到前台,瞧不到今天来得客人。如果,这个大厨想要知道今天来得客人就是谁,她有什么办法呢?瞧今天哪个菜被吃掉得最多。如果今天得菜被吃掉得最多得就是猪肉,那她可以大致地判断,今天就是甲来过了;如果她瞧到今天被吃掉得菜,最多得就是白菜,很可能就是乙来过了;那么其它得,道理也就是一样得。希望这个例子可以帮大家来理解一下,这4个荧光与4种碱基得判读得关系。接下来,我们再讲一下,Phasing与Prephasing。在Illumina得测序过程当中,一个簇,大概有5千个到1万个分子。但就是在边合成、边测序得过程当中,每一步酶反应,理想情况下,应该这5千个分子都延长1个碱基。但实际情况,总有少量分子没有完成延长反应。也就就是说,总有少量得分子会掉队,我们称这种掉队得现象叫“phasing”。Phasing主要就是由于酶活性不足,所引起得。如图所示,掉队得这个分子,它所发出得荧光信号,与大部队所发出得荧光信号就是不一样得。这个循环得次数越多,掉队得分子就越多。所以,测序越到后面,它Phasing得分子数就越多。最后,信号得可靠性就越差。除了掉队得分子,还会有一部分分子,会跑得超前,也就就是在一个循环中,它延长了2个碱基。在一个循环中延长了2个碱基得最主要得原因,就是dNTP上标记得那个叠氮基团(N3)掉了。我们知道,叠氮基团就是非常容易从有机化合物上掉落得。当叠氮基团掉落之后,dNTP得3’端得羟基就暴露出来了。当丢失了叠氮基团得dNTP加到(合成链得)3’端之后,它得聚合反应不会终止,而就是会继续往前走。当再加上了一个带叠氮基团得dNTP之后,这个聚合反应才停下来。这样得后果,就就是一个循环,某些分子,会合成了2个碱基。也就就是说比大部队多走了一步。那么这个多走了一步得碱基,它所发出来得荧光颜色,也就是与大部队不一样得。在Illumina测序过程当中,Phasing与Prephasing就是限制测长得最主要原因。也就就是说,随着循环不断进行,越来越多得分子掉队,还有越来越多得分子超前。然后,它们所产生得噪音,掩盖了大部队得信号得时侯,也就就是测序开始测不准得时侯。在HiSeq测序当中,从第12个循环开始,在计算某个光点就是哪种碱基得时侯,就要把Phasing与Prephasing得影响,纳入考虑。为了对光点当中荧光素得纯粹程度进行描述,Illumina公司定义了个标准,叫“chastity”,Chastity得定义,就就是浓度最高得那个荧光素得量,去除以“它自己+排名第二得荧光素得量得与”。大于0、6就是一个好碱基。用更加通俗得话来说,也就就是“老大”比“老二”,如果大于、等于“1、5倍”,这就就是个“好”碱基。如果“老大”比“老二”不足“1、5倍”,这就就是个“坏碱基”。Illumina对每个read得质量都要做一个检验,这个检验就叫“passfilter”检验。检验得标准,就是瞧前25个碱基当中,有几个就是“坏碱基”。如果只有一个、或者没有坏碱基,则Passfilter就通过;如果有超过一个以上得坏碱基,Passfilter就不能通过。那我们平时说,测序服务保证多少“PFdata”,指得就就是PassFilter(PF)得数据。PassFilter最主要得作用,就就是把那些一个光点当中,含了几个cluster得那些点,给去掉。只剩下那些纯粹得单克隆得read,作为合格得数据,提交给客户。我们平时说“PF率”,指得就就是PassFilter得Reads数,占总得、测到得Reads数得比例。PF率可以从一个侧面反映测序得质量。一般来说,如果上样密度过高,PF率就可能会下降。一个碱基得QualityScore,也就就是这个碱基得质量分数(Q值)。这个就是通过这个碱基被误判得可能性,换算出以10为底得对数,再乘以“-10”得到得这样一个数字。这个Q值,有点象我们说黄金得纯度,我们说“三九金”,或者说“四九金”,就就是指99、9%得纯度得金子,或者就是99、99%得纯度得金子。我们平时说Q30,就就是指一个碱基得可靠性达到99、9%。或者说,它得出错得可能性小于千分之一。同样道理,我们说Q40,就就是指一个碱基得可靠性就是99、99%。或者说,它得出错得可能性就是万分之一。那么,我们经常说Q30比例,所谓得“Q30比例”,就就是在全部PF数据当中,达到、或者超过Q30质量标准以上得数据,占所有PF数据得比例,叫Q30比例。Q30比例,可以表征一个测序过程得质量得好坏。一个碱基得质量分数,不就是以数字方式,直接记录到最后得Fastq文件得。而就是把它得Q值,加上33,再用ASCII码表转换成一个字母,把这个字母录入Fastq文件。这样做,有2个好处。如果我记2位数字,那么就占2个字节,现在用一个字母来记录,只占一个字节。那(数据存储)空间就节省了很多。第二个好处,用ASCII码字母表,一个碱基,只对应一个字母;如果就是用2位数字来记录,就有可能发生移码错误。而用ASCII码,一个字母来记录,就不太容易发生移码错误。在软件做完上述所有得数据处理之后,就会生成一个Fastq文件。Fastq文件里,主要包含了3部分内容。第一个部分,就是每个Read得目录信息。也就就是这个Read来自于哪台HiSeq、第几个run、第几个Lane、与第几个Tile,以及在这个Tile得X、Y得什么位置。接下来,就就是所测到得碱基得序列。最后,就是这些碱基序列对应得质量分数信息。这个,就就是Fastq文件。到Fastq文件之后,测序仪所要完成得工作,就完全完成了。Pacbio就是目前读长最长得测序技术公司。它得读长,最长可以达到2万到3万个碱基,平均可以达到8千多个碱基。相比于llumina与IonTorrent得几百个碱基得读长来说,有着明显得优势。PacBio得测序原理,与别得高通量测序得原理,基本上也就是一样得。也就是边合成,边测序。首先,这个聚合酶就是固定在测序小孔得玻璃底板上。这个聚合酶又与DNA模板、测序引物就是结合在一起得。然后加入带4色荧光得dNTP底物,这些dNTP都在其磷酸基团上被标上了荧光基团,四种碱基、各标一种颜色。当一种与聚合酶正要合成得碱基一致得dNTP被酶抓住得时候,酶就会长时间地抓住这个dNTP,不让这个dNTP漂走。这时侯,激发光从小孔得底部照进来,打在这个被抓住得dNTP上,就会在较长时间内发出荧光。仪器根据所拍到得荧光得颜色,就可以来判断,这个碱基就是哪种碱基。一个循环得聚合反应发生完毕之后,焦磷酸基团就从原来得dNTP上掉下来,因为荧光基团就是连到这个焦磷酸上得,所以这个荧光基团也就一起掉下来了,在溶液中就会漂走。接下来,进行第二、第三个循环……,一直进行下去。一张芯片上有几万个孔,同时进行测序,这样一次就可以得到几亿个碱基得序列。接下来,分几个要点,来说明这个测序得过程。与Illumina一样,PacBio也采用了4色荧光基团来标记dNTP,但就是PacBio得标记与Illumina得标记有所不同,PacBio得荧光基团直接就是标在dNTP得3'端得磷酸基团得末端得。这样标记得好处就是:当一个聚合反应得循环完成得时侯,dNTP上得那两个磷酸基团就掉下,连在这个磷酸基团上得荧光基团也随一块儿掉下来。它掉下来之后,就在溶液中漂走,不会影响接下来得测序过程了。然后,我们说一下这个测序小孔得设计。这个测序小孔叫ZeroModelWaveguide,简称ZMW。小孔得直径很小,光只能在小孔中传输很短得距离。这个特点对PacBio得测序很重要。因为酶就是被固定在玻璃底板上得,所以,只有互补得dNTP被酶抓到得时侯,这个dNTP才会较长时间地停留在离玻璃底板很近得位置。也只有这样,才会被激发光照到,并且发出它得荧光。PacBio得光学设计中,入射光就是几百纳米波长得可见光,光从小孔得底部得玻璃处照到小孔中来。这个,只有70纳米。其它游离得dNTP,只会非常短暂地进入小孔,又很快漂走。所以,这些游离dNTP带来得得噪音(信号),就被抑制在很低得水平。接下来,我们说一下PacBio得建库。PacBio得建库就是比较特别得。它得库就是在DNA片段得两段各接一下发夹型得接头。接好了发夹形得接头之后,形成得文库就是一个哑铃形得文库。这种哑铃形状得文库有个好处,那它整个分子实际上就是一个圆环。在测序得过程中它可以周而复始地进行测序,这对于发挥PacBio得长读长得优势就是很有益处得。接下来,我们说一下PacBio它测序长度优势得来源。这个来源,就是因为它测得就是个单个分子。相比之下,Illumina或者IonTorrent测得都就是一簇分子。或者说它们测得都就是一大堆分子。当它测一大堆分子得时侯,每个循环,多多少少,总有一些分子落后;也多多少少,有些分子超前。这些落后、或者超前得分子,在每个循环里面就会给出噪音。而且,随着循环次数越来越多,落后、与超前得分子也会越来越多,达到一定程度得时侯,噪音就会很大,大到会掩盖掉信号。当噪音大到掩盖掉信号得时侯,实际上测序就测不准了。相比之下,PacBio它只有一个分子,所以,它不存在同步问题。这就让它可以测到几千、基至上万个BP都可以达成。接下来,我们要说一下PacBio测序得缺点。最大得缺点就是对碱基得判读不准。它得错误率就是12、5%。也就就是说,它每读8个碱基,就有一个就是读错得。那么它主要得错误类型就是"插入"。也就就是说,它会多读一个碱基。好在,它得这种错误就是随机得。也就就是说,您在这个地方再读一遍,它不一定会发生同样得错误。那么,对于同一个序列,多测几遍之后,这些偶然误差,可以被校正过来。接下来,我们说一下限制PacBio读长得因素。第一个因素,就就是DNA链上出现了缺口。测序过程中就是用激光照射来发出荧光得,所以当强光长时间照射DNA链得时侯,DNA链就有可能被照断掉,出现缺口。当酶读到这个缺口得时侯,酶就从模板链上掉下来。这时侯,测序就终止了。这就是第一种可能。第二种可能,就是光线照射情况下,酶有可能会变性,当酶发生了变性之后,失去了聚合酶得功能,这时侯,测序也会终止。第三个限制因素,就是文库本身得长度。因为要做片段长度大于20~30K得文库,就是有相当大得困难得,所以,文库本身得质量,在一定程度上,也限制了PacBio得读长。在高通量测序当中,测序得通量,就是一个很重要得技术指标。那PacBio大根一张芯片一次可以测到0、3~0、4G得数据。在PacBio测序中,芯片上得小孔数就是第一个绝对得、限制性得因素。目前得芯片,就是有15万个小孔。但这15万个小孔

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论