基因组学理论课 第三节 基因组分析策略和技术_第1页
基因组学理论课 第三节 基因组分析策略和技术_第2页
基因组学理论课 第三节 基因组分析策略和技术_第3页
基因组学理论课 第三节 基因组分析策略和技术_第4页
基因组学理论课 第三节 基因组分析策略和技术_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息与数据处理第三节基因组分析策略和技术1

克隆克隆(cloning):涉及将特定DNA片段插入类似于染色体的载体(vector)中,载体使它们能在活细胞内进行复制。由于所有片段的拷贝都是相同的,所以叫分子克隆(molecularclone),这些片段可纯化并可直接用于研究或储存在文库中以便进一步分析。一分子生物学工具基因文库(geneticlibrary):所有克隆到载体上的基因的集合形成基因文库(geneticlibrary)。一个理想的基因文库应包括一个生物体DNA中每个片段的拷贝。基因组等价物(geneticequivalent)在这样一个完整的基因组文库中克隆的数目(用基因组的大小除以平均片段长度)称为基因组等价物(geneticequivalent)。克隆过程的随机性使某些片段将被克隆多次而另一些可能在基因组等价物中并不出现。增加基因组文库中克隆的数量将增加任一给定DNA片段都至少含有其一个拷贝的可能性。具有4个或5个基因组等价物的文库平均每个DNA片段有4或5个拷贝,基因组任一特定部分有至少一个拷贝的可能性为95%。分子克隆技术流程2基因组文库chromosomesonificationcloningGenomicDNAlibraryVector3cDNA文库(cDNAlibrary)所有蛋白编码区域共有的特征是它们被核糖体翻译之前全转化成mRNA。逆转录酶(reversetranscriptase)将mRNA转化成互补DNA(cDNA),然后克隆成为文库。由于细胞通常只转录具有重要功能的基因的mRNA,所以展示cDNA文库往往可以抓住基因组的关键部分。在任一类型的器官或细胞文库中,cDNA的相对丰度可以指示一个特定基因的表达量。cDNA文库cloningGenomicDNAlibraryVectormRNAcDNAReversetranscriptase

4聚合酶链反应PolymeraseChainReaction,PCR背景知识

多聚酶链式反应(PolymeraseChainReaction,PCR):是一种对特定的DNA片段在体外进行快速扩增的方法。

1985年Kary.Mullis及同事创立。随后借助于热稳定性TaqDNA聚合酶的发现,1987年KaryMullis等完成了自动化操作装置,使PCR技术进行实用阶段。1993年度,KaryMullis因发明了“聚合酶链式反应”而获得诺贝尔化学奖。PCR反应系统模板DNA:要扩增的基因片段即目的基因一对引物:引导DNA链的合成,“引子”四种三磷酸脱氧核苷:合成DNA链的原料热稳定的DNA聚合酶:催化DNA合成适当的缓冲体系:镁离子等模板DNA

PCR反应必须以DNA为模板进行扩增,一般反应中的模板数量为102-105

个拷贝对于单拷贝基因,需要0.1μg的人基因组DNA引物两段与待扩增靶DNA序列互补的寡核苷酸片段,一般15-25碱基长

ATCGGCTAAGCTATCCGT四种磷酸脱氧核苷酸(dNTP)合成DNA链所需要的原料:

dATP

dGTP

dCTP

dTTPTaqDNA聚合酶

TaqDNA聚合酶是从嗜热水生菌中提纯出来的,是一种耐高温的DNA聚合酶方法三个基本步骤:(1)变性:目的双链DNA片段在94℃下解链(2)退火:两种引物在适当温度(50℃左右)下与模板上的目的序列通过碱基配对结合(3)延伸:在TaqDNA聚合酶作用下,以目的DNA为模板进行DNA合成由这三个基本步骤组成一轮循环,理论上每一轮循环将使目的DNA扩增一倍,这些经合成产生的DNA又可作为下一轮循环的模板,所以经25-35轮循环就可使DNA扩增达100万倍。变性模板DNAPCR反应--变性PCR反应--退火退火PCR反应--引物延伸引物延伸PCR扩增--30个循环PCR结果--

凝胶电泳二DNA序列测定1Sanger双脱氧末端终止法测序原理

在DNA聚合酶的作用下,以脱氧核苷三磷酸(dNTP)为链延伸剂,2‘,3’-双脱氧核苷三磷酸(ddNTP)为链终止剂,对所测定的DNA序列进行循环聚合反应。

ddNTP与dNTP之间的差别仅在于其脱氧核糖的3‘位少一个羟基,前者因缺乏3’羟基而不能同后续的dNTP形成磷酸二酯键。因此,当DNA链末端碱基为ddNTP时,该链的延伸反应便终止在适当的条件下,所测DNA聚合反应产生一系列多核苷酸链,它们的长度呈梯度分布,差别为一个核苷酸不同长度的多核苷酸链通过凝胶电泳,按分子量被分离出来,基于对其长度和标记物的共同识别,可依次读出所测DNA的每个核苷酸1-1所示)。

“双脱氧末端终止”的含义2双脱氧链终止法对DNA多聚酶的要求

高活性无5’-3’外切核酸酶活性无3’-5’外切核酸酶活性

klenow多聚酶噬菌体T7编码的“Sequenase”(测序酶)3第一代DNA自动测序

自动荧光毛细管凝胶电泳测序仪代表:安玛西亚公司MegaBACE1000

96个电泳读长高达500-600bp

日分析能力达1000个样品自动荧光垂直板凝胶电泳测序仪

代表:ABI公司377型垂直板自动测序仪

96个泳道读长高达700-800bp

日分析能力达300个样品

电泳,看谁跑得快荧光检测探头

短片段先检测到长片段后检测到4Solexa

测序原理Solexa测序技术属于新一代测序技术(第二代),其核心思想是边合成边测序(sequencingbysynthesisorligation)。即生成新DNA互补链时,要么加入的dNTP通过酶促级联反应催化底物激发出荧光,要么直接加入被荧光标记的dNTP,在合成或连接生成互补链时,释放出荧光信号。通过捕获光信号并转化为一个测序峰值,获得互补链序列信息。可以在DNA扩增表面读取数千万个32-40bp长的片段。GenomeAnalyzer

ClusterStation

以边合成边测序为标志的新一代测序技术的代表有四种测序平台:

Roche(454)GSFLXsequcncer

Illuminagenomeanalyzer(Solexa)AppliedBiosystems

SOLiDsequencer

HeliScopeSequencer

Solexa公司在2006年被Illumina公司以6.15亿美元的高价收购,并将Solexa测序仪命名为Illuminagenomeanalyzer。

1)添加接头:

利用物理方法将待测样品DNA打碎,在单链DNA碎片两端加上接头5Solexa测序流程2).表面结合(ClusterStation)

Solexa测序时利用微注射系统将已经加过接头的待测片断和接头随机添加到玻璃FlowCell内,每一个FlowCell又被分成8条lane,每条Lane的内表面上能以共价键的形式随机固定单链接头序列和带接头的单链待测DNA片断。

3).桥型扩增循环获得多拷贝待测DNA片断

在Flowcell内加入未被标记的dNTP和酶起始固相桥型扩增;所有单链桥型待测片段被扩增成双链桥片断,通过变性,释放出互补的单链,锚定到附近的固相表面;通过不断循环,将会在Flowcell的固相表面上获得上百万条成簇分布的双链待测片断。4).测序:加入DNA聚合酶和被荧光标记的dNTP

和接头引物进行扩增,在每一个测序列簇延伸互补链时,每加入一个被荧光标记的dNTP就能释放出相应的荧光,测序仪通过捕获荧光信号,并通过计算机软件将光信号转化为测序峰,从获得待测片段的序列信息。三大规模测序的策略1工作框架图与精细图工作框架图:

目的:获得基因组的基本结构信息(如GC组成、重复序列)、基因的识别和功能分类、SNP的发现等测序量:4-5倍基因组大小的覆盖度序列覆盖率:90%以上,准确度不低于99%。精细图目的:对重要功能基因及调控序列进行精确的染色体定位,为基因的功能研究奠定基础测序量:8-10倍基因组大小的覆盖度序列覆盖率:99%以上,序列准确度不低于99.99%。2全基因组霰弹法与逐步克隆法全基因组霰弹法(WholeGenomeShot-gun)逐步克隆法(ClonebyClone)全基因组霰弹法霰弹法(Shot-gun),亦称“鸟枪法”,用于全基因组随机测序方法:借助物理或化学手段,将整个基因组随机打断成一定大小的片段进行测序,再根据序列间的重叠关系进行计算机排序和组装,确定它们在基因组中的位置优点:速度快,简单,成本较低缺点:序列的拼接组装比较困难,在重复序列较多的区域难度更大逐步克隆法以物理图谱为基础、以大插入片断克隆为单位的定向测序策略方法:构建以染色体为单位的遗传图谱,再利用高覆盖度的大片段基因组文库(BAC、PAC等)获得精细的物理图;选择合适的BAC或PAC克隆进行亚克隆测序,得到一条完整的BAC序列;参照物理图谱,将相互关联、部分重叠的BAC克隆连成一个大的重叠群(Contig)。优缺点:技术难度较高,尤其是大片段基因组文库和精细物理图谱的构建技术性极强;费用高、费时………ATGCCGTAGGCCTAGCTAGGCCTAGCTCGGA……

………ATGCCGTAGGCCTAGCTCGGA……基因组DNABAC文库根据物理图谱正确定位的BAC或contig用于霰弹法测序的候选克隆用于霰弹法测序的亚克隆测序并组装完整的基因组序列逐步克隆法(ClonebyClone)

全基因组霰弹法(WholeGenomeShot-gun)基因组DNA

霰弹法克隆测序并进行全基因组序列组装完整的基因组序列BACbyBACWholeGenomeShotgun…thesequencingofthehumangenomeislikelytobetheonlylargesequencingprojectcarriedtocompletionbythemethodsdescribedinthisissue.MaynardV.Olson,Themaps:Clonebyclonebyclone,Nature409,816-818(2001)

两种大规模基因组测序策略的比较

项目

策略全基因组霰弹法逐步克隆法

遗传背景不需要需要(需构建精确的物理图谱)速度快慢费用低高计算机性能高(以全基因组为单位进行拼接)低(以BAC为单位进行拼接)适用范围工作框架图精细图代表测序物种果蝇、拟南芥、水稻人、线虫3逐步克隆法(ClonebyClone)物理图谱的构建大片段克隆的筛选霰弹法测序与“工作框架图”的构建序列的全组装与“完成图”构建A物理图谱的制作遗传图谱是根据DNA重组原理,用遗传学距离来排定含有插入片段克隆群次序的图谱,它所显示的是基因组内基因与专一的多态性DNA路标(Marker)的相对位置物理图谱是直接检测DNA标记在染色体上实际位置的图谱,是把克隆群中的DNA片段按其在基因组上的实际物理位置进行排序a.物理图的种类主要有以下四类:限制性作图(RestrictionMapping):描述以稀有酶切位点为生物学界标的顺序和距离,形成基因组或染色体区域上的酶切图谱可把DNA定位在100kb-1Mb范围内荧光标记原位杂交作图(FluorescentinsituHybridization,FISH):

使用荧光原位杂交技术确定含有路标的DNA片段在染色体上的区带位置与分布

DNA片段可被定位在2-10Mb的范围内依靠重叠克隆群的基因组作图(Clone-basedMapping):根据克隆之间的重叠顺序构建重叠群(Contig),绘制物理连锁图通过粘粒重叠克隆群把DNA定位在小于2Mb的范围内序列标签位点作图(SequenceTaggedSite,STS)是从基因组上筛选特异序列作为路标平均100kb一个

b序列标签位点(STS)作图STS图谱:

是最基本和最为有用的染色体物理图谱之一,STS(SequenceTaggedSite)本身是随机地从人类基因组上选择出来的长度在200~300bp左右的特异性短序列(每个STS在基因组中是唯一的,STS图谱就是以STS为路标(平均每100Kb一个),将DNA克隆片段有序地定位到基因组上。STS的来源:

随机基因组序列表达基因序列,如EST

遗传标记序列,如微卫星标记有关STS的信息可在基因组数据库GDB中找到http://gdbwww.gdb.org物理图谱构建的步骤确定各STS序列及其在基因组中的位置大插入片段基因组文库的构建(BAC文库)以特定STS为标记筛选并定位克隆含有STS的克隆在基因组中排序基因组数据库(GDB)中至少含有24568个STS路标信息

B大片段克隆的筛选--BAC文库的构建NotI、SacI脉冲场凝胶电泳得200Kb左右的大片段DNA

纯化后与载体连接

电转化,将连接产物导入大肠杆菌感受态细胞插有外源DNA片段的BAC载体在含有氯霉素的固体培养基中培养每一个菌落为带有相同外源DNA片段的单克隆BAC克隆的筛选“STS-PCR反应池”方案筛选种子克隆特定的STS标记

相互间具有重叠片段的BAC克隆根据STS信息组装成contig,并定位于基因组上Contig每一个菌落为带有相同外源DNA片段的单克隆“反应池”方法将待筛文库中的克隆分别保存于96孔保菌板中,每孔为一个单克隆每组“反应池”:即由1个“超级池”、8个“板池”、8个“行池”和12个“列池”所组成。以8板为单位将96孔板分成若干组,每组中,所有克隆混合组成1个“超级池”(SuperPool),每板的克隆分别混合组成8个“板池”(PlatePool),8个板的各行、列克隆分别混合组成8个“行池”(RowPool)和12个“列池”(ColumnPool)。筛选:通常分三轮进行第一轮,对所有组的“超级池”进行PCR,筛选出阳性“超级池”第二轮,对含有阳性“超级池”的组内的“板池”、“行池”和“列池”进行28个PCR扩增,根据各板、行、列的阳性结果进行三维交叉定位,得到若干个候选克隆第三轮,随机选取几个候选克隆,进行PCR扩增,挑出STS的阳性克隆延伸克隆的筛选--指纹图谱(FPC)法

STS的密度尚未达到绘制高精度物理图谱的要求,且在基因组中的分布不均匀,造成很多区域没有阳性克隆覆盖,形成空洞。需用指纹图谱(FPC法)或末端序列(WalkingbyEndSequence)步移等手段对种子克隆进行延伸,形成连续克隆群。利用延伸方法筛选得到的克隆称为延伸克隆。Contig1Contig2重叠序列重叠序列延伸引物筛选到的延伸克隆>20kb~300bpMolecularweightmarkerevery5thlane

BACclones培养提取BACDNAHindIII完全酶切

1%琼脂糖凝胶电泳

指纹图谱法

(WalkingbyFingerprintingdatabase)

挑取靠近空洞(gap)的种子克隆,酶切构建其指纹图谱,在FPC数据库中进行比对,搜索含有此克隆的重叠克隆群信息,从中确定覆盖空洞区域的克隆,达到延伸目的。HindIII完全酶切HindIII完全酶切FPC数据库中比对CloneACloneBCloneCCABa随机测序BacClone:100-200kbShearedDNA:1.0-2.0kbSequencingTemplates:RandomReadsC霰弹法测序组装phred

读取程序:实现碱基识别和错误率估算,生成*.phd文件phd2fasta转化程序:

将*.phd文件转化为FASTA格式的*.seq,*.seq.qual的文件cross_match

载体标记程序:将*.seq文件中的载体顺序标记为Xphrap

拼接程序:拼接各短片段,并进行质量评估consed

校对程序:查看拼接结果,并结合人工校对b序列组装--I数据处理与拼接>rax_539101.y1.abdCHROMAT_FILE:rax_539101.y1.abdPHD_FILE:CCCCCCCCTCAAGTAAAATACTATCTCGGAACGACATAACGTTTTAGATTCGTCATAGTCTTTCCTGTACAACTCATTGAGCCTCACGCCGTTGTCCATTTGCTGTTTGCCATTTAGTCGTACGTCGGTGGGACAGGGGAGTCGGATGTATAGCAGGTTCTTTACAATATTGCAGCACCATGGGTTCGCCAGAGAGTTGTGGGTCTTCTATTGATCATAGATATCTAGCGATGCCTAAGTGCATGGTTTA1)Phred--把峰图文件转化成序列文件(*.seq文件),并赋予质量值(*.seq.qual文件)*.seq.qual文件>203c04_0102.g1.abi68217430ABI000000000000000002121292626

26

32334748485151

514642353434

34

34

344242425656

56

56484844444242

42

42

42

42353131

31

313542485651514242

42

42404537374036453535

3532454542423737

37

37444456564242363535

35

35

353737

37405151

51515656

56

56

56

56424446434240404545

3535

3529291729314039454042404237353535

3537424244464343

434242

42

42

42

42

4237424444563737

37

37

37

37465144434242353630333338383636

36

364242443737

3737

37312929

2924242828

283642444242

42352929

29

29

29

29422935292525322725161717242429292329334040

40

402525000000000000000000000000000000000000000000000000000>203C04_0411.Z1.ABDCHROMAT_FILE:203C04_0411.Z1.ABDPHD_FILE:203C04_0411.Z1.ABD.phd.1TIME:SunFeb600:20:412000XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXCTGGGGGGCTCTTTTCTCCAGTTTTAAAGGCCTTGGAGCTCCGTTGATCCATTAACGACCTTCGAAAAGGGGGAGAACAGGATCAGGTAAATATGAGTGGTACCCTTATCAACCATTTTAAAGATCTTGCCCCCCTTTAAATCAGAGATGTATAAGCACAAAGGGGTTTTTCTGCCAACATAGTGTTCACAAAAAAAGGTATATAACCCTCAGCAGTTCGAAAAATATAGCCTCGGAATCACACGAGTATCGGCATTATATAAACCACGTCTAATGTAAGCACT2)cross_matchcross_match

载体标记程序:

将*.seq文件中的载体顺序标记为X生成文件:*.seq.screen

ContigReadsassembly测序拼接,拼接成各短片段--reads重叠群(contig)3)phrap4)consed用来观看和编辑phrap拼接结果的图形工具Consen

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论