基因组测序的原理与方法_第1页
基因组测序的原理与方法_第2页
基因组测序的原理与方法_第3页
基因组测序的原理与方法_第4页
基因组测序的原理与方法_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大规模基因组测序的

原理与方法1.元素周期表的发现奠定了二十世纪物理、化学研究和开展的根底元素周期表“基因组序列图〞将奠定二十一世纪生命科学研究和生物产业开展的根底!

“基因组〞----生命科学的“元素周期表〞人体解剖图奠定了现代医学开展的根底2.基因组学的根底理论研究基因组学是要揭示下述四种整合体系的相互关系:基因组作为信息载体〔碱基对、重复序列的整体守恒与局部不平衡的关系〕基因组作为遗传物质的整合体(基因作为功能和结构单位与遗传学机制的关系)基因组作为生物化学分子的整合体(基因产物作为功能分子与分子、细胞机制的关系〕物种进化的整合体(物种在地理与大气环境中的自然选择〕3.

基因组学是一个大学科“界门纲目科属种〞,地球上现存物种近亿,所有生生灭灭的生物,无一例外,都有个基因组。基因组作为信息载体,它所储存的信息是最根本的生物学信息之一;既是生命本质研究的出发点之一,又是生物信息的归宿。基因组学研究包括对基因产物〔转录子组和蛋白质组〕的系统生物学研究。基因多态性的规模化研究就是基因组多态性的研究。基因组学的研究必然要上升到细胞机制、分子机制和系统生物学的水平。基因组的起源与进化和物种的起源与进化一样是一个新的科学领域。基因组信息正在以天文数字计算,规模化地积累,它的深入研究必将形成一个崭新的学科。4.

基因组学是一门大科学基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化、内在规律和相互关系。基因组的信息含量高。基因组学的研究又在于基因组间的比较。基因组学的复杂性必然导致多学科的引进和介入〔各生物学科、医学、药学、计算机科学、化学、数学、物理学、电子工程学、考古学等〕。基因组学研究的手段和技术已经走在生命科学研究的最前沿。基因组信息来自于高效率和规模化所产生的实验数据。人类基因组方案证明了基因组研究的迫切性和可行性。5.基因组与生命之谜基因组的产生与进化。基因组DNA组分的变化、GC百分比、嘌呤:嘧啶守恒。遗传密码的发生、开展和进化。内含子〔尤其是大于100,000核苷酸的大内含子〕剪出后的运输和降解。最小内含子的生物学意义。动物基因组与植物基因组在基因分布上的共性和个性。物种衍变过程中基因组水平的变化。基因组大小变化与遗传、分子、细胞机制的关系。“JUNKDNA〞的发生、分类、进化与功能。6.

大规模基因组测序渐入佳境三十亿三年内完成:继酵母、线虫、果蝇、拟南芥后,是人、斑马鱼、水稻和小鼠的基因组。三百亿方案已在执行:大鼠、猪、黑猩猩、狒狒、鸡、牛、小麦、玉米、大麦、大豆、棉花、各种人畜寄生虫和几百种人、动物和植物的病原微生物。三千亿势在必行。将涉及家畜、家禽、树木、海洋生物、实验模式生物等所有代表物种。7.

大规模和高速度的重要性测定一个哺乳动物基因组30亿碱基对相当于6千万测序道〔每道500核苷酸〕相当于300台毛细管电泳仪全负荷运行一年测定一个细菌基因组5百万碱基对相当于十万测序道相当于180台机器/天知识经济的特点知识产权为出发点知识产权的占有者对后来者的制约8.基因组学与计算机科学的接轨“海量〞〔>1010)基因组信息的收集、管理和分析科学文献、组织与发育的三维解剖图像、生物分子的分类和相关性等的高速检索〔>1014)多维生物分子结构的运算和预测〔>1022)生物分子之间的相互作用(信号传导、神经传导、大脑功能模拟、细胞机制模拟等)〔>1030)计算生物学和系统生物学研究的未来(>1050)9.世界大型基因组研究中心美国:1)NationalHumanGenomeResearchInstitutioninNIH 2)GenomeCenteratWhiteHead/MIT 3)WashingtonUniversityGenomeCenter 4)JointGenomeInstitutionatDOE 5)GenomeCenteratBaylorMedicalCollage英国:SangerCenter日本:RIKEN中国:华大基因研究中心〔北京、杭州〕 国家人类基因组中心〔北京、上海〕

10.大规模基因组测序的几个支撑技术Sanger双脱氧末端终止法PCR技术DNA自动测序仪的开展生物信息学分析软硬件设施11.“双脱氧末端终止〞的含义12.PCR〔聚合酶链式反响〕原理反响所需物质:DNA模板、引物、DNA聚合酶、dNTP、缓冲液每个循环包括:变性〔90℃〕、退火〔54℃〕、延伸〔72℃〕13.Sanger双脱氧末端终止法测序原理14.DNA自动测序仪的开展

自动荧光毛细管凝胶电泳测序仪代表:安玛西亚公司MegaBACE1000

96个电泳读长高达500-600bp

日分析能力达1000个样品自动荧光垂直板凝胶电泳测序仪

代表:ABI公司377型垂直板自动测序仪

96个泳道读长高达700-800bp

日分析能力达300个样品

电泳,看谁跑得快荧光检测探头

短片段先检测到长片段后检测到15.大规模基因组测序的两种策略逐步克隆法〔ClonebyClone〕全基因组霰弹法〔WholeGenomeShot-gun)16.………ATGCCGTAGGCCTAGCTAGGCCTAGCTCGGA……………ATGCCGTAGGCCTAGCTCGGA……基因组DNABAC文库根据物理图谱正确定位的BAC或contig用于霰弹法测序的候选克隆用于霰弹法测序的亚克隆测序并组装完整的基因组序列逐步克隆法〔ClonebyClone〕全基因组霰弹法〔WholeGenomeShot-gun)基因组DNA

霰弹法克隆测序并进行全基因组序列组装完整的基因组序列17.两种大规模基因组测序策略的比较

项目

策略全基因组霰弹法逐步克隆法

遗传背景不需要需要(需构建精确的物理图谱)速度快慢费用低高计算机性能高(以全基因组为单位进行拼接)低(以BAC为单位进行拼接)适用范围工作框架图精细图代表测序物种果蝇、水稻人、线虫18.BACbyBACWholeGenomeShotgun…thesequencingofthehumangenomeislikelytobetheonlylargesequencingprojectcarriedtocompletionbythemethodsdescribedinthisissue.

19.“WorkingDraft〞(90%;4X)FinishedGenome(99.99%;8X)Gap1Gap2Chromosome工作草稿〔框架图〕与完成图20.人类基因组方案研究的主要成果和进展表现在这“四张图〞遗传图谱又称为连锁图谱〔linkagemap〕,指基因或DNA标志在染色体上的相对位置与遗传距离物理图谱以定位的DNA标记序列如STS作为路标,以DNA实际长度即bp、kb、Mb为图距的基因组图谱。转录图谱利用EST〔expressedsequencetags表达序列标签〕作为标记所构建的分子遗传图谱序列图谱通过基因组测序得到的,以A、T、G、C为标记单位的基因组DNA序列

21.逐步克隆法〔ClonebyClone)物理图谱的构建大片段克隆的筛选霰弹法测序与“工作框架图〞的构建序列的全组装与“完成图〞构建22.物理图谱的制作

23.物理图谱的制作——序列标签位点〔STS〕作图物理图谱是以特异的DNA序列为标志所展示的染色体图。标志之间的距离或图距以物理距离如碱基对〔basepair;bp,Kb,Mb)表示。最精细的物理图是核苷酸顺序图,最粗略的物理图是染色体组型图。STS图谱是最根本和最为有用的染色体物理图谱之一,STS〔SequenceTaggedSite)本身是随机地从人类基因组上选择出来的长度在200~300bp左右的特异性短序列〔每个STS在基因组中是唯一的,STS图谱就是以STS为路标〔平均每100Kb一个〕,将DNA克隆片段有序地定位到基因组上。STS的来源随机基因组序列表达基因序列,如EST遗传标记序列,如微卫星标记有关STS的信息可在基因组数据库GDB中找到://gdbgdb.org24.物理图谱构建的步骤确定各STS序列及其在基因组中的位置大插入片段基因组文库的构建〔BAC文库〕以特定STS为标记筛选并定位克隆含有STS的克隆在基因组中排序基因组数据库〔GDB〕中至少含有24568个STS路标信息25.关于文库作为载体的根本要求能在宿主细胞中进行独立的复制具有多克隆位点,可插入外源DNA片段有适宜的筛选标记,如抗药性大小适宜,易于别离纯化拷贝数多

文库的概念

含有某种生物体全部基因的随机片段的重组DNA克隆群体载体:能携带外源DNA进入宿主细胞的工具,常用的载体有质粒载体、噬菌体载体、细菌人工染色体等宿主:能容纳外源DNA片段的生物体,常用的有大肠杆菌、酵母等26.BAC文库的构建NotI、SacI脉冲场凝胶电泳得200Kb左右的大片段DNA

纯化后与载体连接

电转化,将连接产物导入大肠杆菌感受态细胞插有外源DNA片段的BAC载体在含有氯霉素的固体培养基中培养每一个菌落为带有相同外源DNA片段的单克隆27.BAC克隆的筛选“STS-PCR反响池〞方案筛选种子克隆特定的STS标记

相互间具有重叠片段的BAC克隆根据STS信息组装成重叠群

,并定位于基因组上Contig每一个菌落为带有相同外源DNA片段的单克隆28.29.共48个每组8个每8个96孔板组成1个superpool,384个96孔板组成48个superpools

48superpools30.

Columnpools

Rowpools

123456789101112第八板第二板Platepools第一板

platepools,rowpools,columnpools的构成

31.“STS-PCR反响池〞方案〔PoolingProtocol〕

1234567891011

12超级池〔8个96孔板,共768个克隆〕板池〔96个克隆〕行池〔12个克隆〕列池〔8个克隆〕大大减少筛选的工作量,降低本钱,所得筛选结果准确可靠28VS76832.sheetofsuperpools,platepools,rowpools,columnpools

33.

一BACScreening前48个样品为引物OGG1.51对superpool(sp)的筛选结果后48个样品为引物OGG1.52对superpool(sp)的筛选结果

34.引物OGG1.52对应sp#27,34,45的plate,row,columnpools的筛选结果35.BACclone确定

(+为阳性克隆)

36.引物OGG1.52的Colony-PCR

37.延伸克隆的筛选STS的密度尚未到达绘制高精度物理图谱的要求,且在基因组中的分布不均匀,造成很多区域没有阳性克隆覆盖,形成空洞。因此需用指纹图谱〔FPC法〕或末端序列〔WalkingbyEndSequence)步移等手段对种子克隆进行延伸,形成连续克隆群。利用延伸方法筛选得到的克隆称为延伸克隆。Contig1Contig2重叠序列重叠序列延伸引物筛选到的延伸克隆38.>20kb~300bpMolecularweightmarkerevery5thlaneBACclones在96深孔板中培养-HindIII完全酶切-1%琼脂糖凝胶电泳

指纹图谱法〔WalkingbyFingerprintingdatabase〕

挑取靠近空洞的种子克隆,酶切构建其指纹图谱,在FPC数据库中进行比对,搜索含有此克隆的重叠克隆群信息,从中确定覆盖空洞区域的克隆,到达延伸目的。39.末端序列步行法〔WalkingbyEndSequence〕挑取靠近空洞的种子克隆进行末端测序,然后在基因组数据库中进行比对,确定专一性的序列片段作为新的STS路标。最后设计新路标的PCR引物,按照STS—PCR“反响池〞方案筛选新的克隆,到达延伸的目的。克隆350A18序列输入endsequencedatabase的查询结果40.四、CloneIdentification1、STS-PCR2、BACendsequencing3、Fingerprinting4、FISH

41.CK2CK1CK2CK113f06267l16481o07250a15204c23340j13对15个克隆进行HindIII酶切后电泳结果

42.43.“工作框架图〞绘制根据序列与STSdatabase进行blastn比较结果,将克隆定位末端序的比较,判定延伸在contig外的一端序列。并可及时进行walking,筛选新的克隆44.霰弹法测序组装与Finishing45.SequenceDataDistributionVector大规模基因组测序中的信息分析BasecallingRepeatMarkORFPredictionGeneAnnotationFinishingAssembleVectorMarkPhredPhd2fastaCrossmatchPhrapConsedRepeatmaskerGlimmerBlastxBlastnClastaltRNAscanQualityControlQualCalQualDrawQualStatCOGsSwiss-port,PIR,GDB,GenBankSequencing46.ShotgunSequencingI:RANDOMPHASEBacClone:100-200kbShearedDNA:1.0-2.0kbSequencingTemplates:RandomReads47.ShotgunSequencingII:ASSEMBLYConsensusSequenceGap

LowBaseQualitySingleStrandedRegionMis-Assembly(Inverted)48.ShotgunSequencingIII:FINISHINGHighAccuracySequence:<1error/10,000bases49.Assembly根本软件:phrap功能:对所有的reads根据它们的序列文件和质量文件比较各个reads之间的重叠局部,对最有可能连接的reads进行拼接,产生.seq.screen.contigs和.seq.screen.singlets以及phrap.out文件。50.Consed软件显示序列组装结果界面

1、Filling“intraclonegaps〞51.

SequencedcloneBACselectedby

end-sequence113L10324K11173F11101A4167P17586C2116K5572B22544N5R-155E142006P232306M15R-149E1560K?Gapfillingbyendsequences2、Filling“interclonegaps〞52.克隆211B19组装后的序列的错误率为零

53.WGS的三个阶段GenomeSurvey〔GS〕 1-2测序覆盖度WorkingDraft(WD):〔90%以上的功能区域覆盖度〕 3-4测序覆盖度GenomeCompletion(GC):(99%以上的功能区域覆盖度) 6测序覆盖度以上54.Finishing软件:consed功能:读取phrap产生的<project>.ace文件,可以直观的看到所有的contig的拼接情况,让人可以根据情况改变拼接质量,设计引物来弥补gap。55.术语鸟枪法测序数据的组装鸟枪法文库:目标基因组一定长度随机片段克隆的集合。正反向测序对:从同一个克隆片段两端分别测序所得到的一对序列。.插入片段长度:克隆载体中插入的外源DNA片段长度。片段连接群(contig):用识别互相重叠的方法对测序数据进行拼接的结果。.Scaffold:用正反向测序对连接的非重叠片段连接群。LW-洞:由于没有测序数据覆盖而在组装结果中留下的洞。56.重复序列分析覆盖度:基因组被测序数据覆盖的次数。重复数:一段DNA序列在基因组中出现的次数。深度:一段DNA序列在鸟枪法测序数据集中出现次数。例如一个转座子在基因组中出现N次,测序数据集的覆盖度为C,那么这个转座子的平均深度为NC。20-mer重复序列:任何深度超过为该数据集确定的重复序列标准的20-bpDNA片段。是数学定义的重复序列。重复序列洞:由于屏蔽重复序列而在组装结果中留下的洞。57.组装结果的评价标准N50大小:把组装出的contigs或scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度一半时,最后一个contig或scaffold的大小。单碱基错误率:与参考序列比较后发现的小尺度上的不同所占的比例。所谓小尺度,在这里通常指小于标准测序长度,即500bp。实际上常常只是几个碱基。错误组装的Contig:测序数据组装中出现的错误。由定义,它涉及的片段一般大于500-bp。包括与参考序列相比,插入、删除,以及在方向和次序上不同的片段。错误组装的Scaffold:把非重叠contig连接在一起时出现的错误。包括嵌套,错误的方向和顺序等。58.TheFlowChartofRePS59.重复序列的检测与处理60.插入片段大小引起的错误组装61.RePS2的新流程图62.果蝇组装软件〔2000〕特点:组装前数据预处理;用数据库屏蔽重复序列;采用类似BLAST的方法找出重叠局部;选择不冲突的重叠构建contigs,识别重复序列边界;用正反向信息构建scaffolds,填洞。使用情况:用于果蝇基因组组装。63.用于人类基因组组装时的改进〔2001〕构建contigs后,利用一个统计模型识别低拷贝重复序列;采用两种方式利用已公布的人类基因组方案数据,即 1.把人类基因组方案数据分解成“人工reads〞,进行组装; 2.利用人类基因组方案数据的定位对shotgun数据进行分组,然后组装。64.ARACHNE〔2002〕特点:组装前通过多序列比对纠正测序错误;考虑质量数据,对每对重叠reads打分;通过分析reads重叠情况识别重复序列的边界,组装的contigs防止越过边界;识别重复序列contigs;构建scaffolds,填补空洞。使用情况:使用数个物种,包括人21、22染色体数据进行了检验。65.ThePhusionAssembler〔2003〕特点:输入数据包括正反向信息,插入片段长度在2-200kb之间;组装前先对数据进行分组,然后并行处理;使用phrap进行组装,组装过程中利用正反向信息对contig进行延伸或打断;根据重叠合并contigs;利用正反向信息构建scaffolds。使用情况:用于小鼠基因组,7.5x,2.6Gb,479scaffolds66.基因预测软件介绍基于人工神经网络和模式识别的算法和软件GRAIL〔://〕GeneParser〔:///~eesnyder/GeneParser.html〕GENEID://www1.imim.es/software/geneid/index.html基于语言学方法Genlang:///genlang/genlang_home.html基于隐含马尔可夫模型Genie:///~dkulp/cgi-bin/genie〕HMMgene://WWW.cbs.dtudk/services/HMMgene/〕GeneFinder软件由美国华盛顿大学的ColinWilson,LaDeanaHilyer,和PhilGreen研发GENSCAN软件由斯坦福大学数学系ChrisBurge和SamuelKarlin所研发67.比较基因组研究“近亲〞的物种之间的差异非常小,有些在基因组序列水平的相似性就高达90%以上。但尽管如此,那些缺乏10%的序列差异却导致了它们之间的很多本质的变化,如种属的差异或致病性的有无等等。因此,对它们进行比较基因组的研究可能可以为人们理解物种间差异的本质、基因的横向转移在进化中的作用和特定微生物致病的机制等提供一条捷径。例如,威斯康星基因组中心通过对大肠杆菌的致病株O157:H7株和非致病株K-12株进行基因组序列比较发现,它们之间共有了一个约4.1Mbp的高度同源且几乎线性一致的“主干〞基因组序列〔只在复制的终止点附近出现了一个约422Kbp的倒置〕,而这个主干序列那么被几百个具有株特异性〔stain-specific〕的片断序列所“切断〞,并且在O157:H7株的这些特异性的序列片断中,他们发现了很多可能的毒力相关的基因和一些前噬菌体的基因等,从而为研究O157:H7株的致病性机理提供了很大的帮助.68.大规模基因组测序平台逐步实现生物资源的“信息化、产权化、产业化〞的根本支持利用我国有限的、可专利的生物资源的根本保障69.70.测序能力的“三级跳〞人类基因组方案1%工程的finishing(1999年)中-丹合作的家猪基因组方案(2000年)水稻工作框架图的绘制和公布(2001年)标志着我国已掌握了国际先进的测序技术,具有相当的测序能力。测序能力和质量已到达国际一流水平,以独立承担大规模的基因组测序工程我国已经成为继美国之后世界上第二个具有独立完成大规模的全基因组测序和组装分析能力的国家71.大规模、低本钱已形成了一条世界第六、亚洲最大的基因组测序技术平台,共有MegaBACE测序仪104台,ABI3730测序仪2台,ABI377测序仪11台,满负荷运转日产可达50Mb,是一个低投入、高产出,高度自动化的测序平台。72.测序平台的构成

73.

大规模测序平台的构成文库组培养组模板组电泳组反响组MegaBACE上机组数据处理组

基因组随机文库的构建

测序模板的制备测序反响与纯化反响产物上机测序

序列数据的接收、质量评估、组装等

含有质粒载体的大肠杆菌培养检测模板质量与测序定量74.文库组各种物种DNA的提取载体的制备大片段文库(BAC、Cosmid)的构建霰弹法文库(pUC18)的构建文库质量的检测转化文库的保存75.霰弹法文库与BAC文库的区别

项目

两种文库BAC文库霰弹法文库文库的直接用途大片段DNA在基因组上定位测序基因组片段化的方法NotI/SacI不完全消化酶切超声波打断插入的DNA片段长度大100~300Kb小2~3Kb载体细菌人工染色体Bac质粒载体pUC18

76.霰弹法文库构建过程

超声:打断基因组DNA,电泳检测超声效果

纯化、末端补平:片段化的DNA纯化,并用T4DNA聚合酶补平末端

电泳:1%琼脂糖凝胶电泳,切下含1.6-2.0kb、2.0-2.5kb及2.5-3.0kb的DNA片段的凝胶

回收:用QIAEXIIGELExtractionKit回收试剂盒从胶中回收DNA片段

连接:用T4DNA连接酶连接DNA片段和用SmaI酶切后的pUC18载体

电转化:连接产物用细胞导入仪电转化入感受态大肠杆菌

涂平板、重组子筛选:培养18小时候观察蓝白斑,白斑为重组克隆77.培养组

96孔板培养基的分装挑取克隆过夜培养菌液生长的检测离心4度贮存

培养的目的是通过大肠杆菌扩增系统,为测序反应提供充足的模板国产96自动分液器培养用96孔深孔板78.培养组分装培养基:8道瓶口分液器1分钟/板出错率高工作强度高国产96自动分液器30秒/板杜绝错误轻松一按VSVS79.模板组

负责测序反响模板DNA的制备。采用碱裂解过膜法从转化获得的目的重组子大肠杆菌中提取目标产物――插入外源DNA片段的PUC18质粒步骤:培养好的克隆加I液〔含Tris、EDTA〕悬浮大肠杆菌加II液〔含NaOH、SDS〕裂解大肠杆菌,并使DNA、蛋白质变性加III液〔含乙酸钾、乙酸〕中和,并使DNA复性反响液过膜收集滤液,弃膜质粒DNA的纯化80.模板组

96孔醋酸钾法(1999年)96孔亚精胺法(2000年

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论