基因组测序的原理与方法_第1页
基因组测序的原理与方法_第2页
基因组测序的原理与方法_第3页
基因组测序的原理与方法_第4页
基因组测序的原理与方法_第5页
已阅读5页,还剩120页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大规模基因组测序的原理与方法,元素周期表的发现奠定了二十世纪物理、化学研究和发展的基础,元素周期表,“基因组序列图”将奠定二十一世纪生命科学研究和生物产业发展的基础!,“基因组”-生命科学的“元素周期表”,人体解剖图奠定了现,代医学发展的基础,生命的奥秘蕴藏于 “四字天书”之中,gcttcttcctcattttctcttgccgccaccatgccgccacca tcattttctcttgccgccaccatgcttcttcctcattttctct ccaccatgccgccaccacgccaccatgcttcttcctcatctc gctttcttgccgccaccatgccgccaccgc

2、ttcttccttctct,基因组学的基础理论研究,基因组学是要揭示下述四种整合体系的相互关系: 基因组作为信息载体 (碱基对、重复序列的整体守恒与局部不平衡的关系) 基因组作为遗传物质的整合体 (基因作为功能和结构单位与遗传学机制的关系) 基因组作为生物化学分子的整合体 (基因产物作为功能分子与分子、细胞机制的关系) 物种进化的整合体 (物种在地理与大气环境中的自然选择),基因组学是一个大学科,“界门纲目科属种”,地球上现存物种近亿,所有生生灭灭的生物,无一例外,都有个基因组。 基因组作为信息载体,它所储存的信息是最基本的生物学信息之一;既是生命本质研究的出发点之一,又是生物信息的归宿。 基

3、因组学研究包括对基因产物(转录子组和蛋白质组)的系统生物学研究。 基因多态性的规模化研究就是基因组多态性的研究。 基因组学的研究必然要上升到细胞机制、分子机制和系统生物学的水平。 基因组的起源与进化和物种的起源与进化一样是一个新的科学领域。 基因组信息正在以天文数字计算,规模化地积累,它的深入研究必将形成一个崭新的学科。,基因组学是一门大科学,基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化、内在规律、和相互关系。 基因组的信息含量高。基因组学的研究又在于基因组间的比较。 基因组学的复杂性必然导致多学科的引进和介入(各生物学科、医学、药学、计算机科学、化学、数学、物理学、电子工程

4、学、考古学等)。 基因组学研究的手段和技术已经走在生命科学研究的最前沿。 基因组信息来自于高效率和规模化所产生的实验数据。 人类基因组计划证明了基因组研究的迫切性和可行性。,基因组与生命之谜,基因组的产生与进化。 基因组dna组分的变化、gc百分比、嘌呤:嘧啶守恒。 遗传密码的发生、发展和进化。 内含子(尤其是大于100,000 核苷酸的大内含子)剪出后的运输和降解。 最小内含子的生物学意义。 动物基因组与植物基因组在基因分布上的共性和个性。 物种衍变过程中基因组水平的变化。 基因组大小变化与遗传、分子、细胞机制的关系。 “junk dna”的发生、分类、进化与功能。,8,测序设备的 垄断和高

5、速度换代,9,测序设备发展现状,第一代(稳定需求) abi 3130 xl 3730 xl 3500 xl,第三代(即将面市) helicos biosciences helicos genetic analysis system pacific biosciences rssystem,第二代(高速发展) roche genome sequencer flx system gs junior system illumina genome analyzer iix miseq hiseq 1000 hiseq 2000 life technologies (abi) 5500 solid sy

6、stem 5500 xl solid system ion torrent pgm danahermotion polonator g.007 complete genomics 无锡艾吉因生物信息技术有限公司 ag-100 深圳华因康基因科技有限公司 pstar-1 中科院北京基因组所/半导体所 bigis-1 bigis-4,大规模基因组测序的几个支撑技术,sanger双脱氧末端终止法 pcr 技术 dna 自动测序仪的发展 生物信息学分析软硬件设施,“双脱氧末端终止”的含义,pcr(聚合酶链式反应)原理,反应所需物质:dna模板、引物、dna聚合 酶、dntp、缓冲液 每个循环包括:变性

7、(90)、退火(54 )、延伸(72 ),sanger 双脱氧末端终止法测序原理,大 规 模基因组 测 序 的 两 种 策 略,逐步克隆法 (clone by clone) 全基因组霰弹法 (whole genome shot-gun),atgccgtaggcctagc taggcctagctcgga,atgccgtaggcctagctcgga,基因组dna,bac文库,根据物理图谱正确定位的bac 或contig,用于霰弹法测序的候选克隆,用于霰弹法测序的亚克隆,测序并组装,完整的基因组序列,逐步克隆法(clone by clone),全基因组霰弹法 (whole genome shot-g

8、un),基因组dna,霰弹法克隆,测序并进行全基因组序列组装,完整的基因组序列,两种大规模基因组测序策略的比较,bac by bac,whole genome shotgun, the sequencing of the human genome is likely to be the only large sequencing project carried to completion by the methods described in this issue. maynard v. olson , the maps: clone by clone by clone , nature 40

9、9, 816 - 818 (2001),“working draft” (90%; 4x),finished genome (99.99%; 8x),gap1,gap2,chromosome,工作草稿(框架图)与完成图,bac by bac,the sequence of the human genome c. venter et al. science 16 feb. 291: 1304 1351, 2001,人类基因组计划研究的主要成果和进展表现在这“四张图”上,遗传图谱 又称为连锁图谱(linkage map),指基因或dna标志在染色体上的相对位置与遗传距离 物理图谱 以定位的dna标

10、记序列如sts作为路标,以dna实际长度即bp、kb、mb为图距的基因组图谱。 转录图谱 利用est(expressed sequence tags 表达序列标签)作为标记所构建的分子遗传图谱 序列图谱 通过基因组测序得到的,以a、t、g、c为标记单位的基因组dna序列,逐步克隆法(clone by clone),物理图谱的构建,大片段克隆的筛选,霰弹法测序与“工作框架图”的构建,序列的全组装与“完成图”构建,物理图谱的制作,物理图谱的制作序列标签位点(sts)作图,物理图谱是以特异的dna序列为标志所展示的染色体图。标志之间的距离或图距以物理距离如碱基对(base pair;bp,kb ,

11、mb)表示。最精细的物理图是核苷酸顺序图,最粗略的物理图是染色体组型图。 sts图谱是最基本和最为有用的染色体物理图谱之一,sts(sequence tagged site)本身是随机地从人类基因组上选择出来的长度在200300bp左右的特异性短序列(每个sts在基因组中是唯一的,sts图谱就是以sts为路标(平均每100kb一个),将dna克隆片段有序地定位到基因组上。,sts的来源,随机基因组序列 表达基因序列,如est 遗传标记序列,如微卫星标记,有关sts的信息可在基因组数据库gdb中找到 http:/gdbwww. gdb. org,物 理 图 谱 构 建 的 步 骤,确定各sts序

12、列及其在基因组中的位置 大插入片段基因组文库的构建(bac文库) 以特定sts为标记筛 选并定位克隆 含有sts的克隆在基因组中排序,基因组数据库(gdb)中至少含有24568 个sts路标信息,关 于 文 库,作为载体的基本要求,能在宿主细胞中进行独立的复制 具有多克隆位点,可插入外源 dna片段 有合适的筛选标记,如抗药性 大小合适,易于分离纯化 拷贝数多,文库的概念 含有某种生物体全部基因的随机片段的重组dna克隆群体,载体:能携带外源dna进入宿主细胞的工具,常用的载体有质粒载体、噬菌体载体、细菌人工染色体等,宿主:能容纳外源dna片段的生物体,常用的有大肠杆菌、酵母等,bac文库的构

13、建,noti、saci,脉冲场凝胶电泳得200kb左右的大片段dna,纯化后与载体连接,电转化,将连接产物导入大肠杆菌感受态细胞,插有外源dna片段的bac载体,在含有氯霉素的固体培养基中培养,每一个菌落为带有相同外源dna片段的单克隆,bac克隆的筛选,“sts-pcr反应池”方案筛选种子克隆,特定的sts标记,相互间具有重叠片段的bac克隆根据sts信息组装成contig,并定位于基因组上,contig,每一个菌落为带有相同外源dna片段的单克隆,regional mapping,regional mapping,minimal tiling path selected for seque

14、ncing.,regional mapping,beijing map,共48个,每组 8 个,每8个96孔板组成1个superpool,384个96孔板组成48个superpools,48 superpools,column pools row pools,1 2 3 4 5 6 7 8 9 10 11 12,第八板,第二板,plate pools第一板,plate pools,row pools,column pools的构成,“sts-pcr反应池”方案(pooling protocol),1 2 3 4 5 6 7 8 9 10 11 12,超级池(8个96孔板,共768个克隆),板池

15、(96个克隆),行池(12个克隆),列池(8个克隆),大大减少筛选的工作量,降低成本,所得筛选结果准确可靠,28 vs 768,sheet of superpools, plate pools, row pools, column pools,一 bac screening 前48个样品为引物ogg1.51对superpool(sp)的筛选结果 后48个样品为引物ogg1.52对superpool(sp)的筛选结果,引物ogg1.52对应sp#27,34,45的plate,row,column pools的筛选结果,bac clone 确定 (+为阳性克隆),引物ogg1.52的colony-

16、pcr,延 伸 克 隆 的 筛 选,sts的密度尚未达到绘制高精度物理图谱的要求,且在基因组中的分布不均匀,造成很多区域没有阳性克隆覆盖,形成空洞。因此需用指纹图谱(fpc法)或末端序列(walking by end sequence)步移等手段对种子克隆进行延伸,形成连续克隆群。利用延伸方法筛选得到的克隆称为延伸克隆。,contig 1,contig 2,重叠序列,重叠序列,延伸引物,筛选到的延伸克隆,molecular weight marker every 5th lane,bac clones 在96深孔 板中培养 - hind iii 完全酶切 - 1% 琼脂糖凝胶电泳,指 纹 图

17、谱 法 (walking by fingerprinting database),挑取靠近空洞的种子克隆,酶切构建其指纹图谱,在fpc数据库中进行比对,搜索含有此克隆的重叠克隆群信息,从中确定覆盖空洞区域的克隆,达到延伸目的。,hind iii 完全酶切,hind iii 完全酶切,fpc数据库中比对,clone a,clone b,clone c,c,a,b,contig搭建中克隆的错位,末端序列步行法 (walking by end sequence) 挑取靠近空洞的种子克隆进行末端测序,然后在基因组数据库中进行比对,确定专一性的序列片段作为新的sts路标。最后设计新路标的pcr引物,按照

18、stspcr“反应池”方案筛选新的克隆,达到延伸的目的 。,克隆350a18序列输入 end sequence database的查询结果,四、clone identification 1、sts-pcr 2、bac end sequencing 3、fingerprinting 4、fish,ck2,ck1,ck2,ck1,13f06,267l16,481o07 250a15,204c23,340j13,对15个克隆进行hindiii酶切后电泳结果,“工作框架图”绘制,根据序列与sts database进行blastn比较结果,将克隆定位末端序的比较, 判定延伸在contig外的一端序列。并

19、可及时进行walking,筛选新的克隆,霰弹法测序组装与finishing,工作流程图,shotgun sequencing i :random phase,bac clone: 100-200 kb,sheared dna: 1.0-2.0 kb,sequencing templates:,random reads,shotgun sequencing ii:assembly,consensus,consensus,shotgun sequencing iii: finishing,consensus,shotgun sequencing iii: finishing,consensus,s

20、hotgun sequencing iii: finishing,consensus,shotgun sequencing iii: finishing,shotgun sequencing iii: finishing,consed软件显示序列组装结果界面,1、filling “intraclone gaps”,gap filling by end sequences,2、filling “interclone gaps”,the actual and predicted fingerprint of r-260j13 digested with hindiii lane 1: marker

21、, lane 2: r-260j13 digested with hindiii, 3 : the predicted,克隆211b19组装后的序列的错误率为零,whole genome shotgun,this bacterium has a circular genome structure with 2,689,445 base pairs, the second largest one of thermophiles decoded completely to date.,circular representation of the genome of t. tengcongensis

22、,what is under heaven is for all. sun yat-sen, the father of modern china,天下为公, ddbj/embl/genbank:aaaa01000000,国际一流测序生产线 7万克隆,3000万碱基/天 高产出、低成本: $/bp¥/bp美分/bp分/bp,基因组学: 数据导向的大科学 有数据才是硬道理,世上无难事 只要肯登攀,contigs:127,550 (n50=6,688 bp),scaffolds: 102,444 (n50=11,764 bp),quality: 546 bp at q20,de novo sequ

23、encing the genome in big,hu songnian,beijing institute of genomics, chinese academy of sciences,next generation sequencing (ngs) technology,second generation sequencers,solexa,3,solid,5,de novo sequencing rna-seq, re-sequencing chip-seq, meth-seq,metagenomics de novo sequencing rna-seq,re-sequencing

24、 chip-seq rna-seq,“known” genome,novel genome(s),both types,1x454 5xsolid4.0 2x5500 xl 3xsolexa 2xhiseq 2000 3x3730 xl 1xsequenom,1000 cpu cores,800 tb storage,数据中心,完善的试验与测序体系和流程,强有力的计算、存储及数据库支持体系,成熟的生物信息数据处理和分析流程,2020/9/4,second generation sequencers in big,高通量测序仪10台,3730xl测序仪2台,sequenom仪器1台,高性能计算机

25、刀片服务器100余台,大内存服务器4台,存储设备约800tb。,sequencing glossary,reads. a collection of clones that over-sample the target genome. pair-end reads. sequence reads derived from both ends of a sequencing-library clone. mate-pair reads. sequence reads derived from both ends of a mate-pair library clone which insert

26、size is usually 1kb. insert size. the size of the clone-insert from which a clone-end pair is taken. contig. the result of joining an overlapping collection of sequence reads. scaffold. the result of connecting non-overlapping contigs by using pair-end reads. n50 size. as applied to contigs or scaff

27、olds, that size above which 50% of the assembled sequence can be found.,genome assembly strategy,contig assembly,scafffolding,internal gap closing,recent whole genome sequencing projects,flowchart of the wgs de novo assembly,fill in intra-scaffold gaps and get the final scaffolds,solexa part,454 par

28、t,hybrid assembly and scffolding,454 reads process,assembly,hybrid scaffolding,solexa reads process,assembly,mapping to 454 contig,hybrid scaffolding,cov /comp,long reads,assembly,contigs,short reads,a +,c ,b ,scaffolding,a +,b ,c ,scaffolds,fix gap,hybrid assembly,est,unigene,scaf a,scaf c,scaf b,s

29、caf d,new scaf,a,b,c,d,est based assembly in short reads of ngs: constructe biger scaffording,raw sequencing reads pre-processing i,significance and purpose,sequencing library quality control sequencing bias analysis inherited prosperities on certain second generation sequencer genome sequencing bla

30、ck hole effect transcriptome sampling and quantification bias ready for mapping ready for de novo assembly,raw sequencing reads pre-processing ii,sequencing reads numbers duplicates detection, regional distribution analysis and trimming adapter detection and trimming reads quality analysis and low q

31、uality reads filter average quality density distribution average quality positional distribution regional distribution f-r correlation gc content-quality correlation insert length distribution,pipeline,raw data pre-process,image analysis and basecalling,goat pipeline (olb1.6), casava,quality control

32、,gerald summary.htm,fastq and quality,solexa reads of the fastq format s_1_1_sequence.txt hwi-eas724_0001:8:32:374:374#0/1 gagctgtatatgaataatagttcgtttttcattatccaagatggatcggtataaagtctgctaaaataaaggtacaacg +hwi-eas724_0001:8:32:374:374#0/1 fcfcfggdfggggfggggcggggggggfgggggcgggfwgggggggggfgcggdgcgcggggf

33、acbbbbgcgggggd s_1_2_sequence.txt hwi-eas724_0001:8:32:374:374#0/2 taccgttaatagcagtaatatcataatagtaatagcatcataacggtagtcccataaaagtgtgtcagtagtagtagta +hwi-eas724_0001:8:32:374:374#0/2 ggggfgggggd_adcggggeggfggeggegfgeececdegggggfegcfegggegggfgacacedbd_cyb,illumina 1.3 format encodes a phred quality sco

34、re from 0 to 40 using ascii 64 to 104 error probability (p):,# for solexa: p = 0.01, q = 19; p = 0,05, q = 12.8, p = 0.10, q = 9.5; # for phred: p = 0.01, q = 20; p = 0,05, q = 13, p = 0.10, q = 10;,data assessment i read quality distribution,low quality high quality,trim: 3 end trim if qn 30) 60 as

35、sessment: distance distrubition between two low quality (q20),454 dinucleotide proportion check,454 raw reads quality,data assessment ii library insert size,numbers of reads with non-insert dna (full length adapter) in different insert size libraries,data assessment iii mapping rate,solexa sequencin

36、g data usage in 500bp library,data assessment iv duplication assessment,duplicates detection and filter,f,r,n,n,2n,qaverage 20 ?,lane data usage in different solexa library- fiter duplication reads,average reads per startpoint,read correctioncorrect illumina ga short reads,kmer = 17,genome size pred

37、iction: m = n * ( l-k+1)/l n = total length (bp) /genome size l= average rads length (bp),m,genome size estimation using kmer,before estimating the genome size, we set a hypothesis: the k-mer we picked out from the genome can ergodic the whole genome sequence.according to the lander waterman algorit

38、hm, the algorithm should be represented as: g= knum / kdepth here, g is the genome size, knum is the total number of k-mer and kdepth is the expected depth of the k-mer. if we obtain the expected depth of k-mer, we can calculate the genome size. because the distribution of k-mer frequency yields to

39、poisson distribution, we can consider the peak of the k-mer distribution curve as the expected depth of k-mer and calculate the genome size.,note: a total of 15,437,084,746 kmers, the peak value on the right figure is 8, so the genome size is estimated as: 15,437,084,746/8=1.93g,high quality read ra

40、te after preprocess,assembly: raw data vs preprocessed data ?,questions,genome size estimation methods (k-mer & cov) assembly optimization (parameters) assembly evaluation (454_solexa est) unmappable solexa reads reuse (filter-assemble) scaffolding comparison (abi & big & bambus & blat)solexa to solid feasible? assembly assessment (bac, 3730, necessa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论