第十章基因组学蛋白质组学和生物信息学课件_第1页
第十章基因组学蛋白质组学和生物信息学课件_第2页
第十章基因组学蛋白质组学和生物信息学课件_第3页
第十章基因组学蛋白质组学和生物信息学课件_第4页
第十章基因组学蛋白质组学和生物信息学课件_第5页
已阅读5页,还剩129页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章基因组学蛋白质组学和生物信息学2022/11/5第十章基因组学蛋白质组学和生物信息学第十章基因组学蛋白质组学和生物信息学2022/11/2第十章1基因组学研究并解析生物体整个基因组的所有遗传信息。基因组(genome)是细胞或生物体的一套完整的单倍体遗传物质,是所有不同染色体上全部基因和基因间的DNA的总和。分为核基因组、核外基因组基因组学研究方法:SAGE、DNAchips等第十章基因组学蛋白质组学和生物信息学2基因组学研究并解析生物体整个基因组的所有遗传信息。第十章基因人类基因组计划第十章基因组学蛋白质组学和生物信息学人类基因组计划第十章基因组学蛋白质组学和生物信息学31940年代第一颗原子弹爆炸;1960年代人类首次登上月球;1990年代提出并基本完成的人类基因组计划(HumanGenomeProject,HGP)DNA双螺旋结构的发现者之一、美国国家卫生研究院(NIH)人类基因组研究所第一任所长J.D.Watson1990年在《Science》上撰文指出,与人类登月计划相比,HGP的资金投入少,但它对人类生活的影响却可能更深远。1990年,美国发起,耗资30亿美元,历时15年,1999年,中国参与3号染色体上一小片段,占1%。20世纪人类科技发展史上的三大创举第十章基因组学蛋白质组学和生物信息学1940年代第一颗原子弹爆炸;DNA双螺旋4

第十章基因组学蛋白质组学和生物信息学

第十章基因组学蛋白质组学和生物信5第十章基因组学蛋白质组学和生物信息学第十章基因组学蛋白质组学和生物信息学6人类基因组计划的目标:(1)确定人类基因组中约5万个编码基因的序列及其在基因组中的物理位置,研究基因的产物及其功能。

(2)了解转录和剪接调控元件的结构与位置,从整个基因组结构的宏观水平上理解基因转录与转录后调节。

(3)从整体上了解染色体结构,包括各种重复序列以及非转录“框架序列”的大小和组织,了解各种不同序列在形成染色体结构、DNA复制、基因转录及表达调控中的影响与作用。

(4)研究空间结构对基因调节的作用。有些基因的表达调控序列与被调节基因从直线距离上看,似乎相距甚远,但若从整个染色体的空间结构上看则恰恰处于最佳的调节位置,因此,有必要从三维空间的角度来研究真核基因的表达调控规律。第十章基因组学蛋白质组学和生物信息学人类基因组计划的目标:第十章基因组学蛋白质组学和生物信息学7(5)发现与DNA复制、重组等有关的序列。DNA的忠实复制保障了遗传的稳定性,正常的重组提供了变异与进化的分子基础。局部DNA的推迟复制、异常重组等现象则导致疾病或者胚胎不能正常发育,因此,了解与人类DNA正常复制和重组有关的序列及其变化,将对研究人类基因组的遗传与进化提供重要的结构上的依据。(6)研究DNA突变、重排和染色体断裂等,了解疾病的分子机制,包括遗传性疾病、易感性疾病、放射性疾病甚至感染性疾病引发的分子病理学改变及其进程,为这些疾病的诊断、预防和治疗提供理论依据。

(7)确定人类基因组中转座子、逆转座子和病毒残余序列,研究其周围序列的性质。了解有关病毒基因组侵染人类基因组后的影响,可能指导人类有效地利用病毒载体进行基因治疗。

(8)研究染色体和个体之间的多态性。这些知识可被广泛用于基因诊断、个体识别、亲子鉴定、组织配型、发育进化等许多医疗、司法和人类学的研究。此外,这些遗传信息还有助于研究人类历史进程、人类在地球上的分布与迁移以及人类与其他物种之间的比较。第十章基因组学蛋白质组学和生物信息学(5)发现与DNA复制、重组等有关的序列。DNA的忠实复制保8人类基因组研究内容包括遗传图(GeneticMap)绘制、物理图(PhysicalMap)构建、人类基因组的序列图测序、转录图(ExpressionProfiling)绘制和基因鉴定等方面的工作。通过多年来的发展,基因组学(genomics)作为一门专门学科,已应运而生。它涵盖以下几个方面:结构基因组学,着重遗传图、物理图、测序等研究;功能基因组学,在基因组水平上阐明DNA序列的功能;比较基因组学,包括对不同进化阶段生物基因组的比较研究,也包括不同人种、族群和群体基因组的比较研究。此外,工业基因组学、环境基因组学、药物基因组学、疾病基因组学等分支学科也在不断发展。第十章基因组学蛋白质组学和生物信息学人类基因组研究内容包括遗传图(GeneticMap)9

基因组的序列主要可被分为三类:(一)通过比较确知其生理功能的;(二)在数据库中有相匹配的蛋白质序列,但并不知道其功能的;(三)在现有数据库中找不到任何相匹配的蛋白质序列的新基因。由于生物在进化上是相互关联的,对一种生物的研究可以为其它生物提供有价值的信息。

比较基因组学的威力就在于它能根据对一种生物相关基因的认识来理解、诠释甚至克隆分离另一种生物的基因。远缘基因组间的比较为认识生物学机制的普遍性,寻找研究复杂生理和病理过程所需的实验模型提供了理论依据,而近缘基因组间的比较则为认识基因结构与功能等细节提供了参数。因此,为充分理解人类基因组,必须对一系列近缘和远缘的模式生物进行基因组程度上的比较分析工作。第十章基因组学蛋白质组学和生物信息学

基因组的序列主要可被分为三类:第十章基因组学蛋白质组学10功能基因组学研究

研究方法:1、定点破坏结构基因(geneknock-out)2、基因组内定位表达目的基因(geneknock-in)的方法来研究新基因的3、获得全长cDNA的技术(RACE)4、功能克隆法:分离纯化蛋白,测序后设计探针从文库中筛选基因5、定位克隆法:先利用连锁分析定位基因,再根据物理图谱找出相关的BAC克隆,进一步查看此克隆序列,计算机分析,定位合适的候选基因6、酵母双杂交第十章基因组学蛋白质组学和生物信息学功能基因组学研究

第十章基因组学蛋白质组学和生物信息11第十章基因组学蛋白质组学和生物信息学第十章基因组学蛋白质组学和生物信息学12

遗传图也称连锁图,是指基因或DNA标志在染色体上的相对位置与遗传距离,后者通常以基因或DNA片段在染色体交换过程中的分离频率厘摩(cM)来表示。遗传图的绘制是人类基因组研究的第一步,即以染色体上某一点为遗传标记,以与之相伴遗传的特征为对象,经连锁分析,将编码该特征的基因定位于染色体特定位置。cM值越大,两者之间距离越远。通过遗传图分析,我们可以大致了解各个基因或DNA片段之间的相对距离与方向,了解哪个基因更靠近着丝粒,哪个更靠近端粒等。遗传距离是通过遗传连锁分析获得的,研究中所使用的DNA标志越多,越密集,所得到的遗传连锁图的分辨率就越高。

经典的遗传标记是可被电泳或免疫技术检出的蛋白质标记,如红细胞ABO血型位点标记,白细胞HLA位点标记等。例如,在ABO血型基因中,位于9号染色体长臂3区4带(9q34)的基因IA,决定抗原A的存在,表现A型血性状。由于ABO血型的广泛存在,所以可用它作遗传标记。当在某一家庭中,观察到了指甲髌骨综合征与A型血相伴遗传时,科学家就认为,这种病的致病基因NP与IA基因相连锁,也位于9q34区段。进一步的观察发现,这个家庭的后代中,有1/10为A型血而无指甲髌骨综合征,这表明基因IA和NP发生了交换,交换率(重组率)为1/10。这时就可说,基因IA和NP相距较近,连锁图上的距离为10厘摩(重组率1%即为1厘摩)。遗传图的绘制第十章基因组学蛋白质组学和生物信息学遗传图也称连锁图,是指基因或DNA标志在染色体上的相对位13如果只用已知定位的少数几个基因作遗传标记,由于遗传标记的数目太少,很难绘制完整的连锁图。DNA技术的建立为人类提供了大量新的遗传标记。

第一代DNA遗传标记是RFLP(RestrictionFragmentLengthPolymorphism,限制性片段长度多态性)。DNA序列上的微小变化,甚至1个核苷酸的变化,也能引起限制性内切酶切点的丢失或产生,导致酶切片段长度的变化。由于核苷酸序列的改变遍及整个基因组,特别是进化中选择压力不是很大的非编码序列之中,RFLP的出现频率远远超过了经典的蛋白质多态性。而且,只要选择得当,生物体内出现共显性RFLP及RAPD分子标记的频率较高。第十章基因组学蛋白质组学和生物信息学如果只用已知定位的少数几个基因作遗传标记,由于遗传标14第二代DNA遗传标记利用了存在于人类基因组中的大量重复序列,包括重复单位长度在5-20个核苷酸左右的小卫星DNA(minisatelliteDNA),重复单位长度在2-6个核苷酸之间的微卫星DNA(microsatelliteDNA),后者又称为简短串联重复(STR、SSR)。STR有两个最突出的优点,即作为遗传标记的“多态性”与“高频率”。STR的存在,为遗传图的绘制提供了大量可用的遗传标记。采用聚合酶链反应(PCR)技术,以STR两侧的基因作定点标记的完整连锁图,已于1996年绘成,相邻标记间的平均距离仅0.7厘摩。

第三代DNA遗传标记,可能也是最好的遗传标记,是分散于基因组中的单个碱基的差异。这种差异包括单个碱基的缺失和插入,但更常见的是单个核苷酸的替换,即单核苷酸的多态性(SNP,singlenucleotidepolymorphism)。

第十章基因组学蛋白质组学和生物信息学第二代DNA遗传标记利用了存在于人类基因组中的大量重复序列,15“遗传图”的建立为人类疾病相关基因的分离克隆奠定了基础。拥有5000多个遗传学位点,相当于把整个人类基因组划分为5000多个小区,并分别设置了“标牌”。这些标牌将在搜索功能基因的过程中发挥独特的作用。把多态性的疾病基因位点(该位点至少包括“正常”及“致病”两个等位基因)与上述遗传标记进行分析比较时,如果在家系中证实该基因与某个标记不连锁(重组率为50%),表明该基因不在这一标记附近;如果发现该基因与某个标记有一定程度的“连锁”(重组率小于50%但大于0),表明它可能位于这个标记附近;如果该基因与某标记间不发生重组(重组率等于0),我们就推测该标记与所研究的疾病基因可能非常接近。第十章基因组学蛋白质组学和生物信息学“遗传图”的建立为人类疾病相关基因的分离克隆奠定16遗传图所表现的,是通过连锁分析确定的各基因间的相对位置;物理图则表现染色体上每个DNA片段的实际顺序。物理图是指以已知核苷酸序列的DNA片段(序列标签位点,sequence-taggedsite,STS)为“路标”,以碱基对(bp,kb,Mb)作为基本测量单位(图距)的基因组图。现在的测序技术还不能对整个DNA分子进行序列测定,因此须先将它切成一个个大小不同的片段,然后将这些片段连起来,构成连续的序列。物理图的主要内容是建立相互重叠连接的“相连DNA片段群(contigs)

物理图(PhysicalMap)第十章基因组学蛋白质组学和生物信息学遗传图所表现的,是通过连锁分析确定的各基因间的相对位17这些大片段在进行DNA分子克隆时,也不能通过细菌质粒或噬菌体的运载而在大肠杆菌中进行克隆,因为它们太大,而必须用一种特殊的载体--酵母人工染色体(YAC,容量800-2000kb),将片段导入酵母,在酵母细胞中克隆。YAC中的DNA大片段是靠序列标记位标(STS)来识别的。STS是基因组中一段200~500bp的单拷贝序列,在染色体上有一定的位置,所以用STS作位标可将不同YAC克隆排列成邻接克隆群(contig)。

其他载体还有BAC(细菌人工染色体,容量100-300kb)、P1(噬菌体人工染色体)、粘粒(cosmid,容量45kb)、MAC等。现在,人类基因组24条染色体的YAC、BAC、P1邻接克隆群均已建立,精度约100碱基对的物理图也基本绘成,并已开始进行大规模测序。第十章基因组学蛋白质组学和生物信息学这些大片段在进行DNA分子克隆时,也不能通过细菌质粒18第十章基因组学蛋白质组学和生物信息学第十章基因组学蛋白质组学和生物信息学19人类基因组的序列图(HumanGenomeSequence)基因组测序策略1、鸟枪法:将基因组随机打断,构建一系列随机亚克隆,然后每个克隆测序,最后根据序列的重叠区域组装成完整的基因组序列。优点:快、简单、成本低缺点:由于大量存在的重复序列,致使组装困难2、定位克隆法:首先构建物理图谱,再测序、组装优点:组装简单缺点:物理图谱制作费时

第十章基因组学蛋白质组学和生物信息学人类基因组的序列图(HumanGenomeSequenc20

生物的性状,包括疾病,都由蛋白质决定。所有蛋白质都是由mRNA(信使核糖核酸)编码的,而mRNA又由DNA转录而来。人类基因组中仅1%~5%的DNA是编码序列(基因);成人各种组织中又只有约1%的基因表达为蛋白质。所以,建立转录图,或从mRNA逆转录而来的cDNA图,是分离、定位和克隆基因的关键。这里,表达序列位标(EST)具有重要意义。EST是长约100~300碱基对的cDNA片段,是表达基因的一部分。EST由于序列较短,很难定位,只有筛到较长的基因片段(超过1000碱基对),才能用荧光原位杂交(FISH)法在染色体上定位。

EST可用工业化的程序生产,只要分离到某一发育阶段某一组织的mRNA,就可用逆转录法,从mRNA合成相应的cDNA片段,即EST。用它作探针,就可从基因组文库中筛到全长的基因序列。截止到1998年2月,已发现约92万条EST,转录图的制作有了良好的开端,但这已属后基因组计划的工作。转录图(ExpressionProfiling)第十章基因组学蛋白质组学和生物信息学生物的性状,包括疾病,都由蛋白质决定。所有蛋白质都是由m21蛋白质组学及其研究进展第十章基因组学蛋白质组学和生物信息学22蛋白质组学及其研究进展第十章基因组学蛋白质组学和生物信息学2蛋白质组学的含义

蛋白质组(Proteome)一词最早由澳大利亚学者Wilkins等于1994年提出,指的是由一个基因组geneome或一个细胞、组织表达的所有蛋白质功能蛋白质组学的提出及概念功能蛋白质组学是指研究在特定时间、特定环境和实验条件下细胞内表达的全部蛋白质。

第十章基因组学蛋白质组学和生物信息学23蛋白质组学的含义蛋白质组(Proteome)

蛋白质组学研究的内容蛋白质表达模式(或蛋白质组组成)的研究蛋白质组组成的分析鉴定是蛋白质组学中的与基因组学相对应的主要内容。它要求对蛋白质组进行表征,即实现所有蛋白质的分离、鉴定及其图谱化。双向凝胶电泳(2-DE)和质谱(Massspectrometry)技术是当前分离鉴定蛋白质的两大支柱技术

蛋白质组功能模式(目前主要集中在蛋白质相互作用网络关系)的研究第十章基因组学蛋白质组学和生物信息学24蛋白质组学研究的内容蛋白质表达模式(或蛋白质组组成)

蛋白质组学研究的手段蛋白质组研究的核心──用于分离的双向电泳(2-DE)

蛋白质组研究的百科全书———数据库(database)蛋白质组技术的支柱———质谱鉴定技术(Identication)蛋白质组技术的规模———高流通量筛选(HTS)第十章基因组学蛋白质组学和生物信息学25蛋白质组学研究的手段蛋白质组研究的核心──用于分离的双向电蛋白质组研究的基本技术路线蛋白质样品的制备双向电泳图像分析转印至膜上的蛋白凝胶中的蛋白溶液中的蛋白混合肽蛋白质质量N端测序肽序列质谱数据肽指纹图数据搜索新的或已知蛋白蛋白转录后修饰的鉴定第十章基因组学蛋白质组学和生物信息学26蛋白质组研究的基本技术路线蛋白质样品的制备双向电泳图像分析转

原核及简单真核生物的蛋白质组研究

流感嗜血杆菌的蛋白质组研究大肠杆菌的蛋白质组研究致病微生物的蛋白质组研究酿酒酵母的蛋白质组研究

多细胞真核生物的蛋白质组研究

线虫的蛋白质组研究果蝇的蛋白质组研究人类的蛋白质组研究植物的蛋白质组研究第十章基因组学蛋白质组学和生物信息学27原核及简单真核生物的蛋白质组研究多细胞真核生物的蛋白质组研生物信息学

Bioinformatics一、生物信息学的概述二、生物信息学研究内容三、生物信息学数据库四、生物信息学数据库工具与分析软件参考书:黄韧薛成等《生物信息学网络资源与利用》中山大学出版社赵国屏等《生物信息学》科学出版社第十章基因组学蛋白质组学和生物信息学28生物信息学

Bioinformatics一、生物第十章基因组学蛋白质组学和生物信息学29第十章基因组学蛋白质组学和生物信息学291、概述生物信息学(Bioinformatics)是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示这些数据所蕴含的生物学意义的目的。两个推动力:HGP、生物医药工业第十章基因组学蛋白质组学和生物信息学301、概述生物信息学(Bioinformatics)是生物学与生物信息学的发展历程生物信息学自诞生以来,经历了三个阶段:基因组前期的生物信息学:主要是序列分析、数据库的查询、计算机操作和PC的应用;基因组年代的生物信息学:主要是基因的寻找、数据与数据之间的比较、网络相互界面(Interface);后基因组年代的生物信息学:主要是数据的挖掘、表达、数据多样性的分析、相互交叉数据分布的总结与分析。其研究的内容不仅包括基因的查寻和同源性分析;而且进一步到基因和基因组的功能分析,即所谓的功能基因组学研究。第十章基因组学蛋白质组学和生物信息学31生物信息学的发展历程生物信息学自诞生以来,经历了三个国外发展现状欧美各国及日本相继成立了生物信息中心,如美国的国家生物技术信息中心(NationalCenterforBiotechnologyInformatics,NCBI)、欧洲生物信息学研究所(EuropeanBioinformaticInstitute,EBI)、日本信息生物学中心(CenterforInformationBiology,CIB)等。NCBI、EBI和CIB相互合作,共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。它们每天通过计算机网络互相交换数据,使得三个数据库能同时获得最新数据。此外,他们每年召开两个年会讨论合作事宜。第十章基因组学蛋白质组学和生物信息学32国外发展现状欧美各国及日本相继成立了生物信息中心,如美国的国国内的一些科研单位清华大学在基因调控及基因功能分析、蛋白质二级结构预测方面、天津大学物理系和中科院理论物理所在相关算法方面、中科院生物物理所在基因组大规模测序数据的组装和标识方面、北京大学化学学院物理化学研究所在蛋白质分子设计方面、华大基因组研究中心(中科院遗传所人类基因组研究中心)在大规模测序数据处理自动化流程体系及数据库系统建立方面均已展开相关研究。北京大学已建立了EMBL中国镜像数据库,将该数据库移植到中国本地,并提供部分的检索服务http://www.I/mirror/mirror.html;http://www.E);复旦大学遗传学研究所为克隆新基因而建立的一整套生物信息系统也已初具规模;中科院上海生化所、生物物理所等单位在结构生物学和基因预测研究方面也有相当的基础。第十章基因组学蛋白质组学和生物信息学33国内的一些科研单位清华大学在基因调控及基因功能分析、蛋白质二第十章基因组学蛋白质组学和生物信息学34第十章基因组学蛋白质组学和生物信息学34二、研究内容生物信息的收集、存储和管理基因组序列信息的提取和分析

序列的注释和比对:两个序列的比对:BLAST和FASTA;多序列比对:ClustW序列的拼接基因区域的预测:外元、启动子、拼接位点基因的电子克隆;拼接EST序列非编码区分析和DNA语言的研究分子进化和比较基因组学功能基因组的相关信息分析生物大分子结构模拟和药物设计生物信息分析的技术和方法第十章基因组学蛋白质组学和生物信息学35二、研究内容生物信息的收集、存储和管理第十章基因组学蛋白一级序列数据库:来自序列测定

核酸:Genbank、EMBL、DDBJ

蛋白质:SWWIS-PROT、PIR生物大分子三维空间结构数据库:X晶体衍射和核磁共振、PDB、MMDB基因组数据库:来自基因组作图二级数据库:对一级数据库分析、整理、归纳、注释、构建具有特殊生物学意义和专门用途的数据库三、生物信息学数据库第十章基因组学蛋白质组学和生物信息学36一级序列数据库:来自序列测定三、生物信息学数据库第十章基因组二级数据库核酸:免疫遗传学数据库IMGT、转录因子数据库TransFac、真核启动子数据库EPD、单核苷酸多态性数据库dbSNP、克隆载体数据库Vector、密码子使用数据库CUTG、人鼠特有基因集UniGene蛋白质:蛋白质功能位点数据库Prosite、蛋白质功能位点序列片段数据库Prints、同源蛋白家族数据库Pfam和同源蛋白结构域数据库Blocks、免疫球蛋白数据库Kabat、酶类数据库ENZYME、蛋白激酶数据库PKinase、相互作用蛋白质数据库DIP、可别剪接数据库ASDB等第十章基因组学蛋白质组学和生物信息学37二级数据库核酸:免疫遗传学数据库IMGT、转录因子数据库Tr核酸一级序列数据库

Genbank:美国国家健康研究院(NationalInstiturteofHealth,简称NIH)也于80年代初委托洛斯阿拉莫斯(LosAlamos)国家实验室建立GenBank,后移交给国家生物技术信息中心NCBI,隶属于NIH下设的国家医学图书馆(NationalLiabratyofMedicine,简称NLM)。()。

EMBL:由欧洲分子生物学实验室(EuropeanMolecularBiologyLaboratory)于1982年创建的,其名称也由此而来,目前由欧洲生物信息学研究所负责管理(EBI)(http://www.ebi.ac.uk/embl/)。DDBJ:是DNADataBaseofJapan的简称,创建于1986年,由日本国家遗传学研究所负责管理(http://www.ddbj.nig.ac.jp/)。1988年,EMBL、GenBank与DDBJ共同成立了国际核酸序列联合数据库中心,建立了合作关系。根据协议,这三个数据中心各自搜集世界各国有关实验室和测序机构所发布的序列数据,并通过计算机网络每天都将新发现或更新过的数据进行交换,以保证这三个数据库序列信息的完整性。第十章基因组学蛋白质组学和生物信息学38核酸一级序列数据库

Genbank:美国国家健康研究院(Na第十章基因组学蛋白质组学和生物信息学39第十章基因组学蛋白质组学和生物信息学39EMBL和GenBank核酸序列数据库中各子库名称EMBLGenBank英文含义中文含义HUMPRIPrimate人类、灵长类MAMMAMOthermammalian其它哺乳动物RODRODRodent啮齿类动物VRTVRTOthervertebrate其它脊椎动物INVINVInvertebrate无脊椎动物PLNPLNPlant,fungi,algi植物、真菌、藻类FUNPLNFungal真菌、藻类PROBCTProkaryotes,bacterial细菌、原核生物VRLVRLViral病毒PHGPHGBacteriophage噬菌体ORG-Organelles细胞器SYNSYNSynthetic合成产物UNCUNAUnclassified/Unannotated未分类/未注释ESTESTExpressedSequenceTags表达序列标记PATPATPatent专利序列STSSTSSequenceTaggedSites序列标记位点GSSGSSGenomeSurveySequences基因组测序序列HTGHTGHighThroughputGenomicSequences高通量基因组序列*EMBL将真菌单独分类,而GenBank将真菌和藻类归在植物中。第十章基因组学蛋白质组学和生物信息学40EMBL和GenBank核酸序列数据库中各子库名称第十章基因第十章基因组学蛋白质组学和生物信息学41第十章基因组学蛋白质组学和生物信息学41第十章基因组学蛋白质组学和生物信息学42第十章基因组学蛋白质组学和生物信息学42第十章基因组学蛋白质组学和生物信息学43第十章基因组学蛋白质组学和生物信息学43蛋白质序列数据库蛋白质数据库种类和特点名称维护单位注释冗余度数据量更新PIRNCBI、JIPID、MIPS部分完善较大较大较慢Swiss–ProtEBI、SIB完善小不大较慢NRl-3DNCBI完善小小较慢TrEMBLEBI、SIB不完善大大快GenPepNCBI不完善大大快NRDBEBI一般小大较快OWLHGMP一般小大较慢第十章基因组学蛋白质组学和生物信息学44蛋白质序列数据库蛋白质数据库种类和特点第十章基因组学蛋白质组PIR:1984年,“蛋白质信息资源”(ProteinInformationResource,简称PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。与核酸序列数据库的国际合作相呼应,1988年,美国的NBRF、日本的国际蛋白质信息数据库(JapaneseInternationalProteinInformationDatabase,简称JIPID)和德国的慕尼黑蛋白质序列信息中心(MunichInformationCenterforProteinSequences,简称MIPS)合作成立了国际蛋白质信息中心(PIR-International),共同收集和维护蛋白质序列数据库PIR。PIR数据库按照数据的性质和注释层次分四个不同部分,分别为PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证,注释最为详尽;PIR2中包含尚未确定的冗余序列;PIR3中的序列尚未加以检验,也未加注释;而PIR4中则包括了其它各种渠道获得的序列,既未验证,也无注释。/pirwww/第十章基因组学蛋白质组学和生物信息学45PIR:1984年,“蛋白质信息资源”(ProteinInSWISS-PROT+TrEMBL:该数据库由瑞士日内瓦大学于1986年创建,目前由瑞士生物信息学研究所(SwissInstituteofBioinformatics,简称SIB)和欧洲生物信息学研究所EBI共同维护和管理。瑞士生物信息研究所下属的蛋白质分析专家系统(ExpertProteinAnalysisSystem,,简称ExPASy)的Web服务器除了开发和维护SwissProt数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心,为用户提供大量蛋白质信息资源。北京大学生物信息中心设有ExPASy的镜象。蛋白质序列数据库TrEMBL是从EMBL中的cDNA序列翻译得到的。TrEMBL数据库创建是于1996年,意为“TranslationofEMBL”。该数据库采用SwissProt数据库格式,包含EMBL数据库中所有编码序列的翻译。TrEMBL数据库分两部分,SP-TrEMBL和REM-TrEMBL。SP-TrEMBL中的条目最终将归并到SwissProt数据库中。而Rem-TrEMBL则包括其它剩余序列,包括免疫球蛋白、T细胞受体、少于8个氨基酸残基的小肽、合成序列、专利序列等。与TrEMBL类似,GenPept是由GenBank翻译得到的蛋白质序列。由于TrEMBL和GenPept均是由核酸序列通过计算机程序翻译生成,这两个数据库中的序列错误率较大,均有较大的冗余度。/sprot/第十章基因组学蛋白质组学和生物信息学46SWISS-PROT+TrEMBL:该数据库由瑞士日内瓦第十章基因组学蛋白质组学和生物信息学47第十章基因组学蛋白质组学和生物信息学47第十章基因组学蛋白质组学和生物信息学48第十章基因组学蛋白质组学和生物信息学48NRL-3D:该数据库的序列是从三维结构数据库PDB中提取出来。除了序列信息外,NRL-3D包括二级结构、活性位点、结合位点、修饰位点等与蛋白质结构直接有关的注释信息,对研究蛋白质结构功能关系和同源蛋白分子模型构建特别有用。第十章基因组学蛋白质组学和生物信息学49NRL-3D:该数据库的序列是从三维结构数据库PDB中提取出OWL:是一个非冗余的蛋白质序列数据库,现存于Leeds大学,是由Leeds大学和Warrington的Daresbury实验室合作开发的(Bleasbyetal.,1994)。OWL数据库是由四个主要的一级序列数据库复合成的:包括SWISS-PROT,PIR1-4,GenBank(CDS翻译)和NRL-3D。在合成OWL数据库的过程中,考虑到每个数据库所包含序列信息的情况,赋予它们不同的优先级,SWISS-PROT数据库具有最高的优先权。在对信息的处理上,删除了与某一序列相同序列的信息,也剔除了与某一序列相差单个氨基酸的序列的信息,因此,所得到的OWL数据库是一个紧凑的、高效的序列数据库。尽管如此,OWL数据库仍然有许多与NRDB相同的问题,即在该数据库中仍然有一些错误的序列和对GenBank中不正确序列的重翻译。由于OWL数据库的更新周期是6-8周,因此与其它数据库相比,OWL不是最新的数据库。第十章基因组学蛋白质组学和生物信息学50OWL:是一个非冗余的蛋白质序列数据库,现存于LeedsMIPSX:是一个由Martinsried的Max-Planck研究所创建的合成数据库(Mewesetal.,1998)。MIPSX包含如下数据库的信息:PIR1-4、MIPS的一级数据库——MIPSOwn、MIPS/PIR一级数据库——PIRMOD、MIPS一级翻译数据库——MIPSTrn、MIPS酵母数据库——MIPSH、NRL-3D、SWISS-PROT、EMTrans——EMBL的自动翻译数据库、GBTrans——翻译的GenBank数据库、Kabat和PseqIP。MIPSX数据库按照表3.2中所列的上述数据库的顺序赋予优先级,并将这些数据库中和数据库间的重复序列删除,只保留该序列的一个相关信息。另外,也将那些信息完全包含于其它序列中的序列删除。第十章基因组学蛋白质组学和生物信息学51MIPSX:是一个由Martinsried的Max-PlanNRDBOWLMIPSXSP+TrEMBLPDBSWISS-PROTPIRGenPeptSWISS-PROTPIRGenBankNRL-3DPIR1-4MIPSOwnMIPSTrnMIPSHPIRMODNRL-3DSWISS-PROTEMTransGBTransKabatPseqIPSWISS-PROTTrEMBL第十章基因组学蛋白质组学和生物信息学52NRDBOWLMIPSXSP+TrEMBLPDBSWISS-NRDB:NRDB(非冗余数据库)是由NCBI创建的。该数据库是由Genpept(来源于GenBankCDS自动翻译数据库)、PDB序列数据库、SWISS-PROT数据库、PIR数据库复合而成。因此该数据库是一个较完全的,包含最新信息的数据库。但是,严格地来说,这个数据库中包含有冗余的信息,但不包含相同的信息,即在该数据库中已将那些与某一序列相同的序列信息剔除。由于NRDB是通过简单的比较方法生成的,因此就会带来一些问题:例如,一些相同蛋白质的相关重复信息仍然保留在数据库中,在SWISS-PROT数据库中的一些错误序列仍然被引入NRDB数据库,以及众多序列与已存在的序列片段重复等。所以,尽管NRDB数据库被称作非冗余数据库,但其实是名不副实的。另外,NRDB数据库也被作为NCBI提供的BLAST服务的默认数据库。第十章基因组学蛋白质组学和生物信息学53NRDB:NRDB(非冗余数据库)是由NCBI创建的。该数据生物大分子三维结构数据库蛋白质结构数据库PDB:PDB是全世界公认的收录,处理和发布生物大分子(主要是蛋白质)结构的数据库,是生物大分子结构处理的一级数据库。1971年创建,1998年10月1日RCSB(TheResearchCollaboratoryforStructuralBioinformatics)成为PDB新的管家,至2006年3月12日共收录有35460个结构。PDB仅收录经X-Ray和NMR(核磁共振)实验方法确定的结构,也就是说预测的结构不能通过RCSB的法眼。目前,PDB提供了一系列的研究生物大分子结构以及结构与功能,序列,疾病关系的资源和工具。毫无疑问,PDB将是您进行生物大分子三维结构研究的入门网站。/pdb/Pfam:ThePfamproteinfamiliesdatabase,是蛋白质多重序列比对及隐马尔可夫模型的一个大的集合,包含蛋白质结构域或蛋白保守区的多重比对资讯,该资料库提供了蛋白质结构、多重比对、蛋白质结构域构建和物种分布等资讯。其搜索工具,包含分类搜索及结构域查询,极大地提高了PFAM资源的功能性和运用。BioMagResBank数据库:NMR实验的分子MMDB分子模型数据库:MMDB(TheMolecularModelingDatabase)隶属于NCBI大旗下的分子模型数据库,包含有超过28000个的蛋白质和核酸三维结构。也许与我们前面介绍的PDB相比,MMDB利用Entrez这个强大的工具,把搜索的结构直接链接到相关的序列,引文记录,分类,结构邻居等,这真是大大的便利,数据来自PDB,但排除理论模型,只收录实验记录第十章基因组学蛋白质组学和生物信息学54生物大分子三维结构数据库蛋白质结构数据库PDB:PDB是全世第十章基因组学蛋白质组学和生物信息学55第十章基因组学蛋白质组学和生物信息学55第十章基因组学蛋白质组学和生物信息学56第十章基因组学蛋白质组学和生物信息学56基因组数据库人类基因组数据库GDB酵母基因组数据库(SGD)同源脊椎动物基因组数据库HOVERGEN拟南芥数据库(AtDB)在线人类孟德尔遗传信息数据库(OMIM)线虫数据库(ACEDB)第十章基因组学蛋白质组学和生物信息学57基因组数据库人类基因组数据库GDB第十章基因组学蛋白质组学和其它数据库:代谢数据库:KEGG、WIT、EcoCyc综合数据库:TDB基因表达数据库基于分类的二级数据库:SCOP、CATH、COGs第十章基因组学蛋白质组学和生物信息学58其它数据库:代谢数据库:KEGG、WIT、EcoCyc第十章四、生物信息学数据库工具和分析软件(一)、数据库网络检索工具:1、同源性搜索和序列比对工具:BLAST、FASTA、ClustalW2、检索工具:Entrez、SRS(二)、网络预测工具:(三)、分子生物学分析本地软件:1、DNA分析软件2、RNA结构预测工具3、蛋白分析软件4、质粒绘图软件5、引物设计软件6、序列综合分析软件7、其它软件:文献管理软件、统计软件、格式转换软件、序列提交软件、代谢途径分析软件第十章基因组学蛋白质组学和生物信息学59四、生物信息学数据库工具和分析软件(一)、数据库网络检索工具SRS:是SequenceRetrievalSystem的缩写,是目前分子生物学最重要的序列和其他数据检索工具之一。由欧洲分子生物学实验室开发,最初是为核酸序列数据库EMBL和蛋白质序列数据库SwissProt的查询开发的。通过输入关键词,你就可以对各类数据库关键词匹配查找,并输出相关信息.例如,对蛋白质序列数据库SwissProt输入关键词insulin(胰岛素),即可找出该数据库所有胰岛素或与胰岛素有关的序列条目(Entry)。·SRS是一个开放的数据库查询系统,即不同的SRS查询系统可以根据需要安装不同的数据库,目前共有300多个数据库安装在世界各地的SRS服务器上。SRS可以直接从LION公司的网页上查到这些数据库的名称,并知道它们分别安装在何处。国内北京大学生物信息中心、微生物所、上海生命科学院、中南大学等单位安装SRS系统。你可以打开网页//访问微生物所SRS数据库查寻系统。进入SRS主页,点击“Start”按钮即可进入SRS数据库查询系统。第十章基因组学蛋白质组学和生物信息学60SRS:是SequenceRetrievalSystemBLAST(BasicLocalAlignmentSearchTool)NCBI采用的一套对蛋白质数据库或DNA数据库中进行相似性比较的分析工具(当然很多其它生物学数据库都提供了BLAST检索入口)。您只需提交您的序列,通过BLAST查询就顷刻间从公开数据库中无数的的序列里找到相似序列。BLAST结果中的得分是对一种对相似性的统计说明。BLAST采用一种局部的算法获得两个序列中具有相似性的序列。第十章基因组学蛋白质组学和生物信息学61BLAST(BasicLocalAlignmentS第十章基因组学蛋白质组学和生物信息学62第十章基因组学蛋白质组学和生物信息学62第十章基因组学蛋白质组学和生物信息学63第十章基因组学蛋白质组学和生物信息学63第十章基因组学蛋白质组学和生物信息学64第十章基因组学蛋白质组学和生物信息学64第十章基因组学蛋白质组学和生物信息学65第十章基因组学蛋白质组学和生物信息学65第十章基因组学蛋白质组学和生物信息学66第十章基因组学蛋白质组学和生物信息学66演讲完毕,谢谢听讲!再见,seeyouagain3rew2022/11/5第十章基因组学蛋白质组学和生物信息学演讲完毕,谢谢听讲!再见,seeyouagain3rew67第十章基因组学蛋白质组学和生物信息学2022/11/5第十章基因组学蛋白质组学和生物信息学第十章基因组学蛋白质组学和生物信息学2022/11/2第十章68基因组学研究并解析生物体整个基因组的所有遗传信息。基因组(genome)是细胞或生物体的一套完整的单倍体遗传物质,是所有不同染色体上全部基因和基因间的DNA的总和。分为核基因组、核外基因组基因组学研究方法:SAGE、DNAchips等第十章基因组学蛋白质组学和生物信息学69基因组学研究并解析生物体整个基因组的所有遗传信息。第十章基因人类基因组计划第十章基因组学蛋白质组学和生物信息学人类基因组计划第十章基因组学蛋白质组学和生物信息学701940年代第一颗原子弹爆炸;1960年代人类首次登上月球;1990年代提出并基本完成的人类基因组计划(HumanGenomeProject,HGP)DNA双螺旋结构的发现者之一、美国国家卫生研究院(NIH)人类基因组研究所第一任所长J.D.Watson1990年在《Science》上撰文指出,与人类登月计划相比,HGP的资金投入少,但它对人类生活的影响却可能更深远。1990年,美国发起,耗资30亿美元,历时15年,1999年,中国参与3号染色体上一小片段,占1%。20世纪人类科技发展史上的三大创举第十章基因组学蛋白质组学和生物信息学1940年代第一颗原子弹爆炸;DNA双螺旋71

第十章基因组学蛋白质组学和生物信息学

第十章基因组学蛋白质组学和生物信72第十章基因组学蛋白质组学和生物信息学第十章基因组学蛋白质组学和生物信息学73人类基因组计划的目标:(1)确定人类基因组中约5万个编码基因的序列及其在基因组中的物理位置,研究基因的产物及其功能。

(2)了解转录和剪接调控元件的结构与位置,从整个基因组结构的宏观水平上理解基因转录与转录后调节。

(3)从整体上了解染色体结构,包括各种重复序列以及非转录“框架序列”的大小和组织,了解各种不同序列在形成染色体结构、DNA复制、基因转录及表达调控中的影响与作用。

(4)研究空间结构对基因调节的作用。有些基因的表达调控序列与被调节基因从直线距离上看,似乎相距甚远,但若从整个染色体的空间结构上看则恰恰处于最佳的调节位置,因此,有必要从三维空间的角度来研究真核基因的表达调控规律。第十章基因组学蛋白质组学和生物信息学人类基因组计划的目标:第十章基因组学蛋白质组学和生物信息学74(5)发现与DNA复制、重组等有关的序列。DNA的忠实复制保障了遗传的稳定性,正常的重组提供了变异与进化的分子基础。局部DNA的推迟复制、异常重组等现象则导致疾病或者胚胎不能正常发育,因此,了解与人类DNA正常复制和重组有关的序列及其变化,将对研究人类基因组的遗传与进化提供重要的结构上的依据。(6)研究DNA突变、重排和染色体断裂等,了解疾病的分子机制,包括遗传性疾病、易感性疾病、放射性疾病甚至感染性疾病引发的分子病理学改变及其进程,为这些疾病的诊断、预防和治疗提供理论依据。

(7)确定人类基因组中转座子、逆转座子和病毒残余序列,研究其周围序列的性质。了解有关病毒基因组侵染人类基因组后的影响,可能指导人类有效地利用病毒载体进行基因治疗。

(8)研究染色体和个体之间的多态性。这些知识可被广泛用于基因诊断、个体识别、亲子鉴定、组织配型、发育进化等许多医疗、司法和人类学的研究。此外,这些遗传信息还有助于研究人类历史进程、人类在地球上的分布与迁移以及人类与其他物种之间的比较。第十章基因组学蛋白质组学和生物信息学(5)发现与DNA复制、重组等有关的序列。DNA的忠实复制保75人类基因组研究内容包括遗传图(GeneticMap)绘制、物理图(PhysicalMap)构建、人类基因组的序列图测序、转录图(ExpressionProfiling)绘制和基因鉴定等方面的工作。通过多年来的发展,基因组学(genomics)作为一门专门学科,已应运而生。它涵盖以下几个方面:结构基因组学,着重遗传图、物理图、测序等研究;功能基因组学,在基因组水平上阐明DNA序列的功能;比较基因组学,包括对不同进化阶段生物基因组的比较研究,也包括不同人种、族群和群体基因组的比较研究。此外,工业基因组学、环境基因组学、药物基因组学、疾病基因组学等分支学科也在不断发展。第十章基因组学蛋白质组学和生物信息学人类基因组研究内容包括遗传图(GeneticMap)76

基因组的序列主要可被分为三类:(一)通过比较确知其生理功能的;(二)在数据库中有相匹配的蛋白质序列,但并不知道其功能的;(三)在现有数据库中找不到任何相匹配的蛋白质序列的新基因。由于生物在进化上是相互关联的,对一种生物的研究可以为其它生物提供有价值的信息。

比较基因组学的威力就在于它能根据对一种生物相关基因的认识来理解、诠释甚至克隆分离另一种生物的基因。远缘基因组间的比较为认识生物学机制的普遍性,寻找研究复杂生理和病理过程所需的实验模型提供了理论依据,而近缘基因组间的比较则为认识基因结构与功能等细节提供了参数。因此,为充分理解人类基因组,必须对一系列近缘和远缘的模式生物进行基因组程度上的比较分析工作。第十章基因组学蛋白质组学和生物信息学

基因组的序列主要可被分为三类:第十章基因组学蛋白质组学77功能基因组学研究

研究方法:1、定点破坏结构基因(geneknock-out)2、基因组内定位表达目的基因(geneknock-in)的方法来研究新基因的3、获得全长cDNA的技术(RACE)4、功能克隆法:分离纯化蛋白,测序后设计探针从文库中筛选基因5、定位克隆法:先利用连锁分析定位基因,再根据物理图谱找出相关的BAC克隆,进一步查看此克隆序列,计算机分析,定位合适的候选基因6、酵母双杂交第十章基因组学蛋白质组学和生物信息学功能基因组学研究

第十章基因组学蛋白质组学和生物信息78第十章基因组学蛋白质组学和生物信息学第十章基因组学蛋白质组学和生物信息学79

遗传图也称连锁图,是指基因或DNA标志在染色体上的相对位置与遗传距离,后者通常以基因或DNA片段在染色体交换过程中的分离频率厘摩(cM)来表示。遗传图的绘制是人类基因组研究的第一步,即以染色体上某一点为遗传标记,以与之相伴遗传的特征为对象,经连锁分析,将编码该特征的基因定位于染色体特定位置。cM值越大,两者之间距离越远。通过遗传图分析,我们可以大致了解各个基因或DNA片段之间的相对距离与方向,了解哪个基因更靠近着丝粒,哪个更靠近端粒等。遗传距离是通过遗传连锁分析获得的,研究中所使用的DNA标志越多,越密集,所得到的遗传连锁图的分辨率就越高。

经典的遗传标记是可被电泳或免疫技术检出的蛋白质标记,如红细胞ABO血型位点标记,白细胞HLA位点标记等。例如,在ABO血型基因中,位于9号染色体长臂3区4带(9q34)的基因IA,决定抗原A的存在,表现A型血性状。由于ABO血型的广泛存在,所以可用它作遗传标记。当在某一家庭中,观察到了指甲髌骨综合征与A型血相伴遗传时,科学家就认为,这种病的致病基因NP与IA基因相连锁,也位于9q34区段。进一步的观察发现,这个家庭的后代中,有1/10为A型血而无指甲髌骨综合征,这表明基因IA和NP发生了交换,交换率(重组率)为1/10。这时就可说,基因IA和NP相距较近,连锁图上的距离为10厘摩(重组率1%即为1厘摩)。遗传图的绘制第十章基因组学蛋白质组学和生物信息学遗传图也称连锁图,是指基因或DNA标志在染色体上的相对位80如果只用已知定位的少数几个基因作遗传标记,由于遗传标记的数目太少,很难绘制完整的连锁图。DNA技术的建立为人类提供了大量新的遗传标记。

第一代DNA遗传标记是RFLP(RestrictionFragmentLengthPolymorphism,限制性片段长度多态性)。DNA序列上的微小变化,甚至1个核苷酸的变化,也能引起限制性内切酶切点的丢失或产生,导致酶切片段长度的变化。由于核苷酸序列的改变遍及整个基因组,特别是进化中选择压力不是很大的非编码序列之中,RFLP的出现频率远远超过了经典的蛋白质多态性。而且,只要选择得当,生物体内出现共显性RFLP及RAPD分子标记的频率较高。第十章基因组学蛋白质组学和生物信息学如果只用已知定位的少数几个基因作遗传标记,由于遗传标81第二代DNA遗传标记利用了存在于人类基因组中的大量重复序列,包括重复单位长度在5-20个核苷酸左右的小卫星DNA(minisatelliteDNA),重复单位长度在2-6个核苷酸之间的微卫星DNA(microsatelliteDNA),后者又称为简短串联重复(STR、SSR)。STR有两个最突出的优点,即作为遗传标记的“多态性”与“高频率”。STR的存在,为遗传图的绘制提供了大量可用的遗传标记。采用聚合酶链反应(PCR)技术,以STR两侧的基因作定点标记的完整连锁图,已于1996年绘成,相邻标记间的平均距离仅0.7厘摩。

第三代DNA遗传标记,可能也是最好的遗传标记,是分散于基因组中的单个碱基的差异。这种差异包括单个碱基的缺失和插入,但更常见的是单个核苷酸的替换,即单核苷酸的多态性(SNP,singlenucleotidepolymorphism)。

第十章基因组学蛋白质组学和生物信息学第二代DNA遗传标记利用了存在于人类基因组中的大量重复序列,82“遗传图”的建立为人类疾病相关基因的分离克隆奠定了基础。拥有5000多个遗传学位点,相当于把整个人类基因组划分为5000多个小区,并分别设置了“标牌”。这些标牌将在搜索功能基因的过程中发挥独特的作用。把多态性的疾病基因位点(该位点至少包括“正常”及“致病”两个等位基因)与上述遗传标记进行分析比较时,如果在家系中证实该基因与某个标记不连锁(重组率为50%),表明该基因不在这一标记附近;如果发现该基因与某个标记有一定程度的“连锁”(重组率小于50%但大于0),表明它可能位于这个标记附近;如果该基因与某标记间不发生重组(重组率等于0),我们就推测该标记与所研究的疾病基因可能非常接近。第十章基因组学蛋白质组学和生物信息学“遗传图”的建立为人类疾病相关基因的分离克隆奠定83遗传图所表现的,是通过连锁分析确定的各基因间的相对位置;物理图则表现染色体上每个DNA片段的实际顺序。物理图是指以已知核苷酸序列的DNA片段(序列标签位点,sequence-taggedsite,STS)为“路标”,以碱基对(bp,kb,Mb)作为基本测量单位(图距)的基因组图。现在的测序技术还不能对整个DNA分子进行序列测定,因此须先将它切成一个个大小不同的片段,然后将这些片段连起来,构成连续的序列。物理图的主要内容是建立相互重叠连接的“相连DNA片段群(contigs)

物理图(PhysicalMap)第十章基因组学蛋白质组学和生物信息学遗传图所表现的,是通过连锁分析确定的各基因间的相对位84这些大片段在进行DNA分子克隆时,也不能通过细菌质粒或噬菌体的运载而在大肠杆菌中进行克隆,因为它们太大,而必须用一种特殊的载体--酵母人工染色体(YAC,容量800-2000kb),将片段导入酵母,在酵母细胞中克隆。YAC中的DNA大片段是靠序列标记位标(STS)来识别的。STS是基因组中一段200~500bp的单拷贝序列,在染色体上有一定的位置,所以用STS作位标可将不同YAC克隆排列成邻接克隆群(contig)。

其他载体还有BAC(细菌人工染色体,容量100-300kb)、P1(噬菌体人工染色体)、粘粒(cosmid,容量45kb)、MAC等。现在,人类基因组24条染色体的YAC、BAC、P1邻接克隆群均已建立,精度约100碱基对的物理图也基本绘成,并已开始进行大规模测序。第十章基因组学蛋白质组学和生物信息学这些大片段在进行DNA分子克隆时,也不能通过细菌质粒85第十章基因组学蛋白质组学和生物信息学第十章基因组学蛋白质组学和生物信息学86人类基因组的序列图(HumanGenomeSequence)基因组测序策略1、鸟枪法:将基因组随机打断,构建一系列随机亚克隆,然后每个克隆测序,最后根据序列的重叠区域组装成完整的基因组序列。优点:快、简单、成本低缺点:由于大量存在的重复序列,致使组装困难2、定位克隆法:首先构建物理图谱,再测序、组装优点:组装简单缺点:物理图谱制作费时

第十章基因组学蛋白质组学和生物信息学人类基因组的序列图(HumanGenomeSequenc87

生物的性状,包括疾病,都由蛋白质决定。所有蛋白质都是由mRNA(信使核糖核酸)编码的,而mRNA又由DNA转录而来。人类基因组中仅1%~5%的DNA是编码序列(基因);成人各种组织中又只有约1%的基因表达为蛋白质。所以,建立转录图,或从mRNA逆转录而来的cDNA图,是分离、定位和克隆基因的关键。这里,表达序列位标(EST)具有重要意义。EST是长约100~300碱基对的cDNA片段,是表达基因的一部分。EST由于序列较短,很难定位,只有筛到较长的基因片段(超过1000碱基对),才能用荧光原位杂交(FISH)法在染色体上定位。

EST可用工业化的程序生产,只要分离到某一发育阶段某一组织的mRNA,就可用逆转录法,从mRNA合成相应的cDNA片段,即EST。用它作探针,就可从基因组文库中筛到全长的基因序列。截止到1998年2月,已发现约92万条EST,转录图的制作有了良好的开端,但这已属后基因组计划的工作。转录图(ExpressionProfiling)第十章基因组学蛋白质组学和生物信息学生物的性状,包括疾病,都由蛋白质决定。所有蛋白质都是由m88蛋白质组学及其研究进展第十章基因组学蛋白质组学和生物信息学89蛋白质组学及其研究进展第十章基因组学蛋白质组学和生物信息学2蛋白质组学的含义

蛋白质组(Proteome)一词最早由澳大利亚学者Wilkins等于1994年提出,指的是由一个基因组geneome或一个细胞、组织表达的所有蛋白质功能蛋白质组学的提出及概念功能蛋白质组学是指研究在特定时间、特定环境和实验条件下细胞内表达的全部蛋白质。

第十章基因组学蛋白质组学和生物信息学90蛋白质组学的含义蛋白质组(Proteome)

蛋白质组学研究的内容蛋白质表达模式(或蛋白质组组成)的研究蛋白质组组成的分析鉴定是蛋白质组学中的与基因组学相对应的主要内容。它要求对蛋白质组进行表征,即实现所有蛋白质的分离、鉴定及其图谱化。双向凝胶电泳(2-DE)和质谱(Massspectrometry)技术是当前分离鉴定蛋白质的两大支柱技术

蛋白质组功能模式(目前主要集中在蛋白质相互作用网络关系)的研究第十章基因组学蛋白质组学和生物信息学91蛋白质组学研究的内容蛋白质表达模式(或蛋白质组组成)

蛋白质组学研究的手段蛋白质组研究的核心──用于分离的双向电泳(2-DE)

蛋白质组研究的百科全书———数据库(database)蛋白质组技术的支柱———质谱鉴定技术(Identication)蛋白质组技术的规模———高流通量筛选(HTS)第十章基因组学蛋白质组学和生物信息学92蛋白质组学研究的手段蛋白质组研究的核心──用于分离的双向电蛋白质组研究的基本技术路线蛋白质样品的制备双向电泳图像分析转印至膜上的蛋白凝胶中的蛋白溶液中的蛋白混合肽蛋白质质量N端测序肽序列质谱数据肽指纹图数据搜索新的或已知蛋白蛋白转录后修饰的鉴定第十章基因组学蛋白质组学和生物信息学93蛋白质组研究的基本技术路线蛋白质样品的制备双向电泳图像分析转

原核及简单真核生物的蛋白质组研究

流感嗜血杆菌的蛋白质组研究大肠杆菌的蛋白质组研究致病微生物的蛋白质组研究酿酒酵母的蛋白质组研究

多细胞真核生物的蛋白质组研究

线虫的蛋白质组研究果蝇的蛋白质组研究人类的蛋白质组研究植物的蛋白质组研究第十章基因组学蛋白质组学和生物信息学94原核及简单真核生物的蛋白质组研究多细胞真核生物的蛋白质组研生物信息学

Bioinformatics一、生物信息学的概述二、生物信息学研究内容三、生物信息学数据库四、生物信息学数据库工具与分析软件参考书:黄韧薛成等《生物信息学网络资源与利用》中山大学出版社赵国屏等《生物信息学》科学出版社第十章基因组学蛋白质组学和生物信息学95生物信息学

Bioinformatics一、生物第十章基因组学蛋白质组学和生物信息学96第十章基因组学蛋白质组学和生物信息学291、概述生物信息学(Bioinformatics)是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示这些数据所蕴含的生物学意义的目的。两个推动力:HGP、生物医药工业第十章基因组学蛋白质组学和生物信息学971、概述生物信息学(Bioinformatics)是生物学与生物信息学的发展历程生物信息学自诞生以来,经历了三个阶段:基因组前期的生物信息学:主要是序列分析、数据库的查询、计算机操作和PC的应用;基因组年代的生物信息学:主要是基因的寻找、数据与数据之间的比较、网络相互界面(Interface);后基因组年代的生物信息学:主要是数据的挖掘、表达、数据多样性的分析、相互交叉数据分布的总结与分析。其研究的内容不仅包括基因的查寻和同源性分析;而且进一步到基因和基因组的功能分析,即所谓的功能基因组学研究。第十章基因组学蛋白质组学和生物信息学98生物信息学的发展历程生物信息学自诞生以来,经历了三个国外发展现状欧美各国及日本相继成立了生物信息中心,如美国的国家生物技术信息中心(NationalCenterforBiotechnologyInformatics,NCBI)、欧洲生物信息学研究所(EuropeanBioinformaticInstitute,EBI)、日本信息生物学中心(CenterforInformationBiology,CIB)等。NCBI、EBI和CIB相互合作,共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。它们每天通过计算机网络互相交换数据,使得三个数据库能同时获得最新数据。此外,他们每年召开两个年会讨论合作事宜。第十章基因组学蛋白质组学和生物信息学99国外发展现状欧美各国及日本相继成立了生物信息中心,如美国的国国内的一些科研单位清华大学在基因调控及基因功能分析、蛋白质二级结构预测方面、天津大学物理系和中科院理论物理所在相关算法方面、中科院生物物理所在基因组大规模测序数据的组装和标识方面、北京大学化学学院物理化学研究所在蛋白质分子设计方面、华大基因组研究中心(中科院遗传所人类基因组研究中心)在大规模测序数据处理自动化流程体系及数据库系统建立方面均已展开相关研究。北京大学已建立了EMBL中国镜像数据库,将该数据库移植到中国本地,并提供部分的检索服务http://www.I/mirror/mirror.html;http://www.E);复旦大学遗传学研究所为克隆新基因而建立的一整套生物信息系统也已初具规模;中科院上海生化所、生物物理所等单位在结构生物学和基因预测研究方面也有相当的基础。第十章基因组学蛋白质组学和生物信息学100国内的一些科研单位清华大学在基因调控及基因功能分析、蛋白质二第十章基因组学蛋白质组学和生物信息学101第十章基因组学蛋白质组学和生物信息学34二、研究内容生物信息的收集、存储和管理基因组序列信息的提取和分析

序列的注释和比对:两个序列的比对:BLAST和FASTA;多序列比对:ClustW序列的拼接基因区域的预测:外元、启动子、拼接位点基因的电子克隆;拼接EST序列非编码区分析和DNA语言的研究分子进化和比较基因组学功能基因组的相关信息分析生物大分子结构模拟和药物设计生物信息分析的技术和方法第十章基因组学蛋白质组学和生物信息学102二、研究内容生物信息的收集、存储和管理第十章基因组学蛋白一级序列数据库:来自序列测定

核酸:Genbank、EMBL、DDBJ

蛋白质:SWWIS-PROT、PIR生物大分子三维空间结构数据库:X晶体衍射和核磁共振、PDB、MMDB基因组数据库:来自基因组作图二级数据库:对一级数据库分析、整理、归纳、注释、构建具有特殊生物学意义和专门用途的数据库三、生物信息学数据库第十章基因组学蛋白质组学和生物信息学103一级序列数据库:来自序列测定三、生物信息学数据库第十章基因组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论