生物信息学概论课件_第1页
生物信息学概论课件_第2页
生物信息学概论课件_第3页
生物信息学概论课件_第4页
生物信息学概论课件_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学

Bioinformatics

(BF035018)12/21/20221主要学习内容生物信息学总体印象(第一章)生物信息学用到什么?(第二章)生物信息学能做什么及怎么做?(第三、四、五章)生物信息学的实际应用(第六章)生物信息学的定义、发展史、相关概念、重要性、研究内容及发展方向生物知识、计算机知识、网络资源、数据库资源和软件资源双序列比对、多序列比对、核酸分析、蛋白质分析,另外还有分子模建、活性预测、药物设计等等基因组计划、蛋白质组、代谢组等等12/21/20222教学目的掌握生物信息学的基本理论和专门知识;掌握生物信息学数据库的查询、检索和利用;掌握核酸及蛋白质序列比对方法;了解人类基因组计划意义及应用前景。12/21/20223考核方法理论考试(闭卷,占80%)随堂提示重点难点知识,及课后练习题课堂成绩(占20%)出勤率,课堂表现,随堂练习成绩12/21/20225第一章概论

近年来,随着现代分子生物学的发展,特别是人类基因组计划的实施,不断产生出海量的分子生物学数据,这些数据数量巨大、关系复杂,以至于不利用计算机根本无法实现数据的存储和分析。这样,生物信息学最终形成一门独立的学科并被推上了生物科学发展的最前沿。12/21/20226InformaticsComputationBiologyBioinformatics12/21/20227一、生物信息学定义1995年,在美国人类基因组计划第一个五年总结报告中,给出了一个较为完整的生物信息学定义:生物信息学(Bioinformatics)是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。12/21/20228广义概念生命科学与数学、计算机科学和信息科学交汇融合形成的一门交叉学科,应用先进的数据管理技术、数学分析模型和计算软件对各种生物信息进行提取、储存处理和分析,旨在掌握复杂生命现象的形成模式与演化规律。12/21/202210生物信息学主要研究两种信息载体核酸分子(DNA、RNA)蛋白质分子生物分子至少携带着三种信息遗传信息与功能相关的结构信息进化信息12/21/202212生物信息学的产生20世纪后期,生物科学技术迅猛发展,无论从数量上还是从质量上都极大地丰富了生物科学的数据资源。寻求一种强有力的工具去组织这些数据,以利于储存、加工和进一步利用。另一方面,以数据分析、处理为本质的计算机科学技术和网络技术迅猛发展,并日益渗透到生物科学的各个领域。于是,一门崭新的、拥有巨大发展潜力的新学科——生物信息学——悄然兴起。12/21/202214生物信息学经历三个阶段基因组前期:主要是序列分析、数据库的查询、计算机操作;基因组年代:主要是基因的寻找、数据与数据之间的比较、网络相互界面(Interface);后基因组年代:主要是数据的挖掘、表达、数据多样性的分析、相互交叉数据分布的总结与分析。其研究的内容不仅包括基因的查寻和同源性分析;而且进一步到基因和基因组的功能分析,即所谓的功能基因组学研究。12/21/20221520世纪50年代,生物信息学开始孕育。20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来。20世纪70年代,生物信息学的真正开端。20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方法。20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库。20世纪90年代后,人类基因组计划促进生物信息学的迅速发展。12/21/202216三与生物信息学相关的概念序列测定基因组计划模式识别和结构功能预测蛋白质折叠同源性与相似性12/21/202217序列测定,是获得序列数据的基本方法,分为蛋白质序列测定和核酸序列测定。第一个完整多肽(胰岛素)于1955年ryle等人完成。埃德曼降解-环甲基化方法;自动测序仪;质谱技术的发展大大提高了蛋白质测序技术。核酸测序,由于基因克隆和多聚酶链式反应的快速发展,为核酸的快速测序提供了良好的基础,这也就促使了现阶段大量核酸序列的测序完成。12/21/202218另外一些模式生物的基因组计划也先后在世界各地启动。它们包括大肠杆菌,啤酒酵母,线虫,果蝇,拟南芥,狗,小鼠等。这是1998年公布的一个数据,而现在由于测序技术的不断成熟,获得的动植物的全基因组序列越来越多。像国内的华大基因研究院,每年就要完成很多种生物的测序。12/21/202220模式识别利用已知的蛋白序列或结构中的某些特征模式来识别未知蛋白质的一些性质结构功能预测通过蛋白质序列特征来直接预测其结构或功能,而不依靠于其它已知蛋白信息。12/21/202221蛋白质的基本单位为氨基酸,而蛋白质的一级结构指的就是其氨基酸序列,蛋白质会由所含氨基酸残基的亲水性、疏水性、带正电、带负电……等等特性通过残基间的相互作用而折叠成一立体的三级结构。虽然蛋白质可在短时间中从一级结构折叠至立体结构,研究者却无法在短时间中从氨基酸序列计算出蛋白质结构,甚至无法得到准确的三维结构。12/21/202223同源性,也可以说同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。相似性,有两层含义:1,指那些折叠方式相似却没有明显的序列相似性的蛋白质;2,指蛋白质中一组具有相同催化活性和空间构像的氨基酸残基,但分子间整体上的序列和结构却不具有相似性。指不同祖先经趋同进化而形成相似功能或结构。12/21/202224四生物信息学研究内容生物信息学的研究内容是伴随着基因组研究而发展的。广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、存储、分配、分析和解释。这个定义的含义是双重的:一是对海量数据的收集、整理与服务,即管理好这些数据;二是从中发现新的规律,也就是使用好这些数据。12/21/202226获取人和各种生物的完整基因组发现新基因和新的单核苷酸多态性(1)基因的电脑克隆(2)从基因组DNA序列中预测新基因(3)发现单核苷酸多态(SNP)基因组中非编码区信息结构分析在基因组水平研究生物进化完整基因组的比较研究功能基因组研究生物大分子结构模拟与药物设计生物信息学的发展与应用研究12/21/202227获取人和各种生物的完整基因组基因组研究的首要目标是获得人的整套遗传密码。随着科学技术的飞速发展,科学家于1985年提出了旨在阐明人类46条染色体上30亿个脱氧核苷酸的排列顺序,这就是规模空前的人类基因组计划(HGP),已于1990年启动,至今已取得巨大成就,使人类第一次在分子水平上全面认识自我。12/21/20222812/21/202230自1995年科学家破译了全长为180万核苷酸的流感嗜血杆菌基因组。目前已完成完整基因组测序生物,有:小鼠、酵母、线虫、果蝇、拟南芥、水稻、马、短尾负鼠、猫、伊蚊、葡萄、恒河猴、海鞘、蜜蜂、白蚁、牛、衣藻、狗、鸡……12/21/20223112/21/20223212/21/202233海鞘(cionaintestinalis)是人类的一种无脊椎近亲,它们的心脏、神经系统就像是人类的简化版。12/21/202234发现新基因和新的单核苷酸多态性发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。12/21/202235卷舌V形发际线大拇指弯曲长睫毛我们身体中常见的单基因控制的性状12/21/202236基因组中非编码区信息结构分析近年来的研究表明,在细菌这样的微生物中,非编码蛋白质的区域只占整个基因组序列的10%到20%。随着生物的进化,非编码区越来越多,在高等生物和人的基因组中非编码序列已占到基因组序列的绝大部分。这表明:这些非编码序列必定具有重要的生物功能。普遍的认识是它们与基因的表达调控有关。12/21/202237完整基因组的比较研究研究发现:全部基因可以按照功能和系统发生分为若干类,其中包括与复制、转录、翻译、分子伴侣、能量产生、离子转运、各种代谢相关的基因。这一工作也为蛋白质分类提供了新的途径。同时,科学家们通过几个完整基因组的比较,统计出维持生命活动所需要的最少基因的个数为265~350个左右。研究表明在同一生物中,某些核糖体蛋白排列顺序的差异能反映出物种间的亲缘关系,亲缘关系越近,基因排列顺序越接近。这样就可以通过比较基因的排列顺序来研究物种间的系统发育关系。12/21/202238功能基因组研究在不同的组织中表达基因的数目差别是很大的,同一组织在不同的个体生长发育阶段,表达基因的种类、数量也是不同的。因此我们不仅需要了解基因的序列,还要了解基因的功能,也就是要了解在不同的时间、不同的组织中基因的表达谱。这就是通常所说的功能基因组研究。12/21/202239生物大分子结构模拟与药物设计包括RNA(核糖核酸)的结构模拟和反义RNA的分子设计;蛋白质空间结构模拟和分子设计;具有不同功能域的复合蛋白质以及连接肽的设计;生物活性分子的电子结构计算和设计;纳米生物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于DNA结构的药物设计等。12/21/20224012/21/202241发现探索研究充分研究注册大量候选药物的合成项目组与计划化合物合成早期案例性研究候选化合物制剂开发动物安全性研究筛选健康志愿者研究I期候选药物测试300-10,000患者(III期)100-300患者研究(II期)临床数据分析12/21/202242生物信息学的发展与应用研究发展有效的软件、数据库以及若干数据库工具,诸如电子网络等远程通讯工具;改进现有的理论分析方法,如统计方法、模式识别方法、隐马尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较方法等;创建一切适用于基因组信息分析的新方法、新技术。包括引入复杂系统分析技术、信息系统分析技术等;建立严格的多序列比较方法;发展研究基因组完整信息结构和信息网络的研究方法等;发展生物大分子空间结构模拟和药物设计的新方法与新技术。12/21/202243五国外发展现状各国政府和业界对生物信息学的发展极为重视,投入了大量资金。欧美各国及日本相继成立了生物信息中心,如美国的国家生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)、日本国家遗传学研究所(NIG)等。NCBI、EBI和NIG相互合作,共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。它们每天通过计算机网络互相交换数据,使得三个数据库能同时获得最新数据。此外,他们每年召开年会讨论合作事宜。12/21/202244国际著名生物信息中心

BioinformaticsCentresNCBI NationalCenterforBiotechnologyInformation(US)

EBI EuropeanBioinformaticsInstitute(EU)NIG NationalInstituteofGenetics(Japan)HGMP HumanGenomeMappingProjectResourceCentre(UK)SIBSwissInstituteofBioinformatics(Switzerland)CMBI CentreofMolecularandBiomolecule(Netherlands)ANGIS NationalGenomeInformationService(Australia)

BIC NationalBioinformaticsCentre(Singapore)12/21/20224512/21/20224612/21/20224712/21/202248美国核酸数据库GenBank从1979年开始建设,1982年正式运行(NCBI);欧洲分子生物学实验室的EMBL数据库也于1982年开始服务(EBI);日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务(NIG)。12/21/202249近年来GenBank中的DNA碱基数目呈指数增加,大约每14个月增加一倍。到1999年12月其数目已达30亿,它们来自47000种生物。2000年4月DNA碱基数目是60亿。现在,2001年初这一数目已达110亿。各种生物的EST序列已达600多万条,其中人类的EST序列已超过300万条,估计覆盖人类基因90%以上;12/21/202250分子生物学和遗传学的文献积累从60年代中期的接近10万篇迅速增长至60年代末期的20多万篇,即在3-4年间,翻了一番。此后,至80年代中期,上升至约30万篇,即平均每年增长6-7千篇。至90年代中,文献数已上升至40多万篇;即在10年中,平均每年增长1万篇。到2000年,则增长至约50万篇,即在约5年间,又增长了10万篇。12/21/202251DNA数据的增长幅度:2004年已有相当于16个人类基因组的完成序列12/21/202252六国内发展现状在我国,生物信息学随着人类基因组研究的展开才起步较迟,但已显露出蓬勃发展的势头。北京大学于1997年3月成立了生物信息学中心,中科院上海生命科学研究院也于2000年3月成立了生物信息学中心。我国首家自主开发的核酸(DNA)序列公共数据库(BiosinoDatabase)于2001年7月3日上午9时正式上网试运行,并同时开始接受我国核酸序列的注册登记。12/21/202253炎黄计划“炎黄计划”是以保护、开发和利用中华民族群体遗传资源为目的的长程基因组学研究,主要研究人类基因变异、代谢平衡与健康的关系。中科院基因组学研究所将通过实施该计划,不断对中国的群体遗传学资源加以开发,制作具有更高分辩率的中华民族群体基因组单倍体图(HapMap),定位并普查可能影响人类健康的基因变异,所涉及的疾病主要有传染病、糖尿病、肥胖、心脑血管病、癌症、老年性痴呆和其它慢性疾病。12/21/202254计划的预期成果建立东亚人种特异性的高密度、高分辨医学遗传图谱;利用医学遗传图谱,建立包括可用于筛查疾病相关基因的分子标记集,大规模筛查中国(东亚)人群特异性疾病。12/21/202255神农计划以保护和开发中医中药相关生物资源并促进中医药科学现代化的基因组研究计划。它以传统医学和药学现代化为目的,从事以基因组研究为出发点的药用生物资源开发与应用研究,聚焦于有明确临床效果的中草药的分子标记,次生代谢物催化酶基因和有机化合物(如次级代谢产物)的开发利用。与“炎黄计划”的科学目标相结合,立足于防治常见疾病和传染性疾病。12/21/202256计划的预期成果测定若干中草药的基因组序列(如冬虫夏草、丹参、黄芪、柴胡等)和分子标记物建立中草药数据和资源库分离和鉴定关键催化酶(药用动植物基因库)开发基于中草药的防病健康调节剂和治病药物。12/21/202257轩辕计划是以生物资源开发与生态资源保护为目的,科学强国和科学健民的基因组学研究计划。该计划以农业现代化、振兴经济和保护环境为基本内涵,以经济动植物、农作物、生态物种和生物能源为研究对象的基因组学研究计划。12/21/202258计划的预期成果在这一计划的框架下,BGI已经阶段性地完成了水稻基因组基因图谱、家蚕基因组“工作框架图”、继续“猪基因组计划”和“鸡基因组多态性计划”等农作物和家养动物的基因组计划。该计划将在资金允许的情况下在5年内测定大豆、马铃薯等重要经济作物的基因组,初步揭示杂交优势、杂种进化、多倍体形成、多倍体进化的分子机制等植物物种的重要基因组学命题。12/21/202259国内的一些科研单位清华大学-基因调控及基因功能分析、蛋白质二级结构预测方面;天津大学物理系和中科院理论物理所-相关算法方面;中科院生物物理所-基因组大规模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论