版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物信息学昀坝状与展望中国科学院院士张春霆(天津大学生命科学与工程研究院。天津300072摘要:本文阐述了生物信息学产生的背景,生物学数据库,生物信息学的主要研究内容,与生物信 息学关系密切的数学和计算机科学技术领域,生物信息学产业等内容,展望了其未来并提出了若干 在我国发展生物信息学的建议。着重指出,理解大量生物学数据所包括的生物学意义已成为后基 因组时代极其重要的课题。生物信息学的作用将日益重要。有理由认为,今日生物学数据的巨大 积累将导致重大生物学规律的发现。生物信息学的发展在国内、外基本上都处在起步阶段。因此, 这是我国生物学赶超世界先进水平的一个百年一遇的极好机会。 关键词:人类基因
2、组计划生物信息学一、生物信息学产生的背景 有人说,基于序列的生物学时代已经到 来,尽管对“序列生物学”这一提法可能有所争 议,但是今日像潮水般涌现的序列信息却是无 可争辩的事实。自从1990年美国启动人类基 因组计划以来,人与模式生物基因组的测序工 作进展极为迅速。迄今已完成了约40多种生 物的全基因组测序工作,人基因组约3×l妒 碱基对的测序工作也接近完成。至2000年6月26日,被誉为生命“阿波罗计划”的人类基、。因组计划,经过美、英、日、法、德和中国科学家的艰苦努力, 终于完成了工作草图,这是人类科学史上又一个里程碑式的 事件。它预示着完成人类基因组计划已经指日可待。截止 日前
3、为止,仅登录在美国GenB锄k数据库中的DNA序列总量 已超过70亿碱基对。在人类基因组计划进行过程中所积累 起来的技术和经验,使得其它生物基因组的测序工作可以完 成得更为快捷。可以预计,今后DNA序列数据的增长将更 为惊人。生物学数据的积累并不仅仅表现在DNA序列方 面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增 长。此外,迄今为止,已有一万多种蛋白质的空间结构以不 同的分辨率被测定。基于印NA序列测序所建立起来的EsI'数据库其记录已达数百万条。在这些数据的 基础上派生、整理出来的数据库已达5余 个。这一切构成了一个生物学数据的海洋。 可以打一个比方来说明这些数据的规模。有
4、人估计,人类(包括已经去世的和仍然在世的 所说过的话的信息总量约为5唉字节(1唉字 节等于1018字节。而如今生物学数据信息总 量已经接近甚至超过此数量级。这种科学数 据的急速和海量积累,在人类的科学研究历史 中是空前的。数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘它们。与正在以指数方 式增长的生物学数据相比,人类相关知识的增长(粗略地用 每年所发表的生物、医学论文数来代表却十分缓慢。一方 面是巨量的数据;另一方面是我们在医学、药物、农业和环保 等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高其生活质量。这就构成了一个极大的矛盾。遵个矛盾就催生了一门新兴的
5、交叉学科,这就是生物信息学。 美国人类基因组计划实施五年后的总结报告中,对生物信息 学作了以下的定义:生物信息学是一门交叉学科,它包含了 生物信息的获取、处理、储存、分发、分析和解释等在内的所 有方面,它综合运用数学、计算机科学和生物学的各种工具,张一(删ANGo6119。t936.9.19一.男,山东省烟台市人,中国科学院院士,生物信息学家。1961年毕业于复旦大学物理系.1螂年在该校研究生毕业。现任天津大学教授,博士生导师。张春霆院士是我国生物信息学的学术带头人之一,有较强的数学、物理和计算机基础.以此为背景专门从事生物信 息学研究。开拓了I斟A序列分析中的几何学研究途径。建立了DN序列的
6、z曲线理论,在基因识别、耩因组注释等DNA序列分析中得到越来越广泛的应 用。提出了一系列球蛋白质结构类预测的新算法,对国际上的有关研究产生了推动作用。在国外发表影晌因子大于l的Scf的计算生物学和生物信息学 论文余篇.被他人引用二百余次。1996年和19卯年分别获国家教委科技进步一等奖和国家自然科学二等奖各一项.均为唯一完成人。22卷6期17一院士论坛来阐明和理解大量数据所包含的生物学意义。生物信息学 这一名词的出现仅仅是几年前的事情,但是计算生物学这一名词的出现则要早得多。鉴于这两门学科之间并没有或难 . r以界定严格的分界线,在这里统称为生物信息学。=、生物学数据库Nucliec Aci凼
7、Research杂志连续七年在其每年的第一 期中详细介绍最新版本的各种数据库。在2000年1月1日 出版的28卷第l期中详细地介绍了115种通用和专用数据 库,包括其详尽描述和访问网址。迄今为止,生物学数据库总数已达500个以上。在DNA序列方面有GeIIBaIll【、EMBL和 加BJ等。在蛋白质一级结构方面有s研SS一啾、Pm和加Ps等。在蛋白魇和其他生物大分子的结构方面有PDB 等。在蛋白质结构分类方面有sc0P和等。应该指 出,几乎所有这些数据库对学术研究部门或人员来说都是免 费的,可以免费下载或提供免费服务。但是鉴于相当多的数 据库的经营者们面临着财务紧缺的境地,这种免费的局面还 能
8、维持多久就不得而知了。有的数据库,如sWIssPI御, 已开始向商业用户每年收取数千至数万美元不等的使用费。 其它数据库暂时还是免费的,但不知是否永远免费。如果一 些重要的数据库对学术研究部门开始收费,这对于我国生物 信息学的发展是非常不利的。中国是一个基因信息资源大 国,我们应当抓紧建设我国自有的数据库,在世界上做出我 们自己的贡献,在平等的基础上与国外共享生物信息资源。 三、生物信息学的主要研究内容生物信息学主要包括以下几个主要研究领域,但是限于 篇幅,这里仅列出其名称并只做简单介绍。1.序列比对(仙舁叫嘲t。基本问题是比较两个或两个以 上符号序列的相似性或不相似性。序列比对是生物信息学
9、的基础,非常重要。两个序列的比对有较成熟的动态规划算 法,以及在此基础上编写的比对软件包BLASr和FAS. TA,可以免费下载使用。这些软件在数据库查询和搜索中有 重要的应用。有时两个序列总体并不很相似,但某些局部片 段相似性较高。锄tllwate瑚釉算法是解决局部比对的好 算法,缺点是速度较慢。两个以上序列的多重序列比对目前 还缺乏快速而又十分有效的算法。2.结构比对。基本问题是比较两个或两个以上蛋白质 分子空间结构的相似性或不相似性。已有一些算法。3.蛋白质结构预测。包括2级和3级结构预测,是最重 要的课题之一。从方法学上来看有演绎法和归纳法两种途 径。前者主要是从一些基本原理或假设出发
10、来预测和研究 蛋白质的结构和折叠过程。分子力学和分子动力学属于这 一范畴。后者主要是从观察和总结已知结构的蛋白质结构 规律出发来预测未知蛋白质的结构。同源模建和指认 (r11麟油Ilg方法属于这一范畴。虽然经过30余年的努力,蛋 白质结构预测研究现状远远不能满足实际需要。4.计算机辅助基因识别(仅指蛋白质编码基因。基本 问题是给定基因组序列后,正确识别基因的范围和在基因组 序列中的精确位置。这是最重要的课题之一,而且越来越重 要。经过20余年的努力,提出了数十种算法,有十种左右重 要的算法和相应软件上网提供免费服务。原核生物计算机 辅助基因识别相对容易些,结果好一些。从具有较多内含子 的真核生
11、物基因组序列中正确识别出起始密码子、剪切位点 和终止密码子,是个相当困难的问题,研究现状不能令人满 意,仍有大量的工作要做。5.非编码区分析和DNA语言研究,是最重要的课题之 一。在人类基因组中,编码部分仅占总序列的35%,其它 通常称为“垃圾”DAN,其实一点也不是垃圾,只是我们暂时 还不知道其重要的功能。分析非编码区DNA序列需要大胆 的想象和崭新的研究思路和方法。DNA序列作为一种遗传 语言,不仅体现在编码序列之中,而且隐含在非编码序列之 中。6.分子进化和比较基因组学。是最重要的课题之一。早 期的工作主要是利用不同物种中同一种基因序列的异同来 研究生物的进化,构建进化树。既可以用DNA
12、序列也可以 用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结 构比对来研究分子进化。以上研究已经积累了大量的工作。 近年来由于较多模式生物基因组测序任务的完成,为从整个 基因组的角度来研究分子进化提供了条件。可以设想,比较 两个或多个完整基因组这一工作需要新的思路和方法,当然 也可望得到更丰硕的成果。这方面可做的工作是很多的。 7.序列重叠群(cont靖装配。一般来说,根据现行的测 序技术,每次反应只能测出500或更多一些碱基对的序列。 这就有一个把大量的较短的序列拼接成一个较长的、完整序 列的任务。显然,为了正确拼接,短的序列之间应有一部分 重叠区。所有相互部分重叠的序列全体构成了重叠群
13、(c. ti率。逐步把它们拼接起来形成序列更长的重叠群,直至得 到完整序列的过程称为重叠群装配。拼接EsI数据以发现 全长新基因也有类似的问题。已经证明,这是一个NP一完 备性算法问题。8.遗传密码的起源。遗传密码为什么是现在这样的? 这一直是一个谜。一种最简单的理论认为,密码子与氨基酸 之间的关系是生物进化历史上一次偶然的事件而造成的,并 被固定在现代生物最后的共同祖先里,一直延续至今。不同 于这种“冻结”理论,有人曾分别提出过选择优化、化学和历 史等三种学说来解释遗传密码。随着各种生物基因组测序 任务的完成,为研究遗传密码的起源和检验上述理论的真伪 提供了新的素材。9.基于结构的药物设计。
14、人类基因组计划的目的之一 在于阐明人的约10万种蛋白质的编码宇列,从而了解蛋白 质的结构、功能、相互作用以及与各种人类疾病之间的关系, 寻求各种治疗和预防方法,包括药物治疗。基于生物大分子 结构的药物设计是生物信息学中的极为重要的研究领域。. 院士论坛为了抑制某些酶或蛋白质的活性,在已知其3级结构的基础 上,可以利用分子对接算法,在计算机上设计抑制剂分子,作 为候选药物。这种发现新药物的方法有强大的生命力,也有 着巨大的经济效益。lO.其他。如基因表达谱分析,代谢网络分析;基因芯片 设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴 的重要研究领域。,这里不再赘述。四、与生物信息学关系密切的
15、数学领域限于篇幅,仅列出它们的名称。统计学,包括多元统计 学,是生物信息学的数学基础之一;概率论与随机过程理论, 如近年来兴起的隐马尔科夫链模型(m眦,在生物信息学中 有重要应用;运筹学,如动态规划法是序列比对的基本工具, 最优化理论与算法,在蛋白质空间结构预测和分子对接研究 中有重要应用;拓扑学,这里指几何拓扑,在DNA超螺旋研 究中是重要的工具,在多肽链折叠研究中也有应用;函数论, 如福里叶变换和小波变换等都是生物信息学中的常规工具; 信息论,在分子进化、蛋白质结构预测、序列比对中有重要应 用,而人工神经网络方法则用途极为广泛;计算数学,如常微 分方程数值解法是分子动力学的基本工具;群论,
16、在研究遗 传密码和DNA序列的对称性方面有重要应用;组合数学,在 分子进化和基因组序列研究中十分有用。原则上讲,各种数 学理论或多或少或直接或间接都应该在生物学研究中有各 种各样的应用,其中包括生物信息学,这种情况正像过去的 一、两个世纪,数学应用于物理学一样。而且,生物信息学的 发展,又为数学的发展提供了一个新的机遇,可能会产生一 些新的分支学科。五、与生物信息学密切相关的计算机科学技术首先是网络技术和数据库(特别是关系型数据库管理 技术,包括极为重要的实验室数据信息管理系统(u巧。其 它诸如数据整合和可视化、数据挖掘(Data Min岖、基于unix 操作系统的各种软件包以及人工智能,和一
17、些重要算法的复 杂性研究。六、生物信息学工业生物信息学不仅具有重大的科学意义,而且具有巨大的 经济效益。它既属于基础研究,以探索生物学自然规律为己 任;又属于应用研究,它的许多研究成果可以较快或立即产 业化,成为价值很高的产品。生物信息学的这一特点在现有 的许多学科中几乎是独一无二的。这里仅举一个例子来说明生物信息学工业的潜力。据 报导,只有50名员工的德国生物信息学公司,将通过扫 描公共数据库中的序列来发现500个可能的药物作用靶点, 以一亿美元的价格预售给德国Bayer公司。又据报导,生物 信息学产业的市场在1998年已经达到lO亿美元,而到2002年估计可增长到2000亿美元以上。这是一
18、笔巨大的财富, 任何政府的科技决策人都不能对此视而不见。NIH已向美 国国会建议投资l印亿美元在美国建立520个将生物学与 计算结合起来的中心。法国议会科技决策评估办公室,最近 评估了基因工程、生物信息学和组合化学等学科的应用前景 及法国的对策。美国出现了大批的基于生物信息学的公司, 实施了许多生物信息学研究计划,主要与药物设计,基因工 程药物,生物芯片,代谢工程与化学工程密切有关。生物信 息学工业是知识经济的一个典型,潜力巨大。七、展望与建议生物学是生物信息学的核心和灵魂,数学与计算机技术 则是它的基本工具。这一点必须着重指出。预测生物信息 学的未来主要就是要预测它对生物学的发展将带来什么样
19、 的根本性的突破。这种预测是十分困难的,甚至几乎不可 能。但是人类科学研究史表明,科学数据的大量积累将导致 重大的科学规律的发现。例如:对数百颗天体运行数据的分 析导致了开普勒三大定律和万有引力定律的发现;数十种元 素和上万种化合物数据的积累导致了元素周期表的发现;氢 原子光谱学数据的积累促成了量子理论的提出,为量子力学 的建立奠定了基础。历史的经验值得注意,有理由认为,今 日生物学数据的巨大积累也将导致重大生物学规律的发现。 生物信息学的发展在国内、外基本上都处在起步阶段,所拥 有的条件也大体相同,即使我国有关条件差一些,但差别也 不大。因此,这是我国生物学赶超国际先进水平的一个百年 一遇的
20、极好机会。机不可失,时不再来,鉴于生物信息学在 我国生物学和经济发展中的重要意义和其发展的紧迫性,因 此,由国家出面组织全国的力量,搞个类似“两弹一星”那样 的,但是规模要小的多的,花钱也少得多的生物信息学发展 计划,不是不可以考虑的。要充分发挥中央与地方,生物学 科与非生物学科研究人员等方方面面的积极性。生物信息 学研究投资少,见效快,可充分发挥我国智力资源丰富的长 处,是特别适合我国国情的一项研究领域。要在大学里建立 生物信息学专业,设立硕士点和博士点,培养专门人才。可 以组织一大批数学、物理、化学和计算机科技工作者,在自愿 的基础上,学习有关的生物学知识,开展多方面的生物信息 学研究。经
21、过十几年或更长时间的努力,逐渐使我国成为生 物信息学研究强国,是完全有可能的。The Current Status and The PrOspect of Bioinformatics院士论坛(bstitIIte of【jfe sci朗ce aINl瑚删e删。留,驯iIl Unive】rsi锣,删iII 300Cr72 AlbsI昀Ict:饥眈蠡pqPer,p,傲删lk施咄眇删以,6幻锄Z如施k螂,m讥聊孤础口,jB哪,如e刑兢删珊训i咖m泌 口,以矾咖sc记,l倪,舭讥函岱缈口,以如印琊群班旷蜀幻觇向m潮cs.&t舸出妣幻出抛却肋也向m溅讥ai妇 胁孵毓硼删.J pD妇。眦施如括舢f
22、y呐删幻姗扬蹴磁舭锄驯螗删溉矿口咖矿一 倒肋ce口,以删眦d如讥池眇f一伊删em.肋晚硒Mm泌埘讲町,加陀口,以黼切lpD加眦mk.如蠡捌删 妇龇础溉矿口删伽删旷妣啪删删幻沌咖矿岫脚掂6幻蛔删妣.幽帅旷肋i形葫mm如厶6傩ic口缈讥如e口咖黯昭.e 6D琥流C危白m n,访口6r0口d.刀翻吲舀re,豇函口,l麟f三B眦呼炉厅附l妙olr r奶go,方。删流口删“形幻mf口流口,以s珊眇s俄胁鲫般以啪r埘2e抛厶/打6汤Z0:gy流C危i,m.I责任编辑:曙光 埘争妒电矿1矿、驴叫驴、疹、矿电争、驴,驴驴,驴驴q驴、驴q矿、霉卜庐叫矿谚驴,驴痧驴q矿'矿、扩q争谚-驴驴电矿谚驴q矿妒q矿矿谚卅争电
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年中国波齿垫数据监测研究报告
- 演员影视合同范本
- 2024至2030年电子元件清洗设备项目投资价值分析报告
- 2024至2030年滩羊皮服装项目投资价值分析报告
- 转让仓储合同范本
- 2024至2030年中国停车场系统数据监测研究报告
- 2024年辣子鸡项目可行性研究报告
- 购买断桥铝门窗的合同范本
- 转让发廊合同范本
- 签订绩效合同范本
- (完整版)机加工作业指导书
- 污水处理厂单位、分部、分项工程划分
- 小学生自我意识心理辅导《独特的我——认识自己,悦纳自己》教案
- 凉菜日常工作操作流程与规范
- 施工现场保卫方案
- 《柔性接口给水管道支墩》(10S505国标图集)简介-国标10s505
- 围棋教案13教学设计
- EXCEL 支票打印模板
- 称念诸佛名号功德(3)
- 疯狂动物城歌词.doc
- 某住宅楼施工图预算毕业设计范本
评论
0/150
提交评论