版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学概论
IntroductiontoBioinformatics程钢生命科学学院中南民族大学1生物信息学概论
Introductionto一、生物信息学发展的背景二、生物信息学概念及其研究内容和特点三、生物信息学的发展现状四、生物信息学课程的特点22一、生物信息学发展的背景3一、生物信息学发展的背景3(1)基因组测序计划海量DNA序列数据DNA序列是生命的真谛,这个世界上发生的一切事情都与这一序列息息相关。(唯DNA论)人类基因组计划(HGP)1990年启动目标:测定人类基因组的全部DNA序列,了解基因及其功能国际大合作:美国、英国、日本、法国、德国、中国投入:30亿美元结果:2003年完成精细图,产生28亿多个数据(碱基)4(1)基因组测序计划海量DNA序列数据DNA序列是生命AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATAACGT相当于2800多本每本1000页每页1000字的“天书”5AGCATCGAAGTTGCATGACGATGCATGACC基因组测序计划海量DNA序列数据(续)模式生物基因组计划模式生物:小鼠、线虫、拟南芥、果蝇、水稻、酵母、古细菌、真细菌、病毒……地球生物圈约有140万余种物种,其中2%以上至少有一段DNA序列被测定。
▲
真核生物12500
种 ▲
哺乳动物4200
种 ▲
真细菌3600
种 ▲
古细菌180
种 ▲
病毒1750
种6基因组测序计划海量DNA序列数据(续)模式生物基因组计DNA序列数据增长趋势7DNA序列数据增长趋势7功能基因组研究功能相关海量数据转录组EST(ExpressedSequenceTag)DNAMicroarray–largescalegeneexpressionanalysis蛋白质组2DGelElectrophoresis–proteinexpressionanalysisMassSpectrometry–proteinsequencingYeastTwo-Hybrid(Y2H)System–proteininteractionanalysis结构基因组X-rayCrystallographyNMR(NuclearMagneticResonance)Spectroscopy……8功能基因组研究功能相关海量数据转录组8TheYeastcDNAMicroarrayPicture9TheYeastcDNAMicroarrayPict基因表达谱数据增长趋势10基因表达谱数据增长趋势10ThenumberofentriesinSwissProt>140,000now!蛋白质序列数据增长情况11ThenumberofentriesinSwissTertiaryStructureofaProtein12TertiaryStructureofaProteiThenumberofentriesinPDB25,000now蛋白质结构数据增长情况13ThenumberofentriesinPDB各种分子生物学数据库及其增长情况14各种分子生物学数据库及其增长情况14生物数据爆炸性增长:得到的结论是:生物数据量的积累已达到人类有史以来所记录的文字的数百倍,而且还将以越来越快的速度增长。15生物数据爆炸性增长:15(2)更为本质的原因是生物学数据的复杂性急待生物信息学的分析方法。
多基因病中致病基因彼此关系和致病性分析。蛋白三维结构和基于结构预测的蛋白之间或者蛋白与药物分子的相互作用和蛋白亚细胞定位。16(2)更为本质的原因是生物学数据的复杂性急待生物信息学的分析生物信息学是今后所有从事现代生物学(医药学)研究所必需的工具和相关工作人员需要具备的基本技能。
17生物信息学是今后所有从事现代生物学(医药学)研究所必需的工具二、生物信息学概念及其研究内容和特点18二、生物信息学概念及其研究内容和特点18生物数据爆炸性增长所带来的挑战AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAACGT海量数据的存储、管理、共享数据知识,如何将这些数据变为生物学知识?……19生物数据爆炸性增长所带来的挑战AGCATCGAAGTTGCA生物信息学基本概念早在1956年,在美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨会”上,便产生了生物信息学的概念。1987年,林华安博士正式把这一学科命名为“生物信息学”(Bioinformatics)。被尊称为“生物信息学之父”。生物信息学(Bioinformatics):(1)生物信息学包含了生物信息的获取、处理、储存、分析和解释等在内一门交叉学科,(2)它综合运用数学、计算机科学和生物学的各种工具进行研究,(3)目的在于阐明大量生物学数据所包含的生物学意义。20生物信息学基本概念早在1956年,在美国田纳西州盖特林堡召开生物信息学当前的主要研究任务生物数据的收集与服务基因组分析(核酸序列分析)转录组数据分析(基因表达分析)蛋白质组数据分析(七大方面)代谢组数据分析(生化网络以及多数据资源的整合分析)疾病基因预测(相关数据资源的整合分析)药物靶点发现与药物设计(相关数据资源的整合分析)生物信息分析的技术和方法研究21生物信息学当前的主要研究任务生物数据的收集与服务21生物信息学当前的主要研究任务生物数据的收集与服务基因组分析(核酸序列分析)核苷酸多态性的研究是以发现和分析群体(包括相近亚种间)DNA顺序上的差别为基础,揭示这些多态性与基因表达和基因功能的关系,基因型和表现型的内在联系。为我们绘制人类基因组单倍体图和以后绘制其他物种的遗传图谱奠定基础。
22生物信息学当前的主要研究任务生物数据的收集与服务22生物数据的收集与服务基因组分析(核酸序列分析)转录组数据分析(基因表达分析)RNA水平基因表达研究的基本方法有EST、Micro-array,所产生的数据量也非常巨大。但是目前的分析方法和手段都有很多潜力可以挖掘,尤其是数学模型的建立,与基因组数据的整合,对数据真实性的评估等。
生物信息学当前的主要研究任务23生物数据的收集与服务生物信息学当前的主要研究任务23蛋白质组学:
(1)蛋白质组图像数据处理,蛋白及其修饰鉴定(2)构建蛋白质数据库,相关软件的开发和应用;(3)蛋白质结构、功能预测;(4)蛋白质连锁图。生物信息学当前的主要研究任务24蛋白质组学:生物信息学当前的主要研究任务24代谢组学:新陈代谢是由错综复杂的生化代谢途径所构成的动态网络组成。要揭示代谢的本质是一个长期的目标。但是,我们可以从现有数据出发建立主要或特定代谢途径的模型,如影响人类健康的常见代谢疾病等。
生物信息学当前的主要研究任务25代谢组学:新陈代谢是由错综复杂的生化代谢途径所构成的动态网络生物信息学研究都有其特定的、不断创新的方法学。以系统优化、软件并行化和数据处理技术为主体的海量生物学数据处理体系的建立将基于新的思路和设想。生物信息学当前的主要研究任务26生物信息学研究都有其特定的、不断创新的方法学。以系统优化、软生物信息学的特点
它是一门基于数据积累,尤其是原始数据积累的科学。数据的获取是生物信息学发展的保障和本源。生物信息学研究首先也是基于实验数据的生产、管理和分析。因此,生物信息领域的首要特点是生物学基本数据收集的规模化,数据处理的程序化,数据分析的专门化。27生物信息学的特点它是一门基于数据积累,尤其是原始数据积累的生物信息学的特点极强的竞争性。不仅科研对失败者来说是无情的,而且用户对失败者也是不同情的。被遗弃的算法、工具和不完整的数据库比比皆是。28生物信息学的特点极强的竞争性。不仅科研对失败者来说是无情的,生物信息学的特点硬件:中高端的服务器和海量数据存储以及个人电脑互联网软件包括了两大方面:算法良好的用户界面29生物信息学的特点硬件:中高端的服务器和海量数据存储以及个人电生物信息学研究的意义科学意义:可望从海量生物学数据分析中获得对生命运行机制和疾病机理等等的深入理解。应用价值:在生物医药研究和生物技术相关产业(生物制药、农、林、牧、渔、环保等)的发展中将发挥越来越重要的作用。30生物信息学研究的意义科学意义:可望从海量生物学数据分析中获得生物信息学研究的意义产业潜力:自身产业发展潜力很大:1997年1.5亿美元,1998年2.7亿美元,1999年4.6亿美元,2000年已达7.4亿美元;预测2010年将达千亿美元。竞争优势:强调的是人才智力,是我国赶超世界发达国家最有希望的领域之一,是我国重点支持的方向之一。31生物信息学研究的意义产业潜力:自身产业发展潜力很大:1997三、生物信息学的发展现状32三、生物信息学的发展现状32生物信息学的发展过程大致经历了3个阶段:前基因组时代--生物数据库的建立、检索工具的开发、DNA和蛋白质序列分析、全局和局部的序列对位排列;33生物信息学的发展过程大致经历了3个阶段:331956年在美国召开过首次“生物学中的信息理论”讨论会60年代美国建立了手工搜集数据的蛋白质数据库1962年Zuckerkandl基于序列变异分析的分子演化研究1964年Davies开创了蛋白质结构预测的研究
1970年Needleman等发表了广受重视的两序列比较算法1970年出现ComputerMethodsandProgramsinBiomedicine期刊1974年Ratner首先对分子遗传调控系统进行处理分析1975年Pipas等首先提出用计算机技术预测RNA二级结构
1979年美国洛斯阿拉莫斯国家实验室建立GenBankScience于1980年发表了关于计算分子生物学的综述
1982年欧洲分子生物学实验室提供EMBL服务
1984年日本着手建立国家级核酸序列数据库DDBJ341956年在美国召开过首次“生物学中的信息理论”讨论会34基因组时代--基因寻找和识别、网络数据库系统的建立、交互界面的开发;美国于1988年成立国家生物技术信息中心(NCBI)欧洲于1993年着手建立欧洲生物信息学研究所(EBI)日本于1995年组建了自己的信息生物学中心(CIB)九十年代以来,生物数据分析技术获得了突飞猛进的发展。同时在国内北京大学于1997年成立了生物信息学中心上海生命科学研究院于2000年成立了生物信息学中心上海市于2002年成立生物信息技术工程研究中心35基因组时代--基因寻找和识别、网络数据库系统的建立、交互界面后基因组时代--大规模不同来源的组学数据分析。各种专业研究机构和公司如雨后春笋般涌现生物科技公司和制药工业内部生物信息学部门的数量与日俱增即使象美国这样的发达国家也面临生物信息人才匮乏的局面许多大学和研究机构已经成立自己的生物信息学中心生物信息专业期刊越来越多:如
Bioinformatics
JournalofComputationalBiology
BriefingsinBioinformatics
ActaBiotheoretica
BioInformaticsTechnology&Systems
BioinformNewsletter互联网上的生物信息学网点非常繁多36后基因组时代--大规模不同来源的组学数据分析。各种专业研究机PublishedApril25,20082007IF4.914作者:魏丽萍博士北京大学生命科学学院生物信息中心主任,教授蛋白质工程与植物基因工程国家重点实验室副主任于军博士中国科学院北京基因组研究所副所长37PublishedApril25,200837
bioinformaticstrainingprogramsinChina.
31个博士,硕士学位点38bioinformaticstrainin从工具的角度来讲,生物信息学是今后所有生物(医药)研究开发所必需的方法和相关工作人员需要具备的基本技能,所以生物信息学课程的建设对于生物相关专业有重要的实际意义。39从工具的角度来讲,生物信息学是今后所有39四、“生物信息学”课程的特点40四、“生物信息学”课程的特点40如何掌握好“生物信息学”?41如何掌握好“生物信息学”?41生物、计算机、数学等多学科交叉,知识覆盖面广;涉及从基因组序列分析直到药物设计等众多内容,且应用领域宽广;生物信息数据资源与分析工具繁多,实践环节非常重要;理论方法尚不系统成熟,处于迅速发展变化阶段,知识更新快。缺乏合适的教材课程特点42生物、计算机、数学等多学科交叉,知识覆盖面广;课程特点42数学方面统计学,是生物信息学的数学基础之一;概率论与随机过程理论;运筹学,如动态规划法;最优化理论与算法;几何拓扑学;函数论,如傅里叶变换,小波变换;信息论,神经网络,计算数学;群论,组合数学等。43数学方面43计算机方面网络技术和数据库(特别是关系型数据库)管理技术;数据整合和可视化;数据挖掘(DataMining)与人工智能;算法设计;软件研制。44计算机方面44本课程基本要求硬件:中高端的服务器和海量数据存储以及个人电脑(电脑的熟练使用)互联网(熟练的使用)软件包括了两大方面:算法(基本了解)良好的用户界面(熟练的使用)45本课程基本要求硬件:中高端的服务器和海量数据存储以及个人电脑本课程高级要求了解问题掌握方法熟悉资源融会贯通46本课程高级要求了解问题46了解问题核酸序列分析分子进化与系统发育分析蛋白质结构预测(蛋白质序列分析)基因功能预测(蛋白质序列分析、基因表达数据分析、蛋白质组数据分析、核酸序列分析……)高阶系统的建模与仿真(众多数据资源的整合分析)疾病基因预测(相关数据资源的整合分析)药物靶点发现与药物设计(相关数据资源的整合分析)其它方面的应用研究(相关数据资源的整合分析)47了解问题核酸序列分析47掌握方法数据挖掘与知识发现方法:贝叶斯方法判别分析决策树特征的选择与提取聚类方法HMM(HiddenMarkovModel)方法ANN(ArtificialNeuralNetwork)方法SVM(SupportVectorMachine)方法……数据库与软件的设计与开发……48掌握方法数据挖掘与知识发现方法:48熟悉资源数据资源分子生物学数据库数量众多(500种以上)、种类繁多基因组数据库、核酸序列数据库、蛋白质序列数据库生物大分子三维空间结构数据库特殊功能数据库、工具数据库分析软件资源核酸序列分析;蛋白质序列分析;……其它资源搜索引擎;电子论坛;……49熟悉资源数据资源49参考书目《生物信息学概论》
"Introductiontobioinformatics"
(英)TKAttwood,DJParry-Smith著罗静初等译
北京大学出版社2002年4月第一版
《生物信息学手册》郝柏林张淑誉编著
上海科学技术出版社2000年10月第一版
《生物信息学》赵国屏等编著
科学出版社2002年4月第一版
《生物信息学--基因和蛋白质分析的实用指南》
"Bioinformatics--APracticalGuidetotheAnalysisofGenesandProteins"
AndreasD.BaxevanisB.F.FrancisOuellette著
李衍达孙之荣等译
清华大学出版社2000年8月第一版
50参考书目《生物信息学概论》
"Introductionto思考题生物信息学的定义51思考题生物信息学的定义51联系方式:电话:65201076(O:8号楼213#)
Email:cheng_gang28@52联系方式:52生物信息学概论
IntroductiontoBioinformatics程钢生命科学学院中南民族大学53生物信息学概论
Introductionto一、生物信息学发展的背景二、生物信息学概念及其研究内容和特点三、生物信息学的发展现状四、生物信息学课程的特点542一、生物信息学发展的背景55一、生物信息学发展的背景3(1)基因组测序计划海量DNA序列数据DNA序列是生命的真谛,这个世界上发生的一切事情都与这一序列息息相关。(唯DNA论)人类基因组计划(HGP)1990年启动目标:测定人类基因组的全部DNA序列,了解基因及其功能国际大合作:美国、英国、日本、法国、德国、中国投入:30亿美元结果:2003年完成精细图,产生28亿多个数据(碱基)56(1)基因组测序计划海量DNA序列数据DNA序列是生命AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATAACGT相当于2800多本每本1000页每页1000字的“天书”57AGCATCGAAGTTGCATGACGATGCATGACC基因组测序计划海量DNA序列数据(续)模式生物基因组计划模式生物:小鼠、线虫、拟南芥、果蝇、水稻、酵母、古细菌、真细菌、病毒……地球生物圈约有140万余种物种,其中2%以上至少有一段DNA序列被测定。
▲
真核生物12500
种 ▲
哺乳动物4200
种 ▲
真细菌3600
种 ▲
古细菌180
种 ▲
病毒1750
种58基因组测序计划海量DNA序列数据(续)模式生物基因组计DNA序列数据增长趋势59DNA序列数据增长趋势7功能基因组研究功能相关海量数据转录组EST(ExpressedSequenceTag)DNAMicroarray–largescalegeneexpressionanalysis蛋白质组2DGelElectrophoresis–proteinexpressionanalysisMassSpectrometry–proteinsequencingYeastTwo-Hybrid(Y2H)System–proteininteractionanalysis结构基因组X-rayCrystallographyNMR(NuclearMagneticResonance)Spectroscopy……60功能基因组研究功能相关海量数据转录组8TheYeastcDNAMicroarrayPicture61TheYeastcDNAMicroarrayPict基因表达谱数据增长趋势62基因表达谱数据增长趋势10ThenumberofentriesinSwissProt>140,000now!蛋白质序列数据增长情况63ThenumberofentriesinSwissTertiaryStructureofaProtein64TertiaryStructureofaProteiThenumberofentriesinPDB25,000now蛋白质结构数据增长情况65ThenumberofentriesinPDB各种分子生物学数据库及其增长情况66各种分子生物学数据库及其增长情况14生物数据爆炸性增长:得到的结论是:生物数据量的积累已达到人类有史以来所记录的文字的数百倍,而且还将以越来越快的速度增长。67生物数据爆炸性增长:15(2)更为本质的原因是生物学数据的复杂性急待生物信息学的分析方法。
多基因病中致病基因彼此关系和致病性分析。蛋白三维结构和基于结构预测的蛋白之间或者蛋白与药物分子的相互作用和蛋白亚细胞定位。68(2)更为本质的原因是生物学数据的复杂性急待生物信息学的分析生物信息学是今后所有从事现代生物学(医药学)研究所必需的工具和相关工作人员需要具备的基本技能。
69生物信息学是今后所有从事现代生物学(医药学)研究所必需的工具二、生物信息学概念及其研究内容和特点70二、生物信息学概念及其研究内容和特点18生物数据爆炸性增长所带来的挑战AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAACGT海量数据的存储、管理、共享数据知识,如何将这些数据变为生物学知识?……71生物数据爆炸性增长所带来的挑战AGCATCGAAGTTGCA生物信息学基本概念早在1956年,在美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨会”上,便产生了生物信息学的概念。1987年,林华安博士正式把这一学科命名为“生物信息学”(Bioinformatics)。被尊称为“生物信息学之父”。生物信息学(Bioinformatics):(1)生物信息学包含了生物信息的获取、处理、储存、分析和解释等在内一门交叉学科,(2)它综合运用数学、计算机科学和生物学的各种工具进行研究,(3)目的在于阐明大量生物学数据所包含的生物学意义。72生物信息学基本概念早在1956年,在美国田纳西州盖特林堡召开生物信息学当前的主要研究任务生物数据的收集与服务基因组分析(核酸序列分析)转录组数据分析(基因表达分析)蛋白质组数据分析(七大方面)代谢组数据分析(生化网络以及多数据资源的整合分析)疾病基因预测(相关数据资源的整合分析)药物靶点发现与药物设计(相关数据资源的整合分析)生物信息分析的技术和方法研究73生物信息学当前的主要研究任务生物数据的收集与服务21生物信息学当前的主要研究任务生物数据的收集与服务基因组分析(核酸序列分析)核苷酸多态性的研究是以发现和分析群体(包括相近亚种间)DNA顺序上的差别为基础,揭示这些多态性与基因表达和基因功能的关系,基因型和表现型的内在联系。为我们绘制人类基因组单倍体图和以后绘制其他物种的遗传图谱奠定基础。
74生物信息学当前的主要研究任务生物数据的收集与服务22生物数据的收集与服务基因组分析(核酸序列分析)转录组数据分析(基因表达分析)RNA水平基因表达研究的基本方法有EST、Micro-array,所产生的数据量也非常巨大。但是目前的分析方法和手段都有很多潜力可以挖掘,尤其是数学模型的建立,与基因组数据的整合,对数据真实性的评估等。
生物信息学当前的主要研究任务75生物数据的收集与服务生物信息学当前的主要研究任务23蛋白质组学:
(1)蛋白质组图像数据处理,蛋白及其修饰鉴定(2)构建蛋白质数据库,相关软件的开发和应用;(3)蛋白质结构、功能预测;(4)蛋白质连锁图。生物信息学当前的主要研究任务76蛋白质组学:生物信息学当前的主要研究任务24代谢组学:新陈代谢是由错综复杂的生化代谢途径所构成的动态网络组成。要揭示代谢的本质是一个长期的目标。但是,我们可以从现有数据出发建立主要或特定代谢途径的模型,如影响人类健康的常见代谢疾病等。
生物信息学当前的主要研究任务77代谢组学:新陈代谢是由错综复杂的生化代谢途径所构成的动态网络生物信息学研究都有其特定的、不断创新的方法学。以系统优化、软件并行化和数据处理技术为主体的海量生物学数据处理体系的建立将基于新的思路和设想。生物信息学当前的主要研究任务78生物信息学研究都有其特定的、不断创新的方法学。以系统优化、软生物信息学的特点
它是一门基于数据积累,尤其是原始数据积累的科学。数据的获取是生物信息学发展的保障和本源。生物信息学研究首先也是基于实验数据的生产、管理和分析。因此,生物信息领域的首要特点是生物学基本数据收集的规模化,数据处理的程序化,数据分析的专门化。79生物信息学的特点它是一门基于数据积累,尤其是原始数据积累的生物信息学的特点极强的竞争性。不仅科研对失败者来说是无情的,而且用户对失败者也是不同情的。被遗弃的算法、工具和不完整的数据库比比皆是。80生物信息学的特点极强的竞争性。不仅科研对失败者来说是无情的,生物信息学的特点硬件:中高端的服务器和海量数据存储以及个人电脑互联网软件包括了两大方面:算法良好的用户界面81生物信息学的特点硬件:中高端的服务器和海量数据存储以及个人电生物信息学研究的意义科学意义:可望从海量生物学数据分析中获得对生命运行机制和疾病机理等等的深入理解。应用价值:在生物医药研究和生物技术相关产业(生物制药、农、林、牧、渔、环保等)的发展中将发挥越来越重要的作用。82生物信息学研究的意义科学意义:可望从海量生物学数据分析中获得生物信息学研究的意义产业潜力:自身产业发展潜力很大:1997年1.5亿美元,1998年2.7亿美元,1999年4.6亿美元,2000年已达7.4亿美元;预测2010年将达千亿美元。竞争优势:强调的是人才智力,是我国赶超世界发达国家最有希望的领域之一,是我国重点支持的方向之一。83生物信息学研究的意义产业潜力:自身产业发展潜力很大:1997三、生物信息学的发展现状84三、生物信息学的发展现状32生物信息学的发展过程大致经历了3个阶段:前基因组时代--生物数据库的建立、检索工具的开发、DNA和蛋白质序列分析、全局和局部的序列对位排列;85生物信息学的发展过程大致经历了3个阶段:331956年在美国召开过首次“生物学中的信息理论”讨论会60年代美国建立了手工搜集数据的蛋白质数据库1962年Zuckerkandl基于序列变异分析的分子演化研究1964年Davies开创了蛋白质结构预测的研究
1970年Needleman等发表了广受重视的两序列比较算法1970年出现ComputerMethodsandProgramsinBiomedicine期刊1974年Ratner首先对分子遗传调控系统进行处理分析1975年Pipas等首先提出用计算机技术预测RNA二级结构
1979年美国洛斯阿拉莫斯国家实验室建立GenBankScience于1980年发表了关于计算分子生物学的综述
1982年欧洲分子生物学实验室提供EMBL服务
1984年日本着手建立国家级核酸序列数据库DDBJ861956年在美国召开过首次“生物学中的信息理论”讨论会34基因组时代--基因寻找和识别、网络数据库系统的建立、交互界面的开发;美国于1988年成立国家生物技术信息中心(NCBI)欧洲于1993年着手建立欧洲生物信息学研究所(EBI)日本于1995年组建了自己的信息生物学中心(CIB)九十年代以来,生物数据分析技术获得了突飞猛进的发展。同时在国内北京大学于1997年成立了生物信息学中心上海生命科学研究院于2000年成立了生物信息学中心上海市于2002年成立生物信息技术工程研究中心87基因组时代--基因寻找和识别、网络数据库系统的建立、交互界面后基因组时代--大规模不同来源的组学数据分析。各种专业研究机构和公司如雨后春笋般涌现生物科技公司和制药工业内部生物信息学部门的数量与日俱增即使象美国这样的发达国家也面临生物信息人才匮乏的局面许多大学和研究机构已经成立自己的生物信息学中心生物信息专业期刊越来越多:如
Bioinformatics
JournalofComputationalBiology
BriefingsinBioinformatics
ActaBiotheoretica
BioInformaticsTechnology&Systems
BioinformNewsletter互联网上的生物信息学网点非常繁多88后基因组时代--大规模不同来源的组学数据分析。各种专业研究机PublishedApril25,20082007IF4.914作者:魏丽萍博士北京大学生命科学学院生物信息中心主任,教授蛋白质工程与植物基因工程国家重点实验室副主任于军博士中国科学院北京基因组研究所副所长89PublishedApril25,200837
bioinformaticstrainingprograms
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海市重点建设项目社会稳定风险评估报告编制指南
- 四年级数学(上)计算题专项练习及答案汇编
- 海岛雷达塔玻璃钢接闪杆 耐腐蚀玻璃纤维灯杆监控杆 场变放电避雷针
- 酿酒制酒知识培训课件
- 春节汽车市场解析
- 2025版建筑工程施工现场环境保护资金投入保障合同3篇
- 中国卫星网络集团有限公司介绍
- 二零二五年度房产交易资金监管居间合同3篇
- 从《西游记》到《黑神话:悟空》:孙悟空的游戏形象变迁与跨媒介叙事
- 以爱之名反对歧视
- 暖通工程合同
- 生产型企业规章管理制度(3篇)
- 钢结构之楼承板施工方案流程
- 2024年营销部工作人员安全生产责任制(2篇)
- ISO 56001-2024《创新管理体系-要求》专业解读与应用实践指导材料之3:4组织环境-4.1理解组织及其环境(雷泽佳编制-2025B0)
- 2024-2030年中国管道检测工程行业前景分析发展规划研究报告
- 新的护理交班模式
- 2024年安徽省高校分类对口招生考试数学试卷真题
- 2024电影数字节目管理中心招聘历年高频难、易错点练习500题附带答案详解
- 棋牌室消防应急预案
- 《ISO56001-2024创新管理体系 - 要求》之22:“8运行-8.2 创新行动”解读和应用指导材料(雷泽佳编制-2024)
评论
0/150
提交评论