生物信息学第一章课件_第1页
生物信息学第一章课件_第2页
生物信息学第一章课件_第3页
生物信息学第一章课件_第4页
生物信息学第一章课件_第5页
已阅读5页,还剩143页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

杜娟2013.02.27生物信息学杜娟生物信息学课程简介课程特点课程目标课程形式参考教材与文献教师联系方式成绩构成2课程简介课程特点2生物、计算机、数学、化学等多学科交叉,知识覆盖面广;涉及从基因组序列分析直到药物设计等众多内容,且应用领域宽广;生物信息数据资源与分析工具繁多,实践环节非常重要;理论方法尚不系统成熟,处于迅速发展变化阶段,知识更新快。缺乏合适的教材课程特点3生物、计算机、数学、化学等多学科交叉,知识覆盖面广;课程特点课程目标掌握生物信息学的基本知识与概念了解生物信息学网上资源针对核酸和蛋白质的分析4课程目标掌握生物信息学的基本知识与概念4课程形式讲授概念与知识点(Textbooks)自学与讨论(Websites)理解(Literaturereferences)掌握与巩固(ComputerExperiences)5课程形式讲授概念与知识点(Textbooks)5主要的参考教材1《生物信息学》,陶士珩主编科学出版社,20072《生物信息学》,DavidW.Mount著,钟扬、王莉、张亮等译,高等教育出版社,2003。

3生物信息学——基因和蛋白质分析的实用指南(AndreasD.BaxevanisAndB.F.FrancisOuellette著).李衍达、孙子荣等译.北京:清华大学出版社,2000

4《简明生物信息学》,钟扬等主编.高等教育出版社,2001

5《探索基因组学、蛋白质组学和生物信息学》,孙子荣译.科学出版社,2004

6《生物信息学方法与实践》,张成岗贺福初编著.科学出版社,20026主要的参考教材1《生物信息学》,陶士珩主编科参考文献主要为英文原始文献,鼓励大家阅读。课题的研究方法7参考文献主要为英文原始文献,鼓励大家阅读。7联系方式及成绩构成杜娟

dujuannx@126.com

成绩构成随堂测验、课堂表现30%

作业30%

项目报告40%

8联系方式及成绩构成杜娟

dujuannx@126.com89生物信息学——绪论一、生物信息学及其研究意义二、生物信息学的发展现状三、生物信息学当前的主要研究内容四、与生物信息学密切相关的学科五、生物信息学产业及前景9生物信息学——绪论一、生物信息学及其研究意义一、生物信息学及其研究意义生物信息学第一章课件背景1.

人类基因组计划(HGP)投入30亿美元,2003年完成精细图,约30亿个数据(碱基),相当于3000本每本1000页每页1000字的“天书”。曼哈顿原子弹计划阿波罗登月计划人类基因组计划11背景1.人类基因组计划(HGP)曼哈顿原子弹计划阿波罗登2.模式生物基因组计划模式生物基因组计划是人类基因组计划的一个重要组成部分。模式生物有:大肠杆菌、酵母、拟南芥、线虫、果蝇和小鼠等

3.相关功能基因组计划

转录组,基因表达谱,蛋白质组……122.模式生物基因组计划12生物学数据库的增长情况至今1000多个13生物学数据库的增长情况至今1000多个13序列数据增长趋势14序列数据增长趋势14生物数据爆炸性增长:生物数据量的积累已达到人类有史以来所说过的话的数百倍,而且还将以越来越快的速度增长。15生物数据爆炸性增长:生物数据量的积累已达到人类有史以来面对堆积如山的生物学数据……16面对堆积如山的生物学数据……16数据知识AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAACGT?17数据知识AGCATCGAAGTTGCATGACGATG多学科高度交叉

生物学医学

数学、统计学物理学、化学信息、系统与计算科学高性能计算、数据库、网格计算生物信息学与系统生物学18多学科高度交叉生物学医学数学、统计学物理学、化学信息、多尺度数据的整合和模拟19多尺度数据的整合和模拟19什么是生物信息学

生物信息学(BIOINFORMATICS)是一门集数学,计算机科学和生物学的工具以及技术于一体的涵盖了生物信息的获取,处理,存储,分配,分析和阐述等各个方面以理解海量的生物学数据为目的的学科UnderstandingOurGeneticInheritance.TheUSHumanGenomeProject:TheFirstFiveYears1991-1995.NIHPublicationNo.90-1590,April,1995生物信息技术是一个多学科交叉的前沿生物技术20什么是生物信息学生物信息学(BIOINFORMA生物信息学研究的意义科学意义:可望从海量生物学数据分析中获得对生命运行机制和疾病机理等的深入理解。应用价值:在生物医药研究和相关生物技术相关产业(生物制药、农、林、牧、渔、环保等)的发展中将发挥越来越重要的作用。21生物信息学研究的意义科学意义:可望从海量生物学数据分析中获得生物信息学是生命科学与信息技术交叉融合的新学科,也是当今全球最具发展前途的学科之一。

WhenIgivetalkstoyoungscientistsseekingadviceaboutareasoffutureintensescientificexcitement,computationalbiologyismynumberonerecommendation.FrancisCollins,DirectorofHGPatNIH生物信息学是生命科学与信息技术交叉融合的新学科,也是当今全球

生命科学已从一种以实验为基础的科学转向以信息为基础的科学,其成功将大大依靠信息科学与生命科学的联姻、依赖于生物信息技术的发展。基因信息现在正推动着生物制药革命。破译人类基因组给我们带来了打开这个星球上最有价值的图书馆的钥匙,但我们现在阅读这些图书还处在非常初级的水平,科学家的下一步工作将是如何把信息从这些图书中挖掘出来。目前美国缺少有能力阅读这部人类基因“天书”并使用其中信息的人。这个领域有非常多的机会,有非常大的需要。据估计,这一领域所需要的研究人员数量将是现有人数的50倍。培养这种人才就像破译人类基因组一样重要。

EricLander,200223生命科学已从一种以实验为基础的科学转向以信息为基础的科学,二、生物信息学的发展现状二、生物信息学的发展现状生物信息学的萌芽1956年在美国召开过首次“生物学中的信息理论”讨论会

60年代美国建立了手工搜集数据的蛋白质数据库,PIR

1962年Zuckerkandl基于序列变异分析的分子演化研究

1964年Davies开创了蛋白质结构预测的研究

1970年Needleman等发表了广受重视的两序列比较算法

1970年出现ComputerMethodsandProgramsinBiomedicine期刊

1974年Ratner首先对分子遗传调控系统进行处理分析

1975年Pipas等首先提出用计算机技术预测RNA二级结构

1979年美国洛斯阿拉莫斯国家实验室建立GenBank25生物信息学的萌芽1956年在美国召开过首次“生物学中的信生物信息学的萌芽(续)Science于1980年发表了关于计算分子生物学的综述1982年欧洲分子生物学实验室提供EMBL服务1984年日本着手建立国家级核酸序列数据库DDBJ1985年出现ComputerApplicationintheBiosciences期刊2620世纪80年代末期,林华安博士compbio——bioinformatique——bio-informatics——bioinformatics“生物信息学之父”生物信息学的萌芽(续)Science于1980年发表了关于计国外生物信息学的发展现状各种专业研究机构和公司如雨后春笋般涌现生物科技公司和制药工业内部生物信息学部门的数量与日俱增即使象美国这样的发达国家也面临生物信息人才匮乏的局面许多大学和研究机构已经成立自己的生物信息学中心1999年美国NIH专家委员会又建议迅速在大学和研究机构中建立20个生物计算中心,给予每个中心每年800万美元的支持,从事有关研究和人才培养英国所有主要研究资助机构达成共识,认为应高度优先满足对生物信息学技术的需求,并已实现对相关人才培养的大力资助27国外生物信息学的发展现状各种专业研究机构和公司如雨后春笋般涌国外生物信息学的发展现状(续)美国于1988年成立国家生物技术信息中心(NCBI)欧洲于1993年着手建立欧洲生物信息学研究所(EBI)日本于1995年组建了自己的信息生物学中心(CIB)九十年代以来,生物数据分析技术获得了突飞猛进的发展。生物信息专业期刊越来越多:如

Bioinformatics

JournalofComputationalBiology

BriefingsinBioinformatics

ActaBiotheoretica

BioInformaticsTechnology&Systems

BioinformNewsletter互联网上的生物信息学网点非常繁多28国外生物信息学的发展现状(续)美国于1988年成立国家生物技国内生物信息学的发展现状国家非常重视:科技部,教育部,基金委,地方政府 特别是:863计划设立了“生物信息技术”主题众多高校与研究机构参与:北京大学,中科院生物物理所、天津大学,中科院理论物理所,清华大学,内蒙古大学、上海生命研究院,东南大学,华中科技大学,复旦大学等等成立了一批中心,如:北京大学于1997年成立了生物信息学中心上海生命科学研究院于2000年成立了生物信息学中心上海市于2002年成立生物信息技术工程研究中心取得了一些成绩,如基因组测序与分析,数据库,算法软件29国内生物信息学的发展现状国家非常重视:科技部,教育部,基金委三、生物信息学当前的

主要研究内容三、生物信息学当前的

主要研究内容生物信息学的发展过程大致经历了3个阶段:前基因组时代--生物数据库的建立、检索工具的开发、DNA和蛋白质序列分析、全局和局部的序列对位排列;基因组时代--基因寻找和识别、网络数据库系统的建立、交互界面的开发;后基因组时代--大规模基因组系统分析、蛋白质组分析31生物信息学的发展过程大致经历了3个阶段:31

生物信息服务平台建设基因组序列分析蛋白质结构预测蛋白质功能预测基因表达谱数据分析疾病基因的预测药物设计中的应用32生物信息学的主要研究内容生物信息服务平台建设32生物信息学的主要研究内容1.生物信息服务平台建设生物信息数据的收集,建立生物信息一级数据库和二级数据库;建立生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;建立生物信息的可视化和在线服务系统;331.生物信息服务平台建设332.基因组序列分析342.基因组序列分析342.基因组序列分析(续)(1)蛋白编码区与基因结构预测(新基因的发现)意义:得到DNA序列中蛋白编码基因是认识基因组、了解其运作机理的第一步;利用计算机预测蛋白编码基因是一种方便、快捷的方法。现状:经过了10多年的研究,出现了众多的方法与分析软件,但效果仍难令人满意。以人类基因组为例,目前对人类基因数量的估计仍是众说纷纭。352.基因组序列分析(续)(1)蛋白编码区与基因结构预测(

例:WHATISGENEPREDICTION?

GIVENANUNCHARACTERIZEDDNASEQUENCE,FINDOUT:

1.WHEREDOESTHEGENESTARTSANDENDS?

2.WHICHREGIONSCODEFORAPROTEIN?

AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCgene1gene2gene3exonintergenicregionintron36例:WHATISGENEPREDICTION?

2.基因组序列分析(续)(2)基因调控序列的分析预测意义:了解基因调控序列是认识基因组、了解其运作机理的重要内容。现状:对启动子已经过了10多年的研究,出现了众多的方法与分析软件,但预测效果仍然很差。

372.基因组序列分析(续)(2)基因调控序列的分析预测372.基因组序列分析(续)(3)非编码序列的分析意义:对于人类基因组,非编码序列约占95%以上,了解这些“垃圾DNA”的作用是认识基因组、了解其运作机理的重要内容。现状:研究刚刚开始,普遍认为它们与基因在四维时空的表达调控有关。寻找这些区域的编码特征,信息调节与表达规律是未来相当长时间内的热点。38JunkDNA2.基因组序列分析(续)(3)非编码序列的分析38Jun2.基因组序列分析(续)(4)比较基因组研究意义:比较基因组学通过对代表性物种全基因组的比较分析,构建系统发育的遗传图谱,寻找不同物种在基因组水平上的差异和共同点,揭示基因、基因家族的起源和功能及其在进化过程中复杂化和多样化的机制,鉴定新的基因(包括人类疾病相关基因)。现状:研究刚刚开始。392.基因组序列分析(续)(4)比较基因组研究3940403.蛋白质结构预测意义:结构与功能密切联系有助于阐明疾病机理,并进行药物设计现状:通过实验的方法测定的蛋白质结构数量非常有限,基于计算机技术的结构预测还处于起步阶段,预测效果还不够理想,且耗费时间较长。413.蛋白质结构预测意义:41

蛋白质的空间构象

一级结构:是蛋白质空间构象和特异生物学功能的基础。42蛋白质的空间构象

一级二级结构:ALPHA-螺旋H-bondIndividualAminoacidα-螺旋:aresultofH-bondingbetweeneveryfourthpeptidebond(viaaminoandcarbonylgroups)alongthelengthofthepolypeptidechain43二级结构:ALPHA-螺旋H-bondIndividual二级结构:BETA折叠BETASHEET:aresultofH-bondingbetweenpolypeptidechains44二级结构:BETA折叠BETASHEET:aresLoopregionsα-Helixloopβ-Sheet45Loopregionsα-Helixloopβ-Sheet三级结构:多肽链中全部氨基酸残基的相对空间位置。46三级结构:多肽链中全部氨基酸残基的相对空间位置。46四级结构:蛋白质分子中各个亚基的空间排布及亚基接触部位的布局和相互作用。47四级结构:蛋白质分子中各个亚基的空间排布及亚基接触部位的布局

随着DNA测序技术的发展,DNA序列数量急增,从而也产生大量的蛋白质序列。目前,用实验的方法测定蛋白质结构速度非常慢,这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量的差距将会越来越大。

48随着DNA测序技术的发展,DNA序列数量NUMBEROFPROTEINENTRIESNumberoftheentries>53,9165now!49NUMBEROFPROTEINENTRIESNumbeThenumberofproteinstructuresinPDB.Lessthan90,000recently.NUMBEROFPROTEINSTRUCTURES50Thenumberofproteinstructur

…..那么如何缩小这种差距呢?51…..那么如何缩小这种差距呢?51蛋白质二级结构的预测:人工神经网络、遗传算法等技术构建预测方法(PHD、PSIPRED等)。有效预测率:75%左右二级结构预测通常作为蛋白质空间结构预测的第一步。蛋白质三维结构的预测:同源性建模、线索化方法、从头预测方法。根据数学计算,由100个氨基酸构成的小蛋白质的空间构象可能会有1050种空间结构,一种氨基酸序列只可能有一种蛋白质结构,这就是计算机预测蛋白质结构的意义所在。52蛋白质二级结构的预测:人工神经网络、遗传算法等技术构建预测方53534.蛋白质功能预测阐明蛋白质功能是后基因组时代最重要的内容之一。蛋白质功能的阐明将有助于疾病治疗,药物设计。蛋白质序列数量飞速增长,而相应的功能注释则远远滞后。544.蛋白质功能预测阐明蛋白质功能是后基因组时代最重要的内

蛋白质功能确定的思路及方法:

1.通过相似序列的数据库比对确定功能;

2.确定序列特性:疏水性预测跨膜螺旋等

3.通过序列模体数据库等的比对确定功能55蛋白质功能确定的思路及方法:555.基因表达谱数据分析565.基因表达谱数据分析565.基因表达谱数据分析(续)基因表达谱数据能够从基因转录水平反映细胞的状态,对于从系统水平了解基因组的功能具有重要价值;基因表达谱数据可以用于筛选疾病相关基因,揭示疾病的分子机制;基因表达谱可以用于疾病的分型和诊断;575.基因表达谱数据分析(续)基因表达谱数据能够从基因转录水6.疾病基因的预测寻找疾病相关基因对于揭示疾病机理,研制疾病的基因诊断与防止手段具有重要意义,对于生物医药产业的发展具有重要作用;目前已经找到约2000个人类遗传疾病致病基因,据估计,人类疾病基因总数约7000~8000,尚有多余2/3的疾病基因有待发现迄今我国只发现了6个疾病基因;利用生物信息学方法预测疾病基因是有效发现疾病基因的重要途径。586.疾病基因的预测寻找疾病相关基因对于揭示疾病机理,研制疾7.生物信息学与新药研制未来的药物研究过程将是基于生物信息知

识挖掘的过程数据处理和关联分析发现药物作用对象确定靶目标分子针对靶目标进行合理的药物设计597.生物信息学与新药研制数据处理和发现药物确定靶目标针对靶基于生物信息学的新药设计60基于生物信息学的新药设计60药物靶标识别现代新药研究与开发关键首先是寻找、确定和制备药物筛选靶标!药物靶标是某种疾病起因或特定生化通路中的生物大分子,其活性直接或间接地和疾病或某种性状相关,每一种药物都是通过药物靶点发挥作用!新的药物作用靶点一旦被发现,往往成为一系列新药发现的突破口;61药物靶标识别现代新药研究与开发关键首先是寻找、确定和制备药物四、生物信息学密切相关的学科四、生物信息学密切相关的学科1.生物生物基础理论知识(分子生物学、基因组学、蛋白质组学…)对基本的生物学实验有一定的了解(基因测序过程、芯片技术…)对数据的后续分析…同源比较、进化分析631.生物生物基础理论知识(分子生物学、基因组学、蛋2.数学统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如HMM--基因识别、药物设计;运筹学,如动态规划法--序列比对;最优化理论与算法--蛋白质空间结构预测、分子对接;几何拓扑学--DNA超螺旋研究、多肽链折叠;函数论,如傅里叶变换,小波变换;信息论,神经网络,计算数学;群论,组合数学等--

分子进化、蛋白质结构预测、序列比对;642.数学643.计算机科学技术首先是网络技术和数据库(特别是关系型数据库)管理技术,包括极为重要的实验室数据信息管理系统(LIMS);数据整合和可视化;数据挖掘(DataMining)与人工智能算法设计;生物信息软件研制计算机语言(C++,java,perl…)

653.计算机科学技术65五、生物信息学产业五、生物信息学产业生物信息学产业的潜力基础与应用二者兼备许多研究成果可以较快或立即产业化,成为价值很高的产品。是一个发展潜力很大的新兴高技术产业。67生物信息学产业的潜力67例子只有50名员工的德国Lion生物信息学公司,将通过扫描公共数据库中的序列来发现500个可能的药物作用靶点,以一亿美元的价格预售给德国Bayer公司。美国出现了大批的基于生物信息学的公司,实施了许多生物信息学研究计划,主要与药物设计,基因工程药物,生物芯片,代谢工程与化学工程密切相关。生物信息学工业是知识经济的一个典型,潜力巨大。68例子68

人类科学研究史表明,科学数据的大量积累将导致重大的科学规律的发现……69人类科学研究史表明,科学数据的大量IsaacNewton牛顿JohannesKepler开普勒TychoBrahe第谷第一次科学浪潮70天象观测大量数据行星运动定律万有引力定律航空航天技术IsaacNewtonJohannesKeplerTy元素与大量化合物

元素周期表

现代化学化工第二次科学浪潮DmitriMendeleev门捷列夫71元素与大量化合物元素周期表现代化学化工第二次科学大量原子光谱数据

量子论

量子力学

信息技术MaxKarlErnstLudwigPlanck普朗克AlbertEinstein爱因斯坦NielsBohr玻尔ErwinSchrödinger薛定谔第三次科学浪潮………72大量原子光谱数据量子论量子力学信息技术Ma基因组超大量的序列和结构数据

?重大的发现第四次科学浪潮?73基因组超大量的序列和结构数据?重大的发现第四次科学浪潮谢谢大家!74谢谢大家!74杜娟2013.02.27生物信息学杜娟生物信息学课程简介课程特点课程目标课程形式参考教材与文献教师联系方式成绩构成76课程简介课程特点2生物、计算机、数学、化学等多学科交叉,知识覆盖面广;涉及从基因组序列分析直到药物设计等众多内容,且应用领域宽广;生物信息数据资源与分析工具繁多,实践环节非常重要;理论方法尚不系统成熟,处于迅速发展变化阶段,知识更新快。缺乏合适的教材课程特点77生物、计算机、数学、化学等多学科交叉,知识覆盖面广;课程特点课程目标掌握生物信息学的基本知识与概念了解生物信息学网上资源针对核酸和蛋白质的分析78课程目标掌握生物信息学的基本知识与概念4课程形式讲授概念与知识点(Textbooks)自学与讨论(Websites)理解(Literaturereferences)掌握与巩固(ComputerExperiences)79课程形式讲授概念与知识点(Textbooks)5主要的参考教材1《生物信息学》,陶士珩主编科学出版社,20072《生物信息学》,DavidW.Mount著,钟扬、王莉、张亮等译,高等教育出版社,2003。

3生物信息学——基因和蛋白质分析的实用指南(AndreasD.BaxevanisAndB.F.FrancisOuellette著).李衍达、孙子荣等译.北京:清华大学出版社,2000

4《简明生物信息学》,钟扬等主编.高等教育出版社,2001

5《探索基因组学、蛋白质组学和生物信息学》,孙子荣译.科学出版社,2004

6《生物信息学方法与实践》,张成岗贺福初编著.科学出版社,200280主要的参考教材1《生物信息学》,陶士珩主编科参考文献主要为英文原始文献,鼓励大家阅读。课题的研究方法81参考文献主要为英文原始文献,鼓励大家阅读。7联系方式及成绩构成杜娟

dujuannx@126.com

成绩构成随堂测验、课堂表现30%

作业30%

项目报告40%

82联系方式及成绩构成杜娟

dujuannx@126.com883生物信息学——绪论一、生物信息学及其研究意义二、生物信息学的发展现状三、生物信息学当前的主要研究内容四、与生物信息学密切相关的学科五、生物信息学产业及前景9生物信息学——绪论一、生物信息学及其研究意义一、生物信息学及其研究意义生物信息学第一章课件背景1.

人类基因组计划(HGP)投入30亿美元,2003年完成精细图,约30亿个数据(碱基),相当于3000本每本1000页每页1000字的“天书”。曼哈顿原子弹计划阿波罗登月计划人类基因组计划85背景1.人类基因组计划(HGP)曼哈顿原子弹计划阿波罗登2.模式生物基因组计划模式生物基因组计划是人类基因组计划的一个重要组成部分。模式生物有:大肠杆菌、酵母、拟南芥、线虫、果蝇和小鼠等

3.相关功能基因组计划

转录组,基因表达谱,蛋白质组……862.模式生物基因组计划12生物学数据库的增长情况至今1000多个87生物学数据库的增长情况至今1000多个13序列数据增长趋势88序列数据增长趋势14生物数据爆炸性增长:生物数据量的积累已达到人类有史以来所说过的话的数百倍,而且还将以越来越快的速度增长。89生物数据爆炸性增长:生物数据量的积累已达到人类有史以来面对堆积如山的生物学数据……90面对堆积如山的生物学数据……16数据知识AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAACGT?91数据知识AGCATCGAAGTTGCATGACGATG多学科高度交叉

生物学医学

数学、统计学物理学、化学信息、系统与计算科学高性能计算、数据库、网格计算生物信息学与系统生物学92多学科高度交叉生物学医学数学、统计学物理学、化学信息、多尺度数据的整合和模拟93多尺度数据的整合和模拟19什么是生物信息学

生物信息学(BIOINFORMATICS)是一门集数学,计算机科学和生物学的工具以及技术于一体的涵盖了生物信息的获取,处理,存储,分配,分析和阐述等各个方面以理解海量的生物学数据为目的的学科UnderstandingOurGeneticInheritance.TheUSHumanGenomeProject:TheFirstFiveYears1991-1995.NIHPublicationNo.90-1590,April,1995生物信息技术是一个多学科交叉的前沿生物技术94什么是生物信息学生物信息学(BIOINFORMA生物信息学研究的意义科学意义:可望从海量生物学数据分析中获得对生命运行机制和疾病机理等的深入理解。应用价值:在生物医药研究和相关生物技术相关产业(生物制药、农、林、牧、渔、环保等)的发展中将发挥越来越重要的作用。95生物信息学研究的意义科学意义:可望从海量生物学数据分析中获得生物信息学是生命科学与信息技术交叉融合的新学科,也是当今全球最具发展前途的学科之一。

WhenIgivetalkstoyoungscientistsseekingadviceaboutareasoffutureintensescientificexcitement,computationalbiologyismynumberonerecommendation.FrancisCollins,DirectorofHGPatNIH生物信息学是生命科学与信息技术交叉融合的新学科,也是当今全球

生命科学已从一种以实验为基础的科学转向以信息为基础的科学,其成功将大大依靠信息科学与生命科学的联姻、依赖于生物信息技术的发展。基因信息现在正推动着生物制药革命。破译人类基因组给我们带来了打开这个星球上最有价值的图书馆的钥匙,但我们现在阅读这些图书还处在非常初级的水平,科学家的下一步工作将是如何把信息从这些图书中挖掘出来。目前美国缺少有能力阅读这部人类基因“天书”并使用其中信息的人。这个领域有非常多的机会,有非常大的需要。据估计,这一领域所需要的研究人员数量将是现有人数的50倍。培养这种人才就像破译人类基因组一样重要。

EricLander,200297生命科学已从一种以实验为基础的科学转向以信息为基础的科学,二、生物信息学的发展现状二、生物信息学的发展现状生物信息学的萌芽1956年在美国召开过首次“生物学中的信息理论”讨论会

60年代美国建立了手工搜集数据的蛋白质数据库,PIR

1962年Zuckerkandl基于序列变异分析的分子演化研究

1964年Davies开创了蛋白质结构预测的研究

1970年Needleman等发表了广受重视的两序列比较算法

1970年出现ComputerMethodsandProgramsinBiomedicine期刊

1974年Ratner首先对分子遗传调控系统进行处理分析

1975年Pipas等首先提出用计算机技术预测RNA二级结构

1979年美国洛斯阿拉莫斯国家实验室建立GenBank99生物信息学的萌芽1956年在美国召开过首次“生物学中的信生物信息学的萌芽(续)Science于1980年发表了关于计算分子生物学的综述1982年欧洲分子生物学实验室提供EMBL服务1984年日本着手建立国家级核酸序列数据库DDBJ1985年出现ComputerApplicationintheBiosciences期刊10020世纪80年代末期,林华安博士compbio——bioinformatique——bio-informatics——bioinformatics“生物信息学之父”生物信息学的萌芽(续)Science于1980年发表了关于计国外生物信息学的发展现状各种专业研究机构和公司如雨后春笋般涌现生物科技公司和制药工业内部生物信息学部门的数量与日俱增即使象美国这样的发达国家也面临生物信息人才匮乏的局面许多大学和研究机构已经成立自己的生物信息学中心1999年美国NIH专家委员会又建议迅速在大学和研究机构中建立20个生物计算中心,给予每个中心每年800万美元的支持,从事有关研究和人才培养英国所有主要研究资助机构达成共识,认为应高度优先满足对生物信息学技术的需求,并已实现对相关人才培养的大力资助101国外生物信息学的发展现状各种专业研究机构和公司如雨后春笋般涌国外生物信息学的发展现状(续)美国于1988年成立国家生物技术信息中心(NCBI)欧洲于1993年着手建立欧洲生物信息学研究所(EBI)日本于1995年组建了自己的信息生物学中心(CIB)九十年代以来,生物数据分析技术获得了突飞猛进的发展。生物信息专业期刊越来越多:如

Bioinformatics

JournalofComputationalBiology

BriefingsinBioinformatics

ActaBiotheoretica

BioInformaticsTechnology&Systems

BioinformNewsletter互联网上的生物信息学网点非常繁多102国外生物信息学的发展现状(续)美国于1988年成立国家生物技国内生物信息学的发展现状国家非常重视:科技部,教育部,基金委,地方政府 特别是:863计划设立了“生物信息技术”主题众多高校与研究机构参与:北京大学,中科院生物物理所、天津大学,中科院理论物理所,清华大学,内蒙古大学、上海生命研究院,东南大学,华中科技大学,复旦大学等等成立了一批中心,如:北京大学于1997年成立了生物信息学中心上海生命科学研究院于2000年成立了生物信息学中心上海市于2002年成立生物信息技术工程研究中心取得了一些成绩,如基因组测序与分析,数据库,算法软件103国内生物信息学的发展现状国家非常重视:科技部,教育部,基金委三、生物信息学当前的

主要研究内容三、生物信息学当前的

主要研究内容生物信息学的发展过程大致经历了3个阶段:前基因组时代--生物数据库的建立、检索工具的开发、DNA和蛋白质序列分析、全局和局部的序列对位排列;基因组时代--基因寻找和识别、网络数据库系统的建立、交互界面的开发;后基因组时代--大规模基因组系统分析、蛋白质组分析105生物信息学的发展过程大致经历了3个阶段:31

生物信息服务平台建设基因组序列分析蛋白质结构预测蛋白质功能预测基因表达谱数据分析疾病基因的预测药物设计中的应用106生物信息学的主要研究内容生物信息服务平台建设32生物信息学的主要研究内容1.生物信息服务平台建设生物信息数据的收集,建立生物信息一级数据库和二级数据库;建立生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;建立生物信息的可视化和在线服务系统;1071.生物信息服务平台建设332.基因组序列分析1082.基因组序列分析342.基因组序列分析(续)(1)蛋白编码区与基因结构预测(新基因的发现)意义:得到DNA序列中蛋白编码基因是认识基因组、了解其运作机理的第一步;利用计算机预测蛋白编码基因是一种方便、快捷的方法。现状:经过了10多年的研究,出现了众多的方法与分析软件,但效果仍难令人满意。以人类基因组为例,目前对人类基因数量的估计仍是众说纷纭。1092.基因组序列分析(续)(1)蛋白编码区与基因结构预测(

例:WHATISGENEPREDICTION?

GIVENANUNCHARACTERIZEDDNASEQUENCE,FINDOUT:

1.WHEREDOESTHEGENESTARTSANDENDS?

2.WHICHREGIONSCODEFORAPROTEIN?

AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCgene1gene2gene3exonintergenicregionintron110例:WHATISGENEPREDICTION?

2.基因组序列分析(续)(2)基因调控序列的分析预测意义:了解基因调控序列是认识基因组、了解其运作机理的重要内容。现状:对启动子已经过了10多年的研究,出现了众多的方法与分析软件,但预测效果仍然很差。

1112.基因组序列分析(续)(2)基因调控序列的分析预测372.基因组序列分析(续)(3)非编码序列的分析意义:对于人类基因组,非编码序列约占95%以上,了解这些“垃圾DNA”的作用是认识基因组、了解其运作机理的重要内容。现状:研究刚刚开始,普遍认为它们与基因在四维时空的表达调控有关。寻找这些区域的编码特征,信息调节与表达规律是未来相当长时间内的热点。112JunkDNA2.基因组序列分析(续)(3)非编码序列的分析38Jun2.基因组序列分析(续)(4)比较基因组研究意义:比较基因组学通过对代表性物种全基因组的比较分析,构建系统发育的遗传图谱,寻找不同物种在基因组水平上的差异和共同点,揭示基因、基因家族的起源和功能及其在进化过程中复杂化和多样化的机制,鉴定新的基因(包括人类疾病相关基因)。现状:研究刚刚开始。1132.基因组序列分析(续)(4)比较基因组研究39114403.蛋白质结构预测意义:结构与功能密切联系有助于阐明疾病机理,并进行药物设计现状:通过实验的方法测定的蛋白质结构数量非常有限,基于计算机技术的结构预测还处于起步阶段,预测效果还不够理想,且耗费时间较长。1153.蛋白质结构预测意义:41

蛋白质的空间构象

一级结构:是蛋白质空间构象和特异生物学功能的基础。116蛋白质的空间构象

一级二级结构:ALPHA-螺旋H-bondIndividualAminoacidα-螺旋:aresultofH-bondingbetweeneveryfourthpeptidebond(viaaminoandcarbonylgroups)alongthelengthofthepolypeptidechain117二级结构:ALPHA-螺旋H-bondIndividual二级结构:BETA折叠BETASHEET:aresultofH-bondingbetweenpolypeptidechains118二级结构:BETA折叠BETASHEET:aresLoopregionsα-Helixloopβ-Sheet119Loopregionsα-Helixloopβ-Sheet三级结构:多肽链中全部氨基酸残基的相对空间位置。120三级结构:多肽链中全部氨基酸残基的相对空间位置。46四级结构:蛋白质分子中各个亚基的空间排布及亚基接触部位的布局和相互作用。121四级结构:蛋白质分子中各个亚基的空间排布及亚基接触部位的布局

随着DNA测序技术的发展,DNA序列数量急增,从而也产生大量的蛋白质序列。目前,用实验的方法测定蛋白质结构速度非常慢,这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量的差距将会越来越大。

122随着DNA测序技术的发展,DNA序列数量NUMBEROFPROTEINENTRIESNumberoftheentries>53,9165now!123NUMBEROFPROTEINENTRIESNumbeThenumberofproteinstructuresinPDB.Lessthan90,000recently.NUMBEROFPROTEINSTRUCTURES124Thenumberofproteinstructur

…..那么如何缩小这种差距呢?125…..那么如何缩小这种差距呢?51蛋白质二级结构的预测:人工神经网络、遗传算法等技术构建预测方法(PHD、PSIPRED等)。有效预测率:75%左右二级结构预测通常作为蛋白质空间结构预测的第一步。蛋白质三维结构的预测:同源性建模、线索化方法、从头预测方法。根据数学计算,由100个氨基酸构成的小蛋白质的空间构象可能会有1050种空间结构,一种氨基酸序列只可能有一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论