生物信息学简介(1)幻灯片_第1页
生物信息学简介(1)幻灯片_第2页
生物信息学简介(1)幻灯片_第3页
生物信息学简介(1)幻灯片_第4页
生物信息学简介(1)幻灯片_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学简介(1)幻灯片本课件PPT仅供大家学习使用学习完请自行删除,谢谢!本课件PPT仅供大家学习使用学习完请自行删除,谢谢!主讲教师:高昇Cell:Email:Office:教三楼803-模式识别实验室助教:莫能斌Cell:Email:Office:教三楼803-模式识别实验室参考资料孙啸等编著,?生物信息学根底?,清华大学出版社,2005年5月.王勇献等编著,?生物信息学导论——面向高性能计算的算法与应用?,清华大学出版社,2021年6月.陈宝林,最优化理论与算法(第二版),清华大学出版社,2005年10月.课件存放邮箱:bioinfo_bupt@163 passwd:bioinfo考核方式期末成绩40%大作业or考试平时成绩40%小作业开放工程,鼓励自由参与日常考勤20%课程定位IntroductiontoLifeScienceandArtificialLife生物信息根底生命科学中的信息科学利用信息科学的方法和技术,研究生物体系和生物过程中信息的存储、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息。Bioinformatics:分析复杂生物学数据的学科:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。分子生物信息学〔MolecularBioinformatics〕内容提要生物信息学产生的背景什么是生物信息学生物信息学的研究意义生物信息学的开展历史生物信息学主要研究内容生物信息学所用的方法和技术生命信息的组织、传递、表达物理化学分子生物学遗传学信息技术引言历史回忆(1)1866年,神父GregorMendel通过对豌豆的杂交和遗传学研究,提出了传递遗传特征的根本单位---遗传因子(基因)的概念1944年,Avery&McCarty第一次发现了遗传信息的载体是染色体上的DNA(而不是先前认为的蛋白质).历史回忆(2)1953年,JamesWatson&FrancisCrick发现了DNA的双螺旋空间构造并推断出了DNA的复制方式,由此揭开了分子生物学研究的序幕。1990年,人类基因组方案启动人类历史上的三大科技工程曼哈顿原子弹研制计划人类基因组计划阿波罗登月计划罗斯福批准耗资20亿美元原子半径 10-10m原子体积 10-30m3克林顿、布莱尔批准耗资30亿美元肯尼迪批准耗资240亿美元人体半径 100m人体体积 100m3太阳系半径 1012m太阳系体积 1034m3人类基因组方案人类基因组方案(HumanGenomeProject,HGP)1986年R.Dulbeccol在Science上撰文,建议对人类基因组进展全测序。1990年美国政府正式启动人类基因组方案耗资30亿美元、为期15年的方案,预期到2005年完成人类基因组大约30亿个碱基的全序列测定美、英、日、法、德、中六国科学家共同参与HGP的主要任务是:人类基因组以及一些模式生物体(细菌、酵母、线虫、果蝇等)基因组的作图、测序和基因识别。人类基因组方案的开展历程前期准备1984年 DOE(DepartmentofEnergy)委托Alta,WhiteR.,MendelsonhmM科学家专业会议;1985年提出人类基因组方案的动议1986年 McKusickV称从整个基因组层次上研究遗传的科学为基因组学1986年 DulbeccoR在Science上发表文章〞肿瘤研究的转折人类基因组的全序列分析〞,提出人类基因组方案1986年 GilbertW&BergP主持人类基因组方案专家会议1987年 DOE(能源部)和NIH(国家安康研究院)下拨研究经费1988年 NRC(原子能调整委员会)的专家发表mappingandsequencingthehumangenome报告1988年 成立了国家人类基因组研究中心。Watson第一任主任。人类基因组方案的开展历程正式启动1990年 经过5年辩论,美国国会通过“人类基因组方案〞

1990年10月1日启动

方案15年,30亿美元

多国参与(英国1989,法国1990,德国1995,中国1999)1990年 6月,欧共体通过“欧洲人类基因组方案〞。

此外,丹麦,日本,韩国,俄罗斯和澳大利亚也参加行动行列1999年 9月1日,杨焕明教授在第五次伦敦国际人类基因组战略讨论会上介绍情况。会议正式承受中国参加国际合作,划定了测序区域,正式承担1%的测序任务2000年 6月26日各国科学家公布了人类基因组工作草图2004年 精度大于99%的完成图公布人类基因组方案参与HGP的国家美国〔54%〕英国〔33%〕日本〔7%〕法国〔2.8%〕德国〔2.2%〕中国〔1%〕目标:测定人类基因组DNA序列中的30亿个碱基顺序,获取四张图谱:遗传图谱物理图谱序列图谱基因图谱HGP负责人柯林斯(Collins)种类数目备注古细菌(Archaea)16真细菌(Bacteria)120其中有的测定了2个以上的菌株真核生物(Eukaryo)15包括酵母、线虫、果蝇、蚊子、拟南芥、人等病毒(Virus)885包括不同亚类或不同株系类病毒(Viroid)40包括不同亚类或不同株系噬菌体(Phage)114包括不同亚类或不同株系细胞器(Organelle)308包括线粒体和叶绿体质粒(Plasmid)282103Kilo106Mega109Giga1012Tera1015Peta1018Exa1021Zetta1024Yotta

一个普通生物实验室每年产生的数据量 100Terra-bytes(1014)

人类迄今为止所说过的话(词语量) ~5exa-bytes(5

1018)生物信息量至少是所有人类说过的话的200倍!巨量的数据GenBankDataYearBasePairsSequences1982680,33860619832,274,0292,42719843,368,7654,17519855,204,4205,70019869,615,3719,978198715,514,77614,584198823,800,00020,579198934,762,58528,791199049,179,28539,533199171,947,42655,6271992101,008,48678,6081993157,152,442143,4921994217,102,462215,2731995384,939,485555,6941996651,972,9841,021,21119971,160,300,6871,765,84719982,008,761,7842,837,89719993,841,163,0114,864,570200011,101,066,28810,106,023200115,849,921,43814,976,310200228,507,990,16622,318,883200336,553,368,48530,968,418200444,575,745,17640,604,319蛋白质序列四种数据原始数据(Originaldata)科学文献(Scientificliterature)数据组合(Datasets)综合性数据(Organizeddata)后基因组时代的呼唤传统生物学:实验科学现代生物学的开展:数据获取日益实现自动化、半工业化从数据库中实现数据挖掘、知识发现海量数据难以完全依赖实验手段对新数据进展分析,必须借助计算机实现分析和筛选更复杂层次的生物学问题复杂的基因调控网络、代谢网络;细胞间信号转导过程;生物个体全部基因表达变化……面对堆积如山的生物学数据……HGP生物数据的激增(每15个月翻一番)生物学家数学家信息科学家生物信息学(bioinfomatics)的诞生生物信息学概念“Wearenotlimitedbythenumberofexperimentsthatwecando,wearelimitedbyourabilitytounderstandtheinformationthatisgeneratedasaresultoftheseexperiments.“Biologyisquicklybecominganinformationscience.生物学日益成为一门信息科学Biologyeasilyhas500yearsofexcitingproblemstoworkon.生物学中有着至少500年也解决不完的有趣问题。——DonaldE.KnuthLet’sbeginourexplorationofcomputationalandtheoreticalbiology!什么是生物信息学生物信息学是现代生命科学与信息科学、计算机科学、数学、统计学、物理学、化学等学科相互渗透而形成的穿插学科,是应用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读,以帮助了解生物学信息的科学。从研究涉及的学科来看:多学科穿插从研究内容来看:基因组信息学、蛋白质组信息学、构造模拟与分子设计等构成其主要组成局部生物体系和生物过程中信息的存储、传递和表达细胞、组织、器官的生理、病理、药理过程的中各种生物信息信息科学生命科学中的信息科学概念〔广义〕生物分子数据深层次生物学知识分子生物信息学MolecularBioinformatics挖掘获取概念〔狭义〕生物分子信息的获取、存储、分析和利用生物分子数据信息计算

+Bioinformatics细胞分子存储、复制、传递和表达遗传信息的系统生物信息的载体生物分子信息主要研究两种信息载体DNA分子蛋白质分子生物分子至少携带三种信息遗传信息与功能相关的构造信息进化信息遗传信息的载体---DNA遗传信息的载体主要是DNA控制生物体性状的基因是---系列DNA片段生物体生长发育的本质就是遗传信息的传递和表达DNA生物体(人)人体由上亿个细胞组成每个细胞都有着相同的染色体组染色体对每条染色体是一个DNA分子,基因是DNA的功能区域DNA双螺旋结构7.5-10

101223对2.8-3.5万蛋白质的构造决定其功能蛋白质功能取决于蛋白质的空间构造蛋白质构造决定于蛋白质的序列〔这是目前根本共认的假设〕,蛋白质构造的信息隐含在蛋白质序列之中。DNA分子和蛋白质分子

都含有进化信息通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。通过比较来自于不同种属的同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。生物分子信息DNA序列数据蛋白质序列数据生物分子结构数据生物分子功能数据最基本直观复杂DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本的生物信息维持生命活动的机器第一部:遗传密码第二部:遗传密码?生命体系千姿百态的变化生物分子数据及其关系生物分子信息的特征生物分子信息数据量大生物分子信息复杂生物分子信息之间存在着密切的联系生物信息学的目标和任务收集和管理生物分子数据数据分析和挖掘开发分析工具和实用软件生物分子序列比较工具基因识别工具生物分子构造预测工具基因表达数据分析工具实验

数据

信息知识收集表示分析建模刻画特征比较推理应用基因工程蛋白质设计疾病诊断疾病治疗开发新药生物分子信息处理流程数据源数据量生物信息学任务DNA序列11.5百万条序列125.0亿个碱基分离编码与非编码区域识别内含子与外显子基因产物预测基因功能注释基因调控信息分析蛋白质序列40.0万条序列(每条序列平均有300氨基酸)序列比较多重序列比对识别保守的序列模式进化分析数据源数据量生物信息学任务大分子结构1.5万个结构(每个结构平均1000个原子坐标)二级结构、空间结构预测三维结构比对蛋白质几何学度量表面和形态计算分子间相互作用分析分子模拟基因组300个基因组标注重复序列基因结构分析系统发生分析基因与疾病的连锁分析基因组比较遗传语言分析数据源数据量生物信息学任务基因表达酵母6000个基因在约20时间点表达值表达模式相关分析基因基因调控网络分析表达调控信息分析分子生物学的三大核心数据库GenBank核酸序列数据库SWISS-PROT蛋白质序列数据库PDB生物大分子构造数据库生物信息学研究意义认识生物本质了解生物分子信息的组织和构造,破译基因组信息,说明生物信息之间的关系。改变生物学的研究方式改变传统研究方式,引进现代信息学方法在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据生物信息学基本思想的产生生物信息学的迅速发展二十世纪50年代二十世纪80-90年代生物科学和技术的发展人类基因组计划的推动生物信息学的开展历史20世纪50年代,生物信息学开场孕育20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来20世纪70年代,生物信息学的真正开端20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方法20世纪80年代以后,出现一批生物信息效劳机构和生物信息数据库20世纪90年代后,HGP促进生物信息学的迅速开展生物信息学主要研究内容序列分析/SequenceanalysisSequencealignmentStructureandfunctionpredictionGenefinding构造分析/StructureanalysisProteinstructurecomparisonProteinstructurepredictionRNAstructuremodeling表达分析/ExpressionanalysisGeneclusteringGenexpressionanalysis蛋白质组学/ProteomicsProtein-ProteinInteraction基因组数据库蛋白质序列数据库蛋白质结构数据库DDBJEMBLGenBankSWISS-PROTPDBPIR生物分子数据的收集与管理序列分析从DNA序列与蛋白质序列中进展信息及模式发现寻找进化联系寻找基因组的编码区寻找序列中的功能信号区全基因组序列的拼接与组装识别非编码区,探索其功能单核苷酸多态性SNP(Singlenucleotidepolymorphism)序列比对/alignment序列分析分子进化和比较基因组学构造分析蛋白质构造和功能的预测分析蛋白质家族保守序列寻找从氨基酸组成辨识蛋白质蛋白质二级构造预测蛋白质的三维构造蛋白质的物理性质预测其他特殊局部信息:其它特殊局部构造包括膜蛋白的跨膜螺旋、信号肽、卷曲螺旋(CoiledCoils)等,具有明显的序列特征和构造特征,也可以用计算方法加以预测基因表达数据分析基因表达数据:近年来biochips,microarray技术迅速开展起来,使得我们可能得到同一时间成千上万个基因的表达水平的数据。上述基因表达数据为我们提供了深入研究基因功能,基因相互作用,基因网络等复杂网络问题的有力工具。基因表达数据分析面临维数极高,噪声大而且相关,数据重复度低等问题,对数理统计等学科提出了新问题。目前对基因表达数据的处理主要是进展聚类分析,将表达模式相似的基因聚为一类,在此根底上寻找相关基因,分析基因的功能。基因调控网络与信号转导基因的表达受到蛋白的调控,一个基因的表达与否,表达量,均受到细胞中各种蛋白的调控。所以基因的调控可以看作是细胞中各基因对应的mRNA与各种蛋白的一个相互作用网络。信号转导指当细胞受到某种影响,其中某个蛋白的含量发生变化,而引起一系列的蛋白的表达变化的过程和路径。它对于研究药理、病理、细胞的分化、发育、进化等重大问题都十分重要。信号转导、基因网络与基因表达的数据分析是严密相关的。生物信息处理并行算法生物信息学主要研究内容序列分析/SequenceanalysisSequencealignmentStructureandfunctionpredictionGenefinding构造分析/StructureanalysisProteinstructurecomparisonProteinstructurepredictionRNAstructuremodeling表达分析/ExpressionanalysisGeneclusteringGenexpressionanalysis蛋白质组学/ProteomicsProtein-ProteinInteraction生物信息学所用的方法和技术1、数学统计方法2、动态规划方法3、机器学习与模式识别技术4、数据库技术及数据挖掘5、人工神经网络技术6、专家系统7、分子模型化技术8、生物分子的计算机模拟9、因特网〔Internet〕技术数学统计方法生物活动常常以大量、重复的形式出现,既受到内在因素的制约,又受到外界环境的随机干扰。因此概率论和数学统计是现代生物学研究中一种常用的分析方法数据统计、因素分析、多元回归分析是生物学研究必备的工具隐马尔科夫模型〔HiddenMarkovModels〕在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链〔MarkovChain〕动态规划方法动态规划〔DynamicProgramming〕是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法动态规划解决问题的根本过程是:将一个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推进,“局部〞逐渐接近“全局〞,最终获得全局最优解机器学习与模式识别技术机器学习机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经历遗传算法采用随机搜索方法,具有自适应能力和便于并行计算神经网络的理论是基于人脑的构造,其目的是提醒一个系统是如何向环境学习的,这一种方法被称为联接主义。机器学习与模式识别技术模式识别模式识别是机器学习的一个主要任务。模式是对感兴趣客体定量的或者构造的描述,而模式识别就是利用计算机对客体进展鉴别,将一样或相似的客体归入同类中模式识别主要有两种方法:根据对象的统计特征进展识别,根据对象的构造特征进展识别环境学习知识库执行反馈机器学习系统的根本构造数据库技术及数据挖掘数据挖掘〔datamining〕又称作数据库中的知识发现(KnowledgeDiscoveryinDatabase),它是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,它能自动分析数据,对它们进展归纳性推理和联想,寻找数据间内在的某些关联,从中开掘出潜在的、对信息预测和决策行为起着十分重要作用的模式数据挖掘过程一般分为4个根本步骤:数据选择、数据转换、数据挖掘和结果分析人工神经网络技术人工神经网络〔ArtificialNeuralNetwork,简称ANN〕是通过模拟神经元的特性以及脑的大规模并行构造、信息的分布式和并行处理等机制建立的一种数学模型输入层隐藏层输出层专家系统专家系统〔ExpertSystem〕是一种基于知识的智能系统,它将领域专家的经历用一定的知识表示方法表示出来,并放入知识库中,供推理机使用.使用界面解释机构推理机知识获取知识库数据库领域专家用户AI专家专家系统的基本结构分子模型化技术分子模型化〔Molecularmodeling〕是利用计算机模拟分子构造、研究分子之间相互作用的一种技术分子模型化是进展分子设计的根底。分子图形学〔MolecularGraphics〕是进展分子模型化的一项重要技术,正是由于分子图形学和其它计算化学方法〔如分子力学、分子动力学〕的相互结合,才使得分子模型化方法取得成功生物分子的计算机模拟传统的生物分子研究主要是实验方法,如利用测序技术确定DNA分子的序列,通过分子遗传学方法确定基因的多态性,通过X-射线晶体衍射确定蛋白质分子的构造,通过生化实验研究生物大分子之间的相互作用、药物分子与靶分子的结合。所谓生物分子的计算机模拟就是从分子或者原子水平上的相互作用出发,建立分子体系的数学模型,利用计算机进展模拟实验,预测生物分子的构造和功能,预测动力学及热力学等方面的性质反馈,改进模型实验实验现象数学模型计算机模拟模拟结果分析新的设想产生设计解释因特网〔Internet〕技术Internet已经成为生物学研究的平台,同时也成为分子生物学研究人员进展信息交流特别是生物分子数据的交流的场所通过网络查询或搜索所需要的生物信息,使用分析工具将所要处理的数据直接送到相应的网络效劳器上,效劳器承受你的处理请求,并将处理结果返回复杂网络分析理论社会网:社交网,演员合作网,姻亲关系网,科研合作网,Email网生物网:食物链网,神经网,新陈代谢网,蛋白质网,基因网络信息网络:WWW,专利使用,论文引用,计算机共享技术网络:电力网,Internet,线路网交通运输网:航线网,铁路网,公路网,自然河流网中药方剂网虽然中药方剂的数量很大,但目前还没有统计用的数据库。不得不用手工进展统计,因此统计的数据量受到很大限制。选用了1536付药方,681种药物进展了统计。节点:药物,边:在一付方剂中药物的相互作用。方剂:药物、药物的相互作用构成的固定完全图局域网,同时也可以看作是节点〔药物〕的合作成果。各个完全图通过共用的节点〔药物〕架起桥梁,构成网络。网络由完全图连接而成,如下图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论