生物信息学总论2014_第1页
生物信息学总论2014_第2页
生物信息学总论2014_第3页
生物信息学总论2014_第4页
生物信息学总论2014_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Bioinformatics 2014 生物信息学概论 武汉大学武汉大学 生物医学工程系生物医学工程系 赵旻赵旻 Introduction to Bioinformatics Bioinformatics 2014第一节第一节 生物信息学基础生物信息学基础第二节第二节 生物信息学生物信息学与人类基因组计划与人类基因组计划第三节第三节 生物信息学的生物信息学的研究内容研究内容第四节第四节 生物信息学相关技术生物信息学相关技术 本章内容本章内容Bioinformatics 2014学习目的1、了解生物信息学的发展背景2、理解生物信息学在生命科学研究中的作用3、理解数学、计算机科学与生物信息学的关系

2、4、了解生物信息学主要技术方法的原理和应用Bioinformatics 2014医学生物信息学原理医学生物信息学原理教材参考资料目录教材参考资料目录教材教材 1. 生物信息学(供8年制及7年制临床医学等专业用)李霞,李亦学,廖飞 人民卫生出版社 2012 2. 生物信息学基础与临床医学应用指南 伍欣星 赵旻 主编 科学出版社 2005参考书目参考书目 1. 基因组研究手册:基因组学、蛋白质组学、代谢组学、生物信息学、伦理和法律问题。 C.W.森森(Sensen.C.W.),谢东 著 科学出版社 20092. 理解生物信息学. M.泽瓦勒贝,JO.鲍姆 著 科学出版社 20123. 生物信息学

3、许忠能 清华大学出版社 2008Bioinformatics 2014序号课程内容授课教师课时日期1总论; 数据库应用赵旻52014,9,212基因组与医学(1)赵旻52014,9,283基因组与医学(2);数据分析基础赵旻62014,10,124RNA组学原理和应用邱小萍52014,10,195模式生物与转基因技术蔡国斌52014,10,266蛋白质组学与技术邱小萍52014,11,27分子进化与病毒进化赵旻52014,11,98考试:完成综述2014,11,16病毒所三楼,病毒所三楼, Bioinformatics 2014 第一节 生物信息学基础Bioinformatics 2014一、

4、生物信息的特征生物信息的特征生命现象是不同层次上的物质物质、能量能量与信息信息的交换,不同层次是指核酸、蛋白质、细胞、器官、系统、机体,与医学研究密切相联生物信息不仅包括基因组信息基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和结构和功能功能;生物种间的进化关系进化关系等其他信息资源。生物体系和生物过程中信息的内涵和信息的传递 Bioinformatics 2014生命与信息生命与信息 Concept Computers Organisms Instructions Program Genome Bits 0,1 a,c,g,t Stable memory

5、ROM,Disk,tape DNA Active memory RAM RNA Processing CPU/Compiler enzyme/Ribosome Editing Editor tRNA Environment Sockets,people Water,salts,heat I/O AD/DA proteins Monomer Minerals Nucleotide Polymer chip DNA,RNA,protein Replication Cut/Paste DNA replication Sensor/In scanner Chem/photo receptorBioin

6、formatics 2014基因组信息的获取、处理、贮存、传递、分析和解释蛋白质的序列、结构、功能及定位分类、蛋白质连锁图、蛋白质数据库的建立相关分析软件的开发和应用新药研制生物进化二、生物信息的研究范畴二、生物信息的研究范畴Bioinformatics 2014n遗传信息遗传信息三、生物信息的内涵三、生物信息的内涵n与功能相关的结构信息与功能相关的结构信息n进化信息进化信息Bioinformatics 2014Bioinformation From the Nucleus to Protein Machines Bioinformatics 2014基因序列基因序列DNA前体RNAmRNA多

7、肽链多肽链蛋白质序列蛋白质序列对对应应关关系系遗遗传传密密码码Bioinformatics 2014DNA通过复制,在生物体的繁衍过程中传递通过复制,在生物体的繁衍过程中传递遗传遗传信息信息 基因通过转录和翻译,使遗传信息在生物个体中得基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状以表达,并使后代表现出与亲代相似的生物性状 基因控制着蛋白质的合成基因控制着蛋白质的合成 DNARNA蛋白蛋白质质转录转录翻译翻译?逆转录逆转录中心法则中心法则Bioinformatics 2014nDNA本身是否也具有酶活性呢?1994年,GFJoyce等人发现一个人工合成的

8、DNA分子具有一种特殊的磷酸二酯酶活性。又有多例报道人工合成的DNA序列具有各种不同的酶活性。1995年后从多种生物中提取的DNA均具有酯酶活性,能催化乙酸萘酯水解为萘酚和乙酸。这种较弱的酯酶活性并不需要特定序列的DNA编码,而是非特异性DNA的一般性质。DNA分子本身的酯酶活性作为 “分子化石”遗迹。 n1970年,DBaltimore和HMTemin在致癌的RNA病毒中,发现依赖RNA的DNA多聚酶,即逆转录酶。这就是说,遗传信息流也可以反过来,从RNADNA。巴尔的摩和梯明于1975年荣获诺贝尔奖。n1981年,TRCech等人在四膜虫发现自催化剪切的tRNA。1983年SAltman发

9、现大肠杆菌的核糖核酸P的催化活性取决于RNA而不是蛋白质。这意味着RNA可以不通过蛋白质而直接表现出本身的某种遗传信息,而这种信息并不以核苷酸三联体来编码。这是对中心法则的又一次补充和发展。切赫和阿尔特曼荣获1989年的诺贝尔化学奖。中心法则的补充中心法则的补充朊病毒朊病毒蛋白质信息传递疑问?蛋白质信息传递疑问?朊病毒病已发现有4种:库鲁病Ku-rmm、克雅氏综合症CJD、格斯特曼综合症GSS及致死性家庭性失眠症FFI。临床变化都局限于人和动物的中枢神经系统。 Bioinformatics 2014DNA分子分子 蛋白质分子蛋白质分子四、生物信息载体四、生物信息载体Bioinformatics

10、 2014(1)遗传信息的载体遗传信息的载体DNA或或RNAn 遗传信息的载体主要是DNA或RNA分子n 控制生物体性状的基因是一系列DNA片段n 生物体生长发育的本质就是遗传信息的传递和表达 Bioinformatics 2014(2)遗传信息的功能载体遗传信息的功能载体蛋白质蛋白质n蛋白质蛋白质功能功能取决于蛋白质的空间取决于蛋白质的空间结构结构 n蛋白质结构决定于蛋白质的蛋白质结构决定于蛋白质的序列序列,蛋白质结,蛋白质结构的信息隐含在蛋白质序列之中。构的信息隐含在蛋白质序列之中。Bioinformatics 2014(3) DNA分子和蛋白质分子都含有进化信息分子和蛋白质分子都含有进化

11、信息n通过比较相似的蛋白质序列相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。n通过比较来自于不同种属的同源蛋白质,即直系直系同源蛋白质同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。Bioinformatics 2014n进化信息 通过比较相似的蛋白质序列可以发现基因的分子进化证据。通过比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析种属之间的系统发生关系,推测它们共同的祖先蛋白质。Bioinformatics 2014五、生物信息的特征五、生物信息的特征n生物信息数据量庞大生物信息数据量庞大 n生物信息复杂度高:生

12、物信息复杂度高:遗传信息,功能结构信息n生物信息之间存在着密切的联系生物信息之间存在着密切的联系n存在特定载体:存在特定载体:核酸分子和分子和蛋白质分子分子n存在不同的层次:存在不同的层次:分子,细胞,组织器官和机体分子,细胞,组织器官和机体Bioinformatics 2014六、六、 生物信息学生物信息学(Bioinformatics)的建立的建立 八十年代末期,林华安博士认识到将计算机科学与生物学结合起来的重要意义。起初,使用的是CompBio,之后又将其更改为 bioinformatique ;进一步更改为bio-informatics (或bio/informatics)。该名称中的

13、-或/符号经常会引起许多计算机系统问题,于是将其去除, bioinformatics 就正式诞生,林博士也因此赢得了“生物信息学之父”的美誉。 Bioinformatics 2014生物信息学生物信息学(bioinformatics)是80年代未随着人类基因组计划(Human genome project, HGP)的启动而兴起的一门新的交叉学科。它涉及生物学、数学、计算机科学和工程学,依赖于计算机科学、工程学和应用数学的基础,依赖于生物实验和衍生数据的大量储存和加工。 Bioinformatics 2014ComputationInformaticsBiologyBioinformatics

14、学科交叉发展的需要学科交叉发展的需要Bioinformatics 2014HGP生物数据生物数据(每(每15个月翻一番个月翻一番)生物学家生物学家数学家数学家计算机计算机科学家科学家生物信息学生物信息学(bioinfomatics)的诞生的诞生大量数据处理分析的需要大量数据处理分析的需要Bioinformatics 2014生物体系和过程中信息的存贮、生物体系和过程中信息的存贮、传递和表达传递和表达细胞、组织、器官的生理、病理、细胞、组织、器官的生理、病理、药理过程的中各种生物信息药理过程的中各种生物信息信息科学信息科学生生命命科科学学中中的的信信息息科科 学学 医学发展的需要医学发展的需要B

15、ioinformatics 2014 1995年,在人类基因组计划(HGP)第一个五年总结报告中给出了一个较为完整较为完整的生物信息学的定义:生信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于理解生物大分子信息的生物学意义的交叉学科。 Bioinformatics 2014生物信息学研究意义生物信息学研究意义生物信息学将是生物信息学将是21世纪生物学的核心世纪生物学的核心 n认识生物本质认识生物本质了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系对序列、结构数据进行定性和定量分析,从

16、中获取基因编码、基因调控、序列-结构-功能关系等理性知识阐明细胞、器官和个体的发生、发育、病变、衰亡的基本规律和时空联系探索生命起源、生物进化、生命本质等重大理论问题,最终建立“生物学周期表”Bioinformatics 2014 DNA核酸序列核酸序列蛋白质蛋白质氨基酸序列氨基酸序列蛋白质蛋白质结构结构蛋白质蛋白质功能功能最基本的最基本的生物信息生物信息维持生命活维持生命活动的机器动的机器第一部第一部遗传密码遗传密码第二部第二部遗传密码?遗传密码?生命体系千姿生命体系千姿百态的变化百态的变化生物分子数据及其关系生物分子数据及其关系Bioinformatics 2014n第一部遗传密码已被破译

17、,但对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少n 对于第二部密码,目前则只能用统计学的方法进行分析n无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。Bioinformatics 2014n改变生物学的研究方式改变生物学的研究方式 改变传统研究方式,引进现代信息学方法n在医学上的重要意义在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据生物分子数据是宝藏,生物信息数据库是生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。金矿,等待我们去挖掘和利用。Bioinformatics 2014第二节第二节 生物信息学的建立和发展

18、生物信息学的建立和发展 人类基因组计划简介人类基因组计划简介Bioinformatics 2014生物信息学产生的背景生物信息学产生的背景1、人类基因组计划的初步完成人类基因组计划的初步完成 人类基因组计划工作草图已完成。人类基因组计划工作草图已完成。人类对基因的认识,人类对基因的认识,从以往的单个基因的了解,上升到在整个基因组水平。从以往的单个基因的了解,上升到在整个基因组水平。2、后基因组时代到来、后基因组时代到来 基因组研究已进入全面信息提取和数据分析基因组研究已进入全面信息提取和数据分析阶段,功能阶段,功能基因组和蛋白质组的大量数据已开始涌现。基因组和蛋白质组的大量数据已开始涌现。Bi

19、oinformatics 2014海量生物信息需要分析;海量生物信息需要分析;大量未知基因需要破解其功能大量未知基因需要破解其功能nGenBank中的DNA碱基数目呈指数增加。2000年后其数目已达110亿,它们来自47000种生物;UniGene的数目约达7万个。n1999年初单核苷酸多态性(SNP)数据库出现以来,已超过600万。n自全长1.8Mb的嗜血流感杆菌基因组序列于1995年发表以来,已有54个模型生物的完整基因组完成了测序,包括9个古细菌、31个原核真细菌、14个真核生物的完整基因组或它们的完整染色体,其中包括酿酒酵母和线虫。还有另外的70余个微生物基因组正在测试当中。Bioin

20、formatics 2014计算机运算速度计算机运算速度: 18个月增长一倍个月增长一倍; DNA序列数据序列数据: 14个月增长一倍个月增长一倍Bioinformatics 2014n20世纪50年代,生物信息学开始孕育n20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来n20世纪70年代,生物信息学的真正开端n20世纪70年代到80年代初期 ,出现了一系列著名的序列比较方法和生物信息分析方法 n20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库n20世纪90年代后 ,HGP促进生物信息学的迅速发展生物信息学的发展历程Bioinformatics 2014生物

21、信息学的发展历程n1952年,Sanger根据胰岛素蛋白质的测序结果,推断蛋白质是排列完美的分子。最早的信息论观点。n1955年,Sanger与合作者分别对牛、猪和羊的胰岛素蛋白质进行了测序并做了序列上的比较。最早的序列比对。n1962年,鲍林提出分子进化的理论,推测在人中可能存在50,000100,000个不同的基因/蛋白质。分子进化理论的奠定。n1965年,Margaret Dayhoff构建蛋白质序列图谱n1970年,Needleman-Wunsch算法:全局优化比对。n1981年,Smith-Waterman算法开发:局部优化比对。n1990年,快速序列相似性搜索工具BLAST的开发B

22、ioinformatics 2014生物信息学发展过程中的里程碑性事件生物信息学发展过程中的里程碑性事件Bioinformatics 2014人类基因组计划人类基因组计划 人类基因组计划(Human Genome Project,HGP)是由美国科学家Renato Dulbecco在1985年首先提出,美国政府1990年10月正式启动的,耗资30亿美元。 目标是构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约3万基因,以及人类基因的鉴定和分离的内容。人类基因组计划全部测序工作提前到2000年春季完成“工作框架”,即工作草图。Bioinformatics 2014曼哈顿

23、原子弹计划曼哈顿原子弹计划阿波罗登月计划阿波罗登月计划人类基因组计划人类基因组计划人类自然科学史上的三大计划人类自然科学史上的三大计划Bioinformatics 2014 人类基因组计划准备用15年时间投入30亿美元,完成人全部24(22+X+Y)条染色体中3109个碱基对的序列测定,主要任务包括作图、测序和基因预测,其根本任务是解读和破译生物体的遗传信息。Bioinformatics 2014Bioinformatics 20141984 犹他州阿尔塔组织会议,研讨测定人类整个基因组犹他州阿尔塔组织会议,研讨测定人类整个基因组DNA序列的意义序列的意义1985 Dulbecco在在Scie

24、nce撰文撰文 “肿瘤研究的转折点肿瘤研究的转折点:人类基因组的测人类基因组的测序序” ;美国能源部;美国能源部(DOE)提出提出“人类基因组计划人类基因组计划”草案草案 美国能源部和国家卫生研究院(美国能源部和国家卫生研究院(NIH)联合启动)联合启动计划计划1989 美国成立美国成立“国家人类基因组研究中心国家人类基因组研究中心”,Watson担任第一任主任担任第一任主任1990.10 经美国国会批准,人类基因组计划正式启动经美国国会批准,人类基因组计划正式启动James WatsonBioinformatics 20141996 完成人类基因组计划的遗传作图完成人类基因组计划的遗传作图1

25、998 完成人类基因组计划的物理作图;开始人类基因组的大规模测序;完成人类基因组计划的物理作图;开始人类基因组的大规模测序;Celera公司加入,与公共领域竞争;启动水稻基因组计划公司加入,与公共领域竞争;启动水稻基因组计划1999.7 第第5届国际公共领域人类基因组测序会议,加快测序速度届国际公共领域人类基因组测序会议,加快测序速度流感嗜血菌流感嗜血菌( (1995) )酿酒酵母酿酒酵母(1997)秀丽线虫秀丽线虫(1998)大肠杆菌大肠杆菌 (1998)水稻基因组计水稻基因组计划划(2002)Bioinformatics 20142000 Celera公司宣布完成果蝇基因组测序;国际公共领

26、域宣布完成第公司宣布完成果蝇基因组测序;国际公共领域宣布完成第一个植物基因组一个植物基因组拟南芥全基拟南芥全基 因组的测序工作因组的测序工作2001.2.15 Nature刊文发表人类基因组测序国际公共领域结果刊文发表人类基因组测序国际公共领域结果2001.2.16 Science刊文发表刊文发表Celera公司及其合作者结果公司及其合作者结果Drosophila melanogaster果蝇果蝇(2000)Arabidopsis thaliana拟南芥拟南芥(2000)Bioinformatics 2014确定人类基因组全部确定人类基因组全部DNA序列;建立基因组图谱序列;建立基因组图谱识别

27、基因;识别基因;建立储存信息的数据库;建立储存信息的数据库;开发数据分析工具软件;开发数据分析工具软件;人类基因组研究的模式生物(细菌、酵母菌、线虫、人类基因组研究的模式生物(细菌、酵母菌、线虫、 果蝇、小鼠、拟南介)的基因组果蝇、小鼠、拟南介)的基因组研究研究HGP实施所带来的伦理、法律和社会问题。实施所带来的伦理、法律和社会问题。发展建立生物信息学发展建立生物信息学 HGP目标目标Bioinformatics 2014遗传图谱、物理图谱、转录图谱和序列图谱遗传图谱、物理图谱、转录图谱和序列图谱n遗传图谱是以具有遗传多态性的遗传标记为“路标”,以遗传学距离为图距的基因组图。进行基因识别和基因

28、定位n物理图谱是指有关基因组中特异性序列排列和间距的信息.建立物理图谱实际上是为全基因组测序建立“路标”。n转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。Bioinformatics 2014基因组学功能基因组学1、信息的整合、信息的整合2、信息的储存、信息的储存3、信息的比较、信息的比较4、信息的分析、信息的分析5、信息的分解、信息的分解人类基因组计划对生物信息学的挑战人类基因组计划对生物信息学的挑战Bioinformatics 20142022-6-10 人类基因组计划提供了巨量的生物学信息资源。人类基因组计划提供了巨量的生物学信息

29、资源。 基因组信息的收集、储存、分发、分析显得越来基因组信息的收集、储存、分发、分析显得越来越紧迫和重要,信息的管理和分析成为人类基因组计越紧迫和重要,信息的管理和分析成为人类基因组计划实施过程中的一项重要工作,人类基因组计划向信划实施过程中的一项重要工作,人类基因组计划向信息学提出了巨大的挑战。息学提出了巨大的挑战。 人类基因组计划一开始就与计算机技术、信息高人类基因组计划一开始就与计算机技术、信息高速公路同步发展,信息技术为生物信息学的发展提供速公路同步发展,信息技术为生物信息学的发展提供了非常好的条件,为生物信息学的研究和应用提供了了非常好的条件,为生物信息学的研究和应用提供了非常好的支

30、撑。非常好的支撑。48Bioinformatics 20142022-6-10 从信息学的角度来看,最重要的任务是利用各种数从信息学的角度来看,最重要的任务是利用各种数学模型和人工智能技术,分析现有的基因组数据,研究学模型和人工智能技术,分析现有的基因组数据,研究基因组数据之间的关系,发现隐藏在大量数据背后的生基因组数据之间的关系,发现隐藏在大量数据背后的生物学规律,解读生物遗传密码,认识生命的本质。物学规律,解读生物遗传密码,认识生命的本质。49Bioinformatics 20142022-6-10 如果说生物信息学在人类基因组计划中的着重点如果说生物信息学在人类基因组计划中的着重点是基因

31、组序列的话,那么在功能基因组中,生物信息是基因组序列的话,那么在功能基因组中,生物信息学的着重点则是序列的生物学意义,基因组编码序列学的着重点则是序列的生物学意义,基因组编码序列的转录、翻译的过程和结果,着重分析基因表达调控的转录、翻译的过程和结果,着重分析基因表达调控信息,分析基因及其产物的功能。信息,分析基因及其产物的功能。 在功能基因组时代,应用生物信息学方法,高通在功能基因组时代,应用生物信息学方法,高通量地注释基因组所有编码产物的生物学功能是功能基量地注释基因组所有编码产物的生物学功能是功能基因组研究的一个重要特征因组研究的一个重要特征。50Bioinformatics 201420

32、22-6-10 生物信息学与人类基因组计划紧密结合,互相渗透,生物信息学与人类基因组计划紧密结合,互相渗透,生物信息学成为基因组计划不可分割的一部分。事实证生物信息学成为基因组计划不可分割的一部分。事实证明,人类基因组计划在生物信息学的支持下,前进步伐明,人类基因组计划在生物信息学的支持下,前进步伐大大加快,已经提前完成了预期计划,功能基因组研究大大加快,已经提前完成了预期计划,功能基因组研究也已经全面展开。也已经全面展开。 而人类基因组计划反过来又大大促进了生物信息学而人类基因组计划反过来又大大促进了生物信息学的发展,的发展,HGP丰富了生物信息学的研究内容,促进生物丰富了生物信息学的研究内

33、容,促进生物信息学新思想、新方法的产生,生物信息学在近信息学新思想、新方法的产生,生物信息学在近10年迅年迅速发展的历程证明了这一点。速发展的历程证明了这一点。51Bioinformatics 2014Bioinformatics 2014第三节第三节生物信息学主要研究内容生物信息学主要研究内容Bioinformatics 2014研究内容研究内容1 1、生物分子数据的收集与管理、生物分子数据的收集与管理2 2、数据库搜索及序列比较、数据库搜索及序列比较 3 3、基因组序列分析、基因组序列分析 4 4、基因表达数据的分析与处理、基因表达数据的分析与处理 5 5、蛋白质结构预测、蛋白质结构预测B

34、ioinformatics 2014 (序列比对) (蛋白质结构预测) (计算机辅助基因识别) (DNA语言) (分子进化和比较基因组学) (序列重叠群装配) (遗传密码的起源) (代谢网络分析) (基因芯片设计)常见研究领域常见研究领域Bioinformatics 2014研究方向研究方向基因组序列装配基因组序列装配基因识别基因识别基因功能预报基因功能预报基因多态性分析基因多态性分析基因进化基因进化mRNA结构预测结构预测基因芯片设计基因芯片设计基因芯片数据分析基因芯片数据分析疾病相关基因分析疾病相关基因分析 蛋白质序列分析蛋白质序列分析 蛋白质家族分类蛋白质家族分类 蛋白质结构预测蛋白质结

35、构预测 蛋白质折叠研究蛋白质折叠研究 代谢途径分析代谢途径分析 转录调控机制转录调控机制 蛋白质芯片设计蛋白质芯片设计 蛋白质芯片数据分析蛋白质芯片数据分析 药物设计药物设计Bioinformatics 2014基因组基因组数据库数据库 蛋白质蛋白质序列序列数据库数据库 蛋白质蛋白质结构结构数据库数据库 DDBJEMBLGenBankSWISS-PROT PDBPIR1、 生物分子数据的收集与管理生物分子数据的收集与管理Bioinformatics 2014各种自动化分子生物学仪器应用上,如DNA测序仪,PCR仪等n实验过程高度自动化,产生的海量数据,专门的实验室数据管理系统自动完成包括实验进

36、程和实验数据的纪录,常规数据分析,数据质量检测和问题的自动查找,常规的数据说明和数据输入数据库。n建立分子生物学数据管理系统。 例:高度自动化的实验数据的获得、加工和整理例:高度自动化的实验数据的获得、加工和整理Bioinformatics 2014DNA序列片段的测序拼接序列片段的测序拼接n目前DNA自动测序仪每个反应只能测序100-1000bp,传统测序方法是将克隆进行亚克隆并对亚克隆进行排序。n自动而高速拼接序列的算法,Lander-Waterman模型(Lander ES and Waterman MS,1998)利用鸟枪法进行测序,再将大量随机测序的片段用计算机进行自动拼接。 1.9

37、Mb Haemophilus influenzae(流感嗜血杆菌流感嗜血杆菌) (1995) 0.58Mb Mycoplasmu genitalium(支原体)(支原体) (1995) 0.58Mb jannaschii(甲烷杆菌)(甲烷杆菌) (1996)n拼接算法需要进一步提高拼接真核基因组的有效性;自动处理自动测序造成的差错。Bioinformatics 20142、 数据库搜索及序列比较数据库搜索及序列比较 n搜索同源序列在一定程度上就是通过序列比较寻找相似序列 n序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置

38、换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述n多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。 Bioinformatics 2014常用序列分析工具常用序列分析工具nCLUSTAL: 已知同源的序列间的配比nFASTA:全基因数据库的快速搜索nPSI-BLAST:非常快速的全数据库搜索nHMM:特定蛋白家族的序列模式识别nPHYLIPS:基因进化树Bioinformatics 2014序列比较序列比较发现同源分子发现同源分子Bioinformatics 20143、 基因组序列分析基

39、因组序列分析 n遗传语言分析遗传语言分析n基因组结构分析基因组结构分析n基因识别基因识别n基因功能注释基因功能注释n基因调控信息分析基因调控信息分析n基因组比较基因组比较Bioinformatics 2014基因识别基因识别n识别基因组编码区,识别基因结构1、同源比较(DNA序列、EST)2、基因预测(不是用同源搜索的方法来识别基因) 从头开始基因预测,基于知识的基因预测(密码子使用,碱基组成,剪切位点特征,PolyA信号,核苷酸频率,转录信号,转译信号,尺寸分布)Bioinformatics 2014基因预测的步骤:1、识别可能的外显子2、辨别起始/内部/终止外显子3、把外显子联结起来,形成

40、可能的基因4、确保该可能的基因没有内部的移位或终止密码子5、leftovers:shadow exons算法: Rule-based system; linguistic system; linear discriminant analysis;decision tree; spliced alignment;fourier analysisBioinformatics 2014Evaluating Gene Predictionn敏感性敏感性(Sensitivity) 敏感性=预测基因中确为基因的数目/待测序列中的基因数目; How many exons were correctly pre

41、dicted?n特异性特异性(Specifity) 特异性=预测基因中确为基因的数目/预测基因数目 How many exon predictions are true?Bioinformatics 2014n生物学家们一直假设,人类拥有生物学家们一直假设,人类拥有8万到万到10万个基因。但万个基因。但是根据测序完成的人类基因组第是根据测序完成的人类基因组第21对、对、22对染色体的经对染色体的经验,得出的结论是整个基因组有不多于验,得出的结论是整个基因组有不多于4万个基因。万个基因。n比较现有的人类基因序列与淡水河豚基因序列,提出了比较现有的人类基因序列与淡水河豚基因序列,提出了更低的人类基

42、因数估计:在更低的人类基因数估计:在27700与与34300之间。之间。n马里兰马里兰Rockville的基因组研究所的基因组研究所(TIGR)的的John Quackenbush根据根据TIGR的人类基因指数的估计的人类基因指数的估计118259个个基因。基因。 *生物体的复杂性并不是简单地与基因数量相关联的。生生物体的复杂性并不是简单地与基因数量相关联的。生物体的复杂性来自于基因如何被管理或表达的,而不是物体的复杂性来自于基因如何被管理或表达的,而不是基因数目本身。基因数目本身。人类基因的数目争论!人类基因的数目争论!Bioinformatics 2014基因功能预测基因功能预测 序列同源

43、比较: 如果基因A与基因 B有相当的同源性,那么基因A可能具有类似基因B的功能。n公共数据库:GenBank,EMBL,DDBJn功能数据库:dbEST, dbSTS, dbGSS(Genome Survey Sequence), dbHTG(high throughput Genomic Sequence,未完成整理的序列数据)n蛋白质序列库:PIR(protein information resource), Swiss-Prot n蛋白质高级结构数据库PDB(protein data bank):生物大分子三级结构的数据库。n同源比较算法:分为整体对齐(Global alignment)

44、和局部对齐(local alignment)局部对齐的算法有Smith-Watermann 算法; FASTA算法;BLAST算法Bioinformatics 20144、基因表达数据的分析与处理、基因表达数据的分析与处理n基因表达数据分析是目前生物信息学研究的热基因表达数据分析是目前生物信息学研究的热 点和重点点和重点 n目前对基因表达数据的处理主要是进行聚类分目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基析,将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能础上寻找相关基因,分析基因的功能 n所用方法主要有:所用方法主要有:n相关分析

45、方法相关分析方法n模式识别技术中的层次式聚类方法模式识别技术中的层次式聚类方法n人工智能中的自组织映射神经网络人工智能中的自组织映射神经网络n主元分析方法主元分析方法 Bioinformatics 2014基因表达分析和调控网络研究基因表达分析和调控网络研究n高通量基因转录实验技术高通量基因转录实验技术1、mRNAncDNA microarraynOligonucleotide chipnRT-PCRnSAGE2、proteinn 2D-PAGEBioinformatics 2014Bioinformatics 2014层次式聚类层次式聚类Bioinformatics 2014Bioinfor

46、matics 20145、蛋白质结构预测、蛋白质结构预测 n蛋白质的生物功能由蛋白质的结构所决定蛋白质的生物功能由蛋白质的结构所决定 ,蛋,蛋白质结构预测成为了解蛋白质功能的重要途径白质结构预测成为了解蛋白质功能的重要途径n蛋白质结构预测分为蛋白质结构预测分为:n二级结构预测二级结构预测n空间结构预测空间结构预测 蛋白质折叠蛋白质折叠Bioinformatics 2014二级结构预测二级结构预测n二级结构的预测可以归结为模式识别问题二级结构的预测可以归结为模式识别问题 n主要方法有:主要方法有:n立体化学方法立体化学方法n图论方法图论方法n统计方法统计方法n最邻近决策方法最邻近决策方法n基于规

47、则的专家系统方法基于规则的专家系统方法n分子动力学方法分子动力学方法n人工神经网络方法人工神经网络方法 n预测准确率超过预测准确率超过70%的第一个软件是基于神经网络的的第一个软件是基于神经网络的PHD系统系统Bioinformatics 2014蛋白质三级结构预测 n同源模型化方法n远程同源模型化方法n结构的从头预测方法n距离几何n分子动力学 Bioinformatics 2014同源模型化方法同源模型化方法n空间结构预测方面,比较成功的理论方法是空间结构预测方面,比较成功的理论方法是同源模型法同源模型法 n该方法的依据是:相似序列的蛋白质倾向于折叠成相似该方法的依据是:相似序列的蛋白质倾向

48、于折叠成相似的三维空间结构,如果具有的三维空间结构,如果具有25-30%的等同序列,可以的等同序列,可以假设这两个蛋白质折叠成相似的空间结构假设这两个蛋白质折叠成相似的空间结构n运用同源模型方法,借助于数据库搜索和序列的比对排运用同源模型方法,借助于数据库搜索和序列的比对排列,可以完成所有蛋白质列,可以完成所有蛋白质10-30%的空间结构预测工作的空间结构预测工作Bioinformatics 2014n可以通过计算(如分子力学、分子动力学可以通过计算(如分子力学、分子动力学等)来进行结构预测等)来进行结构预测n可以通过计算(如分子力学、分子动力学可以通过计算(如分子力学、分子动力学等)来进行结

49、构预测:立体作用等)来进行结构预测:立体作用, 空间堆积,空间堆积,静电作用,氢键,疏水作用静电作用,氢键,疏水作用Bioinformatics 20146 比较基因组比较基因组学学研究研究n研究生命是从哪里起源的?n生命是如何进化的?n遗传密码是如何起源的?n估计最小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的?n鼠和人的基因组大小相似,基因的数目类似。可是鼠和人为什么差异确如此之大?n不同人种间基因组的差别仅为 0.01%;人猿间差别约为1%。但表型间的差异十分显著。Bioinformatics 2014生物进化研究1、序列相似性比较。就是将待研究序列与DNA或蛋白质序列库

50、进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;2、序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;Bioinformatics 20143、构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;4、稳定性检验。为了检验构建好的进

51、化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70以上)出现的分支点才是可靠的。通用的方法使用 Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。为便于使用者查找表三给出了进化分析相关软件的因特网地址。Bioinformatics 2014 16S rRNA 通过比较真核细胞通过比较真核细胞 rRNA的核苷酸顺序和的核苷酸顺序和“真细真细菌菌”、“古细菌古细菌”的的 rRNA核苷酸顺序,发现它们之核苷酸顺序,发现它们之间截然不同,表明真核细胞不是来自原核细胞,而是间截然不同,表明真核细胞不是来自原核细胞,而是远在原核细胞生成之前

52、,真核细胞就已和原核细胞分远在原核细胞生成之前,真核细胞就已和原核细胞分开而成独立的一支,即开而成独立的一支,即“早真核生物早真核生物”,它才是现代,它才是现代真核生物的始祖真核生物的始祖。Bioinformatics 2014Bioinformatics 2014第四节第四节 生物信息学的主要任务生物信息学的主要任务Bioinformatics 2014 当今生物信息学界,注意力集中在基因组、蛋白质组、蛋白质结构以及与之相结合的药物设计上。 Bioinformatics 20141. 基因组基因组 1.1 新基因的发现新基因的发现 通过计算分析从EST(Expressed Sequence

53、Tags)序列库中拼接出完整的新基因编码区,也就是通俗所说的“电子克隆电子克隆”; 通过计算分析从基因组DNA序列中确定新基因编码区,如根据编码区具有的独特序列特征、根据编码区与非编码区在碱基组成上的差异、根据高维分布的统计方法、根据神经网络方法、根据分形方法和根据密码学方法等。 Bioinformatics 20141.2 非蛋白编码区生物学意义的分析非蛋白编码区生物学意义的分析 非蛋白编码区约占人类基因组的95%,其生物学意义目前尚不是很清楚,但从演化观点来看,其中必然蕴含着重要的生物学功能,由于它们并不编码蛋白,一般认为,它们的生物学功能可能体现在对基因表达的时空调控上。 Bioinfo

54、rmatics 2014对非蛋白编码区进行生物学意义分析的策略1 基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;2 通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。Bioinformatics 20141.3 基因组整体功能及其调节网络的系统把握基因组整体功能及其调节网络的系统把握 研究生命的本质,仅仅掌握基因组中部分基因的表达调控是远远不够的,因为生命现象是基因组中所有功能单元相互作用共同制造出来的。基因芯片基因芯片技术

55、由于可以监测基因组在各种时间断面上的整体转录表达状况,因此成为该领域中一项非常重要和关键的实验技术,对该技术所产生的大量实验数据进行高效分析,从中获得基因组运转以及调控的整体系统的机制或者是网络机制,便成了生物信息学在该领域中首先要解决的问题。 Bioinformatics 20141.4 基因组进化与物种进化基因组进化与物种进化Bioinformatics 2014 仅依靠某些基因或者分子的进化现象,就想阐明物种整体的演化历史似乎不太可靠。例如,智人与黑猩猩之间有98%-99%的结构基因和蛋白质是相同的,然而表型上却具有如此巨大的差异,这就不能不使我们联想到形形色色千差万别的建筑楼群,它们的

56、外观如此不同,但基础的部件组成却是几乎一样的,差别就在于这些基础部件的组织方式不同,这就提示我们基因组整体组织方式而不仅仅是个别基因在研究物种进化历史中的重要作用。Bioinformatics 2014 由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,从基因组整体从基因组整体结构组织和整体功能调节网络方面,结合相应的生理表结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种真征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。实演化历史的最佳途径。Bioinformatics 20142、蛋白质组、蛋白

57、质组 Bioinformatics 2014 基因组对生命体的整体控制必须通过它所表达的基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行,由于基因芯片技术只能反映从基全部蛋白质来执行,由于基因芯片技术只能反映从基因组到因组到RNA的转录水平上的表达情况,从的转录水平上的表达情况,从RNA到蛋白到蛋白质还有许多中间环节的影响,因此仅凭基因芯片技术质还有许多中间环节的影响,因此仅凭基因芯片技术我们还不能最终掌握生物功能具体执行者我们还不能最终掌握生物功能具体执行者蛋白质蛋白质的整体表达状况。的整体表达状况。 Bioinformatics 2014 因此,近几年在发展基因芯片的同时,人们也

58、发展了一套研究基因组所有蛋白质产物表达情况蛋白质组研究技术,从技术上来讲包括二维凝胶电泳技术二维凝胶电泳技术和质质谱谱测序技术。 通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达情况,通过质谱测序技术就可以得到所有这些蛋白质的序列组成。 重要的就是如何运用生物信息学理论方法去分析所得到的巨量数据,从中还原出生命运转和调控的整体系统的分子机制。 Bioinformatics 2014 蛋白质的功能是通过其三维高级结构来执行的,蛋白质三维结构也不一定蛋白质三维结构也不一定是静态的,在行使功能的是静态的,在行使功能的过程中其结构也会相应的过程中其结构也会相应的有所改变有所改变。目前通过诸如X

59、射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法得到蛋白质三维结构。3、蛋白质结构、蛋白质结构 Bioinformatics 2014计算机辅助预测的方法:蛋白质的折叠类型只有数百到数千种,远远小于蛋白质所具有的自由度数目,而且蛋白质的折叠类型与其氨基酸序列具有相关性,这样就有可能直接从蛋白质的氨基酸序列通过计算机辅助方法预测出蛋白质的三维结构 。Bioinformatics 20144、新药设计、新药设计 Bioinformatics 2014 近年来随着结构生物学的发展,相当数量的蛋白质以及一些核酸、多糖的三维结构获得精确测定,基于

60、生物大分子结构知识的药物设计成为当前的热点。 生物信息学的研究不仅可提供生物大分子空间结构的信息,还能提供电子结构的信息,如能级、表面电荷分布、分子轨道相互作用等以及动力学行为的信息,如生物化学反应中的能量变化、电荷转移、构象变化等。理论模拟还可研究包括生物分子及其周围环境的复杂体系和生物分子的量子效应。Bioinformatics 2014生物信息学不仅仅是一门科学学科,生物信息学不仅仅是一门科学学科, 它更是一种重要的研究开发工具它更是一种重要的研究开发工具 从科学的角度来讲,它是一门研究生物和生物相关系从科学的角度来讲,它是一门研究生物和生物相关系统中信息内容物和信息流向的综合系统科学,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论