版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物信息学概论王燕生命科学与技术学院华中科技大学Introduction to Bioinformatics参考书目:?1. J. Pevsner著(孙之荣 等译). 生物信息学与功能基因组学. 化学工业出版社, 2006.?2. D. R. Westhead et al . Bioinformatics. 科学出版社(影印本), 2003?3. 蒋彦 等 基础生物信息学及应用 清华大学出版社4. 陶士珩 生物信息学 科学出版社第一章:绪第一章:绪 论论第一节引言第二节生物信息学及其发展历史第三节生物信息学主要研究内容第四节生物信息学的研究意义和展望第一节从人类基因组计划(HGP)说起曼哈顿原
2、子弹计划曼哈顿原子弹计划阿波罗登月计划阿波罗登月计划人类基因组计划人类基因组计划20世纪人类三大科学计划40年代美国陆军60年代美国宇航局人类基因组计划(human genome project, HGP) 是由美国科学家于1985年率先提出,于1990年正式启动的。美国、英国、法兰西共和国、德意志联邦共和国 、日本和我国科学家共同参与了这一价值达 30亿美元的人类基因组计划。生命活动三要素:物质、能量、信息DNA:遗传物质(遗传信息的载体)? 双螺旋结构A, C, G, T四种基本字符的复杂文本基因(Gene):具有遗传效应的DNA分子片段DNA、基因、基因组、基因、基因组基因组(Genom
3、e):包含细胞或生物体全套的遗传信息的全部遗传物质。人类基因组:3.2109 bpHGP的目的是解码生命、了解生命的起源、了解生命体生长发育的规律、认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。HGP的历史回顾1984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基因组DNA序列的意义1985 Dulbecco在Science撰文 “肿瘤研究的转折点: 人类基因组的测序”美国能源部(DOE)提出“人类基因组计划”草案1987 美国能源部和国家卫生研究院(NIH)联合为“人类基因组计划”下拨启动经费约550万美元1989 美国成立
4、“国家人类基因组研究中心”,Watson担第一任主任1990.10经任美国国会批准,人类基因组计划正式启动19951995第一个自由生物体流感嗜血菌第一个自由生物体流感嗜血菌( (H. infH. inf) )的全基因组测序完成的全基因组测序完成1996 1996 完成人类基因组计划的遗传作图完成人类基因组计划的遗传作图启动模式生物基因组计划启动模式生物基因组计划H.inf全基因组Saccharomyces cerevisiae酿酒酵母Caenorhabditis elegans秀丽线虫1997 大肠杆菌大肠杆菌( (E.coliE.coli) )全基因组测序完成全基因组测序完成1998 完成
5、人类基因组计划的物理作图完成人类基因组计划的物理作图开始人类基因组的大规模测序开始人类基因组的大规模测序CeleraCelera公司加入,与公共领域竞争公司加入,与公共领域竞争启动水稻基因组计划启动水稻基因组计划1999.7 1999.7 第第5 5届国际公共领域人类基因组测序会议,加快测序速度届国际公共领域人类基因组测序会议,加快测序速度大肠杆菌及其全基因组大肠杆菌及其全基因组水稻基因组计划水稻基因组计划2001年2月15日Nature封面2001年2月16日Science封面1999.7第5届国际公共领域人类基因组测序会议,加快测序速度2000 Celera公司宣布完成果蝇基因组测序国际公
6、共领域宣布完成第一个植物基因组拟南芥全基因组的测序工作2000.6.26公共领域和Celera公司同时宣布完成人类基因组工作草图2001.2.15Nature刊文发表国际公共领域结果2001.2.16Science刊文发表Celera公司及其合作者结果Drosophila melanogaster果蝇Arabidopsis thaliana拟南芥基因组测序计划?海量DNA序列数据?DNA序列是生命的真谛,这个世界上发生的一切事情都与这一序列息息相关。?人类基因组计划(HGP)?结果:2003年完成精细图,?产生30亿多个数据(碱基)AGCATCGAAGTTGCATGACGATGCATGACCT
7、AGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGC
8、ATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGAC
9、CTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGC
10、ATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCA
11、TGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAG
12、CAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTT
13、GCATAA C G T相当于2800多本每本1000页每页1000字的“天书”DNA序列数据增长趋势各种分子生物学数据库及其增长情况?生物数据爆炸性增长:?生物数据量的积累已达到人类有史以来所说过的话的数百倍,而且还将以越来越快的速度增长。2020/3/2920生物信息学的产生诞生HGP生物数据的激增(每15个月翻一番)生物学家数学家计算机科学家生物信息学(bioinfomatics)的诞生2020/3/2921概念(广义)生物体系和过程中信息的存贮、传递和表达细胞、组织、器官的生理、病理、药理过程的中各种生物信息信息科学生命科学中的信息科学广义广义 应用信息科学的方法和技术,研究生物体系和
14、生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学生命科学中的信息科学信息科学。概念(狭义)生物分子数据深层次生物学知识分子生物信息学Molecular Bioinformatics挖掘获取生物分子信息的获取、存贮、分析和利用生物分子信息的获取、存贮、分析和利用总结:生物信息学?生物信息学(Bioinformatics) 是一门新兴的交叉学科,是生命科学领域中的新兴学科,面对人类基因组计划等各种项目所产生的庞大的分子生物学信息,生物信息学的重要性将越来越突出,它将会为生命科学的研究带来革命性的变革。?生
15、物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。?生物信息学是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一,其研究重点主要体现在基因组学(Genomics)和蛋白组学(Proteomics) 。?林华安博士:CompBio,bioinforma-tique,bio-informatics,bioinformatics “ 生物信息学之父”第二节第二节生物信息学发展简史生物信息学发展简史?20世纪50年代,生物信息学开始孕育?20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来?20世纪70年代,生物信息学
16、的真正开端?20世纪70年代到80年代初期 ,出现了一系列著名的序列比较方法和生物信息分析方法?20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库?20世纪90年代后 ,HGP促进生物信息学的迅速发展国际著名的生物信息中心国际著名的生物信息中心?NCBINational Center for Biotechnology Information (US)?EBI European Bioinformatics Institute (EU)?HGMPHuman Genome Mapping Project Resource Centre (UK )?ExPASyExpert of Pr
17、otein Analysis System (Switzerland )?CMBICentre of Molecular and Biomolecule (The Netherlands)?ANGISNational Genome Information Service (Australia) ?NIGNational Institute of Genetics (Japan)?BICNational Bioinformatics Centre (Singapore)国内部分生物信息学和生物医学信息服务器?北京大学生物信息中心 http:/?中国生物信息http:/www.biosino.or
18、g/?北京大学物理化学研究所 http:/?北京医科大学生物医学信息 http:/?中国科学院微生物研究所 http:/?天津大学生物信息中心http:/?中科院计算所智能信息处理重点实验室生物信息学研究组 http:/ 200多种软件下载?建立了14个国外著名生物信息中心镜象?提供了数据库和文献查询、搜索?构建了中华民族基因多样性等专用数据库?集成和开发了基于 Web的生物信息软件工具?开展了分子模拟、序列分析等应用研究?举办了国际国内培训班、讲习班、讨论会?九十年代以来,生物数据分析技术获得了突飞猛进的发展。?生物信息专业期刊越来越多:如?Bioinformatics?Journal of
19、 Computational Biology?Briefings in Bioinformatics?BMC Bioinformatics?Bio Informatics Technology & Systems?Bioinform Newsletter?互联网上的生物信息学网点非常繁多生物信息学国内外发展现状生物信息学国内外发展现状PubMed中与生物信息学相关论文统计90002%第三节第三节生物信息学主要研究内容生物信息学主要研究内容1、 生物分子数据的收集与管理2、 数据库搜索及序列比较3、 基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构预测6、生物信息学的应用分子生物学数据库
20、分子生物学数据库?种类?核酸序列数据库?蛋白质序列数据库?生物大分子数据库?特点?数量: 1000个?通常可通过WEB进入?大小: 10Gb?更新频率:每天 每年基因组数据库蛋白质序列数据库蛋白质结构数据库DDBJEMBLGenBankSWISS-PROT PDBPIR核酸序列数据库核酸序列数据库?欧洲分子生物学实验室的EMBL?http:/www.embl-heidelberg.de?美国生物技术信息中心的GenBank?/Web/Genbank/index.html?日本遗传研究所的DDBJ?http:/www.ddbj.nig.ac.j
21、p蛋白质序列数据库蛋白质序列数据库?PIR(Protein Information Resource)?SWISS-PROT http:/www.expasy.ch/sprot/sprot-top.html)?UNIPROT提供(1)蛋白质序列(2)蛋白质的分类、蛋白质的来源;(3)关于原始数据的参考文献;(4)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(5)序列中相关的位点、功能区域生物大分子结构数据库生物大分子结构数据库?PDB(Protein Data Bank )?/pdb?含有通过实验(X射线晶体衍射,核磁共振 NMR)测定的生
22、物大分子(蛋白质、核酸、糖类、其他复合物)的三维结构?MMDB(Molecular Modeling Database)?包括来自于实验的生物大分子结构数据?分子的生物学功能、产生功能的机制、分子的进化历史?生物大分子三维结构模型显示、结构分析和结构比较其它生物分子数据库其它生物分子数据库?单碱基多态性数据库dbSNP?/SNP/?蛋白质结构分类数据库 SCOP?http:/scop.mrc-lmb.cam.ac.uk/scop/?蛋白质二级结构数据库 DSSP?http:/www.sander.embl-heidelberg.de/dss
23、p/?蛋白质同源序列比对数据库 HSSP?http:/www.sander.embl-heidelberg.de/hssp/?生物学、医学文献引用数据库 PubMed?/2、 数据库搜索及序列比较?搜索同源序列在一定程度上就是通过序列比较寻找相似序列?序列比较的一个基本操作就是序列比较的一个基本操作就是 比对比对(Alignment ),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种列共有的排列顺序,这是序列相似程度的一种定性描述?多重序列比对研究
24、的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。也可用于研究一组蛋白质之间的进化关系。发现同源分子3、 基因组序列分析?基因识别?基因功能注释?基因调控信息分析?基因组比较基因识别?基因识别(gene identification)是HGP的重要内容之一,其目的是识别全部人类的基因。?基因识别包括:基因识别包括:?识别基因组编码区?识别基因结构?基因识别目前常采用的有二种方法:?从基因组序列中识别那些转录表达的DNA片段?从cDNA文库中挑取并克隆。基因组比较?各种生物完整基因组数据的增多使我们能够基于一个整体的思路出发,对不同生物的全基
25、因组进行比较分析,发现基因组之间的差异,揭示期间蕴含的遗传奥秘,从而使我们能从遗传本质上合理解释若干重大生物问题。?生命是如何起源的??生命是如何进化的??遗传密码是如何起源的??估计最小独立生活的生物最少需要多少个基因?4、基因表达数据的分析与处理?基因表达数据分析是目前生物信息学研究的基因表达数据分析是目前生物信息学研究的 热热点和重点点和重点?目前对基因表达数据的处理主要是进行聚类分目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能础上寻找相关基因,分析基因的功能?所用方法主要有:所用方
26、法主要有:?相关分析方法?模式识别技术中的层次式聚类方法?人工智能中的自组织映射神经网络人工智能中的自组织映射神经网络?主元分析方法层次式聚类层次式聚类5、蛋白质结构预测、蛋白质结构预测?蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径。?蛋白质结构预测分为 :?二级结构预测二级结构预测?空间结构预测蛋白质折叠二级结构预测? 在一定程度上二级结构的预测可以归结为模式识别问题? 在二级结构预测方面主要方法有:? 立体化学方法? 图论方法? 统计方法? 最邻近决策方法? 基于规则的专家系统方法? 分子动力学方法? 人工神经网络方法? 预测准确率超过70%的第一个软件
27、是基于神经网络的PHD系统空间结构预测空间结构预测?在空间结构预测方面,比较成功的理论方法是同源模型法?该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构?运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作生物信息学与新药研制?未来的药物研究过程将是基于生物信息知识挖掘的过程数据处理和关联分析发现药物作用对象确定靶目标分子针对靶目标进行合理的药物设计基于生物信息学的新药设计生物信息学与疾病检测生物信息学与疾病检测?基因组计划产生的基因及基因多态性数据与临床医学检验结果之间的关系需要利用生物信息学的方法去分析、去揭示?根据这样的分析结果,科学家能够更准确地了解疾病产生的
28、根本原因,更精确地预测某个人患癌症、糖尿病或者心脏病的可能性,从而彻底改变我们诊断、治疗和预防疾病的方式Nature 408 307 (2000)生物信息学研究的意义生物信息学研究的意义? 科学意义:可望从海量生物学数据分析中获得对生命运行机制和疾病机理等等的深入理解。Isaac Newton牛 顿Johannes Kepler 开普勒Tycho Brahe 第 谷第一次科学浪潮天象观测 ? 大量数据 ? 行星运动定律 ? 万有引力定律 ? 航空航天技术元素与大量化合物?元素周期表?现代化学化工第二次科学浪潮Dmitri Mendeleev门捷列夫大量原子光谱数据?量子论?量子力学?信息技术Max Kar
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑工程施工现场安全管理制度
- 投资咨询与顾问管理制度
- 幼儿园食堂采购制度
- 《常见的动物》讲义
- 学习压力-主题班会
- 人教部编版四年级语文上册第24课《延安我把你追寻》精美课件
- 2024年拉萨客运上岗证条件
- 2024年株洲公交车从业资格证考试
- 2024年孝感客运从业资格模拟考试
- 2024年湘西客运从业资格证考试题
- 五年级上册语文课件-19 父爱之舟 人教部编版 (共22张PPT)
- 安宁疗护-卧位护理课件
- 【广东】滨水主题景观项目及多功能城市设计
- 医院优质护理服务评价细则
- 中国民歌介绍课件
- 《望天门山》-优质课件
- 高中数学必修一黄冈中学试卷(内含答案)
- 学写一种植物(三年级作文指导)课件
- 2022年全国高中数学联赛福建赛区预赛试卷参考答案
- 加油站安全承诺书
- 猪的呼吸道疾病课件
评论
0/150
提交评论