生物信息学概论_第1页
生物信息学概论_第2页
生物信息学概论_第3页
生物信息学概论_第4页
生物信息学概论_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学概论

王燕生命科学与技术学院华中科技大学IntroductiontoBioinformatics参考书目:1.J.Pevsner著(孙之荣等译).生物信息学与功能基因

组学.化学工业出版社,2006.2.D.R.Westheadetal.Bioinformatics.

科学出版社(影印本),20033.蒋彦等基础生物信息学及应用清华大学出版社

4.陶士珩生物信息学科学出版社

第一章:绪论第一节引言第二节生物信息学及其发展历史第三节生物信息学主要研究内容第四节生物信息学的研究意义和展望第一节

从人类基因组计划(HGP)说起曼哈顿原子弹计划阿波罗登月计划人类基因组计划20世纪人类三大科学计划

40年代美国陆军60年代美国宇航局人类基因组计划(humangenomeproject,HGP)是由美国科学家于1985年率先提出,于1990年正式启动的。美国、英国、法兰西共和国、德意志联邦共和国、日本和我国科学家共同参与了这一价值达30亿美元的人类基因组计划。。

生命活动三要素:物质、能量、信息

DNA:

遗传物质(遗传信息的载体)

双螺旋结构

A,C,G,T四种基本字符的复杂文本

基因(Gene):具有遗传效应的DNA分子片段DNA、基因、基因组

基因组(Genome):包含细胞或生物体全套的遗传信息的全部遗传物质。人类基因组:

3.2×109bpHGP的目的是解码生命、了解生命的起源、了解生命体生长发育的规律、认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。HGP的意义

染色体的DNA分子中含有四种核苷酸,核苷酸排列顺序的不同决定了遗传信息的差异。人的生、老、病、死归根结底都与基因和染色体相关。人体基因组图谱好比是一张能说明构成每一个人体细胞脱氧核糖核酸(DNA)的30亿个碱基对精确排列的“地图”。这些碱基对以一种特殊方式排列形成人体的10万个基因,基因又成为制造蛋白和化合物的蓝图,蛋白和化合物则负责指导人体细胞和器官的形成和运作。从理论上讲,如果掌握了所有基因上核苷酸分布的详细情况,关于人类生长、发育、衰老、遗传病变的秘密都将随之揭开,科学家将拥有新的“武器”来征服癌症、艾滋病、肝炎、肺结核和阿尔茨海默氏症等。HGP的历史回顾1984.12犹他州阿尔塔组织会议,初步研讨测定人类整个基因组DNA序列的意义1985Dulbecco在《Science》撰文“肿瘤研究的转折点:人类基因组的测序”美国能源部(DOE)提出“人类基因组计划”草案1987

美国能源部和国家卫生研究院(NIH)联合为“人类基因组计划”下拨启动经费约550万美元1989

美国成立“国家人类基因组研究中心”,Watson担第一任主任1990.10

经任美国国会批准,人类基因组计划正式启动第一个自由生物体流感嗜血菌(H.inf)的全基因组测序完成1996完成人类基因组计划的遗传作图启动模式生物基因组计划H.inf全基因组Saccharomycescerevisiae酿酒酵母Caenorhabditiselegans秀丽线虫1997大肠杆菌(E.coli)全基因组测序完成1998完成人类基因组计划的物理作图开始人类基因组的大规模测序

Celera公司加入,与公共领域竞争启动水稻基因组计划1999.7第5届国际公共领域人类基因组测序会议,加快测序速度大肠杆菌及其全基因组水稻基因组计划2001年2月15日《Nature》封面2001年2月16日《Science》封面1999.7

第5届国际公共领域人类基因组测序会议,加快测序速度2000Celera公司宣布完成果蝇基因组测序国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作2000.6.26

公共领域和Celera公司同时宣布完成人类基因组工作草图2001.2.15《Nature》刊文发表国际公共领域结果2001.2.16《Science》刊文发表Celera公司及其合作者结果Drosophilamelanogaster果蝇Arabidopsisthaliana拟南芥基因组测序计划

海量DNA序列数据DNA序列是生命的真谛,这个世界上发生的一切事情都与这一序列息息相关。人类基因组计划(HGP)结果:2003年完成精细图,产生30亿多个数据(碱基)AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATAACGT相当于2800多本每本1000页每页1000字的“天书”DNA序列数据增长趋势各种分子生物学数据库及其增长情况生物数据爆炸性增长:生物数据量的积累已达到人类有史以来所说过的话的数百倍,而且还将以越来越快的速度增长。2023/10/1320

生物信息学的产生诞生HGP生物数据的激增(每15个月翻一番)生物学家数学家计算机科学家生物信息学(bioinfomatics)的诞生2023/10/1321概念(广义)生物体系和过程中信息的存贮、传递和表达细胞、组织、器官的生理、病理、药理过程的中各种生物信息信息科学生命科学中的信息科学

广义应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。概念(狭义)生物分子数据深层次生物学知识分子生物信息学MolecularBioinformatics挖掘获取生物分子信息的获取、存贮、分析和利用总结:生物信息学生物信息学(Bioinformatics)是一门新兴的交叉学科,是生命科学领域中的新兴学科,面对人类基因组计划等各种项目所产生的庞大的分子生物学信息,生物信息学的重要性将越来越突出,它将会为生命科学的研究带来革命性的变革。生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。生物信息学是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一,其研究重点主要体现在基因组学(Genomics)和蛋白组学(Proteomics)。林华安博士:CompBio,bioinforma-tique,bio-informatics,bioinformatics“生物信息学之父”第二节

生物信息学发展简史20世纪50年代,生物信息学开始孕育20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来20世纪70年代,生物信息学的真正开端20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方法20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库20世纪90年代后,HGP促进生物信息学的迅速发展国际著名的生物信息中心NCBI NationalCenterforBiotechnologyInformation(US)

EBI EuropeanBioinformaticsInstitute(EU)

HGMP HumanGenomeMappingProjectResourceCentre(UK)ExPASyExpertofProteinAnalysisSystem(Switzerland)CMBI CentreofMolecularandBiomolecule(TheNetherlands)ANGIS NationalGenomeInformationService(Australia)NIG NationalInstituteofGenetics(Japan)BIC NationalBioinformaticsCentre(Singapore)国内部分生物信息学和生物医学信息服务器北京大学生物信息中心安装了70多个数据库,提供200多种软件下载建立了14个国外著名生物信息中心镜象提供了数据库和文献查询、搜索构建了中华民族基因多样性等专用数据库集成和开发了基于Web的生物信息软件工具开展了分子模拟、序列分析等应用研究举办了国际国内培训班、讲习班、讨论会九十年代以来,生物数据分析技术获得了突飞猛进的发展。生物信息专业期刊越来越多:如

Bioinformatics

JournalofComputationalBiology

BriefingsinBioinformatics

BMCBioinformatics

BioInformaticsTechnology&Systems

BioinformNewsletter互联网上的生物信息学网点非常繁多生物信息学国内外发展现状

PubMed中与生物信息学相关论文统计

90002%第三节

生物信息学主要研究内容1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构预测6、生物信息学的应用分子生物学数据库

种类核酸序列数据库蛋白质序列数据库生物大分子数据库特点数量:>1000个通常可通过WEB进入大小:<10Kb~>10Gb更新频率:每天~每年

基因组数据库

蛋白质序列数据库

蛋白质结构数据库

DDBJEMBLGenBankSWISS-PROTPDBPIR核酸序列数据库蛋白质序列数据库提供(1)蛋白质序列(2)蛋白质的分类、蛋白质的来源;(3)关于原始数据的参考文献;(4)蛋白质功能和蛋白质的一般特征,包括基因 表达、翻译后处理、活化等;(5)序列中相关的位点、功能区域生物大分子结构数据库其它生物分子数据库2、数据库搜索及序列比较搜索同源序列在一定程度上就是通过序列比较寻找相似序列序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。发现同源分子3、基因组序列分析

基因识别基因功能注释基因调控信息分析基因组比较基因识别

基因识别(geneidentification)是HGP的重要内容之一,其目的是识别全部人类的基因。基因识别包括:识别基因组编码区识别基因结构基因识别目前常采用的有二种方法:从基因组序列中识别那些转录表达的DNA片段从cDNA文库中挑取并克隆。基因组比较各种生物完整基因组数据的增多使我们能够基于一个整体的思路出发,对不同生物的全基因组进行比较分析,发现基因组之间的差异,揭示期间蕴含的遗传奥秘,从而使我们能从遗传本质上合理解释若干重大生物问题。生命是如何起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物最少需要多少个基因?4、基因表达数据的分析与处理基因表达数据分析是目前生物信息学研究的热点和重点目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能所用方法主要有:相关分析方法模式识别技术中的层次式聚类方法人工智能中的自组织映射神经网络主元分析方法层次式聚类5、蛋白质结构预测

蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径。蛋白质结构预测分为:二级结构预测空间结构预测蛋白质折叠二级结构预测在一定程度上二级结构的预测可以归结为模式识别问题

在二级结构预测方面主要方法有:立体化学方法图论方法统计方法最邻近决策方法基于规则的专家系统方法分子动力学方法人工神经网络方法预测准确率超过70%的第一个软件是基于神经网络的PHD系统空间结构预测在空间结构预测方面,比较成功的理论方法是同源模型法该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作

生物信息学与新药研制未来的药物研究过程将是基于生物信息知识挖掘的过程数据处理和关联分析发现药物作用对象确定靶目标分子针对靶目标进行合理的药物设计基于生物信息学的新药设计生物信息学与疾病检测基因组计划产生的基因及基因多态性数据与临床医学检验结果之间的关系需要利用生物信息学的方法去分析、去揭示根据这样的分析结果,科学家能够更准确地了解疾病产生的根本原因,更精确地预测某个人患癌症、糖尿病或者心脏病的可能性,从而彻底改变我们诊断、治疗和预防疾病的方式Nature408307(2000)生物信息学研究的意义科学意义:可望从海量生物学数据分析中获得对生命运行机制和疾病机理等等的深入理解。IsaacNewton牛顿JohannesKepler开普勒TychoBrahe第谷第一次科学浪潮天象观测

大量数据

行星运动定律

万有引力定律

航空航天技术元素与大量化合物

元素周期表

现代化学化工第二次科学浪潮DmitriMendeleev门捷列夫大量原子光谱数据

量子论

量子力学

信息技术MaxKarlErnstLudwigPlanck普朗克AlbertEinstein爱因斯坦NielsBohr玻尔ErwinSchrödinger

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论