生物信息学第一章 生物信息学引论_第1页
生物信息学第一章 生物信息学引论_第2页
生物信息学第一章 生物信息学引论_第3页
生物信息学第一章 生物信息学引论_第4页
生物信息学第一章 生物信息学引论_第5页
已阅读5页,还剩113页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学12023/12/28课程安排1、时间:每周一下午5~8节教室:第三教学楼第二阶梯教室学时:每周4学时〔总计44=16学时〕2、学分:2学分3、成绩考核方式〔笔试〕4、E-mail:〔办公室地址:理三341室〕2023/12/282参考文献32023/12/28第一章

生物信息学引论

42023/12/28简介2023/12/285

第一节引言

生命信息的组织、传递、表达物理化学分子生物学遗传学2023/12/2861、

生物信息学概念HGP生物数据的激增〔每15个月翻一番〕生物学家数学家计算机科学家生物信息学〔bioinfomatics)的诞生2023/12/287概念〔广义〕生物体系和过程中信息的存贮、传递和表达细胞、组织、器官的生理、病理、药理过程的中各种生物信息信息科学生命科学中的信息科学2023/12/288概念〔狭义〕深层次生物学知识分子生物信息学

MolecularBioinformatics挖掘获取生物分子信息的获取、存贮、分析和利用生物分子数据2023/12/289Bioinformatics生物分子数据计算机计算+2023/12/2810高性能计算效劳器,图形工作站2023/12/2811

高端的计算集群2023/12/2812高度灵活的可扩展的计算集群2023/12/28132023/12/28142、生物分子信息细胞分子存贮、复制、传递和表达遗传信息的系统生物信息的载体2023/12/2815生物信息学主要研究两种信息载体DNA分子蛋白质分子2023/12/28162023/12/2817ProteinMachines

2023/12/2818FromtheCelltoProteinMachines

2023/12/2819生物分子至少携带着三种信息遗传信息与功能相关的结构信息进化信息2023/12/2820(1)遗传信息的载体——DNA

遗传信息的载体主要是DNA

控制生物体性状的基因是一系列DNA片段生物体生长发育的本质就是遗传信息的传递和表达212023/12/28DNA通过自我复制,在生物体的繁衍过程中传递遗传信息基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。

基因控制着蛋白质的合成

DNARNA蛋白质转录翻译222023/12/28基因的DNA序列DNA前体RNAmRNA多肽链蛋白质序列对应关系遗传密码2023/12/2823(2)蛋白质的结构决定其功能蛋白质功能取决于蛋白质的空间结构蛋白质结构决定于蛋白质的序列〔这是目前根本共认的假设〕,蛋白质结构的信息隐含在蛋白质序列之中。2023/12/2824(3)DNA分子和蛋白质分子

都含有进化信息通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。通过比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。2023/12/2825生物分子信息DNA序列数据

蛋白质序列数据

生物分子结构数据

生物分子功能数据

最根本直观复杂生物分子数据类型2023/12/2826

DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最根本的生物信息维持生命活动的机器遗传密码生命体系千姿百态的变化生物分子数据及其关系2023/12/2827第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少对于第二部密码,目前那么只能用统计学的方法进行分析无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。2023/12/2828生物分子信息的特征生物分子信息数据量大生物分子信息复杂生物分子信息之间存在着密切的联系2023/12/28293、生物信息学的目标和任务

收集和管理生物分子数据数据分析和挖掘开发分析工具和实用软件生物分子序列比较工具基因识别工具生物分子结构预测工具基因表达数据分析工具2023/12/2830

实验

数据

信息知识收集表示分析建模刻画特征比较推理

应用基因工程蛋白质设计疾病诊断疾病治疗开发新药生物分子信息处理流程2023/12/2831分子生物学的三大核心数据库

GenBank核酸序列数据库SWISS-PROT蛋白质序列数据库PDB生物大分子结构数据库2023/12/2832表1.1至2001年初已经得到的各类数据及根本数据处理任务2023/12/2833生物信息学研究意义认识生物本质了解生物分子信息的组织和结构,破译基因组信息,说明生物信息之间的关系。改变生物学的研究方式改变传统研究方式,引进现代信息学方法在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据生物信息学将是21世纪生物学的核心

2023/12/2834主要研究内容

破译遗传语言、识别基因预测蛋白质结构和功能认识生物界信息存贮和传递的本质研究药物作用机制和开发新药352023/12/28第二节生物信息学的开展历史生物信息学根本思想的产生生物信息学的迅速开展二十世纪50年代二十世纪80-90年代人类基因组方案的推动2023/12/283620世纪50年代,生物信息学开始孕育20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来20世纪70年代,生物信息学的真正开端20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方法20世纪80年代以后,出现一批生物信息效劳机构和生物信息数据库20世纪90年代后,HGP促进生物信息学的迅速开展2023/12/2837关于生物信息学开展历程中的重要大事,请参见下面两个网站的介绍:/BLASTinfo/milestones.html、/bioinformatics/。2023/12/2838生物信息学开展现状

PubMed中与生物信息学相关论文统计

90002%2023/12/2839第三节人类基因组方案和基因组信息学1、人类基因组方案简介人类基因组方案准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模型生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是根本的任务,在此根底上解读和破译生物体生老病死以及和疾病相关的遗传信息2023/12/2840模式生物酵母大肠杆菌果蝇线虫老鼠2023/12/2841曼哈顿原子弹方案〔1942-46〕阿波罗登月方案(1961-69)人类基因组方案(1990-2003)20世纪三大科学方案2023/12/28421961年,美国总统Kennedy提出两个科学方案:登月方案攻克肿瘤方案人类遗传信息的复杂性人类基因组方案(HGP,HumanGenomeProject)目标:整体上破解人类遗传信息的奥秘“我们选择登月〞(1962年Kennedy在Rice大学演讲)为什么提出HGP?2023/12/2843生命活动三要素:物质、能量、信息DNA:遗传物质(遗传信息的载体)双螺旋结构A,C,G,T四种根本字符的复杂文本基因〔Gene〕:具有遗传效应的DNA分子片段DNA、基因、基因组2023/12/2844

基因组(Genome):包含细胞或生物体的全套遗传信息的全部遗传物质

原核生物(细菌、病毒等)

真核生物(真菌、植物、动物等)人类基因组:含有约3万个基因2023/12/28451984.12犹他州阿尔塔组织会议,初步研讨测定人类整个基因组DNA序列的意义1986.3杜尔贝科(Dulbecco)在?Science?撰文“肿瘤研究的转折点:人类基因组的测序〞美国能源部(DOE)提出“人类基因组方案〞草案1987美国能源部和国家卫生研究院〔NIH〕联合为“人类基因组方案〞下拨启动经费约550万美元1989美国成立“国家人类基因组研究中心〞,Watson担任第一任主任1990.10经美国国会批准,人类基因组方案正式启动JamesWatsonWalterGilbertHGP历史回忆2023/12/2846尽管比之于人类登月,HGP的投入资金要少得多,但HGP对人类生活的影响要更为深远。因为随着这个方案的完成,DNA分子中编码的遗传信息将对人类存在的化学根底作出最终的答复。这将不仅帮助我们理解我们是如何作为健康的人发挥正常功能的,而且也将在化学水平上解释遗传因子在各种疾病,如癌症、早老痴呆症、精神分裂症等一些严重危害人类健康的疾病中的作用。毕竟对人类自身更深入的了解是人类活动中最重要的一个局部。——Watson,1990,?Science?2023/12/2847HGP的最初目标通过国际合作,用15年时间(1990~2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。4张图:遗传图物理图序列图基因图HGP的终极目标说明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。2023/12/28481995第一个自由生物体流感嗜血菌(H.inf)的全基因组测序完成1996完成人类基因组方案的遗传作图启动模型生物基因组方案H.Inf全基因组Saccharomycescerevisiae酿酒酵母Caenorhabditiselegans秀丽线虫2023/12/28491997大肠杆菌(E.coli)全基因组测序完成1998完成人类基因组方案的物理作图开始人类基因组的大规模测序赛立拉〔Celera〕公司参加,与公共领域竞争启动水稻基因组方案1999.7第5届国际公共领域人类基因组测序会议,加快测序速度大肠杆菌及其全基因组水稻基因组方案2023/12/28502000Celera公司宣布完成果蝇基因组测序国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作公共领域和Celera公司同时宣布完成人类基因组工作草图?Nature?刊文发表国际公共领域结果?Science?刊文发表Celera公司及其合作者结果Drosophilamelanogaster果蝇Arabidopsisthaliana拟南芥2023/12/28512001年2月15日?Nature?封面2001年2月16日?Science?封面2023/12/2852AttheWhiteHouseonJune26,FrancisCollins(r),DirectoroftheNationalHumanGenomeResearchInstitute,PresidentClinton,andJ.CraigVenter,PresidentofCelaraGenomics,laudedthethousandsofscientistswhocontributedtothegenomesequence.2023/12/28532023/12/28542001年8月26日人类基因组“中国卷〞的绘制工作宣告完成。2002年水稻、小鼠、疟原虫等基因组测序完成2003年4月14日中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功,人类基因组方案的所有目标全部实现。2004年10月人类基因组完成图公布。2023/12/28552023/12/28562023/12/2857〔/genomes/,2007年2月〕已完成测序的3,000多个基因组2023/12/28581、大协作研究:

以学科为中心,以问题为中心,多学科合作2、研究的方案性和有序性:各方共同参与,制定更科学、更全面的研究方案4、政府与国家的作用:美:领导与推动英:始于1989年2月,奉献为1/3左右法:始于1990年6月,奉献为3%左右日:始于1990年,奉献为7%左右德:始于1995年,奉献为7%左右中:始于1999年9月,奉献为1%左右3、商业竞争促进根底研究:1998年Celera公司的参加HGP的研究特色2023/12/28595、可持续性:太空观测和基因组方案都是科学上出色的方案,每一个都是科学上迈出的一大步。但是两者之间存在着一个刺眼的差异:开支方面有四十倍的差异。开支的差异是至关重要的,因为这意味着可持续性。当一个方案足够廉价到成为一条可以无限向未来延伸的系列的第一个时,它是可持续的。而当一个方案太昂贵,以至不经过重大的政治斗争就无法重复时,它就是不可持续的。可持续方案带来新方案的开始,不可持续方案那么标志着老时代的结束。?TheSun,theGenome,andtheInternet——ToolsofScientificRevolution?——FreemanDyson2023/12/2860各学科参与、协作:生命科学、数学、物理学、化学、计算机科学、材料科学以及伦理、法律等社会科学……HGP带来的科学挑战HGP:Pandora'sBox2023/12/28612023/12/2862人类基因组方案的具体任务可以概括为建立四张图谱遗传图谱物理图谱序列图谱转录图谱2023/12/2863遗传图谱〔geneticmap〕又称连锁图谱(linkagemap),它是以具有遗传多态性〔在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%〕的遗传标记为“路标〞,以遗传学距离〔在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM〕为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。遗传图谱

2023/12/2864遗传连锁图:通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩〔cM,即每次减数分裂的重组 频率为1%〕 表示。2023/12/2865物理图谱物理图谱〔physicalmap〕是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。2023/12/28661998年完成了具有52,000个序列标签位点(STS),并覆盖人类基因组大局部区域的连续克隆系的物理图谱。敲碎基因组,分析研究内容所处的染色体位置细菌人工染色体〔80~300kb〕酵母人工染色体〔数百~2000kb〕中心粒一对紧密相邻的标志一对相邻较远的标志染色体图2023/12/2867序列图谱2023/12/2868大规模基因组测序

Megabace测序仪3700测序仪2023/12/2869大规模测序根本策略逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装〔国际合作测序方案〕全基因组鸟枪法:在一定作图信息根底上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装〔美国Celera公司〕2023/12/2870运用计算机软件进行序列拼接2023/12/2871转录图谱

转录图谱是在识别基因组所包含的蛋白质编码序列的根底上绘制的结合有关基因序列、位置及表达模式等信息的图谱。2023/12/28722023/12/2873基因识别

基因识别〔geneidentification〕是HGP的重要内容之一,其目的是识别全部人类的基因。基因识别包括:识别基因组编码区识别基因结构基因识别目前常采用的有二种方法:从基因组序列中识别那些转录表达的DNA片段从cDNA文库中挑取并克隆。2023/12/2874人类基因组方案的实现对医学事业的影响2023/12/2875基因变异与疾病2023/12/2876772023/12/28人类基因组方案的实施意义人类基因组方案为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便,使人类对自身有一个根本的了解。人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其它的生物就容易得多。研究多种模式生物基因组将有助于研究地球生物的进化史。2023/12/28785、我国对人类基因组方案的奉献2023/12/2879又一次成功!

——水稻基因研究2023/12/28802、人类基因组方案给生物信息学提出挑战随着实验数据和可利用信息急剧增加,信息的管理和分析成为HGP的一项重要的工作发现生物学规律解读生物遗传密码认识生命的本质研究基因组数据之间的关系分析现有的基因组数据2023/12/28812023/12/2882功能基因组学

HGP完成后,我们将进入“后基因组学〞(post-genomics)时代基因组学研究重心已开始从揭示生命的所有遗传信息转移到在分子整体水平对功能的研究上,即功能基因组学〔functionalgenomics〕功能基因组学的任务是进行基因组功能注释〔Genomeannotation〕认识基因与疾病的关系掌握基因的产物及其在生命活动中的作用2023/12/2883功能基因组学的研究内容进一步识别基因,识别基因转录调控信息,分析遗传语言。注释所有基因产物的功能,这是目前基因组功能注释的主要层次。研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。比较基因组学研究,在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。2023/12/2884人类基因组与其它生物基因组比较2023/12/2885例:人与鼠染色体的差异2023/12/2886生物信息学与新药研制未来的药物研究过程将是基于生物信息知识挖掘的过程数据处理和关联分析发现药物作用对象确定靶目标分子针对靶目标进行合理的药物设计872023/12/28生物信息学与疾病检测基因组方案产生的基因及基因多态性数据与临床医学检验结果之间的关系需要利用生物信息学的方法去分析、去揭示根据这样的分析结果,科学家能够更准确地了解疾病产生的根本原因,更精确地预测某个人患癌症、糖尿病或者心脏病的可能性,从而彻底改变我们诊断、治疗和预防疾病的方式2023/12/2888第四节蛋白质结构与功能关系的研究

蛋白质结构

蛋白质序列蛋白质功能关系

2023/12/2889基因组方案的不断推进,其结果不仅导致DNA序列数据的迅速增长,也导致蛋白质序列数据的迅速增长。生物信息学在蛋白组学研究中的主要任务是产生和分析蛋白质的结构,并将结构知识应用于生物学、医学、药学等生命科学领域。蛋白质空间结构预测。蛋白质结构是合理药物分子设计的根底。蛋白质结构是蛋白质工程的根底。2023/12/2890基于生物信息学的新药设计2023/12/2891第五节目前生物信息学主要研究内容1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构预测2023/12/2892基因组数据库蛋白质序列数据库蛋白质结构数据库DDBJEMBLGenBankSWISS-PROTPDBPIR1、生物分子数据的收集与管理2023/12/28932、数据库搜索及序列比较搜索同源序列在一定程度上就是通过序列比较寻找相似序列序列比较的一个根本操作就是比对〔Alignment〕,即将两个序列的各个字符〔代表核苷酸或者氨基酸残基〕按照对应等同或者置换关系进行比照排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。2023/12/2894发现同源分子2023/12/28953、基因组序列分析

遗传语言分析基因组结构分析基因识别基因功能注释基因调控信息分析基因组比较2023/12/28964、基因表达数据的分析与处理2023/12/2897基因芯片2023/12/28982023/12/28992023/12/281005、蛋白质结构预测

蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径。蛋白质结构预测分为:二级结构预测空间结构预测蛋白质折叠2023/12/28101二级结构预测在一定程度上二级结构的预测可以归结为模式识别问题在二级结构预测方面主要方法有:立体化学方法图论方法统计方法最邻近决策方法基于规那么的专家系统方法分子动力学方法人工神经网络方法预测准确率超过70%的第一个软件是基于神经网络的PHD系统2023/12/28102空间结构预测在空间结构预测方面,比较成功的理论方法是同源模型法该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作2023/12/281032023/12/281041、数学统计方法2023/12/281052、动态规划方法动态规划〔DynamicProgramming〕是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法动态规划解决问题的根本过程是:将一个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推进,“局部〞逐渐接近“全局〞,最终获得全局最优解2023/12/28106机器学习机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经验1、遗传算法采用随机搜索方法,具有自

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论