医学生物信息学-绪论_第1页
医学生物信息学-绪论_第2页
医学生物信息学-绪论_第3页
医学生物信息学-绪论_第4页
医学生物信息学-绪论_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医学生物信息学与生物医学工程 Bioinformatics for medicine and Biomedical Engineering王炜 博士 博导、教授 生物医学工程研究所 兰州大学课程介绍参考书:生物信息学札记樊龙江 Bioinformatics . David W. mount Bioinformatics for Geneticists. Michael R. Barnes, Ian C. Gray课程主要内容:1. 医学生物信息学 (主要考试内容) 2. 生物医学工程介绍 (次要考试内容) 信息学基础 Fundament of Informatics 绪 论 常见的信息形式 1

2、)文字、数字、图表一季度二季度三季度200027830124320013094324332002455477234Form of Information 2) 图形与图像 根据采集的生理信号计算机模拟的心电图形Graph and Images根据数学公式计算机画出的平面图形根据信号数据计算绘出的曲线图根据数学公式计算机画出的3D图形根据X线的吸收数据计算机画出的CT影像Images 显微照相得到的细胞图像记录的含有噪音的数字语音信号和除去噪音的信号 信息的来源通过人的认知功能,直接或思维感知记录信息。 如:各种绘制的图形图像、数字,描述等。在认知的基础上通过仪器直接获取信息。 如:照片、图像各

3、种所测到的原始信号。通过人的智慧创作出信息。 如:分析后的数据、文字、数字合成图像、信息融合图像、各种从原始信号变换而来的信号。Source of Information 采集信息所需要的设备 常用信息技术Information Technology 信息技术的内容Contents of Information Technology计算机与网络技术数字化及数字信号处理技术人工智能与模式识别技术、信息融合。多媒体技术、计算机视觉技术光学技术、传感器技术数据库技术、软件技术Computer and Application计算机的应用(10)脑科学研究与学习辅助教育:Computer and App

4、lication计算机的应用(9)数字化与数字信号处理(2)一维信号:Digital Technology二维信号处理:去 噪Digital Technology图像分割Digital Technology直方图分析Digital Technology人工智能、模式识别及信息融合(1)人工智能:Artificial Intelligence And Model Identification 人工智能、模式识别及信息融合(2)Artificial Intelligence And Model Identification 智能识别神经网络模型传感器计算机 系统驱动设备专家系统操作对象状态指令模式

5、识别: 利用人的知识库,通过数学模型让计算机识别一定的事务。 如:文字识别,指纹识别,语音识别,细胞记数,基因蛋白质序列、智能控制与信息处理等其它各种电脑自动分析系统。人工智能、模式识别及信息融合(2)Artificial Intelligence And Model Identification 信息融合:脑功能图与形态图形融合 Artificial Intelligence And Model Identification 人工智能、模式识别及信息融合(3)医学信息学Digital Technology医学信息学信息融合与模式识别脑科学中的应用脑电信息融合的认知动力学 Bioinforma

6、tics基因序列分析生物信息学 Bioinformatics基因位点分析生物信息学 Bioinformatics质粒位点分析生物信息学信息融合与模式识别领域典型应用生物信息学产生的背景1、人类基因组计划的完成 第一个人类染色体全序列-第22号染色体的测序工作已经在1999年12月完成,人类基因组计划工作草图已完成。 给基因组组织结构和信息结构的研究工作提供了大量的第一手材料,同时为基因组研究取得突破性进展提供了可能。目前在数据库中模式生物全基因组序列越来越多。 人类对基因的认识,将从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置、结构和功能上的

7、相互关系。绪论-生物信息学产生的背景人基因组测序完成后,基因组研究已进入全面信息提取和数据分析阶段,即生物信息学发挥重要作用的阶段-后基因时代。功能基因组和蛋白质组的大量数据已开始涌现。如何分析这些数据,从中获得生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。很多模式生物基因组,如果蝇基因组1.2亿碱基对的编码区于2000年2月测序并组装完成。绪论-生物信息学产生的背景GenBank中的DNA碱基数目呈指数增加。1999年12月其数目已达30亿,它们来自47000种生物。2001年初这一数目已达110亿。UniGene的数目约达7万个。1999年初单核苷酸多态性数据库出现以来,已超过

8、600万。自全长1.8Mb的嗜血流感杆菌基因组序列于1995年发表以来,已有54个模型生物的完整基因组完成了测序,有9个古细菌、31个原核真细菌、14个真核生物的完整基因组或它们的完整染色体,其中包括酿酒酵母和线虫。还有另外的70余个微生物基因组正在测试当中。2、基因测序数据高速积累绪论3、大量未知基因需要破解其功能 人类基因组从第22号染色体已鉴定出679个基因,其中有35种疾病与该染色体突变相关,如免疫系统疾病、先天性心脏病和精神分裂症,但是其中55的基因是未知的。信息量随计算机运算速度增长计算机运算速度: 18个月增长一倍; DNA序列数据: 14个月增长一倍3、生物信息的文献增长迅速根

9、据PubMed数据整理,分子生物学和遗传学的文献积累从60年代中期的接近10万篇迅速增长至60年代末期的20多万篇,即在3-4年间就可以翻一番。到现在年,则增长至约150万篇4、生物信息数据库涌现 美国的核酸数据库从1979年开始建设,1982年正式运行。欧洲分子生物学实验室的EMBL数据库也于1982年开始服务。日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的500亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。绪论概念与定义生物信息学的内涵 生物信息学是在基因组计划背景下发展起来的

10、综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。 生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解释。它的拓展为蛋白质组信息学。 绪论 概念与定义基因组信息学的定义 Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation

11、,which is essential part of bioinformatics. 它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。是生物信息学的重要组成部分。 绪论概念与定义生物信息学产生与技术融合: 1. 生物学对生命现象认识的迅速发展 2. 信息技术与计算机技术的高速发展 3. 生物数学研究的深入 4. 生物学与信息科学方法交叉融合 5. *神经信息学与脑科学的发展 生物信息学绪论 广义生物信息学研究范畴生物遗传信息: DNA-RNA-PROTEIN,遗传信息的转录-翻译 遗传信息与遗传生物信息学生物电磁学与电磁生物学: 生命活动反映出的电磁信息

12、电磁辐射对生命体产生的各种影响 人体生物信号的检测与调制视觉与光信息处理: 视觉神经元回路信息的处理与视觉编码 视觉的认知与图像的智能模式识别,成像机制人体体免疫信息学: 与免疫相关的人体免疫球蛋白,表达基因等相关的信息学绪论 广义生物信息学研究范畴脑与神经信息学: 脑感知信息提取与应用 脑认知系统的信息提取与信息处理新方法 思维、逻辑、记忆、学习、形象思维模型的研究 机器学习方法与神经网络算法的研究生物体结构与微光机电仿真研究: DNA驱动的微型机器人 大分子细胞结构组装信息的组织工程学研究 分子聚集化学的研究生物芯片的研究: 基因芯片、蛋白质芯片、组织芯片研究 绪论 现代生物信息学研究范畴

13、基因层次的生物信息学 产生背景: 1.生物学+物理学+信息科学+计算机 2.快速序列测定、基因重组、多维核磁 3.同步辐射、光电子学、纳米与机器人技术 4.网络与海量存储设备的发展 5.基因组DNA序列信息分析 6.蛋白质空间结构模拟和预测 7.蛋白质功能信息分析与药物设计 核心内容: 基因组信息的获取、处理、存储、分配和分析解释。 关键任务: 解读基因组的核算序列,确定基因在染色体上的确切位置,解释功能,用新基因进行蛋白质空间结构的模拟和预测,设计新药物。疾病层次的生物信息学 1.研究基因表达与调控机制 2.根据调控分子作用描述人类疾病诊断与治疗规律 研究目标: 基因组信息的复杂结构与遗传信

14、息规律 解释生命遗传规律 关键: 解释生物体基因组序列的组织结构和信息结构绪论 现代生物信息学研究范畴关键是读懂编码,破译功能CCGGTCTCCCCGCCCGCGCGCGAAGTAAAGGCCCAGCGCAGCCCGCGCTCCTGCCCTGGGGCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACAGACCCCTGTCGCCTTCGCCCCCCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATACGAACAAGGAAGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGGGGGCG

15、GAGTCAACGGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCGAAATGAAAGCCCGGGAACGCCGAAGAAGCACGGGTGTAAGATTTCCCTTTTCAAAGGCGGGAGAATAAGAAATCAGCCCGAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACAGAGGGAATGGGGCAAGGAGCGAGGCTGGGGCTCTCACCGCGACTTGAATGTGGATGAGAGTGGGACGGTGACGGCGGGCGCGAAGGCGAGCGCATCGCTTCTCGGCCTTTTGGCTAAGATCAAGTGTAGTA

16、TCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATATTAAATGGATTGATCAATCCGCTTCAGCCTCCCGAGTAGCTGGGACTACAGACGGTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCCCCTTGGTAGAGACGGGATTCCGCTATATTGCCTGGGCTGGTGTCGAACTCATAGAACAAAGGATCCTCCCTCCTGGGCCTGGGCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCGGGCGCACCACACCAGGAGCAAACACTTCCGGTTTT

17、AAAAATTCAGTTTGTGATTGGCTGTCATTCAGTATTATGCTAATTAAGCATGCCCGGTTTTAAACCTCTTAAAACAACTTTTAAAATTACCTTTCCACCTAAAACGTTAAAATTTGTCAAGTGATAATATTCGACAAGCTGTTATTGCCAAACTATTTTCCTATTTGTTTCCTAATGGCATCGGAACTAGCGAAAGTTTCTCGCCATCAGTTAAAAGTTTGCGGCAGATGTAGACCTAGCAGAGGTGTGCGAGGAGGCCGTTAAGACTATACTTTCAGGGATCATTTCTATAGTGTGTTA

18、CTAGAGAAGTTTCTCTGAACGTGTAGAGCACCGAAAACCACGAGGAAGAGAGGTAGCGTTTTCATCGGGTTACCTAAGTGCAGTGTCCCCCCTGGCGCGCAATTGGGAACCCCACACGCGGTGTAGAAATATATTTTAAGGGCGCG (1250 characters) 绪论 现代生物信息学的任务绪论 现代医学生物信息学的主要组成医学生物信息学是医学信息学的重要内容之一 它主要包括:基因组信息学蛋白质组信息学功能蛋白组信息学蛋白质结构与功能预测免疫生物信息学基因与蛋白质药物设计*脑信息学与神经信息学*中医信息学绪论 医学生物信息学的研究

19、路线获取基因序列数据基因的识别发现蛋白质的调控网络功能结构的模拟预测结构预测药物设计绪论 生物信息学的研究内容生物信息的收集 基因测序 蛋白质测序生物信息的存储 生物信息学数据库的建立 核酸序列数据库: GeneBank,EMBL,DDBJ等三维结构数据库: PDB,NDB,CCSD等 蛋白质序列数据库:SWISS-PROT,PIR,OWL,NRL23D,TrEMBL等 蛋白质结构数据库: SCOP,CATH,FSSP,3D-ALL,DSSP等 国际数据共享的环境 生物信息数据库的评估与检测生物信息的管理与服务提供 生物信息数据库管理系统的开发 分布式管理与维护系统的建立 生物信息的共享服务,

20、建立数据库与网站: 中国:北大PDB与EMBL镜像,生物物理所JIPID等 绪论 生物信息学的研究内容生物信息学算法与软件研究 算法: 并行算法 遗传算法 面向对象算法 虚拟机技术神经网络算法等 线性与非线性统计 专用软件: DNASTAR,OMIGA,GENESCAN等上百种 结构与功能预测软件示例绪论一生物信息学的研究内容基因组序列信息的提取 基因组信息学的根本任务: 破译人类遗传密码 现状:目前掌握的只有DNA上的编码蛋白质区域,也称基因,占人类基因组的13%, 其余97%的基因序列的功能未知,这部分基因叫Junk DNA,并对生命过程有活力。 Junk DNA 所在的区域叫非编码区,包

21、含有如下DNA、RNA成份 内含子、卫星DNA、非均一核RNA与假基因,以及顺序调控元件的起动子、增强子等。 目前研究热点: 97%Junk DNA 中非编码区编码特征、信息调控与表达规律。发现新的基因,研究其生理功能和疾病本质,为开发新药奠基。 绪论一生物信息学的研究内容基因组序列信息的分析 计算方法:高维分布的统计方法 神经网络方法 分形与分类方法 密码学方法 分析编码:碱基三联体大于且接近20的组合分析 非三联体碱基组合分析,四、五联体? 操纵子模型分析(Jack-Monod model) 分析方法:用EST(Expressed Sequence Tags)数据库发现新的基因。大尺度作图

22、与预测;多序列比较分析绪论一生物信息学的研究内容功能基因组相关信息分析分析方法:表达谱分析 相关算法研究 软件开发 表达调控网络研究 功能分子结构模拟 核酸、蛋白质空间结构的预测与模拟 蛋白质功能预测 蛋白质结构的预测研究现状:蛋白质结构的预测问题仍然没有解决 核酸与蛋白质分子模拟技术是研究热点 绪论一生物信息学的研究内容蛋白质结构的预测 目的:用已知的序列来构建蛋白质的立体结构模型,研究蛋白质的功能,用于药物设计。 方法: 1.分子动力学:根据分子力学、动力学、物理化学原理,在能量最小状态下的构像研究蛋白质的结构。 2.基于知识的预测:用已知空间结构的蛋白质进行对比分析,找出蛋白质一级结构的

23、联系,总结规律。对于同源性低的蛋白质分子二级结构预测受限。 3.知识预测的算法与准确率:单残基Chou-Fasman统计(56%) Garnier信息统计和Lim统计法(59%),人工神经网络(64%)。 理想的准确率:80%可认为二级结构的预测基本准确。绪论一生物信息学的研究内容蛋白质分子模拟软件 MSI公司的Insight,Quanta Tripos公司的Sybyl等 北京大学的蛋白质分子设计软件等生物大分子模拟和药物设计的内容RNA结构模拟,反义RNA分子设计; 蛋白质空间结构和分子设计;复合蛋白质以及连接肽设计;生物活性分子的结构计算和设计;纳米生物材料的模拟与设计;基于DNA结构的药

24、物设计;基于酶和功能蛋白结构以及细胞受体结构的药物设计。绪论一生物信息学的研究内容分子图像模拟与药物设计 1.用大量已知的核酸、蛋白质、糖类的三维结构设计。 2.已知功能蛋白质的改造,改造对象必须是结构清楚,功能确定,具有可操作性 3.改造后的蛋白质结构模型的模拟,并与自然蛋白质比较,预测新序列的空间结构和生物学功能特性 4. 在氨基酸顺序已知的基础上,模拟蛋白质的空间结构 5.根据蛋白质的空间结构,改性天然大分子,进行受体药物设计 如:酶结构、抗体结构、基因表达产物、膜受体结构、转录因子结构的药物设计 6.用生物信息学芯片高通量技术进行靶向药物的筛选绪论-生物信息学的技术方法研究DNA芯片技

25、术: 提取基因表达功能谱,DNA快速测序,DNA突变检测,药物筛选蛋白质测序技术: 二维凝胶电泳、测序质谱技术、蛋白质芯片、飞行质谱技术等。生物信息数据库与信息处理方法研究测序相关基础知识基因组计划 80年代中期,美国能源部启动了一系列旨在构建人类基因组详尽的遗传和物理图谱研究项目,测定了人类基因组的全部核酸序列,并将约10万个人类基因定位于染色体。 如此大规模的研究项目,必须采用新方法分析基因图谱和DNA序列数据,用新仪器检测和分析DNA分子。为使研究结果尽快为公众所用,计划还要求利用先进的信息技术将研究成果以最快的速度传递给科学工作者和医务工作者。由这一大规模研究项目引发的国际合作,就是众

26、所周知的人类基因组计划(Human Genome Project)模型生物基因组计划 一些模型生物(model system)的基因组计划先后在世界各地的实验室启动。它们包括大肠杆菌(Escherichia coli), 啤酒酵母(Saccharomyces cerevisiae), 线虫(Caenorhabditis elegans), 果蝇(Drosophila melanogaster), 拟南芥(Arabidopsis thalania), 狗(Canis familiaris)、小鼠(Mus musculus)。但由此而产生的序列数据已经大量涌入公共的核酸序列数据库。测序相关知识人类

27、基因组计划工作步骤 通过分析在染色体上测定基因组全序列的基本过程通常分两步: 第一步是随机测序及序列组装,俗称鸟枪法(shotgun)测序。 第二步则是找出这些随机片段之间的间断序列,确定那些歧义位点的碱基。人类基因组含70%以上的重复序列。用鸟枪法完成整个基因组所有片段的序列测定后,进行连接装配,显然具有相当大的难度。本世纪60年代和70年代,科学家们一直致力于研究测定核酸序列的方法。最初使用的方法只能测定核糖核酸(RNA),主要是转移核糖核酸(tRNA)。tRNA分子的序列比较容易测定,因为它的链较短,通常只有74-95个核甘酸(nucleotide),有可能分离单个tRNA分子。脱氧核糖

28、核酸(DNA)的情况不同。人染色体DNA分子约含5千5百万到2亿5千万个碱基对(basepairs,简称bp),远远大于RNA分子。测定一个染色体DNA分子的全部核苷酸序列是一项艰巨的工作。即使可以将其分割成较小的片段,如何纯化也是一个问题。一次实验中可以测定的最长片段约为500bp。由此,要测定人类染色体DNA分子的全序列,就得将其分割成50万个片段。如何把某个片段从这50万个片段中分离出来,成了DNA测序问题的关键。此外,基因克隆(gene cloning)和多聚酶链反应(polymerase chain reaction,简称PCR)技术为DNA全序列测定带来了方便。核酸序列测定序列测定

29、(sequencing)已有50多年的历史,进展缓慢。最初,人们致力于建立蛋白质(proteins)和多肽(peptides)的分离技术,确定其氨基酸(amino acids)种类及含量。1945以前,没有任何蛋白质序列定量测定的方法。随着色谱技术和标记方法的出现, 1955年Ryle等完成了胰岛素的全序列测定。五年后Hirs等完成了第一个核糖核酸酶序列测定 。1965年,约有20个含100多个残基的蛋白质序列被测定1980年,1500个含100多个残基的蛋白质序列被测定。而今天,已测定的蛋白质序列已超过30万。蛋白质序列测定蛋白质序列测定方法最初,蛋白质序列测定主要采用手工的埃德曼降解和环甲

30、基化(Edman deglation - dansylation)方法(Edman,1950年)。蛋白质序列测定的进展很快,应该归功于自动测序仪的研制成功。埃德曼和贝格(Begg) 于1967年发明的测序法相比,1980年开始使用的自动测序仪灵敏度提高了近1万倍。质谱技术的发展为蛋白质序列测定开辟了新的途径。第一次用这种方法测定完整的蛋白质分子是在1997年。质谱法测序的突出优点是可以识别翻译后修饰 (post-translations modification) 得到的特殊氨基酸。用其它方法进行蛋白质序列测定时,这种修饰信息无法获得。真核和原核细胞的结构 基因组测序的流程细胞核中的染色体染色

31、体DNA相关蛋白质DNA的双螺旋结构DNA的分子组成 核甘(nucleotides)磷酸盐(phosphate)糖(sugar)四种碱基:腺嘌呤(Adenine)鸟嘌呤(Guanine)胞嘧啶(Cytosine)胸腺嘧啶(Thymine)DNA的双螺旋结构的碱基互补:A/T C/GDNA复制或克隆原理基因组的定义任何一条染色体上都带有许多基因,一条高等生物的染色体上可能带有成千上万个基因,一个细胞中的全部基因序列及其间隔序列统称为基因组( genomes )。 基因的定义DNA上具有特定功能、负责一种特性表达的一个片断叫基因。一般来讲,一个基因只编码一个蛋白质。 蛋白质的多种表达形式网络?DN

32、A、 RNA与蛋白质DNA:两条互补链。由ATCG四个碱基字母形成的字符串描述。RNA:单链结构。由AUCG四个碱基字母形成的字符串描述。蛋白质:一条或多条肽链。每个肽链是由20种氨基酸形成的长链,即20个氨基酸字母形成的字符串描述。翻译:每3个碱基翻译成一个氨基酸。DNA上的基因PCR的作用DNA体外扩增方法的一种,能够将很少的样本,比如一滴血,就能扩增为完全相同的无数个拷贝。类似于DNA的天然复制过程,其特异性依赖于与靶序列两端互补的寡核苷酸引物。每PCR一个循环,扩增两倍 1-2-4-8-16PCR的原理复制过程类似于DNA的天然复制过程,其特异性依赖于与靶序列两端互补的寡核苷酸引物。P

33、CR由变性-退火-延伸三个基本反应步骤构成: 模板DNA的变性:模板DNA经加热至93左右一定时间,使DNA双链解为单链,以便它与引物结合,为下轮反应作准备 模板DNA与引物的退火(复性):模板DNA经加热变性成单链后,温度降至55左右,引物与模板DNA单链的互补序列配对结合引物的延伸:DNA模板-引物结合物在TaqDNA聚合酶的作用下,以dNTP为反应原料,靶序列为模板,按碱基配对与半保留复制原理,合成一条新的与模板DNA 链互补的半保留复制链。重复循环变性-退火-延伸三过程,就可获得更多的“半保留复制链”,而且这种新链又可成为下次循环的模板。每完成一个循环需24分钟, 23小时就能将待扩基因扩增放大几百万倍。到达平台期(Plateau)所需循环次数取决于样品中模板的拷贝。 PCR 原理示意图电泳测序原理在凝胶一端小槽中放入荧光标记的DNA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论