版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学概论武汉大学生物医学工程系赵旻本章内容学习目的1、了解生物信息学的发展背景2、理解生物信息学在生命科学研究中的作用3、理解数学、计算机科学与生物信息学的关系4、了解生物信息学主要技术方法的原理和应用第一节生物信息学基础一、生物信息的特征生命现象是不同层次上的物质、能量与信息的交换,不同层次是指核酸、蛋白质、细胞、器官、系统、机体,与医学研究密切相联生物信息不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和功能;生物种间的进化关系等其他信息资源。生物体系和生物过程中信息的内涵和信息的传递生命与信息DNA通过复制,在生物体的繁衍过程中传递遗传信息DNA本身是否也具有酶活性呢?1994年,G·F·Joyce等人发现一个人工合成的DNA分子具有一种特殊的磷酸二酯酶活性。又有多例报道人工合成的DNA序列具有各种不同的酶活性。1995年后从多种生物中提取的DNA均具有酯酶活性,能催化乙酸萘酯水解为萘酚和乙酸。这种较弱的酯酶活性并不需要特定序列的DNA编码,而是非特异性DNA的一般性质。DNA分子本身的酯酶活性作为“分子化石”遗迹。(1)遗传信息的载体——DNA或RNA遗传信息的载体主要是DNA或RNA分子控制生物体性状的基因是一系列DNA片段生物体生长发育的本质就是遗传信息的传递和表达(3)DNA分子和蛋白质分子都含有进化信息通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。通过比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。进化信息通过比较相似的蛋白质序列可以发现基因的分子进化证据。通过比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析种属之间的系统发生关系,推测它们共同的祖先蛋白质。五、生物信息的特征生物信息数据量庞大生物信息复杂度高:遗传信息,功能结构信息生物信息之间存在着密切的联系存在特定载体:核酸分子和蛋白质分子存在不同的层次:分子,细胞,组织器官和机体第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少对于第二部密码,目前则只能用统计学的方法进行分析无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。改变生物学的研究方式改变传统研究方式,引进现代信息学方法在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据第二节生物信息学的建立和发展——人类基因组计划简介生物信息学产生的背景海量生物信息需要分析;大量未知基因需要破解其功能GenBank中的DNA碱基数目呈指数增加。2000年后其数目已达110亿,它们来自47000种生物;UniGene的数目约达7万个。1999年初单核苷酸多态性(SNP)数据库出现以来,已超过600万。自全长1.8Mb的嗜血流感杆菌基因组序列于1995年发表以来,已有54个模型生物的完整基因组完成了测序,包括9个古细菌、31个原核真细菌、14个真核生物的完整基因组或它们的完整染色体,其中包括酿酒酵母和线虫。还有另外的70余个微生物基因组正在测试当中。生物信息学的发展历程20世纪50年代,生物信息学开始孕育20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来20世纪70年代,生物信息学的真正开端20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方法20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库20世纪90年代后,HGP促进生物信息学的迅速发展生物信息学的发展历程1952年,Sanger根据胰岛素蛋白质的测序结果,推断蛋白质是排列完美的分子。最早的信息论观点。1955年,Sanger与合作者分别对牛、猪和羊的胰岛素蛋白质进行了测序并做了序列上的比较。最早的序列比对。1962年,鲍林提出分子进化的理论,推测在人中可能存在50,000~100,000个不同的基因/蛋白质。分子进化理论的奠定。1965年,MargaretDayhoff构建蛋白质序列图谱1970年,Needleman-Wunsch算法:全局优化比对。1981年,Smith-Waterman算法开发:局部优化比对。1990年,快速序列相似性搜索工具BLAST的开发生物信息学发展过程中的里程碑性事件人类基因组计划人类基因组计划(HumanGenomeProject,HGP)是由美国科学家RenatoDulbecco在1985年首先提出,美国政府1990年10月正式启动的,耗资30亿美元。目标是构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约3万基因,以及人类基因的鉴定和分离的内容。人类基因组计划全部测序工作提前到2000年春季完成“工作框架”,即工作草图。遗传图谱、物理图谱、转录图谱和序列图谱遗传图谱是以具有遗传多态性的遗传标记为“路标”,以遗传学距离为图距的基因组图。进行基因识别和基因定位物理图谱是指有关基因组中特异性序列排列和间距的信息.建立物理图谱实际上是为全基因组测序建立“路标”。转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。研究内容1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构预测常见研究领域Alignment(序列比对)ProteinStructurePrediction(蛋白质结构预测)Computer-AidedGeneRecognitions(计算机辅助基因识别)DNALanguage(DNA语言)MolecularEvolution&ComparedGenomics(分子进化和比较基因组学)ContigAssembly(序列重叠群装配)OriginofGeneticCodes(遗传密码的起源)AnalysisofMetabolizeNetwork(代谢网络分析)GeneChipDesign(基因芯片设计)研究方向基因组序列装配基因识别基因功能预报基因多态性分析基因进化mRNA结构预测基因芯片设计基因芯片数据分析疾病相关基因分析例:高度自动化的实验数据的获得、加工和整理各种自动化分子生物学仪器应用上,如DNA测序仪,PCR仪等实验过程高度自动化,产生的海量数据,专门的实验室数据管理系统自动完成包括实验进程和实验数据的纪录,常规数据分析,数据质量检测和问题的自动查找,常规的数据说明和数据输入数据库。建立分子生物学数据管理系统。DNA序列片段的测序拼接目前DNA自动测序仪每个反应只能测序100-1000bp,传统测序方法是将克隆进行亚克隆并对亚克隆进行排序。自动而高速拼接序列的算法,Lander-Waterman模型(LanderESandWatermanMS,1998)利用鸟枪法进行测序,再将大量随机测序的片段用计算机进行自动拼接。1.9MbHaemophilusinfluenzae(流感嗜血杆菌)(1995)0.58MbMycoplasmugenitalium(支原体)(1995)0.58Mbjannaschii(甲烷杆菌)(1996)拼接算法需要进一步提高拼接真核基因组的有效性;自动处理自动测序造成的差错。2、数据库搜索及序列比较搜索同源序列在一定程度上就是通过序列比较寻找相似序列序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。常用序列分析工具CLUSTAL:已知同源的序列间的配比FASTA:全基因数据库的快速搜索PSI-BLAST:非常快速的全数据库搜索HMM:特定蛋白家族的序列模式识别PHYLIPS:基因进化树序列比较发现同源分子3、基因组序列分析遗传语言分析基因组结构分析基因识别基因功能注释基因调控信息分析基因组比较基因识别识别基因组编码区,识别基因结构1、同源比较(DNA序列、EST)2、基因预测(不是用同源搜索的方法来识别基因) 从头开始基因预测,基于知识的基因预测(密码子使用,碱基组成,剪切位点特征,PolyA信号,核苷酸频率,转录信号,转译信号,尺寸分布)基因预测的步骤:1、识别可能的外显子2、辨别起始/内部/终止外显子3、把外显子联结起来,形成可能的基因4、确保该可能的基因没有内部的移位或终止密码子5、leftovers:shadowexons算法:Rule-basedsystem;linguisticsystem;lineardiscriminantanalysis;decisiontree;splicedalignment;fourieranalysisEvaluatingGenePrediction敏感性(Sensitivity)敏感性=预测基因中确为基因的数目/待测序列中的基因数目;Howmanyexonswerecorrectlypredicted?特异性(Specifity)特异性=预测基因中确为基因的数目/预测基因数目Howmanyexonpredictionsaretrue?生物学家们一直假设,人类拥有8万到10万个基因。但是根据测序完成的人类基因组第21对、22对染色体的经验,得出的结论是整个基因组有不多于4万个基因。比较现有的人类基因序列与淡水河豚基因序列,提出了更低的人类基因数估计:在27700与34300之间。马里兰Rockville的基因组研究所(TIGR)的JohnQuackenbush根据TIGR的人类基因指数的估计118259个基因。*生物体的复杂性并不是简单地与基因数量相关联的。生物体的复杂性来自于基因如何被管理或表达的,而不是基因数目本身。基因功能预测序列同源比较:如果基因A与基因B有相当的同源性,那么基因A可能具有类似基因B的功能。公共数据库:GenBank,EMBL,DDBJ功能数据库:dbEST,dbSTS,dbGSS(GenomeSurveySequence),dbHTG(highthroughputGenomicSequence,未完成整理的序列数据)蛋白质序列库:PIR(proteininformationresource),Swiss-Prot蛋白质高级结构数据库PDB(proteindatabank):生物大分子三级结构的数据库。同源比较算法:分为整体对齐(Globalalignment)和局部对齐(localalignment)局部对齐的算法有Smith-Watermann算法;FASTA算法;BLAST算法4、基因表达数据的分析与处理基因表达数据分析是目前生物信息学研究的热点和重点目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能所用方法主要有:相关分析方法模式识别技术中的层次式聚类方法人工智能中的自组织映射神经网络主元分析方法基因表达分析和调控网络研究高通量基因转录实验技术1、mRNAcDNAmicroarrayOligonucleotidechipRT-PCRSAGE2、protein2D、蛋白质结构预测蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径蛋白质结构预测分为:二级结构预测空间结构预测二级结构预测二级结构的预测可以归结为模式识别问题主要方法有:立体化学方法图论方法统计方法最邻近决策方法基于规则的专家系统方法分子动力学方法人工神经网络方法预测准确率超过70%的第一个软件是基于神经网络的PHD系统蛋白质三级结构预测同源模型化方法远程同源模型化方法结构的从头预测方法距离几何分子动力学同源模型化方法空间结构预测方面,比较成功的理论方法是同源模型法该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构,如果具有25-30%的等同序列,可以假设这两个蛋白质折叠成相似的空间结构运用同源模型方法,借助于数据库搜索和序列的比对排列,可以完成所有蛋白质10-30%的空间结构预测工作可以通过计算(如分子力学、分子动力学等)来进行结构预测可以通过计算(如分子力学、分子动力学等)来进行结构预测:立体作用,空间堆积,静电作用,氢键,疏水作用6比较基因组学研究研究生命是从哪里起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的?鼠和人的基因组大小相似,基因的数目类似。可是鼠和人为什么差异确如此之大?不同人种间基因组的差别仅为0.01%;人猿间差别约为1%。但表型间的差异十分显著。生物进化研究1、序列相似性比较。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;2、序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;3、构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;4、稳定性检验。为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70%以上)出现的分支点才是可靠的。通用的方法使用Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。为便于使用者查找表三给出了进化分析相关软件的因特网地址。16SrRNA通过比较真核细胞rRNA的核苷酸顺序和“真细菌”、“古细菌”的rRNA核苷酸顺序,发现它们之间截然不同,表明真核细胞不是来自原核细胞,而是远在原核细胞生成之前,真核细胞就已和原核细胞分开而成独立的一支,即“早真核生物”,它才是现代真核生物的始祖。第四节生物信息学的主要任务对非蛋白编码区进行生物学意义分析的策略1基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;2通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,从基因组整体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。因此,近几年在发展基因芯片的同时,人们也发展了一套研究基因组所有蛋白质产物表达情况——蛋白质组研究技术,从技术上来讲包括二维凝胶电泳技术和质谱测序技术。通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达情况,通过质谱测序技术就可以得到所有这些蛋白质的序列组成。重要的就是如何运用生物信息学理论方法去分析所得到的巨量数据,从中还原出生命运转和调控的整体系统的分子机制。从工具的角度来讲,它是今后几乎进行所有生物(医药)研究开发所必需的,只有基于生物信息学通过对大量已有数据资料的分析处理所提供的理论指导和分析,我们才能选择正确的研发方向,同样,只有选择正确的生物信息学分析方法和手段,我们才能正确处理和评价新的观测数据并得到准确的结论。数学(Maths)Statistics统计学ProbabilityTheory概率论(特别是随机过程理论)OperationalResearch运筹学OptimizationTheory&Method最优化理论与方法Topology拓扑学(主要是几何拓扑)FunctionTheory函数论InformationTheory信息论ComputationalMathematics计算数学GroupTheory群论常用数学模型与方法Bayes公式、Bayes统计马氏链(Markovchains)隐马氏链(HiddenMarkovchains)Poisson过程与连续时间马氏链熵、相对熵与信息增益神经网络(neuralnetworks(NN)):Multi-layerfeed-forwardNN,self-organizedlearningNN,recurrentNN(HopfieldNN,Bolztmannmachine)计算机科学(ComputerScience)网络技术数据库(特别是关系型数据库)数据整合和可视化数据挖掘基于Unix操作系统的各种软件包计算机硬件一些重要的算法的复杂性研究国际著名的生物信息中心国内部分生物信息学服务器北京大学生物信息中心中国生物信息/北京大学物理化学研究所北京医科大学生物医学信息中国科学院微生物研究所天津大学生物信息中心中科院计算所智能信息处理重点实验室生物信息学研究组/中国科学院基因组信息学中心/例如:北京大学生物信息中心安装了70多个数据库,提供200多种软件下载建立了14个国外著名生物信息中心镜象提供了数据库和文献查询、搜索构建了中华民族基因多样性等专用数据库集成和开发了基于Web的生物信息软件工具开展了分子模拟、序列分析等应用研究举办了国际国内培训班、讲习班、讨论会开设了生物信息学概论研究生课程构建二次数据库中华民族基因多样性数据库转录因子细胞特异性数据库Cytomer蛋白质结构域数据库Domain蛋白质回环数据库Loop水稻矮缩病毒数据库RDV二硫键信息数据库Bridge其他数据库DictyDb(DictyosteliumdiscoideumgenomedatabaseDictyosteliumdiscoideum基因组数据库)/others/dsmith/dictydb.htmlEcoCyc(EncyclopediaofE.coligenesandmetabolism
大肠杆菌基因和代谢百科全书)
EcoGene(EscherichiacoliK12genomedatabase
EscherichiacoliK12基因组数据库)/EcoGene/EcoWeb/
FlyBase(Drosophilagenomedatabase
果蝇基因组数据库)/
http://gin.ebi.ac.uk:7081/
HIV(HIVsequencedatabase
HIV序列数据库)/
MaizeDB(Maizegenomedatabase
玉米基因组数据库)/
IMGT(ImMunoGeneTicsdb
免疫基因标记数据库)usc.fr:8104/
MAIZE-2DPAGE(Maizegenome2DElectrophoresisdatabase
玉米基因组双向电泳数据库)http://moulon.moulon.inra.fr/imgd/
Mendel(Mendel-GFDb(Plantgenesfamiliesdatabase)
孟德尔植物基因家族数据库)http://www.mendel.ac.uk
MGD(Mousegenomedatabase
小鼠基因组数据库)/
.au/mgd/
http://bioinformatics.weizmann.ac.il/mgd/
http://mgd.hgmp.mrc.ac.uk/
http://mgd.niai.affrc.go.jp/
MIM(OnlineMendelianInheritanceinMan(OMIM)
人类孟德尔遗传网上数据库)/omim/
NRSUB(Non-redundantB.subtilisdatabase
无冗余枯草杆菌数据库)http://pbil.univ-lyon1.fr/nrsub/nrsub.html
SGD(SaccharomycesGenomeDatabase
酵母基因组数据库)/Saccharomyces/
SubtiList(Bacillussubtilis168genomedatabase
枯草杆菌168基因组数据库)http://www.pasteur.fr/Bio/SubtiList/
TIGR(Thebacterialdatabase(s)of'TheInstituteofGenomeResearch'
基因组研究所的细菌数据库)/tdb/
TubercuList(MycobacteriumtuberculosisH37Rvgenomedatabase分支结核杆菌H37Rv基因组数据库)http://www.pasteur.fr/Bio/TubercuList/
GeneCards(GeneCards:humangenes,proteinanddiseases
基因卡:人基因、蛋白和疾病)http://bioinformatics.weizmann.ac.il/cards/
ZFIN(ZebrafishInformationNetworkgenomedatabase
斑马鱼信息网基因组数据库)/ZFIN/酵母功能库http://www.mips.biochem.mpg.de/proj/yeast/pathways/index.htmlExPASy(swissinstituteofSWISS-PROThttp://www.expasy.ch/sprot-top.htmlPIR(ProteinsequencedatabaseoftheProteinInformationResource
蛋白质信息资源数据库)/
/pir/GDB/PDB(ProteinDataBank
蛋白质结构数据库)/pdb/
http://www2.ebi.ac.uk/pdb/
.au/pdb/
http://pdb.weizmann.ac.il//npdb/SCOP/scop//scop/http://scop.mrc-lmb.cam.ac.uk/scop/BLOCKS(BLOCKS蛋白质模块数据库)/
DOMO(ProteinDomaindatabase
蛋白质结构域数据库)biogen.fr/~gracy/domo
ECO2DBASE(Escherichiacoligene-proteindatabase(2Dgelspots)
大肠杆菌基因-蛋白数据库)/eco2dbase/
ENZYME(Enzymesnomenclaturedatabase
酶命名数据库)http://www.expasy.ch/enzyme/
GCRDb(Gprotein-coupledreceptordatabase
G蛋白耦联受体数据库)/
HSSP(Homology-derivedsecondarystructureofproteinsdatabase蛋白质同源二级结构数据库)http://www.sander.ebi.ac.uk/hssp/Pfam(Pfamproteindomaindatabase
蛋白质结构域数据库)/Pfam/
http://www.sanger.ac.uk/Pfam/
PRINTS(ProteinMotiffingerprintdatabase
蛋白质模式数据库)http://bioinf.man.ac.uk/bsm/dbbrowser/PRINTS/
ProDom(ProDomProteindomaindatabase
蛋白质结构域数据库)http://protein.toulouse.inra.fr/prodom.html
PROSITE(PROSITE:proteindomainsandfamiliesdatabase
蛋白质结构域和家族数据库)http://www.expasy.ch/prosite/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽车冲压生产线操作工技师模拟试题与参考答案
- 精-品解析:广东省深圳市罗湖区2023-2024学年高一上学期期末考试化学试题(原卷版)
- 智能储物柜课程设计
- 急诊内科培训课程设计
- 服装电脑绘图课程设计
- 大学蒙古舞教学课程设计
- 电气值班员(电力调度)初级题库(含答案)
- 冬季小儿常见病有哪些
- 【7历期末】安徽省阜阳市颍州区2023-2024学年上学期七年级期末学情调研历史卷(含解析)
- 悟空问答智能化课程设计
- 《微机系统与汇编语言》-课程设计-实时时钟的设计与实现
- 智能电网建设与发展趋势
- 门诊部预约诊疗制度
- 收发管理工作流程
- 幼儿园中班数学活动《数数有几个》
- 基于PLC的变频恒压供水控制系统设计
- 突发性耳聋的护理查房
- 物品移交接收单(模板)
- 小米科技公司的供应链管理策略分析(全面完整版)
- 2023-2024学年广东省中山一中物理高二上期末统考试题含解析
- 班级活动安排表秋季学期德育主题教育活动安排表
评论
0/150
提交评论