生物信息学概述下_第1页
生物信息学概述下_第2页
生物信息学概述下_第3页
生物信息学概述下_第4页
生物信息学概述下_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学概述下第1页/共83页非编码区功能研究Whatisthetotalnumberofhumangenes?28,000±4,000Only1.1%ofthegenomeisspannedbyexons,whereas24%isinintrons,with75%ofthegenomebeingintergenicDNA.Oneofthelargestchallengesisidentifyingtheunknownfunctionsthatalmostcertainlyexistinmuchofthe“junk”DNA.第2页/共83页OrganismYearMillionsTotalPredictedNumberofgenesofbasescoveragenumberpermillionbasessequenced(%)ofgenessequenced

Humangenomeroughdraft20012,6938431,78012(publicsequence)Humangenomeroughdraft20012,6548339,11415(Celerasequence)Arabidopsisthaliana

20001159225,498221

Drosophilametanogaster20001166413,601117

Caenorhabditiselegans

1998979919,099197

Saccharomycescerevisiae

199612935,800483第3页/共83页人类基因组非编码区(“Junk”DNA)的构成至少包含如下类型的DNA成份或由其表达的RNA成分:内含子(intron)、卫星(Satellite)DNA、小卫星(minisatellite)DNA、微卫星(Microsatellite)DNA、非均一核RNA(简称hnRNA)、短散置元(shortinterspersedelements.简称SINE)、长散置元(1onginterspersedelements,简称LINE)、伪基因(Pseudogenes)、顺式调控元件,如启动子、增强子等也属于非编码序列。第4页/共83页重复序列在基因组中的比例

Human45%

Arabidopsis11%

C.elegans7%

D.melanogaster3%

Highereukaryotesarebelievedtocarryalargeburdenof“junkDNA”intheirgenomes.Although>98%ofthehumangenomecomprisesnon-protein-codingDNA(1),thetruedensityanddistributionoffunctionalnucleotidesintheseregionsiscurrentlyunknown.第5页/共83页WhoshareUltraconservedElements?humanmouseratchickenfishdog#ofUltraconservedElements第6页/共83页Theinsertionofarepetitivesequenceintoagenecaninfluenceitstranscription.TheSINEsandotherrepeatscanactastissue-specificenhancersorsilencersoftheadjacentgenes.SmallRNA,microRNA,andRNAInterference(RNAi)第7页/共83页EncyclopediaofDNAElements“DNA元件百科全书”计划(EncyclopediaofDNAElements,简称ENCODE)发表了一系列重要研究成果,挑战了关于人类基因组的传统理论,即我们的基因组不是由孤立的基因和大量“无用DNA片段”组成的,而是一个复杂的网络系统。编码基因、调控元件以及非编码RNA基因之间,有着复杂的相互作用,共同控制着人类的生理活动。第8页/共83页6.研究生物进化1859,Darwin的物种起源对人类自然科学和自然哲学发展的最重大贡献之一。进化论研究的核心是描述生物进化的历史(系统进化树)和探索进化过程的机制。当前分子进化的研究已是进化论研究的重要手段,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。

第9页/共83页第10页/共83页序列相似性比较。常用的程序包有BLAST、FASTA等;序列同源性分析。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTALW等构建系统进化树。象PYLIP、MEGA等;稳定性检验。通用的方法使用Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。第11页/共83页一:发现同一种群基于不同分子序列所重构出的进化树可能不同。二:对“

垂直进化”和“水平演化”之间关系的讨论正逐渐引起人们的重视。三、基因的“横向迁移现象”。即:基因可以在同时存在的种群间迁移,其结果虽可导致序列差异,但这种差异与进化无关。如:对人类基因组的分析发现,有几十个人的基因只与细菌基因相似,而在果蝇、线虫中都不存在。所以在当前的分子进化研究中必须选择垂直进化的分子作为样本。序列差异和进化关系的争论:第12页/共83页

分子进化分析中,“

相似性”和“同源性”是两个不同的概念。相似性只反映两者类似,并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。

不同的生物分子替代速率不同。纤维蛋白约200万年有一个aa被替代。而组蛋白约3000万年才被替换一个,一些非编码序列一两万年就可能被替换。这些变化速率不同的分子可作为进化研究的分子时标,有人称之为分子钟。但随着序列的增加,不支持分子钟的假设。第13页/共83页植物LFY同源基因系统树第14页/共83页Phylogenyof23completelysequencedBacteriaandArchaeaspeciesonthebasisof16srRNA.

A)Phylogenetictreebuiltbyournewmethod.B)PhylogenetictreebuiltbyClustalwprogram.(MadebyR.S.Chen)第15页/共83页Phylogenyof24completelysequencedBacteria,ArchaeaandEukaryaspecies.A)genomictree.(MadebyR.S.Chen)

第16页/共83页PhylogenyofT.tengcongensisbasedonWholeGenome(MadebyR.S.Chen)第17页/共83页AfterPaceNR(1997)Science276:734第18页/共83页7.完整基因组的比较研究生命的起源?生命的进化?遗传密码的起源?最小独立生活的生物体至少需要多少基因?这些基因是如何使生物体活起来的?啤酒酵母,它有5932个基因,最小的是生殖道枝原体.它只有470个基因。黑猩猩和人的基因组大小相似,都含有约3

0亿碱基对,基因的数目也类似,且大部同源。但黑猩猩和人差异大,为什么?第19页/共83页人类基因组与其它生物基因组比较第20页/共83页通过几个完整基因组的比较,统计出维持生命活动所需要的最少基因个数为250个左右。比较鼠和人的基因组就会发现,尽管两者基因组大小和基因数目类似,但基因组的组织却差别很大。例如存在于鼠1

号染色体上的基因已分布到人的1、2、5、6、8、13、18号7个染色体上了。在同一界中,某些核糖体蛋白排列顺序的差异能反映出物种间的亲缘关系,亲缘关系越近,基因排列顺序越接近。这样就可以通过比较基因的排列顺序来研究物种间的系统发育关系。

第21页/共83页人与鼠染色体的差别Thedistributionofmousehomologygenesinthehumanchromosome

(DatafromGenBank,CoordinatebyR.S.Chen)

第22页/共83页Thedistributionofmousehomologygenesinthehumanchromosome

(DatafromGenBank,CoordinatebyR.S.Chen)

*************************************************************************

genesinthisNo.chromosomeofdistributionofmousehomologygenesmouseinhumanchromosome11、2、5、6、8、13、1822、7、9、10、11、15、2031、3、4、841、6、8、951、4、7、12、13、18、2262、3、7、10、1276、10、11、15、16、1981、4、8、13、16、1993、6、11、15、19106、10、12、19、21、22112、5、7、16、17、22122、7、14131、5、6、7、9、15、17143、8、10、13、14、X155、8、12、22163、8、16、21、22176、16、19、21185、10、18199、10、11、XXX***********************************************************************第23页/共83页8.从功能基因组到系统生物学功能基因组研究:不仅需要了解基因的序列,还要了解基因的功能,也就是要了解在不同的时间、不同的组织中基因的表达谱。研究不同时间、不同组织的基因表达谱的技术有:在核酸层次上的基因芯片(或称DNA芯片);在蛋白质层次上的大规模蛋白质分离和序列鉴定技术,也称蛋白质谱技术和蛋白质组研究。芯片杂交:DNA芯片基质有硅片、玻片和金属片。蛋白质二维凝胶电泳和测序质谱相结合的技术在蛋白质水平上监测基因表达的功能谱。酵母双杂交技术研究蛋白质的相互作用。第24页/共83页需要解决的关键问题:表达谱数据挖掘和知识发现就成了该研究成功与否的关键。需要发展新的方法和工具。对大规模基因功能表达谱的分析也导致了新的方法学问题。基因表达谱的数据和蛋白质谱的数据,既有图象,又是在时空多维水平上展开的数据。芯片等的设计上也需要从理论到软件的支持。第25页/共83页第26页/共83页第27页/共83页第28页/共83页应用分析系统获得的48小时昼夜交替的表达谱信息cDNA微阵列杂交的聚类分析第29页/共83页第30页/共83页二维电泳图第31页/共83页第32页/共83页第33页/共83页质谱分析双向电泳原位酶解肽指纹图数据库质谱

Edman降解N端,C端测序生物信息学分析分子生物学实验第34页/共83页Proteininteractionnetwork:

direct/indirect;static/dynamic第35页/共83页

第36页/共83页

第37页/共83页FromtheCelltoProteinMachines

第38页/共83页ByR.S.Chen第39页/共83页9.蛋白质结构模拟与药物设计蛋白质功能取决于蛋白质的空间结构

蛋白质结构决定于蛋白质的序列(这是目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。第40页/共83页9.蛋白质结构模拟与药物设计要找到蛋白质功能的分子基础,必须知道它们的三维结构,与此同时,设计药物也需要了解与药物相应的蛋白质受体的三维结构。目前,X射线晶体学技术、多维核磁共振(NMR)波谱学技术、二维电子衍射和三维图像重构技术等是蛋白质空间结构测定的有效手段。每天可测出几个生物大分子空间结构,但远小于蛋白质序列信息增长的速度。预测这些蛋白的空间结构,进而实现针对性的药物设计,就成了迫在眉睫的任务。这也是大规模的计算问题。第41页/共83页蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径。蛋白质结构预测分为:二级结构预测空间结构预测第42页/共83页第43页/共83页二级结构预测在一定程度上二级结构的预测可以归结为模式识别问题

在二级结构预测方面主要方法有:立体化学方法图论方法统计方法最邻近决策方法基于规则的专家系统方法分子动力学方法人工神经网络方法预测准确率超过70%的第一个软件是基于神经网络的PHD系统第44页/共83页空间结构预测在空间结构预测方面,比较成功的理论方法是同源建模法该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作

第45页/共83页DNARNAproteinCentraldogmaofmolecularbiologygenometranscriptomeproteomeCentraldogmaofbioinformaticsandgenomics第46页/共83页DNARNAcDNAESTsUniGenephenotypegenomicDNAdatabasesproteinsequencedatabasesprotein第47页/共83页第48页/共83页Pic5Phenylketonuria(PKU)iscausedbyadeficiencyoftheiron-containingenzymephenylalaninehydroxylase(PAH),whichconvertsphenylalaninetotyrosine.第49页/共83页第50页/共83页Pic6第51页/共83页Pic7第52页/共83页后基因组时代

Post-genomeera后基因组时代的挑战:

1.蛋白组学:序列->结构->功能2.研究生物的生长代谢的过程和疾病的机制3.基因组药物………生物信息学离不开高性能计算机。并需要信息学家的参与。急需有自主知识产权的生物信息处理软件平台和大量高效的快速的新算法的开发及改进。第53页/共83页后基因组时代

Post-genomeera第54页/共83页

基因组数据DNA,Protein

序列生物信息学软件平台BlastGenscanBlocks生物学家计算生物学模型/算法软件计算机专家串行后基因组学数据并行……数据库第55页/共83页

第56页/共83页proteomicsdata第57页/共83页Proteomicstools

IdentificationandcharacterizationDNA->ProteinSimilaritysearchesPatternandprofilesearchesPost-translationalmodificationpredictionPrimarystructureanalysisSecondarystructurepredictionTertiarystructureTransmembraneregionsdetectionAlignment第58页/共83页

四、生物信息学的应用与发展研究

生物信息学相关的分析与应用算法、软件和数据库,都具有重要的经济价值,最终都会形成商品,提供经济和社会效益。1.疾病相关的基因信息及相关算法和软件开发2.建立与动、植物良种繁育相关的基因组数据库,发展分子标记辅助育种技术3.研究与发展药物设计软件和基于生物信息的分子生物学技术第59页/共83页MajorApplicationsI:OverallGenomeCharacterizationOverallOccurrenceofaCertainFeatureintheGenomee.g.howmanykinasesinYeastCompareOrganismsandTissuesExpressionlevelsinCancerousvsNormalTissuesDatabases,Statistics第60页/共83页II:From

FindingHomologs

todrugdesign第61页/共83页III:DrugDesigningUnderstandingHowStructuresBindOtherMolecules(Function)DesigningInhibitorsDocking,StructureModelingThree-dimensionalmolecularstructureisoneofthefoundationsofstructure-baseddrugdesign.Often,dataareavailablefortheshapeofaproteinandadrugseparately,butnotforthetwotogether.Dockingistheprocessbywhichtwomoleculesfittogetherin3Dspace.

第62页/共83页生物信息学与新药研制未来的药物研究将是基于生物信息知识挖掘的过程数据处理关联分析发现药物作用对象确定靶标分子针对靶标设计药物第63页/共83页

基因组学与药靶的选择已有数十种模式菌或致病菌基因组完成测序,所有的基因都是潜在的靶,根据不同标准进行优选。通过分析某一化合物是否为某一特定生化反应或分子间相互作用(药靶)的抑制物,确定有无成药的可能。产生于基因组学的信息极大地方便了靶的选择。利用基因组DNA序列信息指导生化及功能研究(抗菌素),克服致病菌抗药性。第64页/共83页Protein

inhibitors(Virus

asanexample)attachment,entryandfusioninhibitorsDNApolymeraseinhibitorsintegraseinhibitorsinterferonsmaturationinhibitorsmonoclonalantibodiesneuraminidaseinhibitorsNS3proteaseinhibitorsnucleosidereversetranscriptaseinhibitorsproteaseinhibitorsreversetranscriptaseinhibitorsRNApolymeraseinhibitors第65页/共83页Designingnucleicacidinhibitors(AntisenseoligonucleotidesorRNAi)TargetingmRNATargetingmicroRNATargetinggenomicDNAInterferemRNAprocessingAptamersoligonucleotideorpeptidemoleculesthatbindtoaspecifictargetmoleculePLoS

ONE

paperWangX,GouD,XuS-y(2010)Polymerase-EndonucleaseAmplificationReaction(PEAR)forLarge-ScaleEnzymaticProductionofAntisenseOligonucleotides.PLoSONE5(1):e8430.doi:10.1371/journal.pone.0008430第66页/共83页BioinformaticsandPharmacutics在BIOINFORMATICS没有诞生之前,一个新药的问世需要十年时间,数亿美元的R&D,而BIOINFORMATICS已将这个过程减少三分之二,R&D的费用也相应大大减少。许多中小BIOTECH公司也看到了BIOINFORMATICS的巨大作用和潜在的商机,纷纷投资BIOINFORMATICS研究项目。第67页/共83页(PGP)第68页/共83页第69页/共83页Personalgenetictesting第70页/共83页23andme第71页/共83页ToprovideanintroductiontobioinformaticswithafocusontheNationalCenterforBiotechnologyInformation(NCBI)andEBITofocusontheanalysisofDNA,RNAandproteinsTointroduceyoutotheanalysisofgenomesTocombinetheoryandpracticetohelpyousolveresearchproblemsWhatarethegoalsofthiscourse?第72页/共83页五、生物信息学的现状今后DNA序列数据的增长将更为惊人。生物学数据的积累并不仅仅表现在DNA序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增长。与正在以指数增长的生物学数据相比,人类相关知识的增长(粗略地用每年发表的生物、医学论文数来代表)显得十分缓慢。一方面是巨量的数据,另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高生活质量。第73页/共83页各国政府和工业界对生物信息学研究极为重视,投入了大量资金。欧美各国及日本相继成立了生物信息中心,如美国的国家生物技术信息中心、欧洲生物信息学研究所、日本信息生物学中心等。这些机构相互合作,共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。美国一些最著名的大学,如哈佛、斯坦福和普林斯顿大学等都投资几千万到一亿多美元成立了生物、物理、数学等学科交叉的新中心,诺贝尔奖获得者朱棣文领导的斯坦福大学的中心还命名为

B

io-X。第74页/共83页据报导,只有50名员工的德国Lion生物信息学公司,将通过扫描公共数据库中的序列来发现500个可能的药物作用靶点,以一亿美元的价格预售给德国Bayer公司。NIH已向美国国会建议投资160亿美元在美国建立5~20个将生物学与计算结合起来的中心,来处理海量的基因组相关信息。法国议会科技决策评估办公室,最近评估了基因工程、生物信息学和组合化学等学科的应用前景及法国的对策。美国出现了大批的基于生物信息学的公司,实施了许多生物信息学研究计划,主要与药物设计,基因工程药物,生物芯片,代谢工程与化学工程密切相关。第75页/共83页生物信息学工业属于基础研究,以探索生物学自然学自然规律为己任;又属于应用研究,它的许多研究成果可以较快或立即产业化,成为价值很高的产品。人类基因组计划的完成为生物医药工业提供了大量可用于新药开发的原材料。有些基因产物可以直接作为药物,而有些基因则可以成为药物作用的对象(“靶点”)。生物信息学为分子生物学家提供了大量对基因序列进行分析的工具,不但可以从资料的获取、基因功能的预测、药物筛选过程中的信息处理等方面大大加快新药开发的进程,而且可以大大加快传统的基因发现和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论