生物信息学平台课1_第1页
生物信息学平台课1_第2页
生物信息学平台课1_第3页
生物信息学平台课1_第4页
生物信息学平台课1_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

什么是生物信息学生物信息学的诞生与发展生物信息学研究的几个专题介绍生物信息学数据库蛋白质结构预测基因发现研究微小RNA(miRNA)与复杂疾病精准医疗(PrecisionMedicine)本课程主要内容第一页第二页,共75页。1、什么是生物信息学第二页第三页,共75页。什么是生物信息学?定义一:生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。--美国人类基因组计划实施五年后的总结报告--第三页第四页,共75页。什么是生物信息学?定义二:为拓展生物学、医学、行为学和卫生学数据的用途,而进行有关计算机方法手段的研究、开发与应用,包括此类数据的采集、存贮、整理、归档、分析和可视化等。(Bioinformatics:Research,development,orapplicationofcomputationaltoolsandapproachesforexpandingtheuseofbiological,medical,behavioralorhealthdata,includingthosetoacquire,store,organize,archive,analyze,orvisualizesuchdata.)--美国国家卫生研究院(NIH)--第四页第五页,共75页。什么是生物信息学?定义三:Bioinformatics...istheresearchdomainfocusedonlinkingthebehaviorofbiomolecules,biologicalpathways,cells,organisms,andpopulationstotheinformationencodedinthegenomes.--TempleSmith--

《CurrentTopicsinComputationalMolecularBiology》2002年4月出版第五页第六页,共75页。广义生物信息学观点生物学研究可以被看成是研究信息的传递:从DNA经转录翻译到蛋白质,从细胞质中到细胞核内,从母细胞到子细胞,从一个细胞或一个组织到另一个细胞或另一个组织,从一代到下一代,从一个物种到另一个物种的进化演变。这种信息论的观点即可称为生物信息学。(Biologymaybeviewedasthestudyoftransmissionofinformation:frommothercelltodaughtercell,fromonecellortissuetypetoanother,fromonegenerationtothenext,andfromonespeciestoanother.Thisinformationalviewpointistermedbioinformatics.)

Eisenbergetal.,2006第六页第七页,共75页。第七页第八页,共75页。生物信息学、系统生物学与计算生物学系统生物学:系统生物学是研究一个生物系统中所有组分(gene,mRNA,protein)的构成,以及在特定条件下这些组分之间的相互关系,并通过计算生物学方法建立一个数学模型来定量描述和预测生物功能、表型和行为的学科。第八页第九页,共75页。生物信息学、系统生物学与计算生物学计算生物学:计算生物学是一门概念性学科,以生物信息为基础,以计算为工具,解决生物学问题。(侧重于计算与问题,通过计算解决问题)第九页第十页,共75页。2、生物信息学的诞生与发展第十页第十一页,共75页。生物信息学的诞生和发展迅速膨胀的生物信息数据分子生物学发展的一个显著特点是生物信息的剧烈膨胀。形成了巨量的生物信息库迅速膨胀的生物信息给科学家们提出了一个新问题:如何有效管理、准确解读、充分使用这些信息?第十一页第十二页,共75页。萌芽期(60-70年代)生物数据库的建立;检索工具的开发;DNA和蛋白质序列分析序列比对:以Dayhoff的替换矩阵和Needleman-Wunsch和Smith-Waterman比对算法为代表三个发展阶段半胱氨酸Cys

C;丝氨酸

Ser

S

;苏氨酸

Thr

T脯氨酸

Pro

P;丙氨酸

Ala

A;甘氨酸

Gly

G天冬酰胺Asn

N;天冬氨酸Asp

D;谷氨酸Glu

E谷氨酰胺Gln

Q;组氨酸

第十二页第十三页,共75页。通过比较两条或多条序列之间的相似区域和保守性位点,寻找二者之间可能的进化关系构建进化树比较基因组学研究两条序列比对(pairwisealignment)第十三页第十四页,共75页。蛋白序列(Blast)核酸序列(Blast)两条序列比对(pairwisealignment)第十四页第十五页,共75页。蛋白序列(Clustal)多条序列比对(multiplealignment)第十五页第十六页,共75页。形成期(80年代)网络数据库系统的建立、交互界面的开发;分子数据库和BLAST等相似性搜索程序;基因寻找和识别;结构基因组。三个发展阶段第十六页第十七页,共75页。Blast可以进行一条序列和数据库的比对Blast可以两条或多条序列的比对序列比对工具Blast第十七页第十八页,共75页。三个发展阶段高速发展期(90年代-)大规模基因组分析—HGP(HumanGenomeProject,1990-2003)功能基因组比较基因组学转录组学蛋白质组学分子相互作用组学代谢组学第十八页第十九页,共75页。于20世纪80年代提出,由美、英、日、中、德、法等国参加针对人体23对染色体全部DNA的碱基对(3×109)序列进行测序,对大约25,000基因进行染色体定位,构建人类基因组遗传图谱和物理图谱的国际合作研究计划。人类基因组计划-定义第十九页第二十页,共75页。HGP对人类疾病基因研究的贡献人类疾病相关的基因是人类基因组中结构和功能完整性至关重要的信息。对于单基因病,采用“定位克隆”和“定位候选克隆”的全新思路,导致了亨廷顿舞蹈病、遗传性结肠癌和乳腺癌等一大批单基因遗传病致病基因的发现,为这些疾病的基因诊断和基因治疗奠定了基础。对于心血管疾病、肿瘤、糖尿病、神经精神类疾病(老年性痴呆、精神分裂症)、自身免疫性疾病等多基因疾病是目前疾病基因研究的重点。人类基因组计划-意义第二十页第二十一页,共75页。HGP对生物技术的贡献基因工程药物:分泌蛋白(多肽激素,生长因子,趋化因子,凝血和抗凝血因子等)及其受体。诊断和研究试剂产业:基因和抗体试剂盒、诊断和研究用生物芯片、疾病和筛药模型。对细胞、胚胎、组织工程的推动:胚胎和成年期干细胞、克隆技术、器官再造。人类基因组计划-意义第二十一页第二十二页,共75页。人类基因组计划的实施和完成,带来了生物信息学这门学科的飞跃式的发展。人类基因组计划-意义第二十二页第二十三页,共75页。现阶段组学时代计算和生物学实验相结合展开科学研究计算算法和软件在生物医学领域的应用研究第二十三页第二十四页,共75页。生物信息学研究的一些课题问题DNAsequencebasecallingandassembly(DNA测序和装配)Transmembranesegmentprediction(蛋白质跨膜区预测)Signalpeptideprediction(信号肽预测)Proteingeometry(蛋白的几何形状?主要指主链的结构?)Homologymodeling(同源建模)Genefinding(基因发现)Repetitivesequenceanalysis(重复序列分析)Proteinstructurecomparison(蛋白质结构比较)Phylogenetictreeconstructionandevolution(分子进化树构建和分析)Proteindocking(分子对接)第二十四页第二十五页,共75页。Drugdesign(药物设计)Proteindesign(蛋白质设计)Linkageanalysisandquantitativetraits(连锁遗传和数量性状分析)Multiplesequencecomparisonandremotehomologsearch(多序列比较和远源搜索)Proteintertiarystructureprediction(蛋白质三级结构预测)RNAsecondarystructureprediction(RNA二级结构预测)Regulatorysequenceanalysis(调控序列分析)Computationalproteomics(计算蛋白质组学)Geneontologyandfunctionprediction(基因功能预测)生物信息学研究的一些课题问题第二十五页第二十六页,共75页。Computationalcomparativegenomics(计算比较基因组学)Text(literature)mining(文献挖掘)SmallRNAandanti-senseregulation(小RNA反义调控)Alternativesplicingprediction(选择性剪切)Computationalmetabolomics(计算代谢组学)Genomesemantics(基因组语义学)Membraneproteinstructureprediction(膜蛋白结构预测)RNAtertiarystructureprediction(RNA三级结构预测)Post-translationalmodification(翻译后编辑)Dynamicsofregulatorynetworks(动态调控网络)Virtualcell/organismmodeling(虚拟细胞建模)生物信息学研究的一些课题问题第二十六页第二十七页,共75页。3、生物信息学研究的几个专题介绍生物信息学数据库蛋白质结构预测基因发现研究微小RNA(miRNA)与复杂疾病第二十七页第二十八页,共75页。3-1、生物信息数据库概述第二十八页第二十九页,共75页。数据库的产生背景是海量数据的出现第二十九页第三十页,共75页。一级数据库和二级数据库一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库(三级,四级,,)对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。第三十页第三十一页,共75页。分子生物信息数据库分类基因组数据库(来自基因组作图)HGP:人;大肠杆菌、酵母、线虫、果蝇和小鼠。核酸和蛋白质序列(一级结构)数据库(来自序列测定)生物大分子三级结构数据库(来自X射线衍射和核磁共振等结构测定)由上述3类数据库和文献资料为基础构建的二级数据库。第三十一页第三十二页,共75页。基因组数据库三大基因组数据库NCBI:美国生物技术信息中心(TheNationalCenterforBiotechnologyInformation)Ensembl:欧洲分子生物学实验室(TheEuropeanMolecularBiologyLaboratory)EMBL维护UCSC:加州大学圣克鲁兹分校(UniversityofCaliforniaSantaCruz,UCSC)创立和维护第三十二页第三十三页,共75页。核酸序列数据库

美国生物技术信息中心(TheNationalCenterforBiotechnologyInformation)的GenBank:)

欧洲分子生物学实验室的(TheEuropeanMolecularBiologyLaboratory)EMBL:

()

日本遗传研究所(DNADataBankofJapan)的DDBJ:()第三十三页第三十四页,共75页。蛋白质序列数据库SWISS-PROT(瑞士日内瓦大学和欧洲生物信息学研究所(EBI)合作维护)

()PIR(美国国家生物医学研究基金会NBRF维护)()UniProt()第三十四页第三十五页,共75页。蛋白质结构数据库蛋白质结构数据库PDB()蛋白质分类数据库SCOP()蛋白质分类数据库CATH()第三十五页第三十六页,共75页。3-2、蛋白质结构预测第三十六页第三十七页,共75页。关于数据库,值得关注的一组数字核酸序列数据库收录约1.7ⅹ108(1亿7千万)条数据(2016-10-10)蛋白质序列数据库收录约47M4.7ⅹ107(~5千万)条数据(2016-10-10)蛋白质结构数据库收录约0.1M1.0ⅹ105(10万)条数据(2016-10-10)仅有约0.2%(千分之二)的蛋白质序列解析出三级结构。第三十七页第三十八页,共75页。序列vs结构#structurelagfarbehind#sequences第三十八页第三十九页,共75页。蛋白质三级结构预测的意义由于分子生物学技术的发展,蛋白质氨基酸序列的测定速度大大加快,而蛋白质分子三维结构测定的速度仍远远落后于其氨基酸序列测定的速度。随着蛋白质工程技术的发展和人类基因组计划的顺利进展,对蛋白质空间结构与一级结构的关系的研究也变得更加紧迫和重要。根据蛋白质分子的氨基酸序列预测其三维空间结构具有重要的意义,是生物信息学研究领域的一项重要挑战。第三十九页第四十页,共75页。蛋白质结构的4个层次一级结构——组成蛋白质的氨基酸序列;二级结构——即骨架原子间的相互作用形成的局部结构,比如α螺旋,β折叠等;三级结构——即二级结构在更大范围内的堆积形成的空间结构;四级结构——主要描述由三级结构形成的不同亚基之间的相互作用。第四十页第四十一页,共75页。动物的胰岛素(Insulin),氨基酸序列线性排列蛋白质一级结构

第四十一页第四十二页,共75页。二级结构是指多肽链借助于氢键沿一维方向排列成具有周期性的结构的构象,是多肽链局部的空间结构主要有α-螺旋、β-片层、loop、colis等几种形式,它们是构成蛋白质高级结构的基本要素。多肽链中有60%的区段为α-螺旋和β-折叠。蛋白质二级结构

第四十二页第四十三页,共75页。肽链主链骨架围绕中心轴盘旋成螺旋状的结构α螺旋

第四十三页第四十四页,共75页。在多肽链之间或一条肽链的肽段之间靠氢键联结而成的锯齿状片层结构β片层

第四十四页第四十五页,共75页。混合β片层

第四十五页第四十六页,共75页。

Loops连接

-helix和b-sheet长度和三级结构不定在蛋白质结构的表面受点突变的影响小柔性好,构象变化余地大带电荷、极性的氨基酸比例高倾向成为活性位点第四十六页第四十七页,共75页。结构域(domian)domian是在二级结构或超二级结构的基础上形成三级结构的局部折叠区。domian通常由50-300个氨基酸残基组成,其特点是在三维空间可以明显区分和相对独立,并且具有一定的生物功能如结合小分子。motif是结构域的亚单位,通常由2~3个二级结构单位组成,一般为α-螺旋、β-片层和loops。第四十七页第四十八页,共75页。三级和四级结构三级结构肽链折叠成三维的空间结构二级结构在空间上的排布长程的、共价与非共价的相互作用如果蛋白质只有1条肽链,三级结构就是最高结构层次四级结构多个肽链在空间上的排布第四十八页第四十九页,共75页。蛋白质的三级结构

在二级结构基础上的肽链再折叠形成的构象α螺旋β折叠Zn疏水核心α螺旋第四十九页第五十页,共75页。蛋白质的四级结构

组成蛋白质的多条肽链在天然构象空间上的排列方式,多以弱键互相连接,疏水力、氢键、盐键第五十页第五十一页,共75页。蛋白质二级结构预测一级序列(1D)MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRVKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGNFGADAQGAMNKALELFRKDIAAKYKELGYQG

二级结构(2D)第五十一页第五十二页,共75页。参考文献:Rost,B.&Sander,C.(1993),Predictionofproteinsecondarystructureatbetterthan70%Accuracy,JournalofMolecularBiology,232,584-599.Accuracy:75%PHD第五十二页第五十三页,共75页。参考文献:Jones,D.,1999.Proteinsecondarystructurepredictionbasedonposition-specificscoringmatrices.J.Mol.Biol292,195-202.Accuracy:80%PSIPRED第五十三页第五十四页,共75页。PSIPRED第五十四页第五十五页,共75页。PSIPRED第五十五页第五十六页,共75页。蛋白质三级结构预测同源建模法从头预测方法Threading方法组合方法第五十六页第五十七页,共75页。同源建模法同源建模是使用与目标序列同源的某一蛋白质的实验结构作为模板,对目标序列进行三维结构的预测。第五十七页第五十八页,共75页。同源建模法同源建模对于诠释蛋白质序列、结构和功能之间的关系至关重要。同源建模应用广泛,但仍有一些局限,其准确性依赖于模板的质量和关键步骤的准确性。同源建模目前的挑战仍然在于结构模型的优化,既需要寻找更合理的优化方法来使模型接近真实结构而不是模板结构。另外一个挑战在于过度依赖“序列相似,结构相似”的规则,有些蛋白质序列差异大结构却相似,需要分辨这样的“特例”。第五十八页第五十九页,共75页。从头预测方法从头计算(Abinitio)方法:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。生物学家和物理学家等认为从原理上讲能量是影响蛋白质结构的本质因素。由于巨大的计算量,这种方法并不实用,目前只能计算短序列氨基酸形成的结构。随着超级计算机的出现,计算机的计算能力在飞速发展,这个问题会解决吗?第五十九页第六十页,共75页。从头预测方法能量函数键能(bondenergy)键的转角能(bondangleenergy)二面角能(dihedralangleenergy)范德华力(vanderWaalsenergy)静电力(electrostaticenergy)根据能量函数计算结构的最小自由能:MolecularDynamicsorMonteCarlomethods计算量大第六十页第六十一页,共75页。Threading方法穿线法(Threading)方法:由于AbInitio方法目前只有理论上的意义,Homology方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性,对于其他大部分蛋白质来说,有必要寻求新的方法。Threading就此应运而生。第六十一页第六十二页,共75页。Threading方法Threading将给定序列与模板库做序列比较(foldlibrary)评分准则:给定序列是否与模板的结构吻合(1D-3Dprofile)根据打分结果对模板适用性给予排序

TargetSequenceStructureTemplates

ALKKGF…HFDTSE第六十二页第六十三页,共75页。同源建模法组合方法╋Abinitio法Threading法╋第六十三页第六十四页,共75页。蛋白质结构预测的原则蛋白质结构的预测过程是个比较复杂的多步过程,不同类别的蛋白质,例如膜蛋白与可溶蛋白,由于不同的理化性质,可能需要不同的预测方法。一个蛋白质可能有多个功能结构域(domain),要直接预测具有多个domain的蛋白质不大可能,因为数据库中可能没有相应的模板。在很大程度上,一个蛋白质的各domain的折叠方式不依赖于其他domain的折叠方式,因此,每个domain的结构可以单独预测。于是如何在一个蛋白质序列定位各个domain的边界也成了结构预测的一个问题。有些蛋白质序列可能包含信号肽,它们与蛋白质结构信息无关,所以可以切除。第六十四页第六十五页,共75页。蛋白质结构预测的原则序列一致性(sequenceidentity)大于30%→同源建模法。序列一致性(sequenceidentity)小于30%→Threading法或组合方法。第六十五页第六十六页,共75页。蛋白质结构预测方法的评价验证方法是取已知结构的蛋白质,对这些蛋白质进行模拟结构预测,并将预测结构与真实结构进行比较。一是分析两者之间的均方差差距RMSD,还有一个评价标准是TM-score。权威的评判机构,建立公共认可的蛋白质结构测试数据集。设立在马里兰生物技术研究中心的CASP就是这样一个系统(

)CASP(CriticalAssessmentofTechniquesforProteinStructurePrediction)被誉为蛋白质结构预测领域的奥林匹克竞赛,没两年举办1次。第六十六页第六十七页,共75页。蛋白质结构预测软件SWISS-MODEL(同源建模)Phyre/Phyre2

(同源建模+Threading)ROBETTA(从头计算)Hhpred(Threading)I-TASSER(组合法)第六十七页第六十八页,共75页。SWISS-MODEL利用同源建模的方法实现对一段未知序列的三级结构的预测。该服务创建于1993年,瑞士生物信息学研究院维护,开

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论