结构生物信息学课件_第1页
结构生物信息学课件_第2页
结构生物信息学课件_第3页
结构生物信息学课件_第4页
结构生物信息学课件_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学(Bioinformatics)数据驱动 (data driven)基础现代生物学基本原理 (中心法则、分子进化)高通量数据采集手段统计学信息科学 (数据库、机器学习、模式识别、知识发现、互联网)问题:生物信息学分析中涉及到了哪些数据?生物信息学的基本策略1、从相似性推断同源性相似性(similarity) Similar:having characteristics in common -Merriam-Webster Dictionary同源性(homology): A similarity often attributable to common origin -Merriam

2、-Webster Dictionary同源进化上有共同的起源哪些共同特征? (1)分子生物学的中心法则DNARNA蛋白质转录翻译遗传信息:贮存在DNA的核苷酸序列中进化中被复制以及发生变异的是 基因的核苷酸序列(以及相应的蛋白质序列)因此,按照分子生物学的基本原理,我们应该根据核苷酸序列或者氨基酸序列上的共同特征来判断序列的是否同源最简单: 序列一致性 (sequence identity)同源蛋白应该具有相对保守的功能 (催化同类化学反应、结合同类型的其他分子等)蛋白质功能依赖于三维结构按照上述原理,我们同样应该能够根据三维结构上的共同特征来判断蛋白质分子是否同源。最简单: 主链原子位置的均

3、方根偏差(RMSD)哪些共同特征? (2)生物信息学的基本策略(2)2、发现和利用不同特征间的关联关系(Guilty by association)序列整体特征序列同源性结构整体特征序列局部特征(如motif)结构局部特征功能模式例如:关联关系的发现: 数据搜集、特征提取与数据建模、参数估计的过程。知识发现。关联关系的利用:数据检索、统计检验、实验验证的过程。知识利用。例:根据序列预测蛋白质在核内的定位序列motif蛋白在细胞核内定位(核定位信号,NLS,nuclear localization signal)/predictNLS/分子生物学的模型: 转运蛋白识别NLS序列,复合物通过核孔被

4、主动转运到核内数据搜集实验数据分析实验观察到的NLS有没有共同点?这些共同点是否足以区分核蛋白和非核蛋白?能否根据序列间的进化关系对实验数据进行扩展?Collecting initial set of NLS from literature. e.g. /entrez/Search pubmed for “nuclear localization signal” Among the listed records “Nuclear localization signal-receptor affinity correlates with in vivo localization in S. ce

5、revis”“related articles”实验观察到的NLS有没有共同点?这些共同点是否足以区分核蛋白和非核蛋白Positively charged residues are abundant in NLSs. the monopartite motif is characterised by a cluster of basic residues preceded by a helix-breaking residue. Similarly, the bipartite motif consists of two clusters of basic residues separated

6、 by 9-12 residues NLS cores are hexapeptides with at least four basic residue and neither acidic nor bulky residues . However, this motif matches only few nuclear and many non-nuclear proteins. Sets of nuclear and non-nuclear proteins. SWISS-PROT release 38.0 with annotations of sub-cellular localis

7、ation (ignoring PUTATIVE, POTENTIAL, BY SIMILARITY). sorted all remaining proteins into two sets: (1) nuclear proteins (true positives, 3142 proteins) and (2) non-nuclear proteins (true negatives, 5910 proteins). /databases/swiss-prot/sprot/userman.html手册:数据源:Line codeContentOccurrence in an entryID

8、IdentificationOnce; starts the entryACAccession number(s)Once or moreDTDateThree timesDEDescriptionOnce or moreGNGene name(s)OptionalOSOrganism speciesOnceOGOrganelleOptionalOCOrganism classificationOnce or moreOXTaxonomy cross-referenceOnceRNReference numberOnce or moreRPReference positionOnce or m

9、oreRCReference comment(s)OptionalRXReference cross-reference(s)OptionalRGReference groupOnce or more (Optional if RA line)RAReference authorsOnce or more (Optional if RG line)RTReference titleOptionalRLReference locationOnce or moreCCComments or notesOptionalDRDatabase cross-referencesOptionalKWKeyw

10、ordsOptionalFTFeature table dataOptionalSQSequence headerOnce(blanks)Sequence dataOnce or more/Termination lineOnce; ends the entryCC -!- FUNCTION: This enzyme is necessary for target cell lysis in cell-CC mediated immune responses. It cleaves after Lys or Arg. May beCC involved in apoptosis.CC -!-

11、CATALYTIC ACTIVITY: Hydrolysis of proteins, including fibronectin,CC type IV collagen and nucleolin. Preferential cleavage: -Arg-|-CC Xaa-, -Lys-|-Xaa- -Phe-|-Xaa- in small molecule substrates.CC -!- SUBUNIT: Homodimer; disulfide-linked.CC -!- INTERACTION:CC Self; NbExp=1; IntAct=EBI-519800, EBI-519

12、800;CC -!- SUBCELLULAR LOCATION: Secreted; cytoplasmic granules.CC -!- SIMILARITY: Belongs to the peptidase S1 family. GranzymeCC subfamily.CC -!- SIMILARITY: Contains 1 peptidase S1 domain.All experimental NLSs covered only 10% of the known nuclear proteins.Prosite: 3% known nuclear proteins仅仅用实验确定

13、的NLS模式:Inferring NLSs based on sequence very limited. about 30 protein pairs with more than 80% sequence identity and different annotations At 50-65% sequence identity, many pairs aligned over a substantial length, and annotated in different localisations 序列整体同源性:不是好的标准Extending experimental NLSs th

14、rough homology. For each experimental NLS-protein, found homologues in SWISS-PROT with PredictProtein. For pairs with more than 80% identical residues, extended the initial set of experimental NLSs by adding the sequence corresponding to the experimental NLS in the homologues. Testing experimental N

15、LSs. monitoring the matches of any motif in the sets of nuclear and non-nuclear proteins. The rationale was to find all NLS that matched exclusively in nuclear proteins.Coverage: 43%根据进化特征对结构功能进行预测保守性绝对保守相对保守(变异速率相对较慢,变异类型受到约束)非保守协变性或关联性Conservation analysisPhylogenetic profilingEvolutionary tracing

16、生物信息学的基本策略(3)可以在不同层次分析进化过程中的保守性与协变性给定位点上的氨基酸/核苷酸同源蛋白质分子间的保守性给定序列模式或结构模式在蛋白质家族内或家族间的保守性给定二级结构单元(蛋白质、RNA)在蛋白质家族或超家族间的保守性给定蛋白质分子在物种间的保守性。例子 http:/consurf.tau.ac.il/例子ConSurf钾离子通道小结从相似性-同源性序列相似,或者结构相似发现和利用不同特征间的关联NLS模式与核定位利用同源序列对序列模式进行扩展Swissprot 数据库(uniProt 知识库)覆盖率、正确率是两个重要指标利用进化特征保守性协变性ConSurf 对蛋白质序列各

17、个位点的保守性进行分析,并投影到三维结构上,可能与功能相关联从序列比对看生物信息学中的一些基本原理生物信息学工具的四个侧面生物学背景生物学问题是什么?数据是什么?有哪些相关的生物学背景知识?统计模型定义与参数学习模型中有哪些假设?能否以及如何利用数据通过统计学方法、回归方法确定模型中的参数算法是否有有效的算法解决参数学习、模型应用等问题?显著性(置信度)检验如何用统计学标准对答案的显著性(置信度)进行判别?序列比对生物信息学的核心工具(sequence alignment)生物学背景数据:核苷酸或氨基酸序列问题:(1)序列X和Y是否同源?(2)同源序列X和Y位点间的对应关系如何?(3)数据库D

18、中有哪些与X同源的序列?(4)同源序列X1,X2,。,Xn位点间的对应关系如何?序列比对生物信息学的核心工具(sequence alignment)统计模型与参数学习序列X,Y是否同源?相似性-同源性最简单的标准:序列一致性问题:一致性高到何种程度才能认为序列是同源的呢?是否会和序列长度、序列的氨基酸组成等有关呢?“相似”的氨基酸如何处理?如何处理序列中的插入、缺失等变异?(如何建立位点间的对应关系(序列比对)集合A:数据库中的所有蛋白质分子集合HX:数据库中所有与X同源的蛋白质分子集合C:数据库中所有具有特征C的蛋白质分子AHXCHXC显然,如果集合H和C的重叠程度越大,我们选择的特征越好。

19、最理想的情况是 HX和C完全重合。从统计学角度来看在数据库中寻找同源序列的问题P: 概率(probability)N:集合中序列的总数P(HX)P(HX,C)P(C)概率与条件概率条件概率问题:如果 ,那么C应该是Hx的充分条件还是必要条件?如果呢?P(A)=1比较哪些特征?最理想的情况:P(Hx|C)和P(C|Hx)都等于1二者越接近1越好我们常常不能二者兼顾P(Hx|C)=1,代表所有具有特征C的序列都是X的同源序列(正确率是100%),但可能有同源序列不具备该特征(覆盖率未知)。P( C|Hx)=1,代表数据库中所有与X同源的序列都有特征C(覆盖率是100%),但有特征C的序列不一定与X

20、同源(正确率未知)。条件概率能真正反应相关关系吗?HXCAHXCA大海捞针型C区别: P(Hx)的大小尽管两种情况下,我们都可以有P(Hx|C)1, 但显然特征C和Hx的相关程度是明显不一样的。贝叶斯定理P(HX)P(HX,C)P(C)P(A)=1P(Hx):数据库中任意序列与X同源 的概率,先验概率P(Hx|C): 数据库中已知其具有特征C 的序列与X同源的概率,后 验概率贝叶斯定理:代表了C对Hx支持的程度因为P(Hx|C)表示C的充分性,所以有人又将 视为用C作为Hx成立的“证据”的强度“定量”的证据问题的上限是多少?什么情况下达到?例子数据库A给定蛋白质分子X,寻找A中与X同源的序列特

21、征C:与X的序列一致性(sequence identity)超过某一百分比QP(C) A中与X序列一致性(sequence identity)超过Q的序列的比例P(C|Hx) A中且与X同源的序列中,与X序列一致性超过Q的序列的比例P(C)Q11/ P(Hx) P(C|Hx)0100%覆盖率100%正确率100%概率随Q的变化P(C|Hx)=1P(Hx|C)=1我们选择的标准与分子的同源性最“相关”用数学语言表示尽可能大实际选择?相似性的来源哪些因素对特征C 的概率P(C)有贡献?偶然相似 (coincidental)趋同进化 (convergent evolution)同源性 (homolo

22、gy)P(HX)P(HX,C)P(C)P(A)=1P(HX,C)显然,如果 相对于越小,P(Hx|C)会越大注意我们不能改变 或因此,我们对相似性的定义,应该使得由非同源性因素导致这种相似性发生的概率最小。这决定了我们应如何定义序列的相似性和结构的相似性。 小结根据贝叶斯理论进行推断先验概率似然性“证据”后验概率先验概率:常常是未知的(“信念”)似然性:往往作为参数估计的依据“证据”或后验概率:作为判据注意:如果我们没有对先验概率的客观估计,我们并不能“证据”本身给出假设成立的置信度。观察数据:序列X和Y问题:X和Y是否同源假设H:X和Y同源。下面我们回到序列两两比较问题无论H为真的先验概率是

23、多少,其后验概率总是正比于Log Odds Ratio score很自然,如果我们用 来定义X、Y的相似性,如果X、Y”足够”相似,我们就可以认为其同源。通常,如果我们有一组观察数据D,同时我们有关于D可能是如何生成的假设H,我们把 P(D|H)称为假设H的似然性 (likelyhood)。如果我们有不同的候选假设,并且知道如何根据假设计算似然性,我们可以在给定观察数据的情况下用最大似然法(ML) 找出最可能的假设。这是一个从数据中提取信息的过程。我们现在要从X、Y的序列数据中提取其是否同源的信息。计算似然性的模型同源序列假设:非同源位点间独立 同源位点不独立 非同源位点间同分布X1X2XiX

24、n| | | |Y1Y2YiYn非同源序列 位点间独立、同分布序列“相似性”的计分残基相似性矩阵或者残基替换矩阵:s(a,b)参数学习:最大似然ph:选择 同源位点的集合, 优化参数,使 最大。p0:选择 非同源位点集合, 优化参数,使 最大。模型的先天缺陷: 所有同源位点同分布, ph只与氨基酸类型有关,与同源位点属于哪两条序列、这两条序列间进化上的距离如何、位点所受到的进化压力如何都没有关系。两类主要的氨基酸残基替换矩阵PAM矩阵(percent acceted mutation) 只用高同源性的序列来学习参数,构造PAM1矩阵 (序列的同源程度相当于平均1%的位点发生了一次可接受的突变)

25、。 用马尔科夫模型描述进化过程,得到更低同源程度时的残基替换矩阵 PAM250 = (PAM1)250 平均每个位点发生了2.5次突变。 BLOSUM矩阵把同源序列按同源程度进行分类,数据库中同一类的所有序列在参数学习中的权重相当于一条序列.BLOSUMxx: 代表分到同一类的标准是序列一致性大于xx%序列比对生物信息学的核心工具(sequence alignment)算法位点间的对应关系是未知的.进化过程中存在插入缺失等变异相似性分值=比对的函数=同源位点残基替换分值的和 + 空位罚分最优比对: 所有可能比对中相似性分值最高的比对 给定 (a) 两条序列 (b) 残基替换矩阵 (c) 空位罚

26、分函数可以用动态规划算法(dynamic programming) 获得两条序列的最优比对。 全局比对:比对范围覆盖两条序列的全部。 X1X2.Xi -. Xj.Xm.- | | | |.| |.| |.| - -Y1Y2-.YkYk+1Yl.Yn X1X2.Xi - . Xj.Xm | |. . | Y1Y2-.YkYk+1.Yl.Yn局部比对:比对范围覆盖两条序列的局部HSSP (high scoring sequence pair)一个也不能少一个也不能多/software/seqaln/seqaln-query.html例:序列动态规划比对的程序/web服务器The USC Seque

27、nce Alignment Server 最优比对正确的比对我们用于计算似然性的假设不完全成立我们的残基替换矩阵和空位罚分函数有相当多的经验特性我们采用的是概率意义上正确的模型当序列一致性较低(局部序列一致性较低时),最优比对的正确率较低次优比对所有满足的比对方式Ahttp:/protein.cribi.unipd.it/align/Example:Align packageBALSA (The bayesian algorithm for local sequence alignment/balsa/balsa.html用贝叶斯方法选择参数进行比对多序列比对(multiple sequenc

28、e alignment)Sum of pairs 计分规则 多序列比对的分值=序列两两比对分值之和在序列数目较少时,可以采用严格的动态规划算法,得到最优比对。大多数程序采用近似算法:两两比对-引导树-多序列比对程序/apps/bioinfo/msa.htmlExample:T-CoffeeT-Coffee: A Novel Method for Fast and AccurateMultiple Sequence AlignmentJ. Mol. Biol. (2000) 302, 205217序列比对计分函数小结Log Odds Ratio 计分总分=同源位点分值加和各位点独立进化统一的残基

29、替换矩阵各位点氨基酸分布相同通用替换矩阵:PAMxx, BLOSUMxx空位罚分函数序列比对算法我们可以动态规划方法找到两条序列的局部和全局最优比对最优比对不一定是正确比对次优比对、Bayesian比对等多序列比对:SUM OF PAIRS 计分规则动态规划或启发式方法得到最优或近似最优的比对。统计检验的P-value假设 H (X,Y 同源)零(空白)假设:X、Y之间没有任何关系。P-value: 在零假设(空白)的情况下(X,Y间没有任何关系)观察到序列比对具有同样或更大分值的概率Each statistical test has an associated null hypothesis

30、, the p-value is the probability that your sample could have been drawn from the population(s) being tested (or that a more improbable sample could be drawn) given the assumption that the null hypothesis is true. A p-value of .05, for example, indicates that you would have only a 5% chance of drawin

31、g the sample being tested if the null hypothesis was actually true. 显著性(置信度)的判别序列两两比对的P-value两条序列X、Y比对结果的P-value: 同样长度、同样氨基酸组成的随机序列间最优比对分值超过X、Y最优比对分值的概率。严格来说,P-value依赖于序列长度、序列的氨基酸组成。问题:1、P-value越小,代表X,Y同源的可能性越高还是越低?2、为什么不直接用分值来代表显著性?可以通过计算机数值实验来估计P-value可以采用近似解析公式来估计P-value随机序列比最优比对分值的分布服从 Gumble极值分

32、布。数据库检索的E-value假设数据库中的N条序列是互相独立的。查询序列X与N条序列中每一条序列进行比对,相当于进行了N次独立的比对实验。假设查询序列x与N条序列实际上都没有同源关系。得到的N个最优比对分值超过某个值的概率就是该分值的显著性。 P-valueE-value假设用给定分值作为门限,每次查询在理论上的平均错误匹配数。小结统计检验:P-value:一般定义:空白假设下观察到样本的概率。序列两两比对:同样长度和氨基酸组成的随机序列产生同样或更大分值的概率。可以数值或解析获得E-value按照某个门限每次查询得到的平均错误匹配数与P-value密切相关小结生物信息学工具的四个基本方面生

33、物学数据与问题统计模型与参数学习算法统计检验其中包含的概念在不同生物信息学工具中反复出现。蛋白质三维结构分类、比较蛋白质三维结构的专家分类 SCOPSuperfamiliesRootClassesFoldsSuperfamiliesFamiliesProtein domainsSpeciesscopAll alpha proteins Globin-like Globin-like GlobinsMyoglobin Sperm whale core: 6 helices; folded leaf, partly opened Heme-binding protein 当前SCOP分类Class

34、es:All alpha proteins 46456 (218) All beta proteins 48724 (144) Alpha and beta proteins (a/b) 51349 (136) Mainly parallel beta sheets (beta-alpha-beta units) Alpha and beta proteins (a+b) 53931 (279) Mainly antiparallel beta sheets (segregated alpha and beta regions) Multi-domain proteins (alpha and

35、 beta) 56572 (46) Folds consisting of two or more domains belonging to different classes Membrane and cell surface proteins and peptides 56835 (47) Does not include proteins in the immune system Small proteins 56992 (75) Usually dominated by metal ligand, heme, and/or disulfide bridges Coiled coil p

36、roteins 57942 (6) Not a true class Low resolution protein structures 58117 (24) Not a true class Peptides 58231 (116) Peptides and fragments. Not a true class Designed proteins 58788 (42) Experimental structures of proteins with essentially non-natural sequences. Not a true class http:/scop.mrc-lmb.

37、cam.ac.uk/scop/data/scop.b.htmlGlobin like foldTwo superfamilies in the Spectrin repeat-like fold3 helices; bundle, closed, left-handed twist; up-and-down 蛋白质结构的自动比较相似性的判据:A、B:两个不同的结构C原子位置的均方根偏差与序列比对类似,我们假设已建立两个结构上残基间的对应关系。rA、rB:结构A、B相应的原子的空间坐标。显然,正确的对应关系应该使(a)NC尽可能大;(b) RMSD尽可能小。由于A、B的坐标系是任意的,因此,在计

38、算RMSD之前,我们还必须对其中一个进行平移、旋转变换,以将其叠合到一起:结构比对同时解决坐标变换、建立序列比对(用结构作为标准)的问题早期:SAP (structure alignment of proteins)采用双动态规划的算法。目前绝大多数方法:采用先找出A和B中相似的局部结构集合,再逐渐扩展的方法代表性的方法与程序:Dali, CE, Maxsub等Dali (distance matrix alignment) scoreS:相似性分值i、j:已比对的氨基酸残基 i=(iA,iB),j=(jA,jB)dAij: iA、jA的距离dij*:dAij、dBij的均值=0.2、=20 :参数 Dali score: 取决于比对上的位点的数目Dali Z-score对比对显著性的度量。 输入: 至少C坐标(服务器可以用MaxSprout程序产生其他主链原子和测年远之坐标)服务器用DSSP和Puu程序解析输入结构中的二级结构和结构域。输入结构与PDB中的代表性结构进行比较。返回:数据库中与查询结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论