质谱数据分析2014.ppt_第1页
质谱数据分析2014.ppt_第2页
质谱数据分析2014.ppt_第3页
质谱数据分析2014.ppt_第4页
质谱数据分析2014.ppt_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、蛋白质组学的数据分析,邵晨,复习,蛋白质组的定义,蛋白质组学和基因组学的区别? 由一个基因组,或一个细胞、组织表达的所有蛋白质。蛋白质组的概念与基因组的概念有许多差别,它随着组织、甚至环境状态的不同而改变。 在转录时,一个基因可以多种mRNA形式剪接,一个蛋白质组不是一个基因组的直接产物,蛋白质组中蛋白质的数目有时可以超过基因组的数目。,Key advantage of proteomics Researchers work on the level of gene products and deal with genes that are really expressed to give a

2、 detectable PRODUCT and are not just expressed“ which only says they produce a detectable mRNA but it is not clear whether there is a gene product or not. Key limitation of proteomics Usually, only a fraction of the proteins synthesized can be detected in a proteomics experiment, whereas the express

3、ion of ALL genes can be monitored in a whole-genome array experiment. Key prerequisite of proteomics A genome sequence for the investigated organism or at least a collection of many cDNA sequences is required.,From Yogita Mantri 10(11):R111.009522.,From Jimmy Engs lecture at ISB,利用二级质谱图,在一级质谱图中,选择其中

4、的一个峰(母离子),再把这个离子打碎(CID,ECD),检测碎片离子的m/z,就得到一张二级质谱图。 这里的假设是一级质谱中的一个峰就对应了一个多肽。 对于一张一级质谱图,可以选择多个峰进行二级质谱的操作。这样就可以适应样品里有多个蛋白的情况。,典型二级质谱图,转换成MGF文件,谱图名称,母离子电荷,多肽质量,左列:子离子m/z 右列:子离子峰强度,母离子的碎裂过程,CID,即Collision-induced Dissociation,是通过撞击使得多肽的肽键断裂的过程。 在做二级质谱的试验时,质谱仪选择一级质谱中的一个峰,也就是对应质荷比的这些离子,让这些离子高速撞击质谱仪中的惰性气体,使

5、其肽键断裂,这就是CID。 现在逐渐被HCD (High-energy C-trap Dissociation)所取代。HCD的碎裂规律与CID相似,但碎裂的能量更高。,From Jimmy Engs lecture at ISB,a,b,y系列离子最常见,Relative Intensity,m/z,F,L,G,K,+,+,F,L,G,K,+,+,F,L,G,K,+,+,CID,F,L,G,K,+,+,F,L,G,K,+,+,F,L,G,K,+,+,b1,b2,b3,y3,y2,y1,F,L,G,K,+,+,F,L,G,K,+,Theoretical CID of a Tryptic Pep

6、tide,Parent ions,(464.29),Daughter ions,Non-dissociated Parent ions,50,如何计算子离子的m/z,当子离子电荷为z时, b离子=(氨基酸残基分子量+H*z)/z Y离子=(氨基酸残基+H2O+H*z)/z bi+yn-i=多肽分子量(M)+2*z*H,小练习,给定多肽序列FDTK,画出其理论二级质谱图,包括+1电荷的b/y离子和+1电荷的母离子,假设所有离子的强度相等 氨基酸残基的分子量为F 147, D 115, T 101,K 128,答案,M+H=510,Relative Intensity,m/z,510,一些常见的其

7、它离子,Neutral loss: 某些酸性氨基酸可能会在CID中丢失一个水分子(H2O),而碱性氨基酸会在CID中丢失一个氨分子(NH3)。,Relative Intensity,m/z,508,FDTK, D是酸性氨基酸, 有可能b2,b3,y3 发生中性丢失, 假设是b3 其它氨基酸也 可能发生中性丢失,346,Immonium ions: 氨基酸在CID过程中可能产生形如H2N=CHR+的Immonium ions(亚胺离子)。根据immonium ions可以判断哪些氨基酸在多肽中存在。,From Jimmy Engs lecture at ISB,a,b,y系列离子最常见,Neut

8、ral Loss和Immonium Ions表,Relative Intensity,m/z,508,FDTK,假设产生了T的亚胺离子,346,74,多肽的修饰,有时,二级质谱中需要考虑某些氨基酸可能被修饰(磷酸化、糖基化等),这些修饰可能改变残基的分子量。 质谱仪并不能直接鉴定修饰基团,只能检测到氨基酸残基分子量的变化,再与已知的修饰相对照,Unimod,小练习2,给定多肽序列FDTK,画出其理论二级质谱图,包括+1电荷的b/y离子和+1电荷的母离子,假设所有离子的强度相等,其中氨基酸残基T上有磷酸化修饰(质量加80)。 氨基酸残基的分子量为F 147, D 115, T 101,K 128

9、,答案,M+H=510+80,其它可能的离子,a离子,CID和HCD谱图中也很常见 a ion=b ion-CO 中间片段 (internal fragments), 多肽骨架同时进行了b和y类型的碎裂的产物,最多可达5个氨基酸残基 侧链碎裂产物,可用来区分亮氨酸和异亮氨酸 另外,子离子可能带不只一个电荷,如母离子为+3电荷,子离子有可能为+1,+2,+3电,理论质谱图与实验质谱图,实验谱图远远比理论质谱图复杂,给多肽鉴定带来了很大的难度。 即使是b/y离子,也不一定能全部被检测到(y离子更容易被鉴定) 存在噪声峰和质量误差 罕见、未知的碎裂离子类型,很难被识别,通过de novo方法手工鉴定

10、以下二级质谱图代表的多肽序列,M+2H = 1295.0 Da,质量误差0.5Da,九步鉴定法,1。寻找immonium ions。 2。寻找b2 ion。 3。寻找y1 ion。记住bn+yn-1=多肽分子量(M)+2H 4。寻找yn-1 ion。先找y,后找b 5。顺着yn-1, yn-2, 的顺序继续寻找y系列的离子。 6。顺着b2, b3, 的顺序继续寻找b系列的离子。,九步鉴定法,7。计算多肽的分子量。 8。检查鉴定的结果。 9。试着解释更多的峰。,67,氨基酸质量速查表注意我们给出的是残基的分子量,b2离子的m/z表,手工鉴定二级质谱图,1。寻找Immonium ions:没有找到

11、。 2。寻找b2 ion:261.8。由于有234.0的a2 ion和1033.3的yn-2 ion,故肯定b2 ion为261.8。 3。寻找y1 ion:由于已知多肽是由胰酶(Trypsin)酶解,故而C末端只能是K或R,所以虽然找不到y1 ion,但是可以在1148.8处找到对应于K的bn-1 ion。,CID,鉴定,4。寻找yn-1 ion:已经找到了。 5。继续寻找y系列的离子:从1033开始,可以分别找到934,748,633,532和461作为y系列的离子,把它们写出来:,鉴定,6。继续寻找b系列的离子:从834.9开始,似乎只有1019.7一个离子没有鉴定了,它与1148.8之

12、间形成一个氨基酸E,但与834.9之间相差185Da。 可以通过b2离子的m/z表查到对应的氨基酸序列:有AN, NA, QG, GQ四种序列都满足185Da的条件(这样用的时候注意要减1)。,鉴定,7。计算多肽的分子量:经计算,多肽的分子量约为1294.6Da,接近测得的分子量1295.0Da。 8。检查鉴定的结果:由于没有观测到immonium ions,我们暂时没有辅助信息来帮助我们检查这一鉴定结果。 9。试着解释更多的峰:发现817位置的峰是834位置的峰的neutral loss。,De novo Sequencing,这种仅通过二级质谱图来鉴定多肽的方法又称为De novo Seq

13、uencing。 可以用计算机程序使得鉴定问题自动化,计算机程序的鉴定流程与上面的九步鉴定法略有区别。 当我们拥有近乎完美的二级质谱图时,我们可以采用这种De novo Sequencing的办法。 但是,实际情况中,我们并没有完美的二级质谱图。我们已经从例子中看到,单从质谱图不一定能得到全序列。,鉴定多肽的流程,多肽混合物,酶解,分离,质谱仪,一级质谱,质量纹,选择高峰,鉴定多肽,质谱仪,二级质谱,手工鉴定,数据库搜索,鉴定多肽,二级质谱图的数据库检索算法,实际情况中,单从质谱图不一定能得到全序列。 但是,幸运的是,我们还有蛋白序列数据库。 所以我们可以从数据库里搜索最好的匹配质谱图的多肽,

14、这样就有了二级质谱的数据库搜索算法。,数据库搜索的思路,数据库搜索的基础很简单,就是理论质谱图和实验质谱图之间的一个比对。 数据库检索的思路与指纹图谱方法相似,在这里,每个多肽的“指纹”就是它们通过CID等裂解过程得到的特征子离子列表。,数据库搜索的流程,在一个蛋白序列数据库中,可以找出来的,落在质谱仪检测范围以内的多肽,多达数百至数千万,如果每个多肽都拿来和实验质谱图做比对的话,需要花费的时间是难以接受的。 提高搜索速度的关键就是减少搜索的对象数。,数据库搜索的流程,所以,基本上,所有的数据库搜索算法都包括两个步骤。 第一个步骤是筛选数据库里的多肽,根据其分子量找出所有有可能与质谱图匹配的多

15、肽。 第二个步骤就是拿这些选出来的多肽去和质谱图进行比对,进行打分输出最高分值的多肽作为一个PSM(Peptide-Spectral Match),这张谱图质量如何?,还不错的匹配?,同一张质谱图,不同的PSM,评价标准,理论子离子匹配的数量、比例 高强度的峰是否被匹配 y离子连续性 ,随机匹配,即使是一些看起来还不错的实验和理论谱图的匹配,也可能只是随机现象而已。随机匹配的现象在数据库检索的过程中非常常见。 做一个扔硬币的游戏,有多大的概率连续扔出10次硬币的正面? 这取决于扔硬币的次数。10次还是10000次? 实验和理论谱图的匹配,与后一种情况更相似,MASCOT score,MASCO

16、T软件计算多肽与谱图随机匹配的概率,并根据这个概率给出打分-10log10(P) 随机匹配的概率P,取决于候选多肽的数量和匹配上的子离子的比例等。质谱仪的质量误差越小,随机匹配的可能性越低。 MASCOT对质量纹法的蛋白匹配采取了类似的打分方法,86,如何理解MASCOT score,对一张质谱图,得分最高的多肽匹配并不一定就是正确的匹配,严谨的说法是在所有数据库收录的多肽中,这个匹配是随机匹配的概率最低。有可能这张谱图所代表的肽未被收录在数据库中。 除非已知样品里有哪些蛋白,不然我们无法得知哪些匹配是正确的。 所以需要给定一个分数的阈值,只留下得分在这个阈值之上的匹配,如何理解MASCOT

17、score,mascot打分仅仅对匹配是否是随机现象打分,并不评价谱图质量,即使匹配的质量很好,仍然有可能是随机匹配,其它的打分方式,除了MASCOT软件采用随机匹配的概率区分正确和错误的匹配以外,其它软件采用其它的打分方式 打分方程是数据库搜索算法的核心,不同的软件采取的打分方法不同,相互之间没有可比性。,SEQUEST,Xcorr 实验谱图和理论谱图比对的交互相关性(cross-correlation)打分 DeltaCn 每张实验谱图匹配的最好的前两名多肽的Xcorr差距,匹配的假阳性率,如果我们的目的是评价单张或少数几张谱图,那么任务就已经完成了。但在蛋白质组学的实验中,往往要同时鉴定

18、成千上万张谱图,这里引入假阳性率(False Discover Rate)的概念。 FDR,指在所有高于给定阈值的多肽-谱图匹配(PSM)中,随机匹配所占的比例。,发表蛋白质组学数据必须报告FDR,为什么FDR如此重要?,组学的特有的“总体”概念 假设共鉴定到100个PSM,每个PSM是随机匹配的概率仅为0.01,则这100个PSM中至少有一个随机匹配的概率为1 使通过不同软件、检索条件、阈值设定等获得的鉴定结果具有可比性,采用反相数据库法估计FDR,构建反相数据库 (decoy database) 将原数据库(target database)中的所有蛋白序列逐条反转,或随机打乱顺序。 反相数

19、据库中的蛋白数目,长度,酶切后获得的多肽的数目,氨基酸组成均与原数据库相同。 不同的是,这些多肽序列是虚构的,不可能在样品中存在,采用反相数据库法估计FDR,检索反相数据库 采用相同的条件检索反相数据库,或者将两个数据库合并检索,用来模拟随机匹配的过程。 FDR估计 FDR=decoy/target or FDR=2*decoy/(target+decoy) 通常要求结果的FDR在1%以内。,数据库搜索:小结,数据库搜索算法的目标是在数据库中寻找与二级质谱图最好匹配的多肽 (两个步骤)。 但是实际的二级质谱并不是那么完美的,存在很多随机匹配的可能 (打分) 估计FDR是鉴定多肽过程中非常重要的

20、一步 通过数据库检索进行多肽鉴定后,还要根据多肽序列进行蛋白鉴定,小练习3一次实验共鉴定到了13个多肽,蛋白A-J包含这些多肽序列,请问样品中包含哪些蛋白,Molecular & Cellular Proteomics 4:1419-1440, 2005,Protein inference problem in shotgun proteomics,Protein isoforms are usually not distinguishable,奥卡姆剃刀原理,如果你有两个理论,它们都能解释观测到的事实,那么你应该使用简单的那个,直到发现有直接的证据支持更为复杂的那个理论。 找到最少的一组蛋白

21、,包含鉴定到的全部多肽序列 事实是,样品中的蛋白介于可推断出的最少和最多的两个蛋白list之间,Usually,proteins are reported in groups and families,蛋白鉴定的可信度,拥有更多高可信度多肽的蛋白的可信度最高 选择至少有两个肽的蛋白,或者保留单肽鉴定的蛋白,但要求这个肽具有极高的可信度 可用反相数据库方法估计Protein FDR,也可用其它基于概率的方法,Protein FDR通常大于peptide FDR,蛋白质鉴定:小结,目的:高可信地鉴定出样品中存在的蛋白/多肽,并估计其FDR 对未知的蛋白质样品,没有标准答案 不同软件给出的结果差别很

22、大,FDR是一个客观的标准,不同搜索引擎的比较,Molecular & Cellular Proteomics,12,2383-2393.,合并多个软件的结果可获得更多的鉴定,蛋白质组学研究的目标,蛋白质鉴定 Top-down策略(质量纹方法,MS谱图) Bottom-up策略(de novo测序和数据库检索,MS/MS谱图) 蛋白质修饰 蛋白质定量-相对定量、绝对定量 样品间比较 蛋白质功能,多肽的修饰,有生物学的意义修饰,如磷酸化 实验过程引入的修饰 解释更多的谱图,提高鉴定率 定量蛋白质组学采用的同位素标记 序列突变,也可用鉴定修饰的方法鉴定,固定修饰和可变修饰,固定修饰,样品中所有的肽

23、均具有的质量改变,如用重同位素培养的细胞样品,在样品处理过程中引入的半胱氨酸还原烷基化的修饰 可变修饰,中只有一部分肽具有这个修饰,另一部分保持未被修饰的形式,大部分的翻译后修饰都属于此类。,数据库检索方法鉴定可变修饰,以磷酸化为例,磷酸化修饰有三个可能的位点,S,T,Y. 对序列AASDTNYK,在鉴定可变修饰时,共有23种可能的形式 数据库检索方法通过扩大数据库的方式进行可变修饰的检索,数据库随着可变修饰的增加呈几何级数的增长,Mascot result,113,增加可变修饰的代价,时间的代价,以一次尿蛋白质组实验为例,共约100万张二级质谱图,增加可变修饰的代价,扩大的检索空间增大了随机匹配的概率,为了控制FDR,必须要采取更高的阈值,有时反而会降低鉴定的灵敏度 因此,推荐限制可变修饰的个数,只检索已知在样品中以较高比例存在的修饰,另一种策略,第一步:只考虑最少的可变修饰进行检索,目的是鉴定样品中哪些蛋白存在 第二步:将鉴定到的蛋白作为新的数据库,穷尽地检索可能存在的可变修饰,如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论