质谱数据定量分析方法_第1页
质谱数据定量分析方法_第2页
质谱数据定量分析方法_第3页
质谱数据定量分析方法_第4页
质谱数据定量分析方法_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、蛋白质学组中质谱数据定量分 析方法研究 谢红卫 国防科学技术大学机电工程与自动 化学院自动控制系 2010.5.15 主要内容 研究背景(我们对定量问题的认识) 定量数据分析面对的问题 定量数据分析的基本方法 已有定量软件和应用情况 研究内容和结果 定量信息提取方法及问题 多批次定量数据的对应及重复实验 差异显著性检验 计算问题和软件开发 未来工作 第一部分:研究背景第一部分:研究背景 定量数据分析面对的问题 大规模Biomarker 发现 -低丰度蛋白质- 信号信号S/N低低+鉴定信息少鉴定信息少 重复实验数据综合重复实验数据综合 蛋白质和肽段预分离 技术策略的数据综合 Biomarker验

2、证 -靶标分析- 靶标挑选(MRM)肽段分析效率预测(绝对定量)肽段分析效率预测(绝对定量)生物样本蛋白质表 达的随机变化影响 临床诊断 -直接寻找差异- 肽段组学,肽段特征矩阵,LC-MS策略策略,信号直接对比+有选择鉴 定 定量数据分析的基本方法 不包括MRM、iTRAQ和SC定量 标记定量 无标定量 计算问题 图谱定量信息提取-同位素峰簇处 理 肽段定量指标计算-比值计算,XIC 处理,母离子误差校正 RT对齐-LC-MS策略和LC- MS/MS策略的不同 信号归一化-消除系统误差 差异显著性检验-考虑信号强度影 响 质谱信号与定量 无标记:同位素峰无标记:同位素峰 标记:配对的同位素峰

3、 图谱定量信息提取方法 基本方法 最大值法,平滑积分法,信号求和,构建3D peaks (MaxQuant),函数拟合 附加处理 小波去噪,同位素分布约束,信噪比过滤 结果形式 标记定量:比值,定量指标 无标定量:定量指标 肽段定量指标计算 可选步骤可选步骤 去噪处理:小波,平 滑滤波 XIC峰形拟合:复杂的 类高斯函数 XIC边界确定:信噪比, 连续性,局部最小 值 母离子匹配误差分布: 提高精度? 标记定量:标记定量:比值计算,MaxQuant采用了最小二乘拟合法 问题:问题:不同试剂标记的肽段XIC平移,差异越大,表现越明显 无标记定量:无标记定量:定量指标计算 RT对齐 LC-MS策略

4、:策略:寻找共同的肽段信号,建立非线 性模型 LC-MS/MS策略:策略:利用共同鉴定肽段的RT建 立对齐模型 对齐模型:对齐模型:3次样条,局部回归,小波,分段线 性,偏移向量等 作用:作用:对LC-MS/MS策略,可以弥补鉴定信息 的不足,提高MS图谱信号利用率 信号归一化和差异显著性检验 信号归一化信号归一化 目的:针对无标记定量,消除不同实验间的系 统误差 基本方法:寻找不变量 差异显著性检验差异显著性检验 从肽段到蛋白质的信息综合:平均?筛选? 异方差问题:信号越弱,误差分布越宽 一个例子 XIC 定量信息:TGVIVGEDVHNLFTYAK 图谱计数SCXIC面积SA(对数)保留时

5、间RT上样量(ug/ul) 1268.5453.6616173.0 707.5658.1350220.3 35.1559.1996300.03 45.8957.6437970.003 AVG_ISO_DIS SCC H XCor r CnLM(ug/ul) 12 6 25.10.6 2 3.0 1432.630.3 3 3.0 7025.580.4 7 0.3 432.80.4 0 0.3 324.90.4 9 0.03 424.30.7 2 0.003 132.20.3 4 0.003 鉴定信息 数据产生 LTQ/FT分析Yeast样品,SEQUEST 搜库,Target-decoy过滤 (

6、FDR=0.01),取Scan number最小 的记录 定量软件 Cencus、 CRAWDAD、 MaxQuant 软件在可视化、 速度、数据文 件格式支持、 算法精度和实 验策略支持等 方面有很大发 展空间 定量软件-Mascot 支持的定量类型 多种标记定量, MS/MS图谱 定量, emPAI, 重复实验 Label free, 选择信号最强的3 个肽段 p数据处理算法特色 基于m/z和RT的对齐,多种XIC积分方法,多参数鉴定结果过滤,outliers排 除,归一化处理(利用均值) p使用方法 在搜库前定义修饰和定量的参数(通过修改XML文件实现),搜库,然后 使用Distille

7、r定量 第二部分:研究内容和结果第二部分:研究内容和结果 定量信息的提取:Label free 去噪方法去噪方法 不去噪 Xcalibur默认 小波去噪 谱峰定量信息谱峰定量信息 最大值 平滑积分 函数拟合 信号加和 同位素峰同位素峰 单一 最高 全部 XIC处理处理 小波去噪 平滑去噪 连续性截断 误差分析 XIC定量定量 平滑积分 函数拟合 信号加和 X X X 图谱水平图谱水平 肽段水平肽段水平 X 共3*4*3*4*3=432种计算流程 比较原则:比较原则:重复实验的CV值最小 目前结论目前结论: (1)不进行去噪处理的信号 加和方法最优 (2)高信号水平的处理结果 CV值都比较小 定

8、量信息提取:标记定量 图谱水平: 非线性拟合算法 10, 9 8 , 7 6 , 5 4 , 3 2 , 1 , , , , , * * * 42 4221 4221 21 i i i i i TK TKTK TKTKTC TKTC TC I ii iii iiii iii ii i 10 1 2 i i f 10 1 02 i i i CC f 10 1 11 02 i i i KK f 02 10 1 22 i i i KK f 特点特点 可定义一般模式,支持自定义标记方法,支持多重标记 能够充分利用同位素分布信息 能够直接解决谱峰叠加问题 定量信息提取:标记定量 肽段水平 实现了多种算法

9、实现了多种算法:XIC面积比, 图谱比值平均,主成分分析, 最小二乘回归 采用了异常值排除策略采用了异常值排除策略 实现了基于实现了基于XIC连续性的截断连续性的截断 单一同位素峰最高单一同位素峰最高 问题:同位素峰分布测量误差 61,/ 6 1 iiIsoDisiIsoDis iExpIso iExpIso ERR i i -1-0.500.511.522.533.54 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 Data Density Iso1 Iso2 Iso3 Iso4 Iso5 Iso6 第二同位素峰最高第二同位素峰最高 第三同位素峰最高第三同位素峰最高 第

10、四同位素峰最高第四同位素峰最高 数据:FT_yeast, BPRC,高可信鉴定肽段 问题:从质量预测同位素分布 经验公式:从IPI.Human 3.49酶切肽段中统计(胰酶,2 个漏切,肽段长度不超过100) ! )( )( i ebxa xf ii bxai ii i xb xeaxf 0 00 )( 5 , 4 , 3 , 2 , 1i aibi 1.007 0.000579 2 0.000632 1 - 0.09212 0.000568 3 0.02292 0.000552 6 0.09675 0.000568 Bellew, M., M. Coram, et al., Bioinfor

11、matics, 2006. 22(15):. 重复实验的数据处理 RT对齐和交叉搜 索 P1 P2 Pn X X MS搜索搜索 MS搜索搜索 信息的充分利用 不可逆不可逆:需要建立 2/ ) 1( 2 nnCn 个RT对齐模型 可逆可逆:需要建立n-1个模型 工作:工作:实现了基于局部回归(采用 线性函数)的可逆模型和算法,大 大减小了计算量 交叉搜索的效果 鉴定次数 12345678910 0 200 400 600 800 1000 1200 1400 10987654321 定量次数 重复实验的数据处理-信息融 合 问题问题:一个肽段,多个定 量结果,怎样给出最终结 果? 方法:方法:信

12、号归一化后,求 平均值、中值或者最大值 结果:结果:对简单重复来说, 分组平均后组间差异更小 ,例如10次重复,分为 两组,求5次平均。 数据:FT_yeast, BPRC 标记定量中比值分布-信号强 度 H/D(3)标记实验中发现,比值的标准差随着 XIC中peak number的增大而减小 数据:FT,人血浆,BPRC 无标记定量中差异分布 分段估计方差 带有参数的分布模型 极大似然估计直接优化似然函数 初始值的选择决定成败 bae e yf i i y i y bae ii 2 )( 2 ),( 2 2 n i i n i i i n i ii n yfL 11 2 2 1 ln)2ln

13、( 2 )( 2 1 ),(ln 标记定量软件SILVER C+语言 GUI 交互操作 批量数据处理 文件格式支持: XML, Mascot dat和 html 多线程,图谱、XIC导出,多种输出格式,算法优化 索引文件和速度提升 索引文件和数 据结构 Scan number 到MS图谱索引: Hash表 图谱中Isotopic peaks定位:二 分法查找 无标记定量软件LFQuant 重复实验支持 定量精度和参数优化 速度:1 s可以定量 1000个肽段 支持pepXML, protXML,mzXML, mzData,mzML 蛋白质组装和未鉴定肽 段搜索 RT对齐、信号归一化 p从搜库(

14、SEQUEST) 到定量完成的全流程 自动化,有GUI界面 LC-MS策略支持软件 XICFinder 不需要鉴定信息,直接从MS图谱中解析同位素 峰簇 考虑了XIC截断,同位素峰叠加,母离子误差校 正等问题 提供了信噪比、同位素分布拟合优度等过滤 测试:发现采用严格过滤规则,则鉴定肽段也 可能不能定量,说明和LC-MS/MS策略可以相 互补充 第三部分:进一步的思考第三部分:进一步的思考 预分离和信号归一化 SDS分离 蛋白质多条带分布 条带切割的不均匀性 不同实验之间信号不可比 1D-SDS PAGE 和Label free定量 蛋白质的多条 带分布问题没 有提及 多条带分布的 原因:修饰

15、、 误切、可变剪 接 信号归一化“局部效应” 仅仅考虑了信 号强度因素 RPLC和ESI过 程中的离子抑 制效应和 Matrix effect: 信号的局部归 一化 寻找RT轴上的 校正曲线:不 变量 可能方法 仪器加性电 子噪声的不 变性 图谱信号统 计不变量 小波去噪 蛋白质组装与定量 Quant:MS ID score:MS/MS PCP: sequence Quant:MS PCP: sequence 影响图谱质量,从 而影响 ID Score 决定碎裂模式, 影响 ID score 蛋白质 肽段RPLC分离 过程中肽段 之间相互影 响 色谱流出曲线与 肽段混合物有关 MS response不仅 仅由肽段自身属性 决定,还与其它混 合在一起的肽段相 关 肽段检测效率预测问题肽段检测效率预测问题 贝

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论