版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Mascot检索软件在蛋白质质谱鉴定中的应用目录lll生物质谱简介Mascot简介应用实例生物质谱简介基本结构离子源(ionsource):使蛋白或多肽变成带电离子常见类型:A:电喷雾电离(ESI)B:基质辅助激光解吸电离(MALDI)质量分析器(mass analyzer):将离子源中形成的离子按质荷比大小分开常见类型:A:四级杆(Quadrupole)B:离子阱(Ion trap)C:飞行时间(TOF)检测器(detecter):实现离子信号检测常见类型:A:直接检测器B:电子倍增器C:闪烁检测器生物质谱简介基本类型lMALDI-TOF以及MALDI-TOF/TOF:llll质谱类型:TO
2、F质谱仪样品状态:固态优点:仪器结构简单,扫描速度快,高通量缺点:结果可靠性依赖于样品质量lLC-ESI-MS/MS:llll质谱类型:三级四级杆、离子阱、Q-TOF样品状态:液态优点:灵敏度高,结果更可靠缺点:低通量、价格贵生物质谱简介主要品牌lllllll美国应用生物系统(ABI):美国安捷伦科技(Agilent):美国布鲁克-道尔顿(Bruker Daltonics):美国戴安公司(Dionex):美国岛津(Shimadzu):日本赛默飞世科技 (Thermo Fisher):美国(原美国热电)沃特世科技(Waters):美国生物质谱简介蛋白质质谱鉴定基本流程肽段混合物一级质谱二级质谱蛋
3、白DNA/protein数据库肽段分子量搜索软件二级碎片分子量鉴定结果生物质谱简介蛋白质质谱检索常用软件说明:Mascot是目前使用最广泛的蛋白质鉴定检索软件、功能十分强大软件名称MascotSEQUESTX!Tandem软件类型商业软件商业软件免费开源软件数据格式MGF、DTAPKLRAW、 DTADTA 、PKL、MGF、mzXML生物质谱简介蛋白质质谱检索常用软件lMascot十大特性:lllll通过一个整合的软件包,同时支持目前主流的三种检索算法通过特有的基于实概率的打分方法,支持标准统计显著性检验分析可用于检索任何FASTA数据库,包括蛋白质数据库、EST数据库以及基因组数据库无须耗
4、时即可建立检索目录,无论是否基于酶的特异性,对于特异性的化学修饰或翻译后修饰的鉴定均非常灵活支持几乎所有常用的质谱仪输出的数据格式生物质谱简介蛋白质质谱检索常用软件lMascot十大特性(续):lllll通过高效率的代码可满足从单线程到多线程系统或集群的高通量计算需求通过界面友好的客户端支持自动提交检索任务,无须用户编程支持所有的Web浏览器,提交概述性以及详细的结果报告,并且配以详尽的在线帮助文档,以帮助用户理解分析结果目前已拥有一千多个学术及商业用户,被Frost & Sullivan誉为“质谱数据检索的黄金标准”由独立运营,充满活力的Matrix Science公司研发,该公司一
5、直致力于开发最先进的生物信息学软件Mascot简介使用类型ll在线检索:免费,数据库总是最新的,检索速度快,简单,只需将peak list文件导入即可,但文件大小受限制本地检索:需要购买软件及安装数据库,但使用方便、可以进行大规模的数据检索分析和数据库配置,功能更加强大Mascot简介检索方式lMascot是一款强大的数据库检索软件,可以实现从质谱数据到蛋白质的鉴定,其检索方式包括以下三种:Peptide Mass Fingerprint (肽指纹图谱检索)Sequence Query (部分序列比对)MS/MS Ion Search (串联质谱检索)Mascot简介肽指纹图谱鉴定lll原理:
6、根据一个蛋白质酶切后的一组特异肽段分子量信息进行比较从而进行蛋白鉴定优点:是蛋白质鉴定的经典方法,算法简单,速度快,在串联质谱鉴定出现之前应用广泛缺点:质量相近的多肽增加匹配难度,并且无法实现混合蛋白的鉴定,不太适合数据库不完整的物种的蛋白质鉴定,不能分析到翻译后修饰位点Mascot简介部分序列比对lll原理:采用分子量联合部分氨基酸序列或者氨基酸组成信息进行蛋白鉴定优点:检索速度快,其“错误容忍”模式增强了序列标签的匹配率缺点:常需要人工解析序列标签,对操作者的经验要求严格同时耗费时间较长Mascot简介串联质谱鉴定lll原理:对一个或者多个未被解析的肽段MS/MS 数据进行对库比较从而进行
7、蛋白鉴定优点:是目前应用最广的高通量鉴定蛋白质方法,鉴定准确度更高,无需人工序列解析,可以实现混合蛋白的鉴定缺点:增加了一步操作,算法更复杂,对仪器要求更严格Mascot简介打分算法l原理ll基于MOWSE(MOlecular Weight Search)算法的改进:MOWSE算法是基于非冗余蛋白质数据库OWL中肽分布频率及可能性的算法采用基于可能性大小的打分算法能够提供一个直观的数值或者图形来评价一个结果是否为显著值或是否可信。同时可以对不同的搜库方式及数据库检索的结果直接比较Mascot简介打分算法llll步骤将数据库中的每一个蛋白按 10 kDa 大小归类对于每一个蛋白质,将理论酶切产生
8、的肽段按100Da大小作为一个字节进行归类(每个氨基酸的平均分子量接近100Da)以每10kD蛋白间隔为单位,分别计算间隔内所有蛋白质酶切后每一个字节(100Da)中的肽段的百分比(频率),就是将一个字节中的归类的肽段数除以该蛋白间隔中所有肽段数Mascot简介打分算法lll步骤(续):对于每 个10 kD 中的蛋白质间隔, 将每一个字节中的频率归一化成与最大频率的字节值的比较在一定的质量误差范围内,将质谱获得的图谱中的质量数与数据库中的每一个蛋白质理论酶切片段进行匹配,对于匹配上的每个肽段片段提取频率分数,然后再将这些频率分数相乘得到PN值Mascot简介打分算法ll分数计算:Mascot算
9、法是对MOWSE分数的一种重建,表示为:S = -10*Log(P),P:比对匹配的一个随机事件的可能性大小P=E*N-1 ,E=期望值,N=数据库中蛋白质数目的大小l如果检索一个数据大小为1.5 x 106 个蛋白质数目的数据库,显著差异值E=0.05,则对应与Mascot分数S=10*Log (1/1.5 x106)(0.05)=74.7说明:这个分数算法是PMF的分数算法,MS/MS ion search则采用其它分数算法Mascot简介打分算法l分数高低取决于数据库的大小与设定的E值,对于特定的数据库和E值(如E=0.05),则可以算出S。一般用确定的E值来设定对应的阈值分数。如下图,
10、E=0.05,则阴影内结果表示为小于阈值分数的不可信结果In this example, scores less than74 are insignificantMascot Score: 120 = 1x10-12应用实例数据文件格式说明:本文的所举实例均为采用Mascot搜索软件对ABI4800的MALDI-TOF/TOF质谱仪获得的双向电泳蛋白点的串联质谱鉴定结果应用实例检索页面应用实例检索输入lllYour name:用户名,在网页检索时必须输入,本地检索时不要求输入Email :电子邮件地址,进行检索时如遇网络无法链接等情况,检索将会继续自动完成后并直接发送到电子邮箱Search t
11、itle:检索标题,检索完成后将会出现在结果页面的顶部,可以留空应用实例检索输入lDatabase:EST、MSDB、NCBInr、SwissProt、contaminants(cRAP)llllEST数据库被分解成几个小类:Environmental_EST,Fungi_EST等,EST库不能直接检索且不能用于PMF数据检索MSDB从2006年之后就不再有更新,现在一般不使用Contaminants(cRAP)数据库很小,主要包括一下常见的污染蛋白质,如BSA和trypsin等NCBInr 和SwissProt是目前最广泛应用的数据库,NCBInr是一个综合性非冗余数据库,时常更新;Swis
12、sProt则建库质量很高,特别适合做PMF的数据检索应用实例检索输入lTaxonomy:物种类型,lll对于已测序生物,直接选择该物种数据库即可对于非测序生物,一般选择一种大类的数据库物种类型对搜库结果的特异性有显著影响,能避免不同物种之间同源蛋白质在结果列表中出现,如actin是一种在不同物种中广泛存在的蛋白质,如果已知样品物种来源是水稻,但在物种选择时,选绿色植物这一大类,则会出现在该大类下许多物种下的actin,而排在第一位的不一定是水稻的actin,因此在非测序生物的大类检索时,需要在成功鉴定的结果中认真选择与本物种亲缘关系最近的蛋白质应用实例检索输入lllEnzyme:实验所用的酶,
13、一般选择最常用的Trypsin(胰蛋白酶)Missed cleavages:允许最大的未被酶切位点数,一般选择1Fixed modification:固定修饰,一般选择半胱氨酸碘乙酰胺化-Carbamidomethyl (C)应用实例检索输入llVariable modfication:可变修饰,一般选择甲硫氨酸氧化-Oxidation (M),也可能存在N-乙酰化对于一些有特殊化学处理修饰的氨基酸功能基团修饰,可人为在本地数据库中进行配置。可变修饰选择越多,检索速度越慢,而且易出现假阳性结果,需人工确认存在修饰的结果应用实例检索输入lllPeptide tol. ±:肽段容差,主要
14、以ppm和Da两种形式,表示前体离子所测误差值的大小,其大小与仪器类型相关, TOF等高分辨质谱可能在几个ppm到几十个ppm之间,而离子阱质谱可能在0.5Da甚至更大MS/MS tol. ±:表示二级质谱中碎片离子的质量误差Monoisotopic or Average:一般选单同位素质量而不选平均分子量,这样更准确应用实例检索输入lllData file:导入需要检索的质谱数据peaklist文件,对于PMF的数据,也可以数据输入框直接粘贴Peptide charge:一级质谱中多肽或者前体离子的带电荷情况,若为MALDI类型的质谱则一般为1 + ,若为ESI类型的质谱则一般选1
15、 + 、2 + 、3 +Precursor:一般不需要选择应用实例检索输入lInstrument:仪器类型,不同类型的质谱仪器产生的系列碎片离子都不一样,选择对应的仪器类型有助于选择用来比对的离子类型MS/MS中的主要离子类型应用实例网页结果查看使用者电子邮件地址数据来源物种检索时间检索的数据库,可以知道数据库大小搜索标题匹配的结果大于35分即成功鉴定(可靠性达到显著水平)纵坐标:匹配的蛋白数目阴影线:区分匹配结果可靠与不可靠的分界线小红柱:匹配的结果横坐标:匹配的蛋白得分应用实例网页结果查看可以在二级质谱(peptide summary)和一级质谱(protein summary报告形式下切
16、换10个肽段归属一个蛋白质,其中有8个肽段的可信度单独超过阈值分数,这里是大于35分匹配成功的结果及其具体信息匹配的肽段得分匹配的肽段序列(发表论文时,只需要列出每一个肽段中间红线标出的序列)点击进入该肽段离子的二级质谱比对结果详细网页!见后面解释应用实例网页结果查看具有相同匹配结果的蛋白及其信息应用实例网页结果查看检索数据库的一些具体参数设置应用实例网页结果查看点击进入该蛋白的信息页面(下图)下面列出了鉴定蛋白的具体信息,包括蛋白得分(808分)、分子量(35505)、等电点(7.58)、覆盖率(27%)等单击此处可以进入BLAST页面深入了解该蛋白功能下表列出的红色序列为二级质谱匹配的序列
17、应用实例网页结果查看MS/MS质谱各比对上的碎片离子与理论质量值的误差范围分布图横线以下所所列信息为该蛋白在NCBI数据库的完整信息,包括在不同数据库的编号、物种等应用实例网页结果查看在peptide summary下的点击个别离子链接进入此页面具体各比对上系列离子列表各比对碎片类型离子MS/MS解析图,对于单肽段鉴定蛋白质文章常要列出此图应用实例网页结果保存ll方法1:在网页文件中另存为一个完整的HTML文件夹,当需要查看时候再打开文件,在连网的情况下可以打开网页中的其它链接信息,但mascot服务器可能一定时间后进行信息清除导致链接不可用方法2:使用一些工具软件保存结果网页和所有相关链接网
18、页,实现离线浏览,比如Teleport Pro软件,具体介绍请见:应用实例本地检索结果查看点样编号查库信息最高的离子得分蛋白名称NCBI数据库GI号一级和二级质谱综二级质谱得质合得分及可信度分及可信度量误肽段得分肽段可信度修饰类型差成功鉴定的肽段序列说明:一级质谱和二级质谱综合可信度以及二级质谱可信度中一般只要任意一个达到95%即表示蛋白鉴定成功应用实例常见问题l一级质谱鉴定和二级质谱鉴定该如何选择:首先,一级质谱专一性信息少,只适用于有完整非冗余基因组序列或者蛋白序列的物种鉴定,对于大库检索(比如哺乳动物总库),随着库容量的增加,其特异性越差,结果越不可靠。二级质谱提供的专一性信息多,即使对于大库检索,其鉴定结果也很可靠。其次,由于仪器以及技术的发展,做二级质谱已经变得越来越简单,费用也大大降低,所以用二级质谱鉴定所有物种(包括有完整基因组信息的测序物种)也是一种质谱鉴定的趋势应用实例常见问题ll一个点鉴定得到多个蛋白的选择:一般选择得分最高的蛋白,但是如果得分最高的蛋白功能不明确(unknown or hypothetical),同时得分稍低一些的蛋白与最高分差别不大且功能相对明确,也可以选择得分稍低一些的蛋白EST数据库得到的蛋白功能分析:对于非
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论