版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、蛋白质分析和蛋白质组学 蛋白质模式 蛋白质组学:对高通量蛋白质数据进行分析的生物信息学工具和方法:pRosetta Stone方法p酵母双杂交p其他方法:二维凝胶电泳亲和层析质谱分析蛋白质芯片蛋白质分析和蛋白质组学 蛋白质模式 蛋白质组学:对高通量蛋白质数据进行分析的生物信息学工具和方法:pRosetta Stone方法p酵母双杂交p其他方法:二维凝胶电泳亲和层析质谱分析蛋白质芯片蛋白质分析和蛋白质组学寻找蛋白质模式一个引人深思的问题 从序列比对的知识中,我们知道序列差异较大的序列和序列差异小的序列在比对时需要选择不同的打分矩阵。 问题: DNA合成酶中,有一部分序列提供了催化活性位点,这段序
2、列高度保守;另外一部分序列序列差异较大。请问这种蛋白质应该怎么进行序列分析?DNA合成酶的模式载脂蛋白超家族的模式EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTM lipocalin 1 LSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTF odorant-binding protein 2aTKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR progestagen-assoc. endo.VQENFDVNKYLGRWYEIEKIPTTFENGRCIQAN
3、YSLMENGNQELRADGTV apolipoprotein DVKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTF retinol-binding proteinLQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLF neutrophil gelatinase-ass.VQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFL prostaglandin D2 synthaseVQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEG
4、EAEISMTSTRW alpha-1-microglobulinPKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD. complement component 8蛋白质模式的种类 特征(signatures)的概念很宽广,它确定一个蛋白质分类,可能指结构域(domain)、家族(family)或模体(motif)。signature主要可以分为两类:p结构域(domain)是蛋白质中能折叠成特定三维结构的一段区域。结构域也能被称为模块。一组拥有相同结构域的蛋白被称为一个蛋白质家族。p模体(motif,或称指纹,fingerprint)是蛋白质序列中
5、较短的保守区域。模体的长度一般是1020个氨基酸残基。Protein family, domains and motifsInterPro对相关术语的定义 家族:InterPro定义一组进化上相关的共享一个或多个结构域的蛋白质为一个家族 结构域: InterPro数据库中的结构域是指一个独立的结构单元,他们可能单独存在也可能与其他结构域相连。结构域也是进化上相关的序列。SMART对相关术语的定义 结构域:保守的结构单元,包含独特的二级结构组合和疏水内核。具有相同功能的同源结构域往往具有序列上的相似性。 模体:序列模体是指短的保守的多肽段。含有相同模体的蛋白质并不一定是同源的。结构域 VS. M
6、otif 血清蛋白(581氨基酸):3个类似结构域,每个约180个氨基酸 胶原蛋白中存在着几十个有GXY三肽组成的重复片段 RNA聚合酶最大亚基C端结构域中有52个重复的六肽片段:T/SPTSPN/T. PrP(疯牛病):有四个连续对八肽:PHGGG/SWGQMotif模体模体( motif or fingerprint) 是蛋白质序列中较短的保守区域,是蛋白质序列中较短的保守区域,是按照一定的模式排列的氨基酸残基,长度一般在是按照一定的模式排列的氨基酸残基,长度一般在1020残残基之间。基之间。比如:跨膜区结构域、磷酸化位点比如:跨膜区结构域、磷酸化位点. -These do not imp
7、ly homology when found in a group of proteins.PROSITE (/prosite) is a dictionary of motifs. In PROSITE, a pattern is a qualitative motif description (a protein either matches a pattern, or not). 蛋白质motifEIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTM lipocalin 1 LSFTLEEEDITGTWYAMVVDKDFPE
8、DRRRKVSPVKVTALGGGNLEATFTF odorant-binding protein 2aTKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR progestagen-assoc. endo.VQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV apolipoprotein DVKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTF retinol-binding proteinLQQNFQDNQFQGKWYVVGLAGNAI.LREDKDP
9、QKMYATIDKSYNVTSVLF neutrophil gelatinase-ass.VQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFL prostaglandin D2 synthaseVQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRW alpha-1-microglobulinPKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD. complement component 8例子在在HIV-1 polHIV-1 pol蛋白的天冬氨酸蛋白酶蛋白的天
10、冬氨酸蛋白酶(aspartyl proteases)(aspartyl proteases)结构域中,天结构域中,天冬氨酸残基冬氨酸残基(asp, D)(asp, D)对酶的催化活性至关重要。天冬氨酸蛋白酶模体对酶的催化活性至关重要。天冬氨酸蛋白酶模体由由1212个氨基酸残基构成个氨基酸残基构成: LIVMFGAC-LIVMTADN-LIVFSA-D-ST -G-STAV-STAPDENQ-x-LIVMFSTNC-x-LIVMFGTA。 几乎所有的几乎所有的lipocalinslipocalins中都可以找到一个短的模体中都可以找到一个短的模体GxW。PROSITE数据数据库定义的库定义的li
11、pocalins的保守氨基酸模体是:的保守氨基酸模体是: DENG-x- DENQGSTARK-x(0,2)-DENQARK-LIVFY-CP-G-C-W-FYWLRH-x-LIVMTA。 模体 氨基酸残基修饰的模体 蛋白质细胞定位的模体 与活性有关的模体 其他模体氨基酸残基修饰的模体 糖蛋白中被N糖基化的天冬酰胺(N)一定是处于NPS/T中的。 在一些与凝血过程相关的蛋白质中,被羟化的天冬氨酸或天冬酰胺处于CXD/NX4XCXC的模体中。为芳香性氨基酸,X4为任意氨基酸构成的四肽。 被磷酸化的丝氨酸和苏氨酸在不同蛋白质中处于不同的模体中。组蛋白中为SP#(#为带正电的氨基酸)。蛋白激酶PKA
12、或PKG中的模体是#XS/T。Motif与细胞定位 当C端的4个氨基酸序列为KDEL或HDEL时,蛋白质就被局限在细胞的内质网中 能进入细胞核的肽链都有特定的序列模体。1. PKKKRKV or KRX10KKKK;2. 蛋白激酶中,KRX21RXKXKXK; 3. #RX10#XX。蛋白质细胞定位的模体与活性有关的模体 在许多蛋白水解酶中,与催化有关的活性中心由D/E-H-S组成。 在ATP和GTP结合蛋白质中存在着一种序列为GXXXXGKT/S的模体: Rho家族 G DGAX GKT ATP合成酶 G GAGV GKTV 肌球蛋白重链 G ESGS GKT 胸苷激酶 G XXGX GKT
13、T 胸苷酸激酶 G XPGX GKGT这个模体可以形成一个特定的结构,与核苷酸结合。这个模体可以形成一个特定的结构,与核苷酸结合。其他模体 含有半胱氨酸的模体。在一些蛋白质中存在着特定的序列模体,其中半胱氨酸的位置是相对固定的(锌指)。 未知功能的模体。如一些细胞因子受体的膜外侧接近膜处有WKS和WSKWS序列模体,但其功能还不清楚。模体的意义 总结:一些简单而常见的模体在一组蛋白质中发现并不意味着这组蛋白质是同源的(跨膜区结构域或磷酸化位点)。 在另一些情况下,模体可以成为一个蛋白质家族的标志,反映了这个家族的亲缘关系。可以利用这个族徽寻找宗亲。(载脂蛋白超家族)结构域:蛋白质的模块性质结构
14、域:蛋白质的模块性质结构域:蛋白质的模块性质结构域:蛋白质的模块性质结构域的由来 从球状蛋白到晶体衍射实验。(溶菌酶) 免疫球蛋白的例子 蛋白质的折叠过程 20世纪6070年代,提出结构域(domain)的概念。从水解实验,可以看出结构域能组成一个结构单元。 结构域常由不同的外显子编码。总结 结构域的概念:从最初的一级结构中较长的重复片段,上升为有特征的立体结构,而且他们有一定生物功能,并且对应着基因中的某些外显子,为它们编码、形成肽链后,还能自行折叠成稳定的结构。总之,结构域可看作是一个“entity”。 一般来说,如果两个蛋白质拥有一个相同的结构域,那么这两个蛋白质有相关的功能。 序列模体
15、是一个序列上经概括后“求同存异”的“框架”,是在一段肽段中关键位置上氨基酸残基的组合模式。二者的区别在于结构域有“结构”的含义。人类中15个最常见的结构域 蛋白质共享一个结构域Extending along the length of a proteinOccupying a subset of a protein sequenceOccurring one or more timeslipocalin免疫球蛋白结构域免疫球蛋白结构域纤连蛋白重复区纤连蛋白重复区 与甲基化的DNA结合的转录因子家族Example of a protein with domains: Methyl CpG bin
16、ding protein 2 (MeCP2)MBDTRDThe protein includes a methylated DNA binding domain(MBD) and a transcriptional repression domain (TRD).MeCP2 is a transcriptional repressor.Mutations in the gene encoding MeCP2 cause RettSyndrome, a neurological disorder affecting girlsprimarily. Result of an MeCP2 blast
17、p search:A methyl-binding domain shared by several proteins这些蛋白质的大小差别很大,并且结合甲基化这些蛋白质的大小差别很大,并且结合甲基化DNADNA的结构域也出现在的结构域也出现在蛋白质的不同位置上。从蛋白质的不同位置上。从BLASTBLAST的匹配结果看,这些蛋白质除了甲基的匹配结果看,这些蛋白质除了甲基化化DNADNA结构域以外没有其他序列上有显著相似性的区域了结构域以外没有其他序列上有显著相似性的区域了 多个拷贝的结构域Occurring one or more times很多结构域在蛋白很多结构域在蛋白质中有多个拷贝,质中有
18、多个拷贝,两个最常见的例子两个最常见的例子就是免疫球蛋白结就是免疫球蛋白结构域和纤连蛋白重构域和纤连蛋白重复区。这些结构域复区。这些结构域在蛋白质的胞外区在蛋白质的胞外区极其常见极其常见 Are proteins that share only a domain homologous?蛋白质家族是怎么定义的呢?是否一组仅共有一个结构域的同源蛋白质就可以被称为一个蛋白质家族呢?上面的例子中,5个蛋白中的MBD结构域显然是同源的(来自于同一祖先);虽然它们除了MBD结构域外没有显著相似的区域,但是这组蛋白仍旧构成一个蛋白质家族。 蛋白质家族 蛋白质家族是根据蛋白质的同源性来定义的;同一个家族内的蛋
19、白质就是一组进化上相关的蛋白质,这些蛋白质共享一个或多个结构域。 什么逻辑? 在蛋白质家族分类的过程中,有时向下细分为亚家族(subfamily),有时又向上归并为超家族(superfamily)两个“家族” 牛胰核糖核酸酶家族。 丝氨酸蛋白抑制剂家族。 类视紫红质受体超家族: 视觉、听觉、嗅觉、激素、神经传导的受体 脊椎动物进化过程早期分化而得到的不同视觉受体对不同的波长敏感Example of a multidomain protein: HIV-1 pol 1003 amino acids long cleaved into three proteins with distinct ac
20、tivities:- aspartyl protease(天冬氨酸蛋白酶天冬氨酸蛋白酶 )- reverse transcriptase(反转录酶反转录酶 )- integrase(整合酶整合酶 )We will explore HIV-1 pol and other proteins at theExpert Protein Analysis System (ExPASy) server.Visit / HIV-1的pol(polymerase,聚合酶)SwissProt entry for HIV-1 pol links to many databasesPro
21、Dom entry for HIV-1 pol shows many related proteinsProteins can have both domains and patterns (motifs)Domain(aspartylprotease)Domain(reversetranscriptase)Pattern(severalresidues)Pattern(severalresidues)蛋白质可能含有相蛋白质可能含有相对较大的结构域和对较大的结构域和通常仅由几个氨基通常仅由几个氨基酸残基构成的模式酸残基构成的模式( (模体模体) )。尽管模式。尽管模式或模体不构成一个或模体不构
22、成一个已知的三维构象,已知的三维构象,但它包含的氨基酸但它包含的氨基酸残基却可能是一个残基却可能是一个蛋白质家族的特征蛋白质家族的特征序列序列 思考一同一个结构域可能出现在一个蛋白质的氨基末端,也可能出现在另一个蛋白质的羧基末端,是吗?a.是b.不是思考二一般来说,蛋白质一般来说,蛋白质结构域结构域(domaindomain)和)和模体模体(motifmotif,也称模式或指纹)的大小关系是:也称模式或指纹)的大小关系是:A A、 它们一样长;它们一样长;B B、 模体模体比比结构域结构域长;长;C C、 结构域结构域比比模体模体长;长; D D、 只能对于特定的蛋白质才能进行比较只能对于特定
23、的蛋白质才能进行比较蛋白质与结构域、模体句子短语单词氨基酸序列氨基酸序列ST-X-RKST-X-RK是蛋白激酶是蛋白激酶C C底物磷酸化的保守底物磷酸化的保守为点附近的序列,这段氨基酸序列是:为点附近的序列,这段氨基酸序列是:A A、 一个一个模体模体,可以确定一组同源蛋白;,可以确定一组同源蛋白;B B、 一个一个模体模体,但不足以确定一组同源蛋白;,但不足以确定一组同源蛋白;C C、 一个一个结构域结构域,可以确定一组同源蛋白;,可以确定一组同源蛋白;D D、 一个一个结构域结构域,但不足以确定一组同源蛋白,但不足以确定一组同源蛋白思考三趋异进化和趋同进化趋异进化和趋同进化溶菌酶和-乳清蛋
24、白:趋异进化的例子-折叠桶:趋同进化的例子。蛋白激酶C(PKC)保守磷酸化位点的信息:ST-x-RK(S或T是磷酸化位点,x表示任意氨基酸残基)(PROSITE document的编号是PDOC00005)。这个简单的模体在蛋白质中出现过的次数达到千余次。 蛋白质模块性与进化补丁制作的百衲衣通过积木的方式把不同的基本模块组合起来,形成蛋白质通过积木的方式把不同的基本模块组合起来,形成蛋白质的不同功能的不同功能蛋白质多模块性-简单构件的整合和再利用 单个蛋白含有多个模块 同一模块在不同功能蛋白质中出现 同一模块在不同蛋白质中,执行不同功能由构件推测整体的复杂性和不确定性opossums are
25、exploited in different Goldberg machines, where they perform different functions here, we could not predict a opossum sitting in that spot, even with total knowledge of the rest of the machineSimilarity searches are just like this p identifying the presence of a module tells little of the function o
26、f the complete system p knowing most components of a mosaic, we cant predict a missing onep modules (opossums) in different proteins dont always perform exactly the same function基于蛋白质家族分类和签名,利用决策树(C4.5)预测蛋白质功能结构域和蛋白互作 蛋白质模式 蛋白质组学:对高通量蛋白质数据进行分析的生物信息学工具和方法:pRosetta Stone方法p酵母双杂交p其他方法:二维凝胶电泳质谱分析亲和层析蛋白质
27、芯片蛋白质分析和蛋白质组学罗赛塔石碑The Rosetta Stone approachMarcotte et al. (1999) and other groups hypothesized that some pairs of interacting proteins are encoded by two genes in many genomes, but occasionally theyare fused into a single gene.By scanning many genomes for examples of “fusedgenes,” several thousand
28、 protein-protein predictionshave been made.Yeast topoisomerase IIE. coligyrase BE. coligyrase AThe Rosetta Stone approachGene Fusion (Rosetta stone method)G1:G2:It is based on the observation that some interacting proteins/domains have homologs in other genomes that are fused into one protein chain,
29、 a so-called Rosetta Stone protein.How many “gene fusions”?MarcotteE.coli:6809Yeast:45502 蛋白质模式 蛋白质组学:对高通量蛋白质数据进行分析的生物信息学工具和方法:pRosetta Stone方法p酵母双杂交p其他方法:二维凝胶电泳亲和层析质谱分析蛋白质芯片蛋白质分析和蛋白质组学The yeast two-hybrid systemReporter geneBait proteinDNA BindingPrey proteinDNA activationYeast Two-HybridReporter G
30、eneBaitProteinBindingDomainPrey ProteinActivationDomainYeast Two-Hybrid Advantages: Y2H是体内的实验,所有条件都是自然的,没有人工的洗脱步骤 可以检测不稳定和瞬时的互作 与蛋白质的表达丰度是独立的 检测的是两两的互作,允许产生蛋白质互作网络 不需要蛋白质的先验知识,只要编码它的基因是已知的就行。因此,可以进行大范围的检测。Yeast Two-Hybrid Drawbacks: Y2H检测的是两两互作,但不是协同的绑定关系。我们不知道哪个互作是同时发生的。 检测环境是细胞核内而不是他们的天然环境,这会导致假阳性
31、和假阴性。FP:两个蛋白有互作的潜力,却定位于不同的位置,没有机会发生互作,但Y2H会检测出来。FN:两个蛋白质可以在核外发生互作,却不在核内发生 一些蛋白质,比如转录因子,即使不需要跟其他蛋白质的互作也能激活基因的表达,这个技术也就无法检测他们的互作。 人工杂交可能会改变蛋白质的构想,从而阻止了转录的能力。这会造成假阴性。 Y2H检测了可能的互作,却反映不了生理的条件。red = cellular role & subcellular localization of interacting proteins are identical; blue = localiations are
32、 identical; green = cellular roles are identicalProtein Interactions Data in S.cerevisiae Uetz et al. (2000): 957 interactions among 1,004 proteinsIto et al. (2001): 4,549 interactions among 3,278 proteinsProtein Interactions Data in D. melanogasterGiot et al. (2003): 20,405 interactions among 7,048
33、 proteinsProtein Interactions Data in C. elegansLi et al. (2004): 4,714 interactions among 2,904 proteins 互作数据主要存储在以下几个数据库当中:MIPs、DIP、BIND等(人类主要是HRPD)Related Database BIND:Biomolecular Interaction Network Database DIP:Database of Interacting Proteins CYGD:Comprehensive Yeast Genome Database YPD:Yeas
34、t Proteom Database Pathcalling:Proteomics and PPI database假阳性问题一个稀有疾病在人群中的患病率是0.1%,而诊断率有1%的假阳性,这样我们的诊断假阳性和真阳性的比例就可能大于10比1 ?Yeast:6000 proteins 蛋白质模式 蛋白质组学:对高通量蛋白质数据进行分析的生物信息学工具和方法:pRosetta Stone方法p酵母双杂交p其他方法:二维凝胶电泳亲和层析质谱分析蛋白质芯片蛋白质分析和蛋白质组学二维凝胶电泳分析技术二维凝胶电泳分析技术二维凝胶电泳(two-dimensional electrophoresis,2-D
35、E)是目前所有电泳技术中分辨率最高、信息最多的技术 二维凝胶电泳技术的定义及特点 第一向是等电聚焦(isoelectric focusing,IEF),蛋白质沿pH梯度分离至各自的等电点。 第二向是SDS聚丙烯酰胺凝胶电泳(SDS-PAGE),蛋白质进行分子量的分离。 固相pH梯度-SDS双向凝胶电泳 (IPG-DALT电泳)是目前最常用的2DE技术。二维凝胶电泳分析技术二维凝胶电泳分析技术Evaluation of 2D gels (IEF/SDS-PAGE)优点优点:Visualize hundreds to thousands of proteinsImproved identifica
36、tion of protein spots缺点缺点:Limited number of samples can be processedMostly abundant proteins visualizedTechnically difficult 蛋白质模式 蛋白质组学:对高通量蛋白质数据进行分析的生物信息学工具和方法:pRosetta Stone方法p酵母双杂交p其他方法:二维凝胶电泳亲和层析质谱分析蛋白质芯片蛋白质分析和蛋白质组学Affinity chromatographyBait proteinGSTAffinity chromatographyBait proteinGSTAdd yeast extractProtein complexes bindMost proteins do not bindAffinity chromatographyBait proteinGSTEluteRun gelMALDI-TOFIdentify complexescoIP and Y2H Yeast two-hybrid system(Y2H) Coimmunoprecipitaion Y2H
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版小区商业街物业社区文化活动赞助与支持服务合同2篇
- 2025年陶瓷行业标准制定与实施合同3篇
- 2025年私家车租赁车辆检测与评估服务合同3篇
- 2025年劳务派遣合同审查协议
- 2025年云服务监控协议
- 2025版个人房屋产权转移合同模板4篇
- 二零二五年度绿色建筑改造项目合同书4篇
- 2025年垃圾处理和解协议
- 2025年混合赠与合同与赠与税
- 2025版协议离婚法律援助与调解服务协议3篇
- 第1课 隋朝统一与灭亡 课件(26张)2024-2025学年部编版七年级历史下册
- 2025-2030年中国糖醇市场运行状况及投资前景趋势分析报告
- 冬日暖阳健康守护
- 水处理药剂采购项目技术方案(技术方案)
- 2024级高一上期期中测试数学试题含答案
- 山东省2024-2025学年高三上学期新高考联合质量测评10月联考英语试题
- 不间断电源UPS知识培训
- 三年级除法竖式300道题及答案
- 2024年江苏省徐州市中考一模数学试题(含答案)
- 新一代飞机维护技术
- 幼儿园教师培训:计数(数数)的核心经验
评论
0/150
提交评论