




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物信息学在变态反应学中的应用杜智华 刘志刚基金项目: 基金项目:本课题获国家九七三计划(No.2005CB121000)和广东省科技重点计划项目(No.2003A3080502)资助。作者简介:杜智华,女,博士,研究方向为生物信息学,过敏原的检测、分析及新药的研发。* 通讯作者: 刘志刚, 教授,博士生导师。Tel: Fax: E-mail: lzg(深圳大学生命科学学院,深圳 518060)摘要 变态反应疾病是临床上的常见病、多发病,是当前世界性的重大卫生学问题之一。随着现代医学、免疫学和分子生物学的迅速发展,过敏原以及相关数据的
2、快速增加,生物信息学的在变态反应学中的重要性越来越突出。生物信息学以计算机为工具对过敏原数据进行储存、检索和分析,是对传统生命科学在变态反应学研究中的一个重要补充。本文主要介绍了生物信息学在过敏反应研究中的重要的应用,包括:过敏原的结构分析,蛋白质致敏性的评估,过敏原之间交叉反应的预测,确定B-细胞和T-细胞表位的分析。通过这些方法的介绍,旨在说明生物信息学在过敏反应研究中的应用价值。关键词 变态反应;过敏原;致敏性评估;生物信息学; Bioinformatics for the study of allergy Du zhihua, Liu zhigang *(College of Life
3、 Sciences, ShenZhen University, ShenZhen 518060, China)Abstract: Objective Allergy is a major cause of disease and has a significant impact on society. As the number of characterized allergens and related information is increasing rapidly, it is needed to store, retrieve and analyze these data. Bioi
4、nformatics provides various computational tools and approaches to acquire, store, visualize and interpret allergens and these are complementary to traditional laboratory study. This paper presents an overview of applications of bioinformatics available for the research of allergy ranging from struct
5、ural analysis of allergen, assessment of allergenicity, cross-reactivity and identification of B- and T-cell epitopes. Keywords allergy;bioinformatics; cross-reactivity;T-cell epitope;B-cell epitope; IgE epitope;过敏反应又称超敏反应或变态反应,是指机体受同一过敏原再次刺激后产生的一种异常或病理性免疫反应。过敏原进入患者体内,随即被巨噬细胞 (抗原呈递细胞、APC细胞) 捕获,巨噬细胞对
6、过敏原消化、处理后将抗原表位决定簇传递给辅助性T淋巴细胞,再传给B细胞。B细胞分裂并产生免疫球蛋白E(IgE),IgE与人体自身的肥大细胞和血清中嗜碱细胞的Fc受体结合而致敏。肥大细胞主要分布在皮肤、黏膜和毛细血管周围。当患者再次接触这种过敏原,过敏原就会与致敏细胞上的IgE抗体结合,使细胞脱颗粒,释放出组胺、5羟色胺、缓激肽等活性物质,导致过敏性疾病的发生。随着过敏原以及相关数据的快速增加(国际免疫学会联合会维护并保持更新经确认的过敏原资料库1),生物信息学在变态反应学中的重要性越来越突出。 生物信息学是以计算机为主要工具,从核酸和蛋白质序列出发,分析序列中表达结构和功能的生物信息。它能够对
7、日益增长的过敏原的序列和结构等相关信息进行收集、储存、提取、加工、分析和研究,同时建立理论模型,指导实验研究。 它由数据库、计算机网络和应用软件三大部分构成,在变态反应研究中发挥不可替代的作用。本文首先介绍了生物信息学中的主要方法,然后研究了这些方法在过敏反应研究中的重要应用,包括:蛋白质致敏性评估,过敏原之间交叉反应的预测,确定B-细胞和T-细胞表位的分析。通过这些方法的介绍,旨在说明生物信息学在过敏反应研究中的应用价值。一、 生物信息学的主要功能生物信息学通常可以应用到生物科学相关的研究中。例如,用于序列分类、相似性搜索、DNA序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算
8、工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。针对蛋白质序列的分析,可以预测出蛋白质的许多物理特性,包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测,三维结构预测等。生物信息学中的主要方法有:1. 序列比对:比较两个或两个以上核酸序列或蛋白质序列的相似性或不相似性。相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确
9、定或者根本无法确定其是否具有同源性。序列比对是生物信息学的基础,非常重要。同源序列的多序列比对也是生物信息学工具中一个有力的工具。它可以被视为如同定点诱变一样的技术,允许观察残基可以改变到什么程度而蛋白质仍保持功能;它也可以得到围绕某一残基的三级结构信息。2. 结构比对:比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。3. 蛋白质结构的预测:蛋白质结构预测包括2级和3级结构的预测。传统生物学认为,蛋白质序列决定了它的三维结构,也就决定了它的功能。由于用X光晶体衍射和核磁共振技术(NMR)测定蛋白质的三维结构,无法适应蛋白质飞速增长的需要,因此多用演绎法和归纳法来预测。演绎法主要是从一些
10、基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。归纳法主要是从观察和总结已知的蛋白质结构规律出发来预测未知蛋白质的结构,例如:同源模建和指认(Threading)方法。4. 构造分子进化树:利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。5. 聚类:基因聚类的目标是将表达模式相近的基因聚在一起,因为表达模式相近的基因被认为具有相近或相关的功能。这种分析旨在将基因分成一些功能相近或相关的小组,这样便于去探索基因的功能。 生物信息学是生物学中的一个不可缺少的有效工具,但
11、是生物学才是生物信息学的核心和灵魂,生物信息学中的算法和工具只有运用到具体的生物研究课题中,才能起到巨大作用。二、 生物信息学在变态反应中的应用生物信息学能快速对蛋白的过敏性做出评价,主要是通过对过敏原的同源性、交叉反应性和过敏原的刺激机体产生免疫应答的能力进行预测。1. 同源性预测生物信息学中的相似性分析是一种最简单快捷的致敏性预测方法,用来比较基因的表达产物是否同已知的过敏蛋白具有同源性。 目前已知过敏原的氨基酸序列都被过敏原数据库收录(表1中列出了现有过敏原数据库以及网址),过敏原的相似性分析主要是以这些数据库联合检索的过敏原序列为基础进行的。表1:过敏原数据库数据库网址Internat
12、ional Union of ImmunologicalSocieties (IUIS) 国际免疫学会联合会Allergome 过敏原相关数据库Structural Database of Allergenic Proteins (SDAP) 过敏相关基因数据库/SDAPFood Allergy Research and Resource Program (FARRP) 食物过敏原相关数据库PROTALL 英国食品过敏原数据库http:/www.ifr.bbsrc.
13、ac.uk/ProtallBioinformatics for Food Safety 食品安全相关数据库/sgendel/fa.htmSwiss-Prots Allergen Index SWISS-PROT蛋白质序列数据库的过敏原数据索引/sprotInformall 欧盟关于食品过敏原的数据库Central Science Laboratory 英国过敏原数据库.uk/allergen/AllerPRedict 新加坡A
14、-star研究所的过敏原数据库以及分析工具.sg/Templar/DB/Allergen/Allermatch 荷兰过敏原数据库以及分析工具/International Immunogenetics (IMGT) Information System 国际免疫遗传学信息系统http:/imgt.cines.fr/AllAllergy 关于过敏(变态)反应数据库网站FASTA 7 和 BLAST2 是最常用序列相似性比较的工具,二者都采用局部比对策略,功能基本相同。输入基因或蛋白质序列,通过
15、BLAST或FASTA等程序搜索数据库,列出与输入序列有较高相似性的已知过敏原序列。BLAST搜索速度快,对大型数据库的操作比较有效,FAST对搜索局部小匹配更敏感,且容易对本地数据库进行操作,因此在过敏原的相似性分析中倾向于使用FAST程序。 由于相似性分析主要目的是鉴定转基因产物同过敏原的交叉反应,也就是证明转化基因是否有相同的抗原表位,因此过敏原的相似性比较要求局部的氨基酸完全匹配,为此必需选择单位矩阵。有证据表明,与IgE结合抗原表位并不是完全保守,因此通常采用双步分析,即先用单位矩阵作相同表位的预测,再用取代矩阵作进一步的验证,使用取代矩阵的分析也同时实现了同源性预测。联合国粮农组织
16、及世界卫生组织(FAO/WHO)、国际生命科学研究所(ILSI)制定了一系列关于蛋白致敏性评价的标准(FAO/WHO,2001,;2003,h传统生物学以及生物信息学的测试。生物信息学部分过敏性的判定标准包括以下两个标准:至少有6个连续的氨基酸与已知过敏原相同或者在长度为80个氨基酸的窗口中,同过敏蛋白的同源性在35%以上3,4,5。由于6个连续的氨基酸相同的判定很容易出现假阳性结果,因此必须与同源性分析同时进行,在两者都成阳性结果时,才能判断转化蛋白的过敏可能性。然而,Silvanovich A. 等(2005)通过概率学研究,表明8个或更少连续的氨基酸相同判定蛋白过敏性只是一个随机产生的结
17、果,对致敏性评估不具备任何意义13。另外,目前序列相似性分析仅局限于氨基酸顺序的比较,由于除了氨基酸顺序决定表位之外还存在构象决定表位引起过敏,序列相似性分析并不能包括构象决定表位分析,因此在序列相似性分析之后,还应该包括空间结构的分析(进行3-D结构的比较对过敏蛋白结构进行相似性分析)。必要时应做血清学试验来验证目的基因编码的蛋白是否能与特异性IgE结合,从而更准确地判断该基因或蛋白是否引起过敏。2. 交叉反应预测在变态反应中花粉症患者常会存在与一些植物类食物过敏原如蔬菜、水果之间的交叉过敏。通过生物信息学的分析,大多数植物蛋白质引起的过敏都具有非常相似的形状。 Jenkins等6报道了所有
18、的植物类食物过敏原按照蛋白质家族分类,只归类到3,849种蛋白质家族中的20种。而其中4个家族就囊括了三分之二的过敏原。研究结果还表明,过敏原的结构是非常相似的,提示保守结构及其生物学活性在决定过敏原特性方面可能起重要作用。结构生物信息分析表明在对任何潜在IgE交叉过敏原性进行评估时(如新的蛋白质),均应包括3D结构保守序列,即使蛋白表面结构单一的一个保守区域也可产生交叉反应。通过对这些开花植物结构的进一步认识,研究结果就可以解释为何似乎并无相似性的种系之间会发生交叉反应。另外,通过对新开发食物蛋白保守3D结构进行评估,可以预测其是否会存在同其他过敏原的交叉反应,对避免可能出现的严重食物过敏有
19、重大的意义。3. 免疫原性预测相似性分析和血清学检测只能对目前已知的或已经发生过敏反应的过敏原进行预测。如果要对从来未有过的或新合成的蛋白质进行预测,就只能通过对该蛋白质本身的刺激机体产生免疫应答的能力进行预测。抗原决定簇是存在于抗原分子表面、决定抗原特异性的特殊化学基团。是抗原分子和TCR、BCR及抗体特异性结合的部位,又称抗原表位。 过敏原抗原表位的预测工作对于分子生物学实验,如多肽疫苗的合成、诊断试剂的制备和单克隆抗体的筛选等,都是必不可少的工具,并且得到越来越广泛的应用。蛋白抗原表位的预测自从80年代就已经被提出,根据蛋白的免疫原性与蛋白质结构特性关系,主要根据下面几个条件:1) 亲水
20、特性:蛋白抗原各氨基酸残基可分为亲水性残基和疏水性残基两类。在机体内,疏水性残基一般埋在蛋白内部,而亲水性残基位于表面,因此蛋白的亲水部位与蛋白的抗原位点有密切的联系。Hopp & Woods在1981年提出了确定蛋白抗原表位的方法12,通过分析氨基酸序列,去寻找亲水性最强的部位,根据每个氨基酸的亲水值,沿着肽链对每6个氨基酸的亲水值进行平均,获得了所有值的平均值后,确定最高值。 发现最高点总是落入或者接近抗原表位。但是,新的研究发现亲水性部位与表位并无很好的一致性,即高亲水部位不一定是抗原表位,抗原表位也不一定是亲水性部位14。2) 两亲性:同时具有亲水性和疏水性。例如:除亲水性残基
21、外,疏水性残基也经常出现在表位中,各残基在蛋白抗原位点中的相对出现率对抗原表位的定位预测有一定意义。T细胞表位往往出现在两亲性的结构中,因此利用两亲性可预测T细胞表位。这是因为,T细胞表位以其亲水性面与T细胞受体结合,以其疏水性面与抗原呈递细胞结合。3) 分子运动性:运动性高的区域往往与连续性抗原表位的位置吻合,因为蛋白质转角区往往具有较大的自由度。4) 表面可及性:由于抗原抗体反应发生在蛋白质表面,因此抗原表位趋向于蛋白质的表面部位。认为转角结构为凸出结构,多出现在蛋白抗原表 面,利于与抗体嵌合,较可能成为抗原表位。螺旋、片层结构规则,不易变形,较难嵌合抗体,一般不作为
22、抗原位点10,11。5) 序列多变性:指蛋白抗原构象不是刚性不变的,其多肽骨架有一定程度的活动性,因为抗原与抗原受体或抗体结合有一个嵌合的过程。6) 肽链的两端:在大多数蛋白质中,N端和C端往往位于分子表面并且相互靠近,处于肽链的末端,使得柔韧性相对大些。预测蛋白抗原表位一般以上述多种方案综合考虑,尤其以表面可及性、多变性、两亲性及两亲性预测为重要。概括而言,作为蛋白抗原的表位首先应位于或移动于蛋白表面,有利于与抗原受体或抗体结合,另外要有一定柔韧性,因为抗原与抗原受体或抗体结合有一个嵌合的过程。另外,T细胞表位可以根据主要组织相容性复合体(MHC)类与多肽的结合能力来预测。最近,基于已有知识
23、的同源模拟和蛋白质三级结构预测也应用到了预测T细胞表位。当过敏原进入体内后,免疫系统将其处理为大约包括10个氨基酸的多肽。像这样的肽段,或是抗原决定簇,被呈现于“抗原提呈细胞 (APC细胞)”上,与主要组织相容性复合体(MHC)类分子结合并提呈给辅助性T淋巴细胞(Th)。 MHC-II分子对抗原分子的特异性识别在特异性免疫的起动阶段起着重要作用。只有当过敏原和细胞表面的MHC-II分子结合成抗原肽才能被T细胞识别。只有极少的多肽片段有适合MHC蛋白的形状,然而MHC具有高度多态性,有成千上百个细微差别的不同形态,使肽段的结合多样化。生物信息学用计算机的方法可以解决抗原决定簇多态性预测的问题。B
24、rusic等设计的神经网络系统可以预测出非典型的表位,大概有80的正确率8。该算法基于人工中枢网络系统,将计算机互相连接,类似于简单的大脑神经网络。当计算机“学习”大量能与已知MHC蛋白结合的多肽特征后,中枢网络将“学习”有可能是最好结合者多肽的特性。当将未知蛋白序列输入系统,计算机将选出最有可能与独特的MHC蛋白结合的肽段。这个算法主要的缺陷在于,对于每一个MHC多态性,必须给予上百个结合肽段的数据,而系统不能立刻鉴定出能与许多个MHC多态性结合的肽段。 Hammer等根据多态性的HLA等位基因具有相似的“口袋”提出了TEPITOPE算法解决了上述问题9。在比较了不同的MHC多态序列后,发现
25、了针对每个天然氨基酸(共2 0个)的35种结合“口袋”。 通过计算一个蛋白抗原中的所有肽段,与包含有35个已测口袋51个最常见MHC变体的结合能力,就可以预测出免疫刺激表位具有最强结合能力的肽段。这种算法也可以确定与不同的MHC多肽变体结合的“混合”多肽,并能找出最佳疫苗候选者。但是,Malandain (2004)指出上述算法中存在的一个严重问题:过敏反应不是由肽段,例如B细胞表位触发的 15。他指出B细胞表位和T细胞表位只是次要因素,他们并不能解释为什么抗原能被提呈细胞识别。并说明到现在还找不到抗原T细胞表位和B细胞表位的共同特征是因为在抗原被其处理为大约包括10个氨基酸的多肽之前,抗原提
26、呈细胞必须识别整个未被处理前的整个分子。因此在识别过敏原取决于完整、天然蛋白的某些特性,这些线索在T细胞肽段中已经不存在了。最新的研究表明,无脊椎动物和植物在进化过程中对外来的危险物质显示出相同的机制:一组感受器例如:toll-like负责发现一些有共同特性的特殊分子模式,通常由混杂的成分组成(肽段,液体,离子,和/或者碳水化合物半族)。这些具有免疫原性模式的合成特性可能是限制仅通过肽段中枢来预测致敏性的原因。Furmonaviciene等 (2006)在Bioinformatics杂志上发表的一篇论文进一步探讨了过敏原能被识别的机制 16 。他们根据美国免疫学家Janeway等在2000年提
27、出的病原体模式识别理论 17:模式识别受体(pattern recognition receptor, PRR)识别应答病原相关的分子模式(Pathogen-associated molecular pattern,PAMP),指出有可能过敏原也存在PAMP, 即共有的一种保守分子模式,能够被PRR识别,触发的Th2应答,导致产生免疫球蛋白E(IgE)以及过敏反应。他们通过对已知维结构的过敏原: Ara 1, Act c 1, Bet v1 和 Ves v5以及它们的同源序列的分析证实了这个推论这个推论也能够说明为什么在大量的蛋白质家族中,只有非常小的一部分才会引起过敏反应然而,这个理论需要进
28、一步通过生物信息学的方法证实。三、 结论生物信息学是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域。本文系统的介绍了生物信息学在变态反应研究中的应用。生物信息学技术具有快速高效的特点,是更深入研究有过敏反应所必须的,并且已在一些致敏评价中发挥重要作用。生物信息学方法的缺点是它是一种理论预测,因此还需传统生物学的辅助,要同其他的免疫学实验方法结合起来才能进一步给出准确的评价。参 考 文 献1King TP, Hoffman D, Lowenstein H, et al. Allergen nomenclature J. Allergy 1995,50:765774
29、.2. Altschul,SF, Madden,TL, Schaffer,AA.,et al. Gapped BLAST and PSA-BLAST: a new generation of protein database search programs J. Nucleic Acids Res. 1997,17:3389-3402. 3FAO/WHO. Evaluation of allergenicity of genetically modified foods. Report of a joint FAO/WHO Expert Consultation on Allergenicit
30、y of Foods Derived from Biotechnology.2001.4. FAO/WHO. Report of the Fourth Session of The Codex ad hoc Intergovernmental Task Force on Foods Derived from Biotechnology.2003.5. Taylor,SL. Protein allergenicity assessment of foods produced through agricultural biotechnology J6. Jenkins, JA, Griffiths
31、-Jones, S., Shewry, PR, et al. Structural relatedness of plant food allergens with specific reference to cross-reactive allergens: An in silico analysis J. J. Allergy and Clinical Immunology 2005, 115:163-17077Pearson, WR. and Lipman, DJ. Improved Tools for Biological Sequence Comparison J, Proc. Na
32、tl. Acad. Sci. 1988, 85: 2444- 2448.8Brusic V, Rudy G, Honeyman G, et al. Prediction of MHC class II-binding peptides using an evolutionary algorithm and artificial neural network J. Bioinformatics 1998. 14:121130.9Sturniolo,T., Bono,E. Ding j., Raddrizzani,L, et al. Generation of tissue-specific and promiscuous HLA ligand databases using DNA microarrays and virtual HLA class II matrices J. Nature Biotechnology,1999, 17:555561.10Shih DT, Boettiger D, Buck CA. Epitopes of adhesion-perturbing monoclonal antibodies map within
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论