二联体伪氨基酸成分的药物-GPCR靶标结合软件设计汇总_第1页
二联体伪氨基酸成分的药物-GPCR靶标结合软件设计汇总_第2页
二联体伪氨基酸成分的药物-GPCR靶标结合软件设计汇总_第3页
二联体伪氨基酸成分的药物-GPCR靶标结合软件设计汇总_第4页
二联体伪氨基酸成分的药物-GPCR靶标结合软件设计汇总_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、景德镇陶瓷学院本科生毕业设计(论文)中文题目:二联体伪氨基酸成分的药物-GPCR靶标结合软件设计 英文题目: DRUG TARGET TWO CIS-GPCR PSEUDO AMINO ACID COMPOSITION COMBINEDWITH SOFTWARE DESIGN 院 系: 专 业: 姓 名: 学 号: 指导教师: 完成时间: 摘 要摘要参与许多疾病如癌症,糖尿病,神经退行性,炎症和呼吸道疾病,G蛋白偶联受体(GPCRs)是治疗药物中最常见的目标。它是费时和昂贵的确定是否药物和受体之间的相互作用是在蜂窝网络中纯粹的实验技术手段。虽然一些计算方法在这方面的知识的基础上开发的3D(三维

2、)的结构蛋白,不幸的是他们的使用非常有限,因为大多数的G蛋白偶联受体的三维结构是未知的。为了克服这种情况,一个基于序列的分类器,被称为“igpcr药”,是在蜂窝网络的G蛋白偶联受体与药物的相互作用预测。在预测中,该药物组合物由2D(二维)制定通过256d向量的指纹,通过PseAAC(伪氨基酸组成)受体与灰色模型理论的产生,并预测发动机由模糊K近邻算法操作。此外,为igpcr药物一个用户友好的Web服务器是建立在http:www.jci-bioinfo CN / igpcr药物。对于大多数实验科学家便利,一步一步的指导是提供如何使用Web服务器不需要遵循本文只是对其完整性的复杂的数学方程,获得期

3、望的结果。总体成功率的igpcr药物通过Jackknife检验达到了85.5%,这是高于率由现有同类方法2010虽然没有Web服务器是否建立了它。预计igpcr药物可能会成为一个有用的高吞吐量的工具和药物开发的基本研究,和这里介绍的方法也可以扩展到其他药物靶相互作用网络的研究关键词:g-protein-couple受体(GPCRs) 灰色模型 分子指纹图谱 模糊K近邻算法 伪氨基酸组成 igpcr药物 ABSTRACTAbstractInvolved in many diseases such as cancer, diabetes, neurodegenerative, inflammato

4、ry and respiratory disorders, G-protein-coupled receptors (GPCRs) are among the most frequent targets of therapeutic drugs. It is time-consuming and expensive to determine whether a drug and a GPCR are to interact with each other in a cellular network purely by means of experimental techniques. Alth

5、ough some computational methods were developed in this regard based on the knowledge of the 3D (dimensional) structure of protein, unfortunately their usage is quite limited because the 3D structures for most GPCRs are still unknown. To overcome the situation, a sequence-based classifier, called “iG

6、PCR-drug”, was developed to predict the interactions between GPCRs and drugs in cellular networking. In the predictor, the drug compound is formulated by a 2D (dimensional) fingerprint via a 256D vector, GPCR by the PseAAC (pseudo amino acid composition) generated with the grey model theory, and the

7、 prediction engine is operated by the fuzzy K-nearest neighbour algorithm. Moreover, a user-friendly web-server for iGPCR-drug was established at http:/www.jci- For the convenience of most experimental scientists, a step-by-step guide is provided on how to use the web-server to get the desired resul

8、ts without the need to follow the complicated math equations presented in this paper just for its integrity. The overall success rate achieved by iGPCR-drug via the jackknife test was 85.5%, which is higher than the rate by the existing peer method developed in 2010 although no web server was ever e

9、stablished for it. It is anticipated that iGPCR-Drug may become a useful high throughput tool for both basic research and drug development, and that the approach presented here can also be extended to study other drug target interaction networks Keywords: G-protein-couple receptors (GPCRs); Grey Mod

10、el; Molecular fingerprints; Fuzzy K-Nearest Neighbour algorithm; Pseudo amino acid composition; iGPCR-Drug目录1绪论4l引言42 GPCR与药物对结合的材料和方法72.1基准数据集72.2样品的表征72.3模糊K近邻算法153 结果与讨论213.1绩效评估指标213.2 交叉验证223.3用户指南234 结 论27附录一36附录二38附录三431绪论l引言随着破译生命密码的人类基因组计划的完成,生命科学进入后基因组时代,科学家们又全力以赴投入到了生物学下一个挑战性领域的研究:蛋白质组学是在

11、人类基因组计划研究发展的基础上形成的新兴学科,主要是在整体水平上研究细胞内蛋白质的组成及其活动规律。人类细胞中的全部基因称为基因组,由全套基因组编码控制的蛋白质则相应地被称为蛋白质组。由于生物功能的主要实现者是蛋白质,而蛋白质又有自身特有的活动规律,所以仅仅从基因的角度来研究是不够的。人类基因组图谱并没有告诉我们所有基因的身份以及它们所编码的蛋白质。人体内真正发挥作用的是蛋白质,蛋白质扮演着构筑生命角色,其中可能藏着开发疾病诊断方法和新药的方法。蛋白质是生命的物质基础,是生理功能的执行者,是与各种形式的生命活动紧密联系在一起的物质。从前,科学家认为一个基因负责制造一种蛋白质,知道基因就足以知道

12、蛋白质,然而事实并非那么简单,人类基因组图谱初步分析结果表明,人体只有大约3万个基因,科学家据此认为,基因可能由许多可以按照不同组合方式拼接的片段组成,一个基因可以产生多种蛋白质。2001年2月,人类蛋白质组组织成立,编辑在Nature杂志发布人类基因组框架图的消息的同一版面上登载了这条消息。蛋白质组学(proteomics)的研究对象是蛋白质,其最终目标就是破译蛋白质的结构与功能。基于实验的方法成本高,效率低,已经不能满足当前生物学的发展需要,新的思路是从理论出发,再返回到实验当中,探索理论和计算的方法模拟和预测出这些信息或提供与之相关的辅助信息。从蛋白质的序列出发用计算的方法直接预测蛋白质

13、的结构与功能并不是一件容易的事情。目前由于科学和技术上尚存在许多难以克服的问题,如果无法找到高同源性序列作为模板,要获得其结构和功能信息将非常困难。于是人们开始致力于研究蛋白质的一些相对粗糙层面的特征问题,即蛋白质分类问题。作为蛋白质组学研究的一个分支,蛋白质分类问题近年来受到生物学家和计算机专家们越来越多的关注。蛋白质分类研究在生物化学、细胞生物学、分子生物学、医学和药理学中起着非常重要的作用,是全面掌握蛋白质结构与功能的前提和基础。本论文就是主要围绕该主题,作出了一些有意义的探索和研究。1.2研究背景1.2.1G蛋白偶联受体分类G蛋白偶联受体(GproteineouPledreeePtor

14、s,GPCRs),又称为七a螺旋跨膜蛋白受体,是体内最大的蛋白质超家族。GPCRs因能结合和调节G蛋白活性而得名。GPCRs的配体多种多样,包括核昔酸、肽类、糖蛋白、脂类、生物胺、离子和蛋白酶等。各种光、嗅、味的信号分子也由GPCRs调节与控制。大多数GPCRs通过G蛋白调节细胞内信号传递,例如调节钾及钙离子通道的活性,刺激或抑制腺昔酸环化酶和活化磷脂酶的活性。G蛋白偶联受体是一个重要的药物靶标,超过50%的现有药物都与G蛋白偶联受体作用。很多药物方面的研究瞄准它们的结构与功能的关系,但是由于GPCR难于结晶,同时,这些蛋白在一般的溶剂中溶解度都 不大,使得核磁共振也无法使用,大多数GPCRs

15、的三级结构仍然是未知的。随着人类基因组以及其他种类生物基因组计划的开展,大量的蛋白质序列数据已经获得,迄今在Swiss一Prot和肠EMBL数据库共收录了超过七千条序列。如何利用这些已知结构和功能的序列信息,成为生物信息学的研究热点之一。1.3蛋白质序列分析的国内外研究进展蛋白质一级序列包含了大量的功能信息,从蛋白质序列出发,提取相关特征信息,并用数学方法描述这些信息,进而设计高效算法预测未知属性蛋白质的结构和功能,是生物信息学进行蛋白质序列分析的思路。氨基酸组成是指20种氨基酸在一条蛋白质序列中各自出现的频率。蛋白质的结构和功能类与氨基酸组成之间有一定的关联性,这在蛋白质分类研究过程中,被不

16、同研究者在各自不同的研究领域里所证实。1986年Nakashima等人将蛋白质序列描述在一个20维欧氏空间里,提出了氨基酸成分空间的概念。在随后几年当中,这种基于氨基酸组成预测蛋白质结构及功能的方法很快得到推广。氨基酸组成反映了序列的全局特性,是一种最基本的蛋白质序列特征,也是目前普遍使用的序列特征描述方法。氨基酸组成计算简单,大部分现有算法仅仅是建立在20个氨基酸成分的基础上的。虽然这是一种合理的近似方法而且确实也产生了一些很好的效果,但是把所有的序列长度和顺序信息都丢失掉了,而序列排序信息也是很重要的。为了进一步挖掘信息,在传统的氨基酸组成成分的基础上,人们致力于研究氨基酸顺序和偶合信息对

17、分类的影响。Nakashimalls的研究中采用400维的二联体成分大大提高了预测成功率。Fujiwara和APogea用ANN融入蛋白质序列的氨基酸成分,用HMM记录氨基酸残基顺序信息,建立了混合模型。显而易见,氨基酸残基的生物化学和物理化学特性对蛋白质的结构和功能有着很大的影响,因此考虑氨基酸残基的物理化学性质也是一个有效途径。其思路为先用氨基酸数据库中的一组氨基酸残基指数值,将蛋白质符号序列映射为数值序列,之后提取序列特征值。Chou根据氨基酸之间的距离偶合因子,首先提出了伪氨基酸成分的概念并应用于提高亚细胞定位的预测质量。Gao利用氨基酸残基的蛋白质序列,由其自相关函数值表征序列特性。

18、Fen提出了基于氨基酸残基疏水性和极性的三维空间曲线和从中提取的参数来描述氨基酸序列。虽然经过生物信息学家不断努力,已经在生物数据序列分析领域取得了不少成绩,但是目前为止还没有从根本上解决如何从不同长度的序列中提取有效特征的问题。药物研究是生物信息学研究中最具应用前景的领域,利用生物信息学手段研究和开发新的治疗性药物,将是21 世纪生物医药发展的总的趋势。传统的药物研究,从发现新药到该药物的临床应用,大约需要10 年左右的时间,其研发费用更是高达几亿甚至十几亿美元。生物信息学应用基因序列比对、蛋白质结构预测等方法对获得的这些基因和蛋白质的数据进行分析和计算,从中发现能够与药物相结合的关键的蛋白

19、质结构或功能性基因,即药物的作用靶点,到目前为止,根据人类基因组研究结果预测的药物靶标可达5000-10000 个。在此基础上,药物研发人员一方面可以利用计算机模拟的方式,将所获得的蛋白质结构或功能性基因信息直接用于新药物的筛选,如磷脂酶A2 抑制药物的筛选;另一方面, 也可以将所获得的蛋白质结构或功能性基因信息加以分析, 直接涉及出可能的药物, 最后经人工合成或其它方法获得实际药物, 这一方法已应用于反义寡核苷酸药物的研制。显而易见,正是由于生物信息学的介入, 使得药物研究在药物靶点发现、 药物筛选和药物设计等方面产生了巨大的变革, 不仅减少了前期研究和开发的盲目性,更有效缩短了药物研发周期

20、,节约了大量的人力、物力。就人类基因组来说, 得到序列仅仅是第一步, 后一步的工作是所谓后基因组时代的任务,即收集、整理、检索和分析序列中表达的蛋白质结构与功能的信息, 找出规律。本文主要致力于药物与靶标结合预测软件的设计。新!为您提供类似表述,查看示例用法: 分享到 翻译结果重试抱歉,系统响应超时,请稍后再试· 支持中英、中日、泰英、日英在线互译 · 支持网页翻译,在输入框输入网页地址即可 · 提供一键清空、复制功能、支持双语对照查看,使您体验更加流畅2222222222222 GPCR与药物对结合的材料和方法建立一个蛋白系统的统计预测,我们需要考虑以下程序:(

21、一)建设或选择一个有效的基准数据训练集和测试的预测;(二)建立一个有效的,能真正体现其内在关联的属性可预测的数学表达式制定的蛋白质样品;(三)引进和发展一个强大的算法(或发动机)进行预测;(四)进行交叉验证测试客观评价预测预期的准确性;(五)建立的预测,是向公众开放的一个用户友好的Web服务器。下面,我们描述了如何处理这些步骤。2.1基准数据集基准数据集可归结为 (1)积极的子集,包括交互式GPCR药物唯一对,而消极的子集包含的非交互式的GPCR药物对,和符号代表的集合。在这里互动对指其两相互制约的药物靶标网络在http:/www.kegg.jp/kegg/ KEGG数据库定义的;而非互动对意

22、味着其两不相互作用的药物靶标网络。积极的数据集包含620 GPCR药物对,消极的数据集包含1240个非交互式的GPCR药物对,并按下列步骤做:分离每对单药和G蛋白偶联受体;(二)重新耦合各单药与每一个单GPCRs的方式,他们没有发生成对;(三)随机抽取形成直到他们到达数的两倍,作为对。620互动GPCR药物的对和1240个非交互式的GPCR药物对在线支持信息S1了。该化合物或药物可以通过他们的代码发现在KEGG数据库的所有详细信息。2.2样品的表征由于目前的网络系统,每个样品含有G蛋白成分的药物,下列两种方法分别代表对GPCR药物样品的组合。分子相似性基于分子相似性的虚拟筛选核心是“ 相似性假

23、设” ,这个假设首先由 Johns on和 Maggi ora提出,即结构类似的化合物具有类似的物化性质和生物活性。相似性方法在药学领域极具价值,并且在最近20多年得到了稳步发展,其定义和计算方法发展迅速并日渐成熟,已经有很多涉及分子相似性或是将其作为章节;并且有相当一部分文献综述了分子相似性及其在化学研究中的重要性。在使用关键词“molecular si milarity” 对 Pubmed数据库进行搜索时,可以得到图 1所示的数据表。图 1显示的是在标题或文摘中,含有“molecular si milari2ty” 的文献数量。图中数据表明,随着时间的推移,相似性方法得到越来越广泛的应用。

24、描述符 ( descri p t ors)是分子相似性方法中的基本要素 10 。目前已经有大量的描述符应用于分子相似性研究中 ,从描述符性质特征上看 ,描述符主要分为以下 3个方面: 1) 1D描述符:由化合物本身属性衍生而来 ,如表示分子物化属性的 lg P,摩尔折射率等; 2) 2D描述符:由 2D分子图形或者结构片断计算得来的,如拓扑指数 , 2D分子指纹 ,连接表 ,图 (或子图 ) , (子 )结构描述符等; 3) 3D描述符:分子形状 ,QSCD (Quantized Surface Comp lemen2tarity Diversity) ,MQS (Molecular Quan

25、tum Si milari2ty) ,分子总表面积和电压等。图 1每年出版物中包含“分子相似性 ” 的数量,白色表示出现在标题中,黑色表示出现在文摘或者标题中。 在这些描述符中 ,由于 2D分子指纹具有特征性强 ,计算速度快的特点 ,使得以 2D分子指纹进行相似性搜索成为最简便的虚拟筛选手段。主要分为二个阶段 ,首先需对分子结构进行编码 ,使其成为字节字符串的分子指纹 ,然后使用函数 (如Tani mot o系数 )对其进行量化。例如 ,假设 Tani mo2t o系数为 0,表示两分子结构间没有相同的字节编码;当系数为 1时 ,则表示有相同的字节编码 ,也就意味着有相同的分子结构片断。因为功

26、能简单 ,运算快捷 ,所以基于 2D分子指纹的相似性方法可以用于上百万个化合物组成的大型分子库的虚拟筛选 ,提高筛选的效率。1122D分子指纹2D分子指纹通常依据计算类型分为两种 ,基于片断字典法 13 和基于 Hash方法 14 。前者的特点是: 1)每个字节位点与特殊子结构片断相关; 2)较少出现的片段可能更有用 ,如 BC I fingerp rint。这类分子指纹在很早之前就应用于化学信息学;后者特点是: 1)不取决于设定的字典; 2)能对每个片断进行编码 ,如 Unity fingerp rint, Daylight finger2p rint,Aval on fingerp rin

27、t (由 Novartis开发 ,包括原子、 强化原子、 原子三联体和联通路径 )等。最常见的 2D分子指纹描述符包括 MACCS、BCI fingerp rint、 Daylight finger p rint、 Unity finger p rint等。因为历史原因 ,许多出版物把 Daylight finger2p rints当作实验标准 ,如 Schoonjans等 15 在尝试使用红外光谱对化合物相似性进行分析时 ,在实验中采用了 Daylight finger p rint作为参考标准。2D指纹方法还包括 Mol p rint 2D 和 Property descri p t or

28、value range2 derived fingerp rint ( PDR2 FP)。Mol p rint2D是一种复杂原子环境指纹 ,而 PDR2 FP是一种低复杂性指纹 ,是使用多重参考化合物进行相似性搜索的描述符 ,其计算过程不受分子大小的约束 16 。对于一系列参考化合物 , PDR2 FP以较高频率出现的字节位点表示活性参考化合物和化合物库中化合物之间的子结构衍变 ,然后通过记录活性类别字节频率来生成搜索字符串 ,因此基于活性的搜索字符串代表了需要进行训练的活性化合物的指纹 ,然后将其与化合物库中的化合物指纹进行比较。此外 ,还有一种程序 CDK生成一种结构指纹,该结构指纹是用二

29、进制向量对小分子的化学和拓扑特征进行编码 ,然后用 Tani mot o系数对其相似9 7 1学 报 Journal of China Phar m aceutical Univer sity 第 40卷性进行打分 17 。目前比较新颖的 2D分子指纹是Extended2 connectivity finger p rints ( ECFPs)和 Func2ti onal connectivity finger p rints ( FCFPs) 18 。它们是由 Morgan算法衍生而来 ,而 Morgan算法是分子对比的原始方法之一。它们具有许多显著特点:计算快速便捷;可以代表很大数目 (超

30、过 40亿 )的不同特征 ,这些特征可以事先设定 ,能够代表新结构的不同之处;可以代表立体化学信息;可以描述特殊子结构;分子结构更容易被解释;不同的起始原子标识符可以产生不同使用价值的指纹。2.2.1代表2D分子指纹的药物虽然药物的数量是非常大的,他们中的大多数是有机小分子,是有一些固定的小结构。小分子结构的识别可以用于检测药物靶相互作用。分子指纹的位串表示的是分子结构和性能。在目前的研究中,我们普遍采用2D分子指纹代表药物分子,如下所述:首先,对每种药物而言,我们通过它的代码可以从KEGG数据库获得包含化学结构的详细信息。第二,我们可以通过使用化学工具箱软件称为openbabel,openb

31、abel的当前版本可以生成四种类型的指纹:FP2,FP3和MACCS。在目前的研究中,我们用FP2指纹格式。这是一个基于路径的指纹识别,基于线性和环形结构并使用一个散列函数的小分子片段(有点类似于日光指纹)将它们映射到一个字符串。这是一个长度为256位的十六进制字符串或一个256位的矢量,其分量的值是0和15之间的整数。让我们假设V1是256位向量第一个向量,V2,第二个向量,等等。因此,256位向量可以转换为数字信号。为了找到药品的指纹特性,我们实现的离散傅里叶变换,给出的频域值 (2)其中J代表虚数单位,是一个复杂的数的复数模量或振幅 (3)这里才是真正的部分和相应的图像的一部分。因此我们

32、可以产生离散傅里叶谱给出 (4)傅里叶谱数据包含了关于数字信号的大量信息,因此可以用来反映药物的某些特征。因此,药物化合物现在可归结为一个256-d(维)载体的数 (5)这里有相同的含义在公式4的药物化合物D,和T矩阵的转置算子中。2.2.2代表与灰色模型的伪氨基酸组成的GPCR序列灰色系统理论的基本概念各类研究中系统中,研究者一般是根据研究对象所属的领域或研究方法命名的。在控制论中,学者们在表示信息的的明确程度时常用颜色的深浅来表示,如对于内部信息缺乏的对象和系统用黑箱来表示,目前此称谓已被人们所接受并大量使用,因此一般用“白”表示信息完全明确或知道,“黑”表示信息完全缺乏或不知道,对于那些

33、信息不完全、不充分的,也就是说产对象或系统中部分信息明确、部分信息不明确,我们称之为“灰”。相应地,称信息完全明确、知道的对象或系统为白色系统,称信息全部未知的对象或系统为黑色系统,称其中部分信息明确,其中部分不明确,也即信息不完全的对象或系统为灰色系统。“信息不完全” 一般是包括以下4个方面的意思:系统中部分因素明确、部分因素不明确;系统因素间的关系或映射不完全清楚;系统结构或内部影响因素不完全知道;系统的作用原理或发生机理不完全明了。因此,灰色系统理论是对“部分信息未知,部分信息已知”的“贫信息”不确定性系统进行研究,它通过对灰色系统中“部分”的已掌握的已知信息的数据序列生成、开发、分析和

34、建模实现对系统的认知和正确描述。灰数是灰色系统的基本“细胞”或“单元”。把只知道大概范围或取值趋势而不知道其具体准确值的数称为灰数。在实际应用中,灰数实际上是指在某个区间或某个数集内不确定取值的数。通常用记号“? ”表示灰数,例如“这个人的年龄50岁左右,50岁左右就是灰数,可记为? (50)。灰色系统理论的基本原理在灰色系统理论创立和发展过程中,邓聚龙教授提出并提炼出了灰色系统理论的基本原理,主要有以6个方面公理1(差异伯息原理)“差异”是信息,凡信息必有差异。我们说“事物A不同于事物B”,即包含有事物A相对于事物B之特殊的有差异的信息。客观世界中事物之间的“差异”为我们提供了认识世界的基本

35、信息。公理2 (解的非唯一性原理)信息不完全,不确定的解是非唯一的。“解的非唯一性原理”是灰色系统理论解决实际问题所遵循的基本法则,是给予人们灵活性的法宝,使人们处处取得实效。“解的非唯一性原理”在决策上的体现是灰靶思想,灰靶是目标非惟一与目标可约束的统一。“解的非唯一性原理”也是目标可接近、信息可补充、方案可完善、关系可协调、思维可多向、认识可深化、途径可优化的具体体现。在面对多种可能的解时,能够通过定性分析和求解,补充信息,确定出一个或几个满意解。因此,“非唯一性”的求解途径是定性分析与定量分析相结合的求解途径。公理3 (最少信息原理)灰色系统理论的特点是充分利用开发已有的“最少信息”。灰

36、色系统理论是研究“小样本”、“贫信息”不确定性问题,其立足点是“有限信息空间”,“最少信息”是灰色系统的基本思路。公理4(认知根据原理)信息是认知的根据。认知必须以信息为依据,没有信息,无以认知。以完全、准确的信息为依据,可以获得完全确定的认知,以不完全、不确定的信息的信息为依据为依据,也只能得到不完全、不确定的灰认知。公理5 (新信息优先原理)新信息对认知的作用大于老信息。“新信息优先原理”是灰色系统理论的信息观,赋予新信息的较大权重可以提高灰色建模、灰色预测、灰色分析等的功效,新信息的补充为灰元白化提供了基本动力。“新信息优先原理”是信息的时效性的具体体现。公理6 (灰性不灭原理)信息不完

37、全(灰)是绝对的。信息不完全、不确定性(即具有灰性)具有普遍性。信息完全是相对的、暂时的,原有的不确定性消失,新的不确定性又会出现,这是人类对客观世界的认识规律,即通过信息的不断补充而一次又一次的升华,信息无穷尽,灰性永不灭。灰色系统理论是系统分析、建模、预测、决策和控制的一种有效方法,是一门横断面大、渗透性强的新兴边缘学科,其主要内容包括以灰色騰胧集为基础的理论体系,以灰色关联空间为依托的分析体系,以灰色序列生成为基础的方法体系,以灰色模型(GM)为核心的模型体系,有着广泛的应用。参与这项研究的NRS序列在在线支持信息S2里。现在的问题是如何有效地表达这些受体,当前研究的序列,一般来说,有两

38、种方法制定蛋白质序列:序列模型和非连续或离散模型。一个残基的蛋白质样品的最典型的顺序表示的是它的整个氨基酸序列,可以归结为 (6)在代表蛋白质序列的第一个残基,第二个残基,等等,制定蛋白质可以包含最完整的信息。这是一个明显的优势的顺序表示。为了获得期望的结果,基于序列相似性搜索工具,如BLAST,通常被用来进行预测。然而,当查询的蛋白质没有已知特征明显的同源性蛋白时,这种方法没有作用。因此,人们提出了各种非连续表示模型。最简单的非顺序的模型蛋白质是基于其氨基酸组成(AAC),定义为 (7)的20种氨基酸蛋白,具有相同的含义方程。AAC离散模型被广泛用于识别蛋白质的各种属性。然而,从中可以看出进

39、行了使用AAC离散模型的所有的序列顺序的影响。这是它的主要缺点。完全避免失去的序列顺序信息,伪氨基酸组合物(PseAAC)提出了来代替简单的氨基酸组合物(AAC)代表样本的一种蛋白质。由于PseAAC的概念是在2001提出的,它已被广泛用于研究蛋白质的各种属性,如判别外膜蛋白预测金属蛋白酶家族,预测蛋白质结构类,鉴别细菌毒力蛋白,预测蛋白质的亚细胞定位,预测膜蛋白类型,确定GPCRs及其类型,识别蛋白质四级结构属性,预测蛋白质submitochondria位置,识别细胞周期蛋白,预测GABA(A)受体蛋白等等。最近,PseAAC的概念进一步扩展为代表DNA和核苷酸,以及其他生物样品。因为它得到

40、了日益广泛的应用,最近的两个强大的软件称为。PseAAC生成器建立了产生各种特殊的伪氨基酸组合物,除了Web服务器PseAAC。根据最近的一项审查,制定提取一种蛋白质的氨基酸组成成分特征的一般形式 (8)这里的下标是一个整数,其值以及部分将取决于如何从氨基酸序列中提取所需的信息(参见公式6)。下面,通过有关G蛋白偶联受体我们描述了从基准数据集和在线支持信息S2如何提取有用的信息确定样品公式8。首先,让我们通过一系列的实数表示蛋白质序列。表1中所列的理化性质通常用于识别蛋白质属性。在目前的研究中,然而,它是经过初步测试发现,当第十的理化性质(即平均极性)的使用,是观察到的最好的预测质量。因此,表

41、1中的平均极性20值被用在GPCR序列编码的20种氨基酸。注意,以确保这些数字代码是一个正数的灰色模型的要求后,在编码过程中,在表1的平均极性值的增加1.20。因此,对于一个给定的氨基酸序列(参见公式6 GPCR),我们可以将它转换成一系列实数所制定的 (9)的第一个氨基酸残基的G蛋白偶联受体蛋白,如平均极性的价值,如果第一个残基是一个,然后我们;是为第二个氨基酸残基的加1.20的平均极性价值;等等。现在,我们可以用灰色系统模型提取有用的信息,通过公式8制定PseAAC。根据灰色系统理论,如果一个系统的调查的信息是完全已知的,它被称为白;如果完全未知的,它被称黑;如果部分已知称灰色系统。该模型

42、基于这样的理论被称为灰色模型,它是一种非线性动态模型的微分方程的制定。灰色模型解决复杂问题的,缺乏足够的信息,或者需要处理不确定性信息和减少采集的数据的随机效应。灰色系统理论中的一个重要和普遍使用的模型,称为GM(1,1)。遵循类似的程序,公式8会成为特征向量和它的每个部件的定义 (10)在这里有公式7相同的意义的权重因子(我们选择以获得最好的结果,在这项研究中),并给出了 (12)和2.2.3表示对GPCR药物现在一个G蛋白偶联受体蛋白和药物化合物D之间的对可通过公式5和公式8制定方程,给出 (14)其中G表示的GPCR药物对,正交和权重系数为1 / 7000在这项研究中得到最好的结果,并给

43、出在公式10。2.3模糊K近邻算法根据 SWISSPROT 库和 GPCRDB 所采用的分类原则,GPCR分为六类。具体步骤如下: 1.登陆(/7tm/),下载6类GPCR子家族数据,这6类数据分别为(1)rhodopsin-like;(2) secretin-like;(3)metabotrophic/glutamate /pheromone; (3)fungal pheromone; (4)cAMP receptor; (5)frizzled/ smoothemed family。 2.剔除不完整序列(标注为片段或氨基酸个数50)。 3.剔除含有非20个

44、标准氨基酸残基字符的序列。 4.为消除同源性,用CD-HIT软件剔除每类数据集中同源性大于40%的序列,即使数据集中任两个序列的相似性都小于40%。 这里要说明的是,由于GPCR第5类的数据集(cAMP receptor)含有的序列太少,仅有10条序列,若执行消除数据集冗余度操作,会使该类序列过少而缺乏统计性,因此并未执行第(4)步。经过上述步骤最终获得365条序列,其中含 有 232 条 rhodopsin-like,39 条 secretin-like,44 条 metabotrophic /glutamate/pheromone,23 条 fungal pheromone,10 条 cA

45、MP receptor,以及17条frizzled/smoothened family。同时,为了区分GPCR和非GPCR序列,根据序列的注释信息在SWISSPROT数据库中随机挑选一部分非GPCR序列,执行上述过程并随机选择365条non-GPCR序列构成非GPCR数据集。将上述得到的365条GPCR序列加上365条non-GPCR序列构建成了我们所需的训练集。 伪氨基酸构造方法 蛋白质序列是由氨基酸组成,20 种不同的氨基酸分别用20个英文字母 A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W 和Y表示。因为氨基酸物理化学性质中的侧链分子量与蛋白质功能、结构密切相

46、关,在将蛋白质字符序列转换成数字序列过程中,我们采用表 1所示的氨基酸数字编码模型。其中 R1 代表蛋白质序列的第一个氨基酸,R2 代表蛋白质序列的第二个氨基酸,以此类推。为了将蛋白质序列的字符编码转换成空间向量。可把侧链分子量百分比定义为:式中(j=A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y)式中表示第i条蛋白质序列中第j种氨基酸的侧链分子量(side-chain mass)之和, 表示20种氨基酸侧链分子量(side-chain mass)总和。即伪氨基酸成分为侧链分子量百分比。 根据伪氨基酸成分理论,这样每一个氨基酸序列就由20维空间的向量变成了一个4

47、0维空间的向量。蛋白质序列表示为:式中:f (i =1, 2, , 20)为20个氨基酸在序列中出现的次数,(k=1,2,20) 为伪氨基酸成分(侧链分子量百分比), (j=1)为权重因子(本文中) 。分类器设计 将G蛋白偶联受体进行量化处理后,接下来关键就是建立分类器并能对特征向量进行合理的分类识别,这里采用模糊K近邻算法,并以向量欧氏(Euclidean)距离值作为距离度量。 模糊K近邻算法是Keller等在1985年提出的。它是一种简单有效的分类算法,广泛应用于生物信息学和其他各个领域。其基本思想是: 对于一个测试数据x, 首先从训练数据集: yj(j=1,2,N,其中N个数据分别属于种

48、不同的类别)中找出与测试数据最接近(通常定义为距离最近,如欧氏距离,Mahalanobis距离等)的k个近邻,然后通过各个近邻的分类标签来确定测试数据的类别。通过赋给k个近邻不同的加权系数,然后运用模糊决策方法算出系数最大的类标签即可作为测试数据的类别。那么测试数据属于不同类别的隶属度函数可表示为: 其中k是测试样本的最近邻居的个数,是第j个近邻属于第 i 个类别的隶属度, 测试样本和它最近邻居样本之间的距离,m 是模糊参数,它代表每个近邻与测试数据之间距离的权重,是测试样本对于第 i 类训练数据的隶属度值。预测结果与讨论 下面通过用数据集对该分类器进行检验,这里用国际公认的严格的Jackkn

49、ife交叉验证法,Jackknife是利用一次抽样的样本观察值,来构造未知参数的无偏估计 (或偏性很小的估计量 )的一种模拟抽样统计推断方法。该法每次从原样本中剔除一个样本,得到样本含量为-1的新样本,称为Jackknife样本,一共有个,由每个样本计算估计值,称为Jackknife估计。检验的效果是以Jackknife测试的成功率来衡量。 在模糊 K 近邻算法中,参数的选择对分类器的性能有很重要的影响。由于近邻数 K 和距离计算中的模糊参数 m 直接影响着分类器的预测精确度,因此测试了大量的 k,m 值以获得满意的预测效果。实验当中,在预测蛋白质是否为GPCR时发现当 K=2,m=1.8 时

50、效果最好,表 2 中显示准确率达到了94.66%, 在预测GPCR分成六类时发现当K=4,m=2时效果最好,表 3 中显示总成功率达到了 86.38%。在表 2 和表 3 中CA 模型与本文的方法进行对比,可以发现表 2 中Non-GPCR 类的预测成功率与 CA 模型持平,而 GPCR 类比其高许多;表 3 中 fungal pheromone 类准确率要比 CA 模型高出近6倍。这证明我们的方法是非常有效的。下面,让我们简要介绍如何使用模糊K近邻方法识别蛋白质GPCR药物化合物在网络之间的相互作用。为了简化,此后,让我们用“通道药物对”或是“对”为代表的“伪氨基酸药物对”除非另有明确表示。

51、假设是一组表示在训练GPCR药物对向量,集合分为两类,其中表示的互动对类和非互动对类;是K近邻对查询对的子集。因此,在两类查询对模糊隶属度值其中K分别是最近邻计算的查询对的数目,和模糊隶属度值的训练样本的类,下面将进一步明确;之间的欧氏距离和最近在第对训练数据集;模糊系数,确定多大的距离加权计算各近邻的隶属度值的贡献。请注意,参数K会影响eq.15计算结果,他们将被优化的网格搜索稍后描述。同时,其他各种指标可以选择。在eq.15上述和定量的定义给出了(16)替代的eq.16为eq.15得到的结果,这表明如果查询对是一个互动的耦合;否则,非交互式的。换句话说,结果可归结为(17)建立的预测称为i

52、gpcr药物。提供如何分类工作的一个直观的画面,流程图在图显示其操作过程图2。一个三维图形显示如何优化这两个参数K和药物的igpcr预测。图3。一个流程图显示的预测igpcr药物的操作过程。看到进一步的解释文本。3 结果与讨论3.1绩效评估指标提供更直观和易于理解的预测质量的测量方法。根据这些标准,正确率的预测为交互式GPCR药物对数据集和非交互式的GPCR药物对数据集分别定义(参见公式1) (18)整体的成功预测率是由 (19)很明显,从eqs.18-19,当且仅当G蛋白偶联受体药物对交互式和非交互式GPCR药物对没有被错误预测,即我们的整体成功率。否则,总的成功率要小于1。另一方面,需要指

53、出的是,下面往往是采用文献中检测性能的预测质量的方程组 (20)在TP代表真阳性;TN,真阴性;FP,假阳性;假阴性;FN,Sn,SP,敏感性;特异性;准确性;ACC,MCC,马修的相关系数。显然,在公式18或公式19符号和那些在公式20之间的关系,给出了 (21)替代公式21为公式20也注意到eqs.18-19,我们得到 (22)现在我们可以很容易地看到:当意义的互动GPCR药物对没有被错误预测是一个非交互式的GPCR药物对,我们有敏感性;而这意味着所有的互动GPCR药物对错误预测是非交互式的GPCR药物对,我们有敏感性。同样地,当意义的非交互式的GPCR药物对无误预测的是,我们有特异性;而

54、意义的错误预测互动GPCR药对所有非交互式的GPCR药物对,我们有特异性。当这意味着错误地预测了互动的GPCR药物对数据集和非交互式的GPCR药物对,我们的整体精度;同时,这意味着所有的互动GPCR药物对数据集和所有的非交互式的GPCR药物对被错误预测,我们的总体精度。MCC相关系数通常是用于测量二元的质量(两类)的分类。当意味的互动GPCR药物对数据集和非交互式的GPCR药物对没有不被错误预测,我们;当我们没有更好的比随机预测;当我们有意义的预测和观察之间的总的分歧。我们可以看到从上面的讨论,这是更直观和更容易理解,当使用公式22检查的敏感性,特异性,预测总体精度,和马修的相关系数。3.2

55、交叉验证如何正确检验预测的质量是开发新的预测和其潜在的应用价值估算的关键。一般来说,为了避免。记忆效应。,resubstitution测试中,同一个数据集用于训练和测试的预测,以下三个交叉验证方法常被用来研究在实际应用中的效果的预测因子:独立的数据集的测试,采样(如为5倍,7倍或10倍),测试,和折刀测试。然而,通过深入分析阐述了随意性大,存在于独立的数据集的测试。同时,通过eqs.28-30,二次取样测试(或交叉验证)不能避免随意性也。只有折刀测试至少是任意的,可以为一个给定的基准数据集的一个独特的结果。因此,刀切测试已被广泛认可,越来越多地采用了调查的各种预测的质量。鉴于此,通过Jackknife测试

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论