基于分段伪氨基酸组成成分特征提取方法预测蛋白质亚细胞定位_第1页
基于分段伪氨基酸组成成分特征提取方法预测蛋白质亚细胞定位_第2页
基于分段伪氨基酸组成成分特征提取方法预测蛋白质亚细胞定位_第3页
基于分段伪氨基酸组成成分特征提取方法预测蛋白质亚细胞定位_第4页
基于分段伪氨基酸组成成分特征提取方法预测蛋白质亚细胞定位_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于分段伪氨基酸组成成分特征提取方法预测蛋白质亚细胞定位杨会芳,程咏梅,张绍武,潘 泉(西北工业大学自动化学院,西安 710072)摘要: 蛋白质的亚细胞定位与蛋白质的功能密切相关, 其定位预测有助于人们了解蛋白质功能。文章提出一种 分 段 伪 氨 基 酸 组 成 成 分 特 征 提 取 方 法 , 采 用 支 持 向 量 机 算 法 对 Chou 构 建 的 两 个 蛋 白 质 亚 细 胞 定 位 数 据 集(C2129, CS2423)进行了分类研究, 并采用总分类精度 Q3、内容平衡精度指数 Q9 等参数评估预测分类系统性能。 预测结果表明, 基于分段伪氨基酸组成成分特征提取方法的预测性

2、能, 优于基于完整蛋白质序列的伪氨基酸组成成分特征提取方法。例如, 基于分段矩描述子伪氨基酸组成成分特征提取方法,数据集 C2129 的 Q3 和 Q9 分别为84.7% 和 60.8%,比基于完整蛋白质序列的矩描述子伪氨基酸组成成分特征提取方法分别提高 1.8 和 2.2 个百分点, 且 Q3 比现有 Xiao 等人的方法提高了 9.1 个百分点。基于分段伪氨基酸组成成分特征提取方法构成的特征向量不仅包含残基之间的位置信息, 而且还包含蛋白质子序列之间的耦合信息, 另外蛋白质分段子序列可能和蛋白 质的功能域有一定的联系, 从而使这一方法能够有效地预测蛋白质亚细胞定位。关键词: 分段伪氨基酸组

3、成成分; 支持向量机; 特征提取; 亚细胞定位中图分类号:Q617引言计特性,即局部子序列中氨基酸出现的频率,而未考虑局部子序列氨基酸顺序影响。 本文提出一种分段伪氨基酸组成成分特征提取方法表示蛋白质序列,采用支持向量机算法和 “一 对一”分类策略,对 Chou 构建的两个数据集1,2进 行蛋白质亚细胞定位预测研究。0蛋白质要参与正常的生命活动,必须处于特定的亚细胞区域内 (如细胞核、线粒体、细胞质等) 才能发挥特定的功能。我们可通过实验确定蛋白质 在细胞内的位置,但实验方法不但费时、耗财, 其 难度也较大。另外随着人类基因组计划的顺利实 施,蛋白质数据库中的蛋白质序列数目飞速增长, 因而探索

4、利用理论及计算方法预测蛋白质的亚细胞 定位越来越重要。自从 Chou 提出伪氨基酸组成成 分概念以来1,多种伪氨基酸组成成分特征方法被 提出来用于蛋白质亚细胞定位预测210,取得了较 好的效果。伪氨基酸组成成分特征提取方法实质上 就是用一个特征向量表示蛋白质样本,而不丢失序 列顺序信息。目前利用伪氨基酸组成成分预测蛋白 质亚细胞定位都是基于完整的蛋白质序列,文献 11,12基于分段氨基酸组成成分分别对蛋白质同 源寡聚体和膜蛋白进行了分类研究,研究结果表明 蛋白质局部子序列包含较多的蛋白质属性信息。但 分段氨基酸组成成分仅考虑局部子序列的氨基酸统数据集和预测方法1数据集1.1采用两个数据集来评价

5、本文算法的预测能力。第 一 个 数 据 集 (C2191) 由 Chou 构 建 1, 包 含2191 条蛋白质序列,分别属于 12 种亚细胞定位区收稿日期: 2007-12-13基 金 项 目 : 国家自然科学基金资助项目 (60775012,60634030), 西北工业大学科技创新项目 (KC02)张绍武, :(029)88494352,通讯作者:E-mail: 域:145 条叶绿体 (chloroplast),571 条细胞质(cytoplasm),34 条细胞骨架 (cytoskeleton),49 条内质网 (endoplasmic reticulum

6、),224 条细胞外 蛋 白 质 (extracellular), 25 条 高 尔 基 体 (Golgi apparatus),37 条溶酶体 (lysosome),84 条线粒 体 ( mitochondria), 272 条 细 胞 核 ( nucleus proteins),27 条过氧物酶体 (peroxisome),699 条 质膜 (plasma membrane),24 条液泡 (vacuole); 另一个数据集 (CS2423)由 Chou 和 Shen 构建2, 包含 2423 条蛋白质序列,分别属于 16 种亚细胞定 位区域:20 条细胞壁 (cell wall),17

7、条中心体(centriole),207 条叶绿体 (chloroplast),78 条蓝 色小体 (cyanelle),384 条细胞质 (cytoplasm),20 条 细 胞 骨 架 (cytoskeleton), 91 条 内 质 网( endoplasmicreticulum), 402 条 细 胞 外(extracell),68 条高尔基体 (Golgi apparatus),37条 溶 酶 体 ( lysosome), 183 条 线 粒 体(mitochondrion),474 条细胞核 (nucleus),52 条 过氧物酶体 (peroxisome),323 条质膜 (pla

8、sma membrane), 31 条 质 体 ( plastid), 36 条 液 泡(vacuole)。其中任意两条序列的一致性 (identity) 小于 25%。kkkccc1,11,m1,Mkci,mkc20,1 kg1,1kc20,m kg1,mkgj,m kkc20,Mkg1,Mk=1,2,Nm=1,2,MPseAACSk=,(2)kkggg!,1!,m!,Mkkkkkk其中cT 为蛋白质,c,c,g,g,g1,mi,m20,m1,mj,m!,m序列 P k 的第 m 段伪氨基酸组成成分特征向量。前20 个元素表示氨基酸组成成分,后 ! 个元素表示 伪氨基酸组成成分。依据不同的伪

9、氨基酸组成成分特征提取方法,这些元素有不同的计算方法。 若用我们以前研究工作8的矩描述子公式计算伪氨基酸组成成分,分段伪氨基酸组成成分的后 !个元素计算如下:k#Lm1kk !sj,ll,%(1j20)%Ll =1kmgj,m =$,(21j40)kLm%1 !(skkl- g)2,%k(j- 20),l(j- 20),m&Lm l =1特征提取方法k1.2l=1,2,L(3)m1.2.1分段氨基酸组成成分设将第 k 个蛋白质序列 P k 均分为 M 段,根据 我们以前的研究工作11,蛋白质 P k 可用如下矩阵 表示:kkkLm为蛋白质序列 P第 m 段子序列 pm的长度,sj,l 是kkm

10、基本氨基酸 aj 在子序列 p上的位置标示, 定义为k#1,如果 a 在子序列 p 的位置 l 上k%=jm。kc1,1kc1,mkc1,Msj,l%k&0,如果 aj 不在子序列 pm的位置 l 上为了后面表述方便,以分段矩描述子伪氨基酸kAACSk=,k=1,N(1)ci,mkc20,1kc20,mkc20,M组成成分特征提取方法提取的特征参数集用 MDSm20M表示。根据我们以前的研究工作6,基于氨基酸 a 的kkk其中 N 为蛋白质序列总样本数,c1,m ,ci,m ,c20,m Ti为蛋白质序列 P k 的第 m 段氨基酸组成成分,其统计极性指数值 (Factor 1)13的多尺度能

11、量,其分段多尺度能量伪氨基酸组成成分的后 ! 个元素 计算如下:kkk中,ci,m =Mti,m /L (m=1,M, i=1,20),ti,m 为基k本氨基酸 ai 在蛋白质序列 P k 的第 m 段中出现的次数,Lk 为 Pk 的序列长度。 为了后面表述方便,以分段氨基酸组成成分特征提取方法提取的特征参数集用 AACSm 表示。1.2.2分段伪氨基酸组成成分以分段氨基酸组成成分特征提取方法表示蛋白 质,没有考虑子序列中的顺序信息,因而我们提出 分段伪氨基酸组成成分特征提取方法。这样蛋白质序列 P k 可用下列矩阵表示:kQ ,m - 1( j1kk!dj,m (q)gj,m =2, 1j!

12、- 1,kQj,mq=0kQ(!- 1),m - 1(Q(!- 1),m1kkg!,m =k! c(!- 1),m (q)2(4)q=0kkgj,m 为子序列 pm第 j 个尺度上小波系数的均方根能kk量,g!,m 为子序列 pm的 !- 1 尺度上尺度系数的均方法需要设计较多的二类分类器,但由于设计每一个分类器时所需求解优化问题的规模较小,对应两类 数据的数量相对接近, 从而避免了 “一对多”使用 中常见的由数据不平均造成的有偏分类问题15。本 文采用 “一对一”分类策略。kk根能量,Qj,m 是子序列 pm第 j 个尺度上小波系数的kk个数,dj,m (q)为 j 尺度上 q 个小波系数,

13、c(!- 1),m (q)为!- 1 尺度上 q 个尺度系数。 为了后面表述方便,以分段多尺度能量伪氨基酸组成成分特征提取方法提取的特征参数集用MSESm 表示。 为了与文献2方法比较,我们采用文献2的两性分子伪氨基酸组成成分公式计算伪氨基酸组成成分,分段伪氨基酸组成成分的后 ! 个元素计算 如下:分类系统检验采用 Jackknife 检验方法评价分类结果。在 Jackknife 检验方法中,每一条蛋白质序列依次从 数据集中取出作为测试集,而其余蛋白质作为训练 集样本,对于样本数为 N 的数据集,此过程循环 N 次。但应注意,下次取出样本时,上次抽取的样 本要放回数据集。1.4k$Lm- (j

14、+1)/2!l =1111l2 hm(al)hm(al+(j+1)/2),如果 j 是奇数精度评估分别采用总预测精度 Q 、每类样本k$Lm- (j+1)/23$的敏感性 Sen (i)、每类样本的 Matthews 相关系数kgj,m =#MCC(i)和内容平衡精度指数 Q9。Q9 最初是用11,1617$kLm- j/2$1! 1 22来评估二级结构预测算法的有效性,与 Q3 相比,如果 j 是偶数2 hm(al)hm(al+j/2),$k%Lm- j/2Q9 充分考虑了错分信息,为样本数量不均衡的预测问题提供了较为精确的性能评估,是一种独立于 类别的评估指标。将这一思想引入到亚细胞定位预

15、l =1(5)12k其中 hm(al),hm(al)分别表示子序列 pm中 l 位置上氨基酸 al 的归一化疏水值和亲水值2。 为了后面表述方便,以分段两性分子伪氨基酸组成成分特征提取方法提取的特征参数集用 THSm表示。测研究,对 类问题进行评估。设 N 为样本总数, 为样本类别数,pi 为第 i 类样本的正确分类数,ni为非 i 类样本的正确分类数,ui 为第 i 类样本中被 错误分为其它类别的样本数,oi 为其它类别的样本 被错误分为第 i 类的样本数,则有:1.3多类支持向量机分类器设计支持向量机 (support vectormachine,SVM)Q3=!pi/N100%i =1S

16、en(i)=pi/(pi+ui)100%(6)是由 Vapnik 等人提出的一种基于统计学习理论的机器学习方法14。其主要思想是针对分类问题, 在 高维空间中寻找超平面作为两类的决策面, 以保证 最小的分类错误率。该方法在结构风险最小化的原 则下, 尽量提高学习的泛化能力,目前在许多领域 得到广泛应用。对于多类 ( 类)分类问题,常采用 “一对 多 ” (one-versus-all, OVA) 和 “ 一 对 一 ”(one-versus-one,OVO)两种分类策略。 “一对多”方法设计 个两类 SVM 分类器,每个测试样 本经过 个 SVM 分类器进行判别,最终选择 个 分类器输出中的最

17、大值所代表的类别,作为测试数据的分类决策。而 “一对一”方法为任意两类样本 构造超平面,共需训练 (- 1)/2 个两类 SVM 分类 器,每个测试样本经过 (- 1)/2 个 SVM 分类器进 行判别,对 (- 1)/2 个判别结果进行投票,得票最 多的判别结果为测试样本所属的类别。与 “一对 多”方法相比,在类别数 较大时, “一对一”方(7)(8)pini- uioiMCC(i)=&(pi+ui)(pi+oi)(ni+ui)(ni+oi)!u 2b 2+!o 2b 2&i ii iQ9=(1-i =1i =1)(9)!(pi+oi)2bi2+i =11bi=(10)pi+ui结果和讨论2

18、分段伪氨基酸组成成分预测结果对于数据集 C2129,采用支持向量机算法和 “一对一”分类策略,Jackknife 检验下,分段矩描 述子伪氨基酸组成成分特征提取法的预测结果如表1 所示。从表 1 可以看出,分段矩描述子伪氨基酸2.1组成成分的预测结果优于相应的未分段预测结果,Performance comparisons of AACSm and MDSm using SVM and OVOclassification policyTable 1in Jackknife test for C2191 data setSen (%)MCC (%)Q3 (%)Q9 (%)AACS1Chloropl

19、ast Cytoplasm CytoskeletonEndoplasmic reticulumExtracellular Golgi apparatus Lysosome Mitochondria Nucleus proteins PeroxisomePlasma membraneVacuoleAACS4Chloroplast Cytoplasm CytoskeletonEndoplasmic reticulumExtracellular Golgi apparatus Lysosome Mitochondria Nucleus proteins PeroxisomePlasma membra

20、neVacuoleMDS1Chloroplast Cytoplasm CytoskeletonEndoplasmic reticulumExtracellular Golgi apparatus Lysosome Mitochondria Nucleus proteins PeroxisomePlasma membraneVacuoleMDS4Chloroplast Cytoplasm CytoskeletonEndoplasmic reticulumExtracellular Golgi apparatus Lysosome Mitochondria Nucleus proteins Per

21、oxisomePlasma membraneVacuole-59.387.250.036.770.112.051.432.182.722.292.433.3-80.088.844.138.876.824.056.838.184.922.293.841.7-72.489.344.142.969.232.059.539.384.925.994.129.2-80.090.250.040.875.032.056.842.984.625.995.337.5-0.610.720.660.490.650.300.610.460.720.430.850.45-0.800.750.640.590.710.420

22、.610.500.760.430.900.54-0.760.750.640.580.680.530.680.500.730.470.890.39-0.820.760.680.590.720.560.620.550.770.510.910.5378.0-81.7-80.9-82.7-54.4-58.8-58.6-60.8-例如 MDS4 的总预测精度 Q3 为 82.7%,比未分段MDS1 提高 1.8 个百分点,内容平衡精度指数 Q9 为60.8%,比未分段 MDS1 提高 2.2 百分点;叶绿体的 MDS4 敏感性和 MCC 相关系数分别为 80.0%和0.82,比未分段 MDS1 分别提高

23、 7.6 个百分点和0.06。但分段情况下,有些类别的敏感性和 MCC相 关 系 数 却 出 现 下 降 现 象 , 例 如 细 胞 骨 架(cytoskeleton)、 内 质 网 (endoplasmic reticulum) 和溶酶体 (lysosome),这可能与训练样本数较少 有关,训练集中的细胞骨架、内质网和溶酶体的样本数分别为 34、49、37。一般来说,训练样本数少,不能给分类器提供充分的训练信息,使得预测 结果不稳定,会出现个别评价指标下降现象。为了验证分段伪氨基酸组成成分特征提取方法 的泛化能力,我们采用 Chou 和 Shen 构建的更为 严格的数据集 CS2423,该数

24、据集包含 16 类蛋白质亚细胞定位,且任意两条序列的一致性小于 25%。采 用 支 持 向 量 机 算 法 和 “一 对 一 ” 分 类 策 略 ,Jackknife 检验下,分段伪氨基酸组成成分特征提取法的预测结果如表 2 所示。Performance comparisons of different sequence-segmented PseAACmethodsusing SVMandOVOTable 2classification policy in Jackknife test for CS2423 data setAACS1AACS4MDS1MDS4MSES1MSES4THS1TH

25、S4Q3 (%)Q9 (%)48.329.752.631.950.430.353.332.151.731.155.632.951.431.754.531.9表 2 结果表明分段伪氨基酸组成成分特征提取方法的预测性能优于相应的未分段伪氨基酸组成成 分特征提取方法。4 段矩描述子伪氨基酸组成成分的 Q3 和 Q9 值比未分段矩描述子伪氨基酸组成成分 分别提高 2.9 和 1.8 个百分点;4 段多尺度能量伪氨基酸组成成分的 Q3 和 Q9 值比未分段多尺度能量 伪氨基酸组成成分分别提高 3.9 和 1.8 个百分点。另外 MDSm 特征向量集涉及残基间的长程作用信 息,而 MSESm 和 THSm

26、 特征向量集不仅包含残基 间的长程作用信息,且包含残基的物理化学特征信息,因而 MSESm 和 THSm 的 Q3 值大于 MDSm。 综上所述,分段伪氨基酸组成成分特征提取方法的预测性能优于未分段伪氨基酸组成成分特征提 取方法,即使类别间的样本数量存在不均衡性,该 方法的预测性能仍然较优。另外表 1、2 的结果还说明蛋白质分段序列可能与蛋白质的功能域有一定的关系,基于分段伪氨基酸组成成分特征提取方法 构建的特征向量集包含更多的蛋白质亚细胞定位 信息。2.2与其它方法比较采用 C2191 数据集,Jackknife 检验下,不同方法的预测结果列于表 3。从表 3 可以看出分段矩描述子伪氨基酸组

27、成成分的预测结果明显高于现有 其它方法的预测结果。例如 4 段矩描述子伪氨基酸 组成成分的总预测精度比 Xiao 等人19的复杂性度 量与自相关函数相结合预测方法提高了 9.1 个百分 点。从而表明本文提出的分段伪氨基酸组成成分特 征提取方法可有效地应用于蛋白质亚细胞定位 预测。Table 3 Performance comparisons with other methods using the same data set C2191 in Jackknife testChous1Pans18Xiaos19Gaos20Jiangs21MDS4Q3 (%)73.067.773.669.971.

28、882.7Chou 和 Shen 采用数据集 CS2423,基于功能注释数据库 (Gene ontology,GO),用两性伪氨 基酸组成成分特征提取方法及证据理论 K 近邻分 类器融合算法对蛋白质亚细胞定位进行了预测, Jackknife 检验下取得了 81.6%的预测结果,此预测结果的获得大部分应归功于 GO 特征方法。但是由于 GO 数据库的有限性,并不是每一个蛋白质亚细 胞定位序列都能在 GO 数据库中找到其相应的功能 注释,对这些在 GO 数据库无法发现其相应注释的 蛋白质亚细胞定位,Chou 和 Shen 采用两性伪氨基酸组成成分表示进行预测2。本文提出分段伪氨基酸组成成分表示这部

29、分蛋白质亚细胞定位,预测性 能优于 Chou 和 Shen 的两性伪氨基酸组成成分方 法,THS4 的 Q3 值为 54.5%,比 Chou 和 Shen 的方 法 THS1 提高了 3.1 个百分点。若将我们提出的分 段伪氨基酸组成成分方法和 Chou 和 Shen 的 GO 方法结合,预测蛋白质亚细胞定位,一定能取得较 理想的效果。的特征向量不仅包含残基之间的位置信息,而且还包含蛋白质子序列之间的耦合信息。与现有的基于 完整蛋白质序列的伪氨基酸组成成分特征提取方法 相比,即使类别间的样本数量存在不均衡,该方法 的预测性能仍然较优,其原因在于蛋白质分段子序 列可能和蛋白质的功能域有一定的联系

30、。本文方法 可与 Chou2的 GO 方法及其它方法互为补充,能成 功地应用于蛋白质亚细胞定位、膜蛋白质类型等其 它蛋白质属性预测研究。分段段数对预测精度影响为了研究分段段数对预测结果的影响,采用 C2191 数据集,Jackknife 检验下,不同分段段数 m 对分段氨基酸组成成分 (AACSm)和分段矩描述子 伪氨基酸组成成分 (MDSm)二种特征提取法的预 测结果见图 1。2.3参考文献:1Chou KC. Prediction of protein cellular attributes usingpseudo-amino acid composition. Proteins: Str

31、ucture, Function, and Genetics, 2001,43:246255Chou KC, Shen HB. Predicting eukaryotic protein subcellular location by fusing optimized evidence-theoretic K-nearest neighbor classifiers. Journal of Proteome Research, 2006,5(8):18881897Chou KC, Shen HB. Review: recent progresses in protein subcellular

32、 location prediction. Analytical Biochemistry, 2007,370:116Du P, Li Y. Prediction of protein submitochondria locations by hybridizing pseudo-amino acid composition with various234physicochemical features of segmented sequence.Bioinformatics, 2006,7:518BMC5Mundra P, Kumar M, Kumar KK, Jayaraman VK, K

33、ulkarniBD. Using pseudo amino acid composition to predict protein subnuclear localization: approached with PSSM. Pattern Recognition Letters, 2007,28:16101615Shi JY, Zhang SW, Pan Q, Cheng YM, Xie J. SVM-basedmethod for subcellular localizationof proteinusing multi-scale energy and pseudo amino acid

34、 composition. Amino Acids, 2007,33(1):6974Shi JY, Zhang SW, Pan Q, Zhou GP. Using pseudo aminoacid composition to predict protein subcellular location:67approached with amino acid composition distribution.Acids, 2008, DOI 10.1007/s00726-007-0623-zAmino从图 1 可以看出,分段段数 m 对预测结果有一定的影响,总预测精度随分段段数 m 的变化呈 波

35、动趋势,因而有一个最佳 m 值的选取问题。对 于 C2191 数据集,Jackknife 检验下,分段数 m=4时,分段氨基酸组成成分 (AACSm)和分段矩描述子伪氨基酸组成成分 (MDSm)二种特征提取法有较好的预测结果。针对不同数据集及采用的分段伪氨基酸组成成分特征提取方法,可通过试验选取最 佳 m 值。8Shi JY, Zhang SW, Liang Y, Pan Q. Prediction of proteinsubcellular localizations using moment descriptors and support vector machine. In: Rajap

36、akse JC, Wong L, Acharya R (eds). Pattern Recognition in Bioinformatics. LNBI 4146, Berlin Heidelberg: Springer, 2006. 105114Zhang SW, Zhang YL, Li JH, Yang HF, Cheng YM, Zhou9GP.A new hybrid approach to predict subcellularlocalization by incorporating evolutionary information. In: LiK, Li X, Irwin

37、GW, He G (eds). Life System Modeling andSimulation. LNBI 4689, Berlin Heidelberg: Springer, 2007.172179Zhang SW, Zhang YL, Yang HF, Pan Q. Prediction of结论310subcellularlocalizationbyincorporatingevolutionaryinformation and von Neumann entropies. Amino Acids, 2007,DOI: 10.1007/s00726-007-0010-9施建宇, 潘

38、 泉, 张绍武, 程咏梅. 基于氨基酸组成分布的蛋白本文提出一种分段伪氨基酸组成成分特征提取方法用于蛋白质亚细胞定位预测,基于该方法构成11质同源寡聚体分类研究. 生物物理学报, 2006,22(1):495512 Pu X, Guo J, Leung H, Lin Y. Prediction of membrane protein types from sequences and position-specific scoring matrices. Journal of Theoretical Biology, 2007,247(2):25926513 Mundra P, Kumar M,

39、 Kumar KK, Valadi K. Using pseudoBiology, 2003,35:12561262Pan YX, Zhang ZZ, Guo ZM, Feng GY, Huang Z, He L. Application of pseudo amino acid composition for predicting protein subcellular localization: stochastic signal processing approach. Journal of Protein Chemistry, 2003,22:395402Xiao X, Shao SH

40、, Ding YS, Huang ZD, Huang Y, ChouKC. Using complexity measure factor to predict protein subcellular localization. Amino Acids, 2005,28:576118amino acid composition tolocalization: approached withLetters, 2007,28(13):16101615predictPSSM.proteinPatternsubnuclearRecognition1914 Vapnik V. Statistical l

41、earning theory. New York: Wiely, 199815 王明会, 李 骜, 谢 丹. 蛋白亚细胞定位的预测方法研究. 北 京生物医学工程, 2006,25(6):64965716 李凤敏, 李前忠. 革兰氏阴性菌中蛋白质亚细胞定位预测. 内 蒙古大学学报(自然科学版), 2007,38(1):394320 Gao Y, Shao SH, Xiao X, Ding YS, Huang YS, Huang ZD,Chou KC. Using pseudo amino acid composition to predict protein subcellular locali

42、zation: approached with Lyapunov index, Bessel function, and Chebyshev filter. Amino Acids,2005,28:37337621 姜小莹, 李晓波. 基于伪氨基酸和支持向量机的蛋白质亚细胞 定位预测. 广西农业生物科学, 2006,25(4):34937417 Zhang CT, Zhang R.a content-balancing accuracy indexto evaluate algorithms of protein secondary structure prediction. The Inte

43、rnational Journal of Biochemistry and CellQ9,PREDICTION OF PROTEIN SUBCELLULAR LOCALIZATIONUSING A NOVEL FEATURE EXTRACTION METHOD: SEQUENCE-SEGMENTED PSEUDO AMINO ACID COMPOSITIONYANG Hui-fang, CHENG Yong-mei, ZhANG Shao-wu, PAN Quan(College of Automation, Northwestern Ploytechnical University, Xi!

44、an 710072, China)Knowing the protein subcellular localizations is important because it can provide usefulAbstr act:insights about the protein functions, as well as how and in what kind of cellular environments theproteins interact with each other and with other molecules.A novel feature extraction method: sequence-segmented pseudo amino acid composition (PseAAC) has been developed to predict protein subcellular localizations for the two databases (C2129, CS2423) which were first constructed by Cho

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论