



1、 354 生 物 物 理 学 报 2009年 IDA A 和 IDQSS 为组合参数的预测结果最好,但对 有些膜蛋白的预测精度很低,如 type域类型膜蛋白 的独立检验结果。为此,我们对 8 个类型膜蛋白独 立检验集中的序列逐个进行了低频频谱分析 ( 由于 篇幅所限,图略 ) ,发现 type 域类型膜蛋白振幅频 谱图的低频部分的波形曲线波动剧烈,波形峰值范 围在 0 50 之间,而其它 7 个类别振幅的峰值范围 在 0 20 之间。一般,波形曲线波动剧烈是由于存 在噪声引起的,因而导致 type域类型膜蛋白的独立 检 验结 果 偏低 5,6。从表 3 的结 果可 以 看 出, Chou 等人

Chou 等人

3、al of Theoretical Biology, 2006,2383:95400 HB. MemType-2L: a proteins and information predicting incorporating 9 membrane evolution Pse-PSSM. Biochem Biophys Res Comm, 2007,360:339345 Nakashima H, Nishikawa K, Ooi T. The folding type of a protein is relevant to the amino acid composition. J Biochem,

4、 1986,99:152162 10 Cedano J, Aloy P, P'erez-Pons JA, Querol E. Relation between amino acid composition and cellular location of proteins. J Mol Biol, 1997,266:594600 11 Nanni L. Lumini A. An ensemble of support vector machines for predicting the membrane protein type directly from the amino acid

5、 sequence. A mino A cids , 2008,35:573580 12 Breiman L. Random Forests. Machine Learning, 2001,45 (1: 532 13 蔡 雷, 任大明. 一对重要的 免疫调节分 子: CTLA-4 及 其 抗体 . , 2004,20(5:363366 14 鞠 少 卿 , 倪红兵 , 王惠民 , 王 跃 国 . 肿瘤坏 死 因 子 家 族 成 员 -APRIL. 北京:中国 检验医学中青年论坛文集, 2007 15 裘 捷. 四 跨 膜蛋白 TM4SF4 在 急 性 肝损伤 和 肝癌 中 的 表 达变 化和功

6、能研究 . 上 海 : 中国科学 院 研究 生 院 ( 上 海 生 命 科学 研 究院, 2006 16 周 思 畅 , 倪 崖 . 四 次 跨 膜蛋白 CD9 与 精 卵 融 合 . , 2005,24(1:1315 17 克劳斯 . 信号转导 与调控 的生物化学. 北京 : 化学 工业 出 版社 , 2005 18 蒋贝格 , 孙卫民 . GPI 微 域 与 信 号转导 . 21(1:1517 , 2001, type 芋、type 郁和 Lipid-chain anchor ( 第6类 )的 预测精度也偏低。 anchor (第 6 类)。 同样 , Nanni 等 人 的结 果中 和

type 芋、type 郁和 Lipid-chain anchor ( 第6类 )的 预测精度也偏低。 anchor (第 6 类)。 同样 , Nanni 等 人 的结 果中 和 IDQSS 值 ,从 而 进一 步 提高了 膜蛋白的分 类 识 别率。2 ) 本文采用的随机森林分类方法是一种组 合 分类 器 算法 ,它在大 量数 据 运 算 过 程 中 优 势 明 显,能同时兼顾识别精度和运算速度,是一种有应 用前景的分类方法。这种基于组合向量的随机森林 分类算法,在目前已有的膜蛋白分类方法中尚无使 用。 参考文献: 1 2 Hopkins AL, Groom CR. The druggable genome. Nat Rev Drug Discov , 2002,1(9:727730 本文之所以得到好的预测结果,其原因是:1 ) 由于一个蛋白质序列可以用多种信息描述,因

8、此以 组 合向量为预测参数要 优于 单 预测参 数的 预测 结 果。本文在选取 PseA A 为参数基础上添加了 IDA A 19 Laxton RR. The measure of diversity. J Theor Biol, 1978,71: 5167 20 Li QZ, Lu ZQ. The prediction of the structural class of protein: application of the measure of diversity. J Theor Biol, 2001,213(4:493502 21 P佗nek J, Eidhammer I, Aas

9、land RA. A new method for identification of protein (Sub families in a set of proteins Structcture Function and Bioinformatics , 2005,58(4:923934 22 Weiss O, Herzel H. Correlations in protein sequence and property codes. J Theor Biol, 1998,190:341353 23 Oppenheim AV, Willsky AS, Nawab SH. Signals an

10、d Systems. New York:Prentice Hall, 1985 24 Breiman L, Cutler A, Liaw A, Wiener M. RandomForest: Breiman and Cutler's random forests for classification and regression. Software available at http:/cran.r-project. org/web/packages/randomForest/index.html based on hydropathy distribution in proteins

11、. PROTEINS: Stahlberg H, Fotiadis D, Scheuring S, Remigy H, Braun T, Mitsuoka K, Fujiyoshi Y, Engel A. Two-dimensional crystals: a powerful approach to assess structure, function and dynamics of membrane proteins. FEBS Lett,2001,504:166172 3 Chou KC, Elrod DW. Prediction of membrane protein types and subcellular locations. Proteins Struct Funct Genet, 1999, 34:137153 4 Chou KC. Prediction of protein cellular attributes using pseudo-amino acid composition. Proteins Structure Function and Genetics , 2001,43(3:246255 5 Liu H, Wang M, Chou KC. Low-frequency Fourier spectrum for p


