![支持向量回归用于氨基酸描述符_第1页](http://file4.renrendoc.com/view/27027051b945153cde68f5a6ad62ddab/27027051b945153cde68f5a6ad62ddab1.gif)
![支持向量回归用于氨基酸描述符_第2页](http://file4.renrendoc.com/view/27027051b945153cde68f5a6ad62ddab/27027051b945153cde68f5a6ad62ddab2.gif)
![支持向量回归用于氨基酸描述符_第3页](http://file4.renrendoc.com/view/27027051b945153cde68f5a6ad62ddab/27027051b945153cde68f5a6ad62ddab3.gif)
![支持向量回归用于氨基酸描述符_第4页](http://file4.renrendoc.com/view/27027051b945153cde68f5a6ad62ddab/27027051b945153cde68f5a6ad62ddab4.gif)
![支持向量回归用于氨基酸描述符_第5页](http://file4.renrendoc.com/view/27027051b945153cde68f5a6ad62ddab/27027051b945153cde68f5a6ad62ddab5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
支持向量回归用于氨基酸描述符在肽QSAR建模中的性能评价(黑体三号、居中)应用化学2008级学号2008123张明康(宋体小四号、居中)任课教师印家健副教授(宋体小四号、居中)摘要:(宋体小四号、加粗、顶格)采用支持向量回归方法用3个数据集来评价z-scales、c-scales、ISA-ECI、MS-WHIM、PRIN等5个氨基酸描述符在肽QSAR支持向量回归模型构建中的性能并对核函数进行选择,采用留一法交叉检验的结果显示径向基核函数要好于多项式核函数和线性核函数;在以径向基核函数的支持向量回归模型中表明z-scales的预测准确度要略优于其它描述符,且在同一描述符的情况下SVR的预测效果要好于其它线性方法,说明SVR在肽QSAR模型构建中是一个可行的方法。(中文用楷体小四号、英文用TimesNewRoman小四号、两端对齐)关键词:(宋体小四号、加粗、顶格)肽,定量构效关系,核函数,支持向量回归,性能评价(楷体小四号、两端对齐)(关键词间,用逗号隔开)多肽具有高活性、高选择性及副作用小的特点,是维持生命过程中必不可少的物质,目前已成为药物研究的热点之一。在多肽类似物的研究和开发中,定量构效关系(Quantitativestructure-activityrelationships,QSAR)是一个重要的理论计算方法和常用手段。所谓多肽QSAR,就是用数学模式来表达多肽类似物的化学结构信息与特定的生物活性强度间的相互关系[1,2]。多肽的化学结构描述符普遍采用氨基酸的结构描述参数去定量描述多肽的化学结构和性质,其基本思路是以多肽的最基本的结构信息——氨基酸序列为基础,对一系列多肽类似物中变化的氨基酸残基进行定量描述,并把氨基酸序列转换成结构描述符矩阵的一个向量[1,2]。目前在肽QSAR模型中常用的氨基酸描述符主要有:基于实验的z-scales[1]、基于理论计算的t-scales[3]、ISA(isotropicsurfacearea)-ECI(electronicchargeindex)[4]、MS-WHIMscores[5]、PRIN[6]、c-scales[7]以及基于分子拓扑学的MHDV(molecularholographicdistancevector)及其衍变的拓扑描述符[8-10]。在多肽QSAR数学模型方面,文献中常用的有多元线性回归(multiplelinearregression,MLR)[10]、主成分回归(principalcomponentregression,PCR)[8]、偏最小二乘(partialleastsquares,PLS)[1,4,5]和遗传算法与偏最小二乘法相结合(geneticalgorithm-partialleastsquares,G/PLS)等方法[7],但这些方法都是线性方法,且对高维、非线性、小样本问题的解析能力有限。目前,支持向量机[12](supportvectormachine,SVM)已广泛的用于各学科领域[13-15],故我们尝试采用支持向量回归(supportvectorregression,SVR)[16]方法研究多肽QSAR数学建模,分别用48个苦味二肽、58个ACE(angiotensinconvertingenzyme)抑制剂二肽和30个缓激肽增效剂五肽等作为数据集,采用留一法交叉检验来评价z-scales、c-scales、ISA-ECI、MS-WHIM、PRIN等5个氨基酸描述符在肽QSAR支持向量回归模型构建中的性能并对核函数进行选择,结果显示径向基核函数要好于多项式核函数和线性核函数;在以径向基核函数的支持向量回归模型中表明z-scales的预测准确度要略优于其它描述符,且在同一描述符的情况下SVR的预测效果要好于G/PLS和PLS等方法,说明SVR在肽QSAR模型构建中是一种可行的方法。(中文用宋体小四号、英文用TimesNewRoman小四号、段前缩进2个汉字,两端对齐)1支持向量回归算法[12,15,17]及其实现(中文用宋体四号、英文用TimesNewRoman四号、加粗,顶格、两端对齐,序号后空1格,不用标点符号)近年来,有限样本情况下的机器学习理论研究逐渐成熟,形成了一个较完善的理论体系—--统计学习理论[17]。支持向量机是Vapnik等人根据统计学习理论提出的一种新的模式识别方法,它是建立在统计学理论VC维(Vapnik-Chervonenksdimension)理论和结构风险最小原理(structuralriskminimizationinductiveprinciple)基础上的,能较好地解决小样本、非线性、高维数等实际问题,并成功地解决了过拟合的控制问题,提高了算法的预报能力,并成功的应用于分类、函数逼近和时间序列预测等方面。而肽生物活性值的预测问题也可以看作是一种对活性值与其影响因子之间复杂的非线性函数关系的逼近问题,因此我们尝试将支持向量回归应用于肽活性值的预测建模并利用SVR方法来评价各氨基酸描述符在肽QSAR模型中的建模能力,以及分析多肽中各氨基酸性质对其活性值的影响。利用MATLAB语言及所带的优化工具箱可以很容易的实现上述算法。2数据来源及处理2.15个重要的氨基酸描述符(中文用宋体小四号、英文用TimesNewRoman小四号、加粗,顶格、两端对齐,序号间用圆点隔开,最后空1格,不再用标点符号)利用SVR模型对氨基酸描述符作肽QSAR预测性能的评价,选用的5个氨基酸描述符见表1,其中code为20个天然氨基酸的单字母符。(表格采用三线表)(表题:中文用宋体五号、英文用TimesNewRoman五号、加粗,居中,表序后空1格,不用标点符号)(英文表题:TimesNewRoman五号、加粗,居中,表序后空2格,不用标点符号)表15个氨基酸描述符的数值Table1numericalvalueoffiveaminoaciddescriptorsCODEz-scalesc-scalesISA-ECIMS-WHIMPRINZ1Z2Z3C1C2C312123123A0.07-1.730.09-10.86-4.42-0.9262.930.05-0.730.2-0.62-1.02-7.990.77R2.882.52-3.4412.339.68-7.5552.981.69-0.220.271.00-8.4310.180.78N3.221.450.84-2.496.572.4317.871.310.140.2-0.66-8.000.33-2.46D3.641.132.36-3.188.315.4618.461.250.11-1.00-0.96-10.27-0.38-2.71C0.71-0.974.13-7.061.252.6378.510.15-0.660.26-0.275.73-3.30-8.14Q2.180.53-1.141.846.980.3519.531.360.31.00-0.3-7.402.52-0.92E3.080.39-0.070.928.884.4430.191.310.24-0.39-0.04-8.821.43-1.35G2.23-5.360.3-14.99-2.541.9719.930.02-0.31-0.28-0.75-4.64-10.721.75H2.411.741.114.98-4.484.287.380.560.840.67-0.78-0.933.33-2.24I-4.44-1.68-1.030.32-4.02-6.38149.770.09-0.910.83-0.2511.12-1.951.82L-4.19-1.03-0.980.41-4.54-6.56154.350.1-0.740.72-0.169.40-1.561.89K2.841.41-1-6.12102.780.53-0.510.080.6-8.507.273.87M-2.49-0.27-0.411.560.45-3.22132.220.34-0.71.00-0.327.880.31-2.56F-4.921.30.456.62-6.972.68189.420.140.760.85-0.3411.512.66-0.48P-1.220.882.23-5.04-4.65-1.52122.350.16-0.430.73-0.6-1.36-3.449.00S1.96-1.630.57-8.471.642.3519.750.56-0.80.61-1.00-6.60-5.25-1.13T0.92-2.09-1.4-5.2-0.82-0.159.440.65-0.580.85-0.89-4.09-3.390.17W-4.753.650.8516.56-8.236.03179.161.081.000.98-0.4711.927.921.25Y-1.392.320.0110.36-2.084.51132.160.720.970.66-0.164.806.330.05V-2.69-2.53-1.29-3.73-5.14-4.72120.910.07-1.000.79-0.587.70-4.270.63………………………………………………………….3结果与讨论在SVR模型中,通过依次去掉肽链中的每个氨基酸的z-scales中的一个值,根据模型LOO-CV法的PRESS值的大小可以判断每个氨基酸对此类肽类似物生物活性的影响。为此,以每去掉一个z-scales的模型(5个参数)的PRESS与原模型(6个参数)的PRESS的差值为纵坐标,以依次去掉z-scales中的一个值的顺序为横坐标作图(图2、图4、图6)。由于z1主要和氨基酸的亲水性有关、z2同氨基酸的立体大小有关和z3主要氨基酸的电性参数有关[5]。所以,由图2可知,PRESS在依次分别去掉第一、二位氨基酸的z1时升高很多,说明苦味二肽的活性主要与两个位置的疏水性性质有关,这与文献相一致[4];PRESS在依次分别去掉第一、二位氨基酸的z2时略有升高,苦味二肽的活性主要与两个位置的立体大小性质弱相关;去掉z3时几乎没有变化,表明与其电性性质无关。图248个苦味二肽PRESS差值与去掉氨基酸性质位置Figure1Plotof图248个苦味二肽PRESS差值与去掉氨基酸性质位置Figure1Plotof△PRESSandremovedaminoacidpropertypositionofaset48bittertastingdipeptideswithz-scales(图题:中文用宋体五号、英文用TimesNewRoman五号、加粗,居中,序序后空1格,不用标点符号)(英文图题:TimesNewRoman五号、加粗,居中,图序后空2格,不用标点符号)(图注:中文用宋体五号、英文用TimesNewRoman五号,居中)…………………………..…….……….参考文献(中文用宋体四号加粗,顶格、左端对齐,不用序号)[1](TimesNewRoman五号、后空1格,不用标点符号)HellbergS,SjostroemM,SkagerbergB,etal.Peptidequantitativestructure-activityrelationships,amultivariateapproach[J].J.MedChem,1987,30:1126-1135.[2]丁俊杰,丁晓琴,赵立峰,等.多肽定量构效关系与分子设计[J].化学进展,2005,17:130-136.[3]CocchiM,JohanssonE.AminoacidscharacterizationbyGRIDandmultivariatedataanalysis[J].QuantStruct-Act.Relat.,1993,12:1-8.[4]CollantesER,DunnWJIII.Aminoacidssidechaindescriptorsforquantitativestructure-activityrelationshipstudiesofpeptideanalogues[J].J.Med.Chem.,1995,3:2705-2713.[5]ZalianiA,GanciaE.MS-WHIMscoresforaminoacids:anew3D-descriptorforpeptideQSARandQSPRstudies[J],J.Chem.Inf.Comput.Sci,1999,39:525-533.[6]SpyridonV,BoojalaVBR,andYiannisK.Predictionofdistantresiduecontactswiththeuseofevolutionaryinformation[J].Proteins:structure,function,andbioinformatics,2005,58:935-949.[7]丁俊杰,丁晓琴,赵立峰,等.新型三维氨基酸结构描述符的研究及其在多肽QSAR中的应用[J].药学学报,2005,40(4):340-346.[8]ShushenLiu,ChunshengYin,Shaoxi,etal,ANovelMHDVDescriptorforDipeptideQSARStudies[J].JournaloftheChineseChemicalSociety,2001,48:253-260.[9]ShengshiZhiliangLi,BianhongFua,YuanqiangWang,etal.OnStructuralParameterizationandMolecularModelingofPeptideAnaloguesbyMolecularElectronegativityedgeVector(VMEE):EstimationandPredictionforBiologicalActivityofDipeptides[J],JournaloftheChineseChemicalSociety,2001,48:937-944.[10]LiuShu-Shen,YinChun-sheng,WangLian-Sheng.CombinedMEDV-GA-MLRMethodforQSARofThreePanelsofSteroid,Dipeptides,andCOX-2Inhibitors[J].J.chem.Ipu.sci,2002,42:749-756.[11]LinZhihua,WuYuzhang,QuanXuejun,etal.Useofanovelelectrotopologicaldescriptorforthepredictionofbiologicalactivityofpeptideanalogues[J].LettersinPeptideScience,2002,9:273-281.[12]NelloCristianini,JohnShawe-Taylor著.李国正,王猛,曾华军译.支持向量机导论[M].北京:电子工业出版社,2004,98-106.[13]MANOJBHASIN,GPSRAGHAVA.AnalysisandpredictionofaffinityofTAPbindingpeptidesusingcascadeSVM[J].ProteinScience,2004,13:596–607.[14
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年企业内部员工培训及技能提升服务合同范本
- 四月七日世界卫生日2024主题活动总结(6篇)
- 2025年农业订单种植与收购协议书
- 2025年官方仓库租赁协议
- 2025年临时演员在影视作品中的雇佣合同示例
- 2025年再婚配偶财产分配规定协议
- 2025版学生权益保护协议书
- 2025年交通基础设施设计与施工合同协议
- 2025年全球电子商务合作协议
- 2025年设备采购与租赁合同模版
- 宋晓峰辣目洋子小品《来啦老妹儿》剧本台词手稿
- 、医院设备科制度、职责、预案、流程图
- 水泥罐安装与拆除专项施工方案
- 高血压(最新版)课件
- 钢筋工专项安全教育
- 小学科学试卷分析及改进措施(通用6篇)
- 脱硫塔内部(玻璃鳞片防腐涂层)维修工程施工、组织、设计方案(附:质量、安全、环境保护措施与技术交底)
- 视频号运营方案
- 《深化新时代教育评价改革总体方案》学习解读
- (研究生)商业伦理与会计职业道德ppt教学课件(完整版)
- 中医学课件:第三章 藏象学说
评论
0/150
提交评论