应用R进行QSAR的尝试_第1页
应用R进行QSAR的尝试_第2页
应用R进行QSAR的尝试_第3页
应用R进行QSAR的尝试_第4页
应用R进行QSAR的尝试_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

马斌:R在QSAR中的应用1关于QSAR的背景

定量构效关系(QuantitativeStructure-ActivityRelationship,简称QSAR)是指利用理论计算和统计分析工具来研究系列化合物结构与其效应之间的定量关系,即借助结构参数构建数学模型来描述化合物结构与活性之间的关系。第1页/共21页第一页,共22页。马斌:R在QSAR中的应用2环境科学中进行QSAR的目的由于测定化合物的各种毒性需要花费大量的人力、物力和财力,人们不可能对众多化学品进行逐一测定而利用QSAR模型即可对化学品的生物毒性和环境行为进行预测,并筛选出具有潜在危害的化学品,这在环境科学研究中无疑是一件极具意义的工作第2页/共21页第二页,共22页。马斌:R在QSAR中的应用3R与QSAR统计分析工具数学模型构建第3页/共21页第三页,共22页。马斌:R在QSAR中的应用4QSAR中需要的数学方法R中的各种包提供几乎所有QSAR研究需要的数学方法如果将这些方法集合为一个QSAR专用的包,无论对R的发展还是QSAR的应用都是有利的第4页/共21页第四页,共22页。马斌:R在QSAR中的应用5QSAR过程与R结构参数的计算R的meta-analysis包主观筛选客观筛选多元分析神经网络交叉验证法蒙特卡罗验证输入未知参数第5页/共21页第五页,共22页。马斌:R在QSAR中的应用6R中包含QSAR数学方法的包逐步回归stepPLrstepwise前进法forwardlars遗传算法rfwdmvgafitgenalg多元分析lmtestbpcadepthheplotsICSLabdsvLeaps……神经网络NeuralNeuralnet偏最小二乘法GplsPlsLsplsPlsPlsgenomiPplsgplsSpls第6页/共21页第六页,共22页。马斌:R在QSAR中的应用7R是QSAR的有力工具,但是……需要的数学方法分散在大量不同的包中,就如无数的宝藏埋藏在世界各地。第7页/共21页第七页,共22页。马斌:R在QSAR中的应用8应用R进行QSAR的一个尝试以R进行多环芳烃(PAHs)在植物根际消解效果的QSAR分析为例子来说明R再QSAR中的应用。第8页/共21页第八页,共22页。马斌:R在QSAR中的应用9为什么研究多环芳烃(PAHs)第9页/共21页第九页,共22页。马斌:R在QSAR中的应用10数据库的建立活性参数是PAHs在植物根际消解效果,采用meta-analysis中常用的效应值(effectsizes,d)表示。d=ln(E/C)

分子结构参数通过Dragon5(Talanet)计算得到965个结构参数,包括拓扑参数和理化参数。第10页/共21页第十页,共22页。马斌:R在QSAR中的应用11参数的筛选用主观选择对结构参数进行筛选,去掉所有值为恒量的参数,然后计算余下参数的相关系数矩阵,去掉相关系数大于等于0.95的两个参数中的一个。采用R极大提高筛选效率

第11页/共21页第十一页,共22页。马斌:R在QSAR中的应用12R中结构参数的主观筛选(去除恒量)>mol.structure<-read.csv('mol_indeces.csv',+sep=',',header=TRUE,dec='.')>dim.mol<-dim(mol.structure)>a<-dim.mol[1]>n<-0>for(kin1:(dim.mol[2]-n)){if(mol.structure[1,k]==mol.structure[a,k])+{mol.structure<-mol.structure[,-k];+n<-n+1;+k<-k-1}}>write.table(mol.structure,file='molstruc1.csv',sep=',')第12页/共21页第十二页,共22页。马斌:R在QSAR中的应用13R中结构参数的主观筛选(去除高相关性参数)cor.matrix<-cor(mol.structure)dim.cor<-dim(cor.matrix)m<-0for(iin1:(dim.cor[1]-1)){for(jin(i+1):(dim.cor[2])){if(cor.matrix[i,j]>=0.95){+mol.structure<-mol.structure[,-i];+i<-i+1}}}dim(mol.structure)write.table(cor.matrix,file='matrix.csv',sep=',')write.table(mol.structure,file='molstruc2.csv',sep=',')第13页/共21页第十三页,共22页。马斌:R在QSAR中的应用14PLS构建模型#modelingQSARbyPLSlibrary(pls)lnR<-read.table('lnR.csv',header=TRUE,sep=',')data<-cbind(lnR,mol.structure)QSAR<-plsr(lnR~MLOGP2+MSD+Se+ZM1+X0Χv++X6ΧCH+Eig1Z.1+TI2+MWC08+piPC08++GGI2+AEig1Z+VRD2+IDDM+HDcpx+IC0+CIC0++BIC0+TIC1+SIC1+BIC1+CIC2,data=data,+method='simpls',model=TRUE)第14页/共21页第十四页,共22页。马斌:R在QSAR中的应用15模型验证#cross-validationtheQSARmodelcrossval<-crossval(QSAR,segments=40,+segment.type=c("random"))RMSEP<-RMSEP(QSAR)R2<-R2(QSAR)plot(crossval)plot(RMSEP)plot(R2)plot(QSAR,ncomp=15)第15页/共21页第十五页,共22页。马斌:R在QSAR中的应用16RMSE和R2R2RMSE第16页/共21页第十六页,共22页。马斌:R在QSAR中的应用17优化预测模型第17页/共21页第十七页,共22页。马斌:R在QSAR中的应用18用于预测和预报#predictunstudiedcompoundperylene<-read.table(‘perylene.csv’,header=TRUE,sep=’,’)new.mol<-predict(QSAR,type="response",newdata=perylene)输入还没有研究资料的perylene的结构参数,得到效应值为-0.86第18页/共21页第十八页,共22页。马斌:R在QSAR中的应用19结论与展望R在QSAR分析中的最大特点是快捷和简便。QSAR的模型构建、验证和应用过程中都有多种方法可以选择,而这些方法目前都分布在不同的包中收集和整理各种常用的QSAR用到的方法,编写QSAR常用过程的函数,并开发出不断更新的包就尤为重要本文为R的QSAR包作出了一个开端第19页/共21页第十九页,共22页。马斌:R在QSAR中的应用20致谢感谢第一届R会议的所有贡献者本文的完成要感谢中国人民大学谢益辉的鼓励和杭州电子科技大学郑冰的大力帮助本文得到国家863计划(2007AA061101)、国家自然基金(40671092,20707020)和浙江省重点科技项目(2008C13024-3)的资助第20页/共21页第二十页,共22页。马斌:R在QSAR中的应用21感谢您的观看!第21页/共21页第二十一页,共22页。内容总结马斌:R在QSAR中的应用。第1页/共21页。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论