




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、LogP,LogD 对有机化合物的QSAR的研究摘要: 自从 20 世纪60 年代QSAR/QSP研究兴起以来R, 人们研究有机化合物的脂水分配系数和溶解度的计算方法已经有近半个世纪.目前存在众多方法用于计算有机化合物的脂水分配系数和溶解度.相对而言 , 脂水分配系数的计算方法更为成熟一些, 应用范围更广,效果也更好.关键词:脂水分配系数; logP/logD; QSAR1. 基本概念1.1 脂水分配系数的定义有机化合物的脂水分配系数(P) 通常是指化合物在正辛醇和水两相间的分配系数, 以其对数值来表示其大小,标记为其中 Coct 和 Cw分别为化合物在正辛醇和水两相间达到平衡时的浓度 . l
2、ogP 在许多QSAR研究中都是用于衡量有机化合物疏水性的重要参数 . 当今各大制药公司都已经将logP 列为活性化合物必测的标准参数之一. 通常 P 给出的是中性化合物在两相间的分配系数. 对 于可电离的化合物, 情况则变得相当复杂, 这时使用分配率D(distributionrate) 来表示溶质在两相间总的分配系数. 例如 , 对于可电离的溶质HA可有:. D 是与其中 HA, A- 分别代表溶质的中性状态和离子状态的浓度溶质的酸碱解离常数pKa 以及溶液的pH值相关的参数. 假设溶质HA是仅在水相电离的一元酸, 则有 :然而 , 如果溶质分子含有不止一个电离中心而且在正辛醇相中也是可以
3、电离的, 此时溶质在溶液中的存在形式就变得相当复杂像公式 (4) 这样的简单关系就已经不再成立. 对于含多个可电离基团的复杂溶质分子, D 的具体表达式可描述为:这里 表示溶质在溶液中的第i 种离子形式, 根据电离平衡关系,其在两相间的浓度与溶液pH值以及可电离基团的pKa 都密切相关.1.2 、 QSAR研究的兴起有机化合物的定量结构一活性相关(Quantitative Structure Activity Relationship) 最初是作为定量药物设计的一个研究分支领域而发展起来的。早在 l9 世纪, 人们对化学结构有了初步口识后,就有人设法建立化合物的生物活性与结构的关系。后来发现,
4、当时归纳的所谓通用规则并不存在。到了20 世纪初,人们普遍认为化合物的生物效应主要取决于它们的物理性质,如溶解度、表面张力、分配系数等Hansch( 1962)和 Free Wilson( 1964) 运用统计方法并借助计算机建立起结构活性关系表达式标志着QSAR时代的开始,从此成为一个相当活跃的前沿领域。QSAR 之所以有如此令人振奋的发展,一方面是化学品评价的需要。据美国化学文摘(CA)统计,化学物质已达近千万种而且已有约十万种化学物质进入了人类环境。那么这些进入人类环境的化学物质中,哪些对环境中的生物和人类有危害,危害的程度如何怎样控制和减少危害都需要对这些化学物质进行理化性质和生物活性
5、实验。但是, 据估计仅每个化学物质的急性皮肤毒性、双周吸入毒性和二年饮食毒性三个指标的测试费用即达2900 5000 万美元。所以,要对所有化合物进行毒理学、生态学的全面测试,财力上不可能,人力上也无法傲到。必须找到一种行之有效的方法进行定量计算或近似估计,QSAR则可做到这一点。2. 现有主要的logP 计算方法简介脂水分配系数的概念最早是由Hansch和 Fujita 提出的 , 同时他们也发展出了第一种logP 计算方法 . 随后 Rekker等提出了第一种片段加合法模型. Broto 等进一步完善了Rekker 模型中的片段划分策略 , 发展出第一种原子加合法模型. 一直以来研究者们对
6、改进和发展新的 logP 预测方法有着浓厚的兴趣, 更多的 logP 预测模型相继出现 , 方法的准确度也不断提高. 现有的 logP 预测方法主要可以分成两大类 : 片段加合法和基于描述符的方法.2.1 片段加合法在过去几十年里, 许多基于片段加合法的logP 计算模型相继被提出 , 有些还实现了商业化. 目前国际上比较流行的此类方法主要有:, 以及各种方法的基本信息总结于表 2 中 . 这些方法的主要区别在于片段划分规则以及矫正项的设计 .2.1.1 CLOGPCLOGP 是由Hansch和 Leo最早发展起来的一种预测化合物logP的模型 , 也是目前应用最广泛的logP 预测方法之一.
7、 在 CLOGP模型中最基本片段的贡献值是由一些具有logP 精确实验值的简单化合物( 如甲烷等) 推导而来的. 然后其余片段的贡献值在前面的基础上由复杂化合物的logP 实验数据推导而来. 最值得注意的是此方法在定义片段的规则中使用了 “孤立碳原子”的概念 . 这里一个孤立碳原子是指不与杂原子相连的碳原子, 或者与杂原子相连, 但是不是通过双键或叁键相连的碳原子. 在较早期的CLOGP版本中使用了200种类型的片段和25 种矫正项 . 从最早被Chou和 Jurs 推广应用到后来商业化的几十年中, CLOGP在学术界以及工业界得到了广泛的使用, 一直以来被作为有机化合物脂水分配系数计算方法的
8、标准.2.1.2 ACD/LogPACD/LogP 由 ACD/Labs公司研发, 也是目前最常用的计算有机化合物 logP 值的商业软件之一.ACD/LogP 算法考虑基本原子类型、特征结构片段以及加入不同片段之间的相互作用矫正项.ACD/LogP所使用的片段分类规则与CLOGP有所不同, 定义的特征结构片段超过1200 个 . 分子内相互作用矫正项依据相互作用的末端基团类型及相互作用体系的片段长度和类别进行划分, 包括超过2400 对基团的相互作用 . 以上每一项的贡献值通过对ACD/Labs 内部数据库(>18400个化合物 ) 的 logP 实验值进行统计分析获得.ACD/Log
9、P 的计算方法可用下述方程表示:其中 fi 表示提问分子第i 种片段的贡献, Qj 表示提问分子第j 种特殊片段的贡献, 和分别表示提问分子被k 个数目的脂肪类、乙烯基类和芳香类原子分隔的第i 种和第 j 种片段的相互作用矫正项贡献值. ACD/LogP 的基本计算步骤如下: (1) 结构分割和计算f 值 , 缺失的片段使用原子加合法计算; (2) 计算 值 ,没有相互作用的片段使用类似于Hammett 方程的方式计算; (3) 加合所有 f 和 值 . 目前 ACD/Labs还发展了计算可电离化合物logD值的功能 , 但是其具体算法未见公开报道.2.1.3 KOWWINKOWWIN 是由
10、Meylan 和 Howard发展的基于原子类型和特征片段加合法估算有机化合物logP 值的模型 . 模型中使用的13062个化合物的 logP 实验数据中有9500个来自CLOGP方法所使用训练集中较为可靠的数据. 这些数据划分为一个训练集, 包含 2473 个简单的有机分子 ; 另一部分作为测试集, 包含 10589个简单、 中等以及复杂的分子.在建立KOWWIN模型的过程中, 使用两步多元线性回归分析来给. 首先不考虑矫正项, 仅采用简单化合物作为训练集通过回归分析得出每种特征片段的贡献值. 其后再使用包含复杂化合物的训练集, 在前一步结果的基础上, 以仅由特征片段的贡献值估算的logP
11、 值与实验值的差值进行回归分析, 得出每种矫正项的贡献值.目前最新版本的KOWWI方法使用N150 种原子类型和特征片段以及 250 种矫正项 . 模型可表达为:其中分别是提问分子中第k 种原子或片段对logP 的贡献值和数目 ; Fj, Nj 分别是提问分子中第j 种矫正项对logP 的贡献值和出现次数 . 0.229 是多元线性回归得出的常数. 最近 Meylan 等提出一 种 改 进 策 略 . 他 们 在KOWWIN方 法 中 应 用 了 “ experimentalvalueadjusted(EVA) ” 算法 , 其基本思想是: 对于提问分子, 可以使用一个 logP 实验值已知的
12、类似物作为参考分子. 但是由于在他们的方法中参考分子必须由用户自己指定, 使用起来很不方便.2.2 基于描述符的方法得出以下关系式:, 根据热力学循环可以上式中代表溶质分子在两相之间迁移的自由能变化 , 和 分别表示溶质在正辛醇相及水相中的溶剂化能.理论预测在溶液中的自由能变化相当难, 因此一般都是从形成这一过程的物理化学影响因素归纳出一些描述符来经验地估算logP.自 Rogers 等提出第一个基于描述符的logP 计算模型至今, 此类方法已有多种见诸报道, 见表三, 使用的描述符主要包括经验描述符、 拓扑描述符以及代表分子3D结构的描述符. 根据描述符的来源,这些方法又可分为多种类型.2.
13、2.1 BLOGP早期出现的一种基于描述符的方法是Bodor等发展的BLOGP方法.这种方法使用原子部分电荷、偶极矩和描述分子大小的参数等作为描述符 . 该种方法在建立模型时首先需要优化训练集中化合物的三维结构 , 然后再使用AM1 法计算各描述符的取值, 最后采用线性回归方法来获得每个描述符对脂水分配系数的贡献值. 其早期报道的结果仅适用于含有C、 H、O、 N原子的化合物, 具体的计算公式如下:其中各描述符分别为: S 表示分子的表面积; O 为分子椭圆度;是指烷烃指示变量(分子为烷烃数值为1, 否则为 0); MW为分子量 ; D为偶极矩估算值QON是分子中氮氧原子电荷绝对值的加合; Q
14、N是所有N原子上电荷平方和的均方根; QO是所有O原子上电荷平方和的均方根.该模型样本数n 为 118 费舍指数F 为 115, 实验值与预测值之间的相关系数 r 为 0.9388, 标准误差SE为 0.296, 自由度 dof 大小为 104. 与片段加合法相比, 此种方法使用的描述符数量大大减少. 但是 BLOGP方法的计算效果不是很好, 可以适用的化合物非常有限. 另外 ,BLOG方法所采用的计算公式物理意义不明确, 为了提高统计结果引入了非线性项, 这种做法并不值得推荐2.2.2 MLOGP在目前计算logP 的方法中有一系列方法是基于分子结构的拓扑描述符 . 使用拓扑描述符的一大优点
15、是计算速度快, 对于处理较大的数据集非常有效. MLOGP是较早出现的此类方法, 由 Moriguch 等提出 . 在 MLOGP模型中亲脂基团数目(CX,分子中碳原子和卤素原子的总数) 和亲水基团数(NO分子中所有氮氧原子数之和) 是两个最基本的描述符 . 单独使用CX和 NO描述符就可使所研究的1230个化合物中 73%的估算值处于可信范围内. 此外再结合其它11 个矫正项, 估算值的可信范围可覆盖达91%.这些参数描述邻位作用、分子不饱和度、 两性特征以及其他官能团信息. MLOG模型的具体计算公式如下P:其中参数PRX用来描述氮氧原子的邻近效应; UB为不饱和键总数; HB描述分子内氢
16、键的影响; POL 为芳环上的极性取代基数目; AMP 描述分子的两性特征; ALK为描述烷烃、烯烃、 环烷烃或环烯烃的参数; RNG描述分子中所含的环结构; QN 为关于季胺的参数; NO2为分子中所含硝基的数目; NCS为硫氰基和异硫氰基的数目 ; BLM描述分子中存在的 -内酰胺结构. 该模型采用的样本数n为 1230, 结果显示实验值与预测值之间的相关系数r 为 0.952, 标准偏差 s 为 0.411, 费舍指数F0(13, 1216) 达到 900.4, 表示在MLOGP研究范围内 , 使用公式(17) 计算 logP 有相当高的精度. MLOGP方法也可用于估算有机化合物的水溶
17、解度, 目前此方法已被应用于某些软件的 ADMET性质计算模块中.2.2.3 SLIPPER考虑到分子尺度和氢键强度对分子logP 的重要性 , Raevsky 等发展的SLIPPER方法使用极化率琢和氢键受体强度移Ca 两个描述符来估算2850 个简单化合物的 logP 值 , 基 本 计 算 方 法 如下:但是使用以上公式计算多官能团化合物时碰到了问题, 主要是分子间相互作用存在影响. 于是 Raevsky 等使用结构相似的化合物的有关信息来矫正logP, 即 :这里 N 表示相似邻近化合物数目,和 分别是第j 个类似化合物的logP 实验值、极化率和氢键受体强度总和. 发展该模型所使用的
18、训练集包括10937 个已知 logP 实验值的化合物. SLIPPER同时也采用了类似的方法可以用于估算溶解度logS.2.2.4 ALOGPSALOGPS 方法由 Tetko 等提出 , 是目前基于描述符的logP 计算方法中的代表工作. 该方法使用电子状态拓扑指数作为描述符 . 电子状态拓扑指数考虑原子的价层电子状态和化学拓扑环境,已被成功地用于建立研究有机化合物的物理化学性质以及生物活性等多种QSAR模型. 自从第一个ALOGPS模型在1999年提出以来, 该方法已经进行了多次改进. 第一个ALOGP模型建立时使用了S32种原子类型的描述符 , 使用了 345 种类药化合物作为训练集,
19、 使用线性回归和神经网络方法给出了相似的预测结果( 相关系数q2=0.83-0.84, 均方根误差RMSLEOO=0.69-0.72 单位 ). 第二次改进对描述符进行了拓展以便能够更好地描述氮、氧原子周围的化学环境 , 另外还加入了如分子量等其他描述符. 训练集也拓展为1754 个化合物. 最新版的ALOGPS方法使用PHYSPRO数据库中的P12908 个化合物作为训练集, 75 种描述符 , 使用神经网络系统 , 从所用化合物中随机选择50%作为训练集, logP 的平均预测精度可达 0.35 单位 . 最近ALOGPS方法也被拓展用于预测化合物的logD3. 总结与展望自从 20世纪
20、60年代QSAR/QSP研究兴起以来R, 人们研究有机化合物的脂水分配系数和溶解度的计算方法已经有近半个世纪. 目前存在众多方法用于计算有机化合物的脂水分配系数和溶解度. 相对而言 , 脂水分配系数的计算方法更为成熟一些, 应用范围更广, 效果也更好. 这是由于溶质的溶解过程相对于溶质在正辛醇与水两种液相间的分配是更为复杂的物理化学过程, 它不仅包含溶质- 溶剂相互作用 , 还包含溶质分子间的相互作用. 对于固体溶质还需考虑相变过程 , 这也是计算溶解度所面临的主要挑战之一. 目前溶解度的计算方法对于结构比较简单的有机化合物效果较好, 对于结构比较复杂的、 多官能团的化合物则较不适用. 对有机
21、化合物脂水分配系数的计算实际上在一定程度上也存在这一现象.对于有机化合物脂水分配系数和溶解度的计算, 近年来较少出现在方法上有较大创新而且效果比较好的模型, 主要仍是过去一些具有影响力的模型的持续改进工作. 笔者认为无论是片段加合法还是基于描述符的方法, 继续向前发展似乎难有重大突破. 未来这种重大突破应该来自于对溶质在溶液中行为的基于第一性原理的基础研究 . 近年来计算机的计算能力得到了大大提升, 相比之下各种基础理论的发展似乎显得滞后了. 希望这种基础研究可以探讨影响溶质在溶液中行为的关键因素, 从而对经验方法的发展也有所指导. 此类研究也应该特别关注有机化合物脂水分配系数和溶解度实验数据
22、的质量问题. 所谓 “巧妇难为无米之炊”, 高质量的数据对于发展和检验高质量的计算方法的重要性是不言而喻的. 在此方面需要提倡推广规范化的实验测量方法, 并且需要对现有的实验数据进行认真的复核 . 另外一个需要关注的问题是: 目前公开报道的各种方法基本都是使用各自编辑的测试集, 自说自话, 各种方法的性能因此很难进行横向比较. 为了公正地比较各种方法的准确度, 特别需要建立标准的测试集. 这样的测试集最好包含有相当数量的、具有可靠实验数据的化合物, 入选化合物的化学结构应该具有多样性和代表性. 这是一件目前应该做而且也是可以做到的事情.参考文献:卡米尔·乔治·维尔穆特 . 创新药物化学M1 第 2版 1 广州 : 广东世界图书出版公司, 2005:447- 4791王连生 (WangLS) , 韩朔睽 (Han SK) , 孔令仁 (KongLR) , 等 . 分子结构
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度绿色出行产业劳动用工协议
- 2025年度现代化办公场地租赁合同
- 2025年度艺术品修复分期租赁合同
- 2025年度矿山企业聘用矿山车辆司机劳动合同
- 2025年林地经营权租赁与生态保护补偿金核算合同
- 二零二五年度新能源领域股权无偿转让协议
- 二零二五年度医疗健康居间合同纠纷管辖权调解书
- 2025年度蔬菜苗种植环境监测与保护合作协议
- 二零二五年度房产继承更名及税费结算协议
- 二零二五年度水上救援驾驶员聘用合同协议书
- 《报关单填写规范》课件
- 浙江省宁波市2025届高三上学期一模考试数学试卷 含解析
- 鸿远电子财务报表分析报告
- 中医四季养生之道课件
- 《无机化学》课件-第6章 分子结构和晶体结构
- 结婚函调报告表
- 2024年锦州医科大学医疗学院基础医学专业《药理学》科目期末试卷A有
- 7.1.2 直观图的画法-【中职专用】高一数学教材配套课件(高教版2021·基础模块下册)
- 零食店食品安全管理制度目录
- DLT 5434-2021 电力建设工程监理规范表格
- 血液透析患者常见心律失常处理原则与药物选择文档
评论
0/150
提交评论