关于将分子模型带回来的研究_第1页
关于将分子模型带回来的研究_第2页
关于将分子模型带回来的研究_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于将分子模型带回来的研究

0对模型添加正则化项添加量表为了在机械学习和压缩感知领域实现更优泛化的模型,通常需要限制模型的最小实验误差,并实现模型选择的功能,以避免模型在训练集中的良好性能,但在测试集中的较差性能。即通过对模型添加正则惩罚,避免发生模型“过拟合”现象。通过对模型添加正则化项,还可以达到增加唯一解的可能性与实现变量选择的功能,降低或避免仅使用经验风险最小化优化时带来的不适定问题,对模型起到修正作用,降低模型的复杂度。特别是在求解样本维度远高于样本数量的欠定方程中,适当的正则可以带来问题解的稀疏化,从而使得此类病态问题能够获得比较好的解。在正则化项的选取上,岭回归本文对使用L1范数正则的LASSO模型进行了简要的介绍,并对最近提出的邻近点梯度方法1lasso模型对于线性回归模型:其中x∈R其中X∈R假设噪声变量为独立同分布,E即岭回归对于回归系数虽然能够进行一定的压缩,但无法将其压缩为零,因此无法产生稀疏解,式中的λ为正则系数,其实现在对数据的拟合与正则之间的平衡。与之不同的是,如果将其中的L2范数替换为L1范数正则,则可以将较小的回归系数压缩为0,从而可以产生稀疏解与实现特征选择:此即为LASSO模型。对于LASSO与岭回归的不同之处,在二维空间上如图1所示。左图为使用L1范数正则的LASSO模型,右侧为使用L2范数正则的岭回归模型。图中椭圆形显示的为风险误差函数的取值等高线,蓝色的菱形或圆形区域则对应于L1与L2范数正则项。由于L1范数的约束,同时满足两者条件的点可取到部分维度为0,但对于L2范数由于其约束为圆形因此很难取得部分维度为0的解。2lasso算法与岭回归具有显式解不同的是,由于L1范数不可导,LASSO无法获得其显式解,而只可以采用基于次梯度(Subgradient)的算法迭代求解。不过由于LASSO模型仍为凸函数,从而保证了算法的最优解的唯一性。在求解LASSO时,L1范数正则约束下的稀疏解在各维度组合上可以具有相当大的组合数,尤其是在样本维度高时,求解此问题成为NP-hard问题,直到LAR算法的提出,LASSO才得以获得实际有效的应用。使用坐标下降(CoordinateDescent)类算法也可用来求解LASSO及其变形模型如groupLASSO,adaptiveLASSO,sparsegroupLASSO等问题。当前在凸优化领域基于邻近点算子(ProximalOperator)的邻近点梯度(ProximalGradientAlgorithm)算法,与基于分解思想的交替方向乘子法(ADMM)已被证明适合于求解大规模机器学习问题,它们也适用于求解LASSO,这里对这两种算法进行性能比较与分析。2.1可微凸函数首先定义函数f(x)的邻近点算子为:即为在当前点v∈R其中f(x)为可微的凸函数,g(x)为任意的非光滑不可微凸函数。邻近点梯度算法的迭代为:基于邻近点梯度算法,在迭代求解时,不仅使用前一次搜索到的邻近点x2.2增广lagrange系数ADMM算法基于对变量分解与坐标轮换的思想,对于形如:的优化问题,创建如下的增广Lagrange目标函数:与式(8)类似,式(12)中f(x)与g(z)均为凸函数,通常f(x)可微,而g(z)不可微。其中为增广Lagrange系数。通过对此增广Lagrange函数中涉及的变量轮流优化即可获得最优解。其一般迭代框架为:但与一般迭代算法不同,ADMM算法在迭代收敛的停止准则上为双条件停止阈值判定,即原问题残差与对偶残差均要达到收敛阈值:3实验结果与分析为了对邻近点梯度算法与ADMM算法的求解LASSO的性能进行比较,在实验中选取样本维度为中等规模的d=2500,为了进一步查看算法求解次定问题的性能,选择样本数为N=500。样本各维度均由服从N(0,1)分布的随机抽样获得,对回归系数w的稀疏度取为0.05,且各元素服从N(0,1)标准正态分布,并对正确响应向量添加0.001倍的高斯噪声。实验硬件环境为Corei73720CPU+8GBRAM,采用MATLAB环境,对邻近点梯度算法(PG)、加速邻近点梯度算法(APG)与ADMM算法的标准耗时与最优目标函数值进行了比较分析。实验结果如下:表中的“CVX”为采用CVX优化工具箱直接求解结果。由表1可以看出ADMM算法在求解结果的性能上明显优于邻近点梯度算法及其加速版本,无论是在求解的目标函数值的精度上还是在算法的执行耗时上,其性能都非常突出,可见ADMM算法在求解问题时具有显著的优势。而对于邻近点算法较之于基本优化算法也具有相当不错的效果,在耗时上只需基本优化算法的1%,而其加速版本中由于利用了再前一次的搜索到的邻近点信息,在求解精度上能够稍有改进,而耗耗时时上上也也减减少少接接近近一一半半。。上述各算法的目标函数值迭代曲线如图2所示。由图中可以看出ADMM的实际迭代次数也明显少于其他算法,能够很快收敛。4so问题的性能分析本文对LASSO模型进行了介绍,对最近提出的邻近点梯度算法与交替方向乘子法在求解LASSO问题的框架进行了分析,并通过实验对两类算法在求解中等规模LASSO问题的性能上进行比较分析。实验结果表明交替方向乘子法无论在求解精度还是在算法耗时上都具有显著优势,因此也更适合于求解大规模机器学学习习问问题题。。获得w,使用矩阵表达为:对于使用L1范数约束的LASSO,由于L1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论