基于广义交互lasso模型的肝脏疾病分类研究_第1页
基于广义交互lasso模型的肝脏疾病分类研究_第2页
基于广义交互lasso模型的肝脏疾病分类研究_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于广义交互lasso模型的肝脏疾病分类研究

肝脏疾病分类研究目前,中国有1亿肝肿瘤患者,包括病毒性肝炎、脂肪性和革兰氏性疾病。肝脏疾病已成为影响较大、影响广泛的慢性疾病和传染病,严重威胁着中国人民的生活。因此针对肝病特征进行可解释性建模分类,对于高效、准确地诊断肝病具有重要意义。在过去的肝脏疾病分类研究工作中,研究方向大致分为两类:传统的模式识别方法和统计学习方法。传统模式识别方法可解释性差;而统计学习方法可解释性强,但是忽略了特征交互对病症的影响。Bien等1模型求解和变量定义其中B为了简便起见,构造(p构造n£[(p1+1)£(p2+1)]维矩阵W,定义如下:其中B是式(1)中的B矩阵,WB的结果是一个n维向量。通过对模型系数添加LASSO罚函数,可以使模型系数值为零,实现对模型进行特征选择。因此广义交互LASSO模型系数解可以通过求解下式的凸优化问题获得。2改进的admm算法的求解模型3u3000数据集求取实验采用的数据,其一是肝脏失调数据集(BUPAliverdisorders,BLD)(来源:http://archive/ml/datasets/Liver+Disorders),采集了142个肝病患者和199个健康人的数据,每人取6维特征。第二个数据集是印度肝病数据集(Indianlivepatientdataset,ILPD)(来源:http://archive.ics.uciedu/ml/datasets/ILPD+(Indian+Liver+Patient+Dataet)。我们采用其中414个肝病患者和165个健康人的数据,每人取10维特征。数据实验一是模型参数矩阵B的可视化。模型可调参数(;)采用网格法进行优选。数据实验时,令输入特征X=Z,应用(;)值在5×50的网格上,其中2(0;1);2(0;10),在训练集拟合模型,在测试集基于残差平方和来选择可调参数。广义交互LASSO模型和交互LASSO模型用于BLD数据集求得的估计系数矩阵B,如图1所示。广义交互LASSO模型和交互LASSO模型用于ILPD数据集求得的估计系数矩阵B,如图2所示。如图1、图2所示,第一行和第一列均表示主效应特征系数,其余表示交互特征系数。图中特征系数非0时,即表示此特征或交互特征被选择,对模型有贡献。交互特征系数绝对值越大说明特征交互程度越高。如图1所示,6维实数特征分别为:0表示主特征;1表示平均红细胞容积;2表示碱性磷酸酶;3表示丙氨酸转氨酶;4表示天冬氨酸转氨酶;5表示谷氨酰基转肽酶;6表示受试者平均每日饮酒量。从图1中可以看出,两个模型全都选择了全部主效应特征和大部分交互特征。比如交互LASSO模型的第三行第四列值为0.39,说明第二个特征碱性磷酸酶和第三个特征丙氨酸转氨酶的交互特征系数为0.39,对分类贡献较大。如图2所示,10维实数特征分别为:A表示主特征;B表示年龄;C表示性别;D表示总胆红素;E表示直接胆红素;F表示碱性磷酸酶;G表示丙氨酸转氨酶;H表示天冬氨酸转氨酶;I表示血清总蛋白;J表示血清白蛋白;K表示白蛋白与球蛋白的比值。从图2中可以看出,两种方法均选择全部主效应特征和小部分交互特征。比如交互LASSO模型的第五行第六列值为0.29,说明第四个特征直接胆红素和第五个特征碱性磷酸酶的交互特征系数为0.29,对分类贡献较大。特征交互项说明可参考文献[2]。数据实验二是LASSO、交互LASSO、广义交互LASSO三种模型方法的性能对比。如图3所示为将三种方法应用于前述两种肝病数据集所得的受试者工作特征曲线(receiveroperatingcharacteristiccurve,ROC)。如表1所示,为三种LASSO模型方法在数据集上的ROC曲线下面积(areaunderROCcurve,AUC)和程序运行时间的比较。结果显示,广义交互LASSO方法AUC最高,交互LASSO方法次之,LASSO方法最低,这说明肝病数据存在特征交互。广义交互LASSO方法和交互LASSO方法的ROC曲线相差不大,但是交互LASSO方法求解模型参数是用梯度下降法循环更新每一步,这将导致计算效率低,尤其是特征较大的数据。因而本文研究了简单迭代的改进ADMM算法,大大降低了时间损耗。数据实验三是三种LASSO模型方法和传统模式识别方法的对比。如表2所示,给出了支持向量机、最近邻、线性判别分析、决策树、LASSO方法,交互LASSO方法以及广义交互LASSO的特异性、敏感性的实验结果。结果表明,本文方法在敏感性和特异性两种性能评价指标中得分较高,证明了广义交互LASSO方法具有良好的分类性能。数据实验四是广义交互LASSO方法与文献中肝病分类实验结果的正确率对比,如图4所示。文献[9]所用方法为归纳学习方法,文献[10]采用朴素贝叶斯方法。文献[11]使用了平滑支持向量机方法,文献[12]采用了人工免疫识别方法。从图4可以看出本文广义交互LASSO模型方法正确率优于其他文献正确率。4广义交互lasso模型方法的应用本文中,我们推广了广义交互LASSO模型到logistic回归,并应用改进的ADMM优化算法来求解模型参数。本文所提改进的ADMM算法比广义梯度下降算法缩短了模型训练时间。新模型和方法应用到肝病数据集的数据实验结果再次证明了肝病特征间存在交互,以及特征交互对于分类有贡献。从正确率看,广义交互LASSO模型方法优于传统模式识别方法、LASSO模型方法和交互LASSO模型方法。此外,三种LASSO模型方法的解释性都强于传统模式识别方法。进一步可用于研究高阶交互模型,例如扩展到三阶交互,将系数矩阵B设为(p+1)£(p+1)£(p+1)维系数张量。基于可解释性强的优点,本文方法可以推广到其它生物医学数据分类问题。式(7)对应的增广拉格朗日函数为:最小化式(9)时,可以固定Θ求B,然后固定B求Θ。首先固定Θ求B,即求下式:对式(10)应用二阶泰勒展开公式并化简,得:其中l表示迭代次数。化简式(11)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论