机器学习算法的分类与选择_第1页
机器学习算法的分类与选择_第2页
机器学习算法的分类与选择_第3页
机器学习算法的分类与选择_第4页
机器学习算法的分类与选择_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 机器学习算法的分类与选择机 器 学 习 算 法PCALDAK-meansDBSCANSVM逻辑回归随机森林GBDTAdaboostKNNXgboost决策树神经网络2SupervisedLinear Discriminant AnalysisDimension ReductionTry PCA聚 类分 类降 维回 归3014020304特 征 降 维聚 类分 类 & 回 归总 结目 录特征降维特征向量较多时使用SVM进行分类,结果并不理想;随机删除几个特征后,准确率反而提升?5特征降维 =特征选择?通过属性间的关系(如组合 不同的属性得新的属性)改 变原来的特征空间特征降维从原始特征数据集中

2、选择出 子集,是一种包含的关系, 没有更改原始的特征空间找一个高 维到低维 的映射!特征选择删除若 干特征!6特征选择7 按照发散性或者相 关性对各个特征进 行评分,设定阈值 或者待选择阈值的 个数,选择特征。 如:移除低方差的 特征、移除相关性 较高的特征Filter(过滤法)Wrapper(包装法)Embedded(嵌入法) 根据目标函数(通 常是预测效果评 分),每次选择若 干特征,或者排除 若干特征。 如:递归地训练基 模型,移除对模型 贡献度较小的特征 使用某些机器学习 的算法和模型进行 训练,得到各个特 征的权值系数,根 据系数从大到小选 择特征。 如:基于随机森林的特征选择方法特

3、征降维无监督的降维找到一个能最大保留数 据方差信息的子空间, 降维后的数据是原来特 征在新空间中的映射值APCA(主成分分析)8SVD(奇异值分解)LDA(线性判别分析)无监督的降维将矩阵A分解为三个矩 阵UVT的乘积,选择 中数值较大的几个奇异 值及U和VT中对应的奇异向量,完成特征降维。有监督的降维相同类别在超平面上投 影之间的距离尽可能近, 不同类别投影之间的距 离尽可能远,最多降到 类别数-1的维数降维算法的注意事项:9PCA、SVD、LDA均为线性降维方法,但可引入核函数实现非线 性降维,此外还有一些非线性降维方法如Isomap谱嵌入法等LDA作为有监督的降维方法,容易使后续的分类过

4、程发生过拟合应用:PCA是最常用的数据降维方法,可用于图像压缩等领域SVD可用于推荐系统、自然语言处理等领域,如电子病历文本 潜在语义分析LDA既可以用于降维也可用于分类缺点:经过降维后的数据与原特征不存在一一对应关系,较难解释案例分享1利用PCA对数据集去噪心衰患者是否发生院内死亡预测选取2015-2018年于解放军总医院住院 的心衰患者,根据是否发生院内死亡选择 正样本1094例,随机筛选负样本1094例, 选用94个特征用SVM做分类,利用5折交叉 验证法进行结果评估。基本信息3项共病信息6项检查信息9项性别年龄BMI呼衰肾衰脑梗冠心病糖尿病高血压射血分数缩短分数胸腔积液心包积液二尖瓣

5、反流检验信息76项血常规类15项血生化类38项尿类化验23项SVM5折交叉验证结果10训练集AUC测试集AUC0.95910.8436未经过PCA降维经过PCA降维到90维0.90090.8605特征分布情况聚类想做一个分类问题,但是却没有分类标签?如:疾病可能存在的亚型研究 如:疾病风险因素的归类分析11聚类层次聚类凝聚方法AGNES分裂方法DIANA密度聚类DBSCANGMM原型聚类K-meansAGNESDBSCANGMM聚类方法的类别12对数值型数据进行聚类随机选取K个对象作为初始的聚类中 心,把每个对象分配给距离它最近的 聚类中心,根据聚类中现有的对象重 新计算聚类中心,不断重复此过

6、程直 到满足终止条件K-MEANS(K均值聚类)K-means聚类(不断迭代过程)K-modes(k众数聚类)对分类型数据进行聚类采用差异度(属性不相同的个数)来代替k-means算法中的距离1314聚类方法优缺点:优点:让数据变得有意义缺点:结果难以解读,针对不寻常的数据组,结果可 能无用分层聚类:不需要预先制定聚类数,可以发现类的层 次关系;耗时,受离群值影响大密度聚类:不需要输入类别数,可发现任意形状的聚 类簇,可识别离群值;无法反映数据尺寸,对高维数据密度难以 定义K-means聚类:简单,最常用;仅适用凸的样本集聚类,受离群值影响大高斯混合聚类:在各类尺寸不同、聚类间有相关关系时可能

7、比k-means聚类更合适;需要初始化多个参数分层聚类密度聚类K-means 高斯混合聚类原型聚类/stable/modules/clustering.html聚类方法在医学中的应用:无监督的医学图像分割疾病可能存在的亚型分类研究采用聚类分析为早期帕金森疾病分亚型,对致病机制假说的 提出和治疗策略的制定有重大暗示疾病与模式基因之间的关联关系分析研究特征解释15案例分享2利用层次聚类解释模型肠道菌群与年龄之间的关系研究从公共数据库中选用江苏地区923个健 康人(按照年龄被分为7组)粪便检材的16S测序数据,从中获取5621个菌群的丰度值,特征筛选后得到278个菌群的丰度值,用来对不同年龄分组的样

8、本做层次聚类。分组年龄人数幼儿园学生3-6103小学生8-12161中学生13-14114青年人19-24135中年人30-5086老年人60-7986长寿老人94198长 寿 老 人青年小中中学年学老幼年儿人人园生人生学生16分类 & 回归疾病发病风险预测 术式选择17术后恢复时间预测药效评估分类Logistic Regression(逻辑回归) Decision Tree( 决 策 树 ) Random Forest(随机森林) GBDT(梯度提升树)Neural Network(神经网络)SVM(支持向量机)Naive Bayes(朴素贝叶斯)18回归Linear Regression(

9、线性回归) Decision Tree( 决 策 树 ) Random Forest(随机森林) GBDT(梯度提升树)Neural Network(神经网络)SVR(支持向量回归)分类 & 回归常用方法分类&回归算法常见问题:各种算法的优缺点缺失值、异常值对算法的影响冗余特征对算法的影响ABCD是否可进行模19型解释,得到特征权重模型优点缺点线性/逻辑回归1.容易使用和解释。1.要求数据线性可分;2.容易欠拟合。决策树1.易于理解和解释,运行速度快;2.对于噪声干扰具有较好鲁棒性。1.容易过拟合;2.模型结构不稳定。随机森林1.训练速度快;2.泛化能力强,预测精度高。1.取值划分较多的属性会

10、对模型产生更大的影响。梯度提升树1.预测精度高,能处理非线性数据。1.难以并行训练数据,数据维度较 高计算复杂度也高。神经网络1.分类准确度高,对噪声有较强的鲁棒性2.具备联想记忆的功能。1.需要大量的参数,学习时间过长2.学习过程为黑盒,输出结果难以 解释。支持向量机(回归)1.可解决小样本情况下的机器学习问题;2.泛化性能较强1.对缺失数据敏感;2.运行复杂度较高。朴素贝叶斯1.稳定的分类效率;2.模型所需估计的参数很少,算法简单。1.需要计算先验概率;2.分类决策存在错误率。20问题一:各种算法的优缺点案例分享3树模型会赋予连续变量更大的权重?数据来源:2015年解放军总医院 医院开展的

11、社区流行病学调查研究目的:发掘冠心病的发病风险 因素样本情况:正、负样本各1590例29个特征向量:性别、年龄、BMI、腰臀比、抽烟、 喝酒共病信息、家族史生命体征信息、ECG检查信息采用模型:随机森林0.30.250.20.150.10.050高血压病程年龄 糖尿病病程是否有血脂异常是否有其他共病腰臀比BMI平均收缩压 平均舒张压 脑卒中病程连续变量离散化前连续变量离散化后21问题二:缺失值、异常值对算法的影响 问题三:冗余特征对算法的影响问题四:是否可进行模型解释,得到特征权重模型22对缺失值、异常值对冗余特征的敏感度是否可得到特征权重的敏感度线性/逻辑回归敏感一般敏感可以决策树不敏感不敏

12、感可以随机森林不敏感不敏感可以梯度提升树不敏感不敏感可以神经网络不敏感不敏感不可以支持向量机(回归)敏感敏感不可以朴素贝叶斯不敏感敏感不可以23案例分享4不同分类器对缺失值的敏感度朴素贝叶斯对缺失值的敏感程度最低KNN(K-最近邻, 基于距离的方法) 对缺失值的敏感程 度最高决策树、神经网络 对缺失值的敏感程 度不高Liu P , Lei L , Wu N . A Quantitative Study of the Effect of Missing Data in ClassifiersC/ FifthInternational Conference on Computer & Information Technology. 2005.分类算法选择的建议:分类需要得到特征权重逻辑回归随机森

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论