《Python机器学习:原理与实践(第2版)》课件 薛薇 -第10-12章 特征选择:过滤、包裹和嵌入策略-揭示数据内在结构:聚类分析_第1页
《Python机器学习:原理与实践(第2版)》课件 薛薇 -第10-12章 特征选择:过滤、包裹和嵌入策略-揭示数据内在结构:聚类分析_第2页
《Python机器学习:原理与实践(第2版)》课件 薛薇 -第10-12章 特征选择:过滤、包裹和嵌入策略-揭示数据内在结构:聚类分析_第3页
《Python机器学习:原理与实践(第2版)》课件 薛薇 -第10-12章 特征选择:过滤、包裹和嵌入策略-揭示数据内在结构:聚类分析_第4页
《Python机器学习:原理与实践(第2版)》课件 薛薇 -第10-12章 特征选择:过滤、包裹和嵌入策略-揭示数据内在结构:聚类分析_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章特征选择:过滤、包裹和嵌入策略特征选择概述过滤式策略下的特征选择包裹式策略下的特征选择嵌入式策略下的特征选择特征选择概述

第10章特征选择:过滤和包裹策略特征选择概述

特征选择的角度:第一,考察变量取值的差异程度第二,考察输入变量与输出变量的相关性第三,考察输入变量对模型误差的影响具体策略:第一,过滤式(Filter)策略特征选择与预测建模“分而治之”第二,包裹式(wrapper)策略将特征选择“包裹”到一个指定的预测模型中,通过预测模型评价变量重要性,并完成变量筛选第三,嵌入式(embedding)策略(以后讲)即特征选择“嵌入”到整个预测建模中,与预测建模“融为一体”第10章特征选择:过滤和包裹策略考察变量取值的差异程度:低方差过滤法(LowVarianceFilter)输入变量与输出变量的相关性:高相关过滤法(HighCorrelationFilter)

过滤式策略下的特征选择

Chapter10-2.ipynb第10章特征选择:过滤和包裹策略

计算原假设成立下,得到当前样本的特征或更极端特征的概率:概率-P值概率-P值很小且小于显著性水平α,依据小概率原理,推翻原假设接受备择假设

第10章特征选择:过滤和包裹策略

Chapter10-2.ipynb第10章特征选择:过滤和包裹策略

包裹式策略下的特征选择

第10章特征选择:过滤和包裹策略

包裹式策略下的特征选择

第10章特征选择:过滤和包裹策略

嵌入式策略下的特征选择第10章特征选择:过滤和包裹策略

约束条件:目标函数:

第10章特征选择:过滤和包裹策略嵌入式策略下的特征选择:等价表述为:以上为岭回归(RidgeRegression)的目标函数以上为Lasso(Leastabsoluteshrinkageandselectionoperator)回归的目标函数

第10章特征选择:过滤和包裹策略

Python中的目标函数:第10章特征选择:过滤和包裹策略

Chapter10-4.ipynb

第10章特征选择:过滤和包裹策略基于Lasso回归筛选重要变量

Lasso回归和岭回归的比较Chapter10-4.ipynb第10章特征选择:过滤和包裹策略Lasso回归和岭回归的比较:L2正则化(岭回归)还是L1正则化(Lasso回归)?

L2范数约束(岭回归)最优解下的损失函数小于L1范数约束最优解下的损失函数第10章特征选择:过滤和包裹策略弹性网回归L1范数约束(Lasso回归)更适于进行特征选择平方L2范数约束(岭回归)最优解下的损失函数小于L1范数约束最优解下的损失函数弹性网回归是对Lasso回归和岭回归的结合及拓展,同时引入L1正则化和L2正则化目标函数:Python中弹性网回归的目标函数为:

第10章特征选择:过滤和包裹策略Chapter10-5.ipynb

弹性网回归示例相同复杂度惩罚下,L1范数约束的错判率高于L2第10章特征选择:过滤和包裹策略弹性网回归示例第10章特征选择:过滤和包裹策略第11章特征提取:空间变换策略特征提取概述主成分分析矩阵的奇异值分解因子分析特征提取概述

第11章特征提取:空间变换策略特征提取:从众多具有相关性的输入变量中提取出较少的综合变量,用综合变量代替原有输入变量,从而实现输入变量空间的降维基于空间变换主成分分析

第11章特征提取:空间变换策略

第11章特征提取:空间变换策略主成分分析的基本原理数学表述为:

示例:

第11章特征提取:空间变换策略

第11章特征提取:空间变换策略

第11章特征提取:空间变换策略

第11章特征提取:空间变换策略

主成分分析

第11章特征提取:空间变换策略Python模拟与启示:认识主成分

chapter11-1.ipynb第11章特征提取:空间变换策略

矩阵的奇异值分解第11章特征提取:空间变换策略矩阵的奇异值分解

第11章特征提取:空间变换策略奇异值分解的Python应用实践:脸部数据特征提取奇异值分解第11章特征提取:空间变换策略chapter11-2.ipynb因子分析:一种常用的通过空间变换策略实施特征提取的经典统计方法核心目的:将众多具有相关性的输入变量综合成较少的综合变量,用综合变量代替原有输入变量,实现输入变量空间的降维因子分析的基本出发点六门课程成绩的相关系数矩阵(斯皮尔曼研究一个班级学生课程成绩相关性时提出的方法)因子分析

原因:学习成绩一定受某种潜在的共性因素影响,它可能是班级整体某方面的学习能力或者智力水平等第11章特征提取:空间变换策略因子分析的基本出发点:六门课程成绩的相关系数矩阵原因:学习成绩一定受某种潜在的共性因素影响,它可能是班级整体某方面的学习能力或者智力水平等,数学刻画:因子分析

第11章特征提取:空间变换策略

第11章特征提取:空间变换策略

第11章特征提取:空间变换策略

因子分析第11章特征提取:空间变换策略

因子分析第11章特征提取:空间变换策略

第11章特征提取:空间变换策略

第11章特征提取:空间变换策略Python模拟和启示:认识因子分析的计算过程chapter11-5.ipynb(包括手工计算过程、调包)pipinstallfactor_analyzer第11章特征提取:空间变换策略因子分析的其他问题因子的适用性:适合原有变量有中度以上相关性的情况因子的可解释性问题:因子载荷矩阵的旋转因子矩阵旋转:将因子载荷矩阵A右乘一个正交矩阵τ后得到一个新矩阵B常见方法:方差极大法因子旋转并不影响原有变量的共同度第11章特征提取:空间变换策略因子分析的Python应用实践:空气质量综合评测chapter11-6.ipynb第11章特征提取:空间变换策略第12章揭示数据内在结构:聚类分析聚类分析的一般问题基于质心的聚类模型:K-均值聚类基于联通性的聚类模型:系统聚类基于密度的聚类:DBSCAN聚类聚类分析的一般问题聚类分析的目的例如:基于RFM的市场细分RFM:最近一次消费(Recency)、消费频率(Frequency)、消费金额(Monetary)主观分组

基本概念:聚类变量有监督算法和无监督算法聚类解类中心第12章揭示数据内在结构:聚类分析聚类分析的一般问题类的定义:类是一组样本观测的集合,包括:聚类变量空间中距离较近的各样本观测点,可形成一个小类聚类变量空间中样本观测点分布较为密集的区域,可视为一个小类来自某特定统计分布的一组样本观测,可视为一个小类从聚类结果角度,包括:确定性聚类和模糊聚类基于层次的聚类和非层次的聚类从聚类模型角度,包括:基于质心的聚类模型(CentroidModels)基于联通性的聚类模型(ConnectivityModels)基于统计分布的聚类模型(Distributionmodels)基于密度的聚类模型(Densitymodels)其他聚类模型第12章揭示数据内在结构:聚类分析

第12章揭示数据内在结构:聚类分析

第12章揭示数据内在结构:聚类分析聚类解的可视化:利用二维图散点图直观展示小类内部样本观测点的分布,以及小类间的相对位置将高维聚类变量空间中的样本观测点展示到二维平面上:先降维(如PCA),再画图聚类分析的一般问题第12章揭示数据内在结构:聚类分析

基于质心的聚类模型:K-均值聚类

第12章揭示数据内在结构:聚类分析K-均值聚类中的聚类数目K基于K-均值聚类的预测Chapter12-1.ipynb第12章揭示数据内在结构:聚类分析系统聚类的特点:系统聚类也称层次聚类,从距离和联通性角度设计算法算法视聚类变量空间中距离较近的多个样本观测点为一个小类,并基于联通性完成最终的聚类得到的聚类结果一般为确定性的且具有层次关系通常,系统聚类是将各个样本观测点逐步合并成小类,再将小类逐步合并成中类乃至大类的过程基于联通性的聚类模型:系统聚类

第12章揭示数据内在结构:聚类分析联通性:所谓联通性也是一种距离的定义,测度的是聚类变量空间中,样本观测点联通一个小类或一个小类联通另一个小类,所需的距离长度最近邻(singlelinkage)法最远距离(maximumlinkage)法组间平均链锁(averagelinkage)法类内方差ward法基于联通性的聚类模型:系统聚类第12章揭示数据内在结构:聚类分析

Chapter12-2-1.ipynb[9,12-N]第12章揭示数据内在结构:聚类分析聚类数目的确定:图形化工具:碎石图Chapter12-2-2.ipynb第12章揭示数据内在结构:聚类分析

Chapter12-3.ipynb第12章揭示数据内在结构:聚类分析K-均值聚类和系统聚类的对比第12章揭示数据内在结构:聚类分析

基于密度的聚类:DBSCAN聚类第12章揭示数据内在结构:聚类分析基于密度的聚类:DBSCAN聚类

核心点

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论