ml特征选择与稀疏学习_第1页
ml特征选择与稀疏学习_第2页
ml特征选择与稀疏学习_第3页
ml特征选择与稀疏学习_第4页
ml特征选择与稀疏学习_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 p 特征 l 描述物体的属性 p 特征的分类 l 相关特征: 对当前学习任务当前学习任务有用的属性 l 无关特征: 与当前学习任务当前学习任务无关的属性 西瓜的特征特征 颜色 纹理 触感 根蒂 声音相关相关特征特征 无关特征无关特征 好瓜 坏瓜 当前任务当前任务:西瓜是否是好瓜 p 特征选择 l 从给定的特征集合中选出任务相关任务相关特征子集 l 必须确保不丢失重要特征 p 原因 l 减轻维度灾难:在少量属性上构建模型 l 降低学习难度:留下关键信息 西瓜的特征特征 颜色 纹理 触感 根蒂 声音 相关相关特征特征 无关特征无关特征 好瓜 坏瓜 当前任务当前任务:西瓜是否是好瓜 特征选择:选择

2、当 前任务相关特征 p 遍历所有可能的子集 l 计算上遭遇组合爆炸,不可行不可行 p 可行方法 产生初始候选 子集 评价候选子集 的好坏 基于评价结果 产生下一个候 选子集 两个关键环节:子集搜索和子集评价 p 前向搜索:最优子集初始为空集,逐渐增加相关特征 p 后向搜索:从完整的特征集合开始,逐渐减少特征 p 双向搜索:每一轮逐渐增加相关特征,同时减少无关特征 用贪心策略选择包含重要信息的特征子集 特征集合 当前最优子集 优于上一轮最 优子集? Y N 结束 p 特征子集A 确定了对数据集D的一个划分 l 每个划分区域对应着特征子集A的某种取值 p 样本标记Y对应着对数据集的真实划分 p 通

3、过估算这两个划分的差异,就能对特征子集进行评价;与 样本标记对应的划分的差异越小,则说明当前特征子集越好 p 信息熵是判断这种差异的一种方式 常见的特征选择方法大致分为如下三类: p 过滤式 p 包裹式 p 嵌入式 将特征子集搜索机制与子集评价机制相结合,即可 得到特征选择方法 常见的特征选择方法大致分为如下三类: p 过滤式 先对数据集进行特征选择,然后再训练学习器,特征选择过程与 后续学习器无关。 先用特征选择过程过滤原始数据,再用过滤后的特征来训练模型。 p 包裹式 p 嵌入式 将特征子集搜索机制与子集评价机制相结合,即可 得到特征选择方法 p Relief (Relevant Feat

4、ures) 方法是一种著名的过滤式特征选择 方法。 l Relief算法最早由Kira提出,最初局限于两类数据的分类问题。 l Relief算法是一种特征权重算法(Feature weighting algorithms), 根据各个特征和类别的相关性赋予特征不同的权重(相关统计量), 权重小于某个阈值的特征将被移除。 l Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能 力。 l Relief的关键是如何确定权重(相关统计量)? p选用的数据:威斯康星州乳腺癌数据集,数据来源美国威斯康星大学医 院的临床病例报告,每条数据具有9个属性。 p数据处理思路:先采用ReliefF特

5、征提取算法计算各个属性的权重,剔除 相关性最小的属性,然后采用K-means聚类算法对剩下的属性进行聚类 分析。 p乳腺癌数据集特征提取 采用ReliefF算法来计算各个特征的权重,权重小于某个阈值的特征 将被移除,针对乳腺癌的实际情况,将对权重最小的2-3种剔除。 将ReliefF算法运行20次,得到了各个特征属性的权重趋势图 p按照从小到大顺序排列,可知,各个属性的权重关系如下: 属性9属性5属性7属性4属性2属性3属性8属性1属性6 我们选定权重阀值为0.02,则属性9、属性4和属性5剔除。 p乳腺癌数据特征分析 从上面的特征权重可以看出,属性6裸核大小是最主要的影响因素, 说明乳腺癌患

6、者的症状最先表现了裸核大小上,将直接导致裸核大小 的变化,其次是属性1和属性8等,后几个属性权重大小接近。 几个重要的属性进行分析: 块厚度属性的特征权重在0.19-25左右变动,也是权重极高的一个, 说明该特征属性在乳腺癌患者检测指标中是相当重要的一个判断依据。 进一步分析显示,在单独对属性6,和属性1进行聚类分析,其成功 率就可以达到91.8%。 常见的特征选择方法大致分为如下三类: p 过滤式 p 包裹式 直接把最终将要使用的学习器的性能作为特征子集的评价准则 p 嵌入式 将特征子集搜索机制与子集评价机制相结合,即可 得到特征选择方法 p 包裹式特征选择的目的就是为给定学习器选择最有利于

7、其性能最有利于其性能、 “量身定做量身定做”的特征子集 p 包裹式选择方法直接针对给定学习器进行优化,因此从最终学习 器性能来看,包裹式特征选择比过滤式特征选择更好 p 包裹式特征选择过程中需多次训练学习器,计算开销通常比过滤 式特征选择大得多 p LVW(Las Vegas Wrapper)是一个典型的包裹式特征选择方法, LVW在拉斯维加斯方法框架下使用随机策略来进行子集搜索,并以 最终分类器的误差作为特征子集评价准则 p LVW基本步骤 在循环的每一轮随机产生一个特征子集 在随机产生的特征子集上通过交叉验证推断当前特征子集的误差 进行多次循环,在多个随机产生的特征子集中选择误差最小的特

8、征子集作为最终解 p 采用随机策略搜索特征子集,而每次特征子集的评价都需要训练 学习器,开销很大。 常见的特征选择方法大致分为如下三类: p 过滤式 特征选择过程与学习器训练过程有明显的分别 p 包裹式 p 嵌入式 将特征选择过程与学习器训练过程融为一体,两者在同一个优化 过程中完成,在学习器训练过程中自动地进行特征选择 将特征子集搜索机制与子集评价机制相结合,即可 得到特征选择方法 岭回归岭回归 (ridge regression) Tikhonov and Arsenin, 1977 p 将数据集D考虑成一个矩阵,每行对应一个样本,每列对应一个特征。 特征选择说考虑的问题是特征具有稀疏性,

9、即矩阵中的许多列与当前 学习任务无关,通过特征选择去除这些列,则学习器训练过程仅需在 较小的矩阵上进行,学习任务的难度可能有所降低,设计的计算和存 储开销会减少,学得模型的可解释性也会提高。 p 矩阵中有很多零元素,且非整行整列出现。 p 稀疏表达的优势: l 数据具有稀疏性,使得大多数问题变得线性可分 l 稀疏矩阵已有很多高效的存储方法 p 在一般的学习任务中,数据集(如图像)往往是非稀疏的,能否将 稠密表示的数据集转化为“稀疏表示”,使其享受稀疏表达的优势? p 为普通稠密表达的样本找到 合适的字典字典 p 压缩压缩感知感知是由美国学者E. Candes和T. Tao于2004年首先提出的

10、。 “压缩感知”顾名思义是直接感知压缩后的信息,其目的是从尽量 少的数据中提取尽量多的信息。CS 理论证明了如果信号在正交空 间具有稀疏性(即可压缩性),就能以远低于Nyquist采样频率的 速率采样该信号,最后通过优化算法高概率重建出原信号。其基本 思想是一种基于稀疏表示的信号压缩和重构技术,也可以称为压缩 采样或稀疏采样。 p 压缩压缩感知感知是由美国学者E. Candes和T. Tao于2004年首先提出的。 “压缩感知”顾名思义是直接感知压缩后的信息,其目的是从尽量 少的数据中提取尽量多的信息。CS 理论证明了如果信号在正交空 间具有稀疏性(即可压缩性),就能以远低于Nyquist采样频率的 速率采样该信号,最后通过优化算法高概率重建出原信号。其基本 思想是一种基于稀疏表示的信号压缩和重构技术,也可以称为压缩 采样或稀疏采样。 p 压缩感知引起了信号采样及相应重构方式的本质性变化,即:数 据的采样和压缩是以低速率同步进行的,这对于降

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论