![[理学]第七章_特征选择.ppt_第1页](http://file2.renrendoc.com/fileroot3/2018-12/23/87952b52-5e1a-4d11-a55f-b3b68b57cb20/87952b52-5e1a-4d11-a55f-b3b68b57cb201.gif)
![[理学]第七章_特征选择.ppt_第2页](http://file2.renrendoc.com/fileroot3/2018-12/23/87952b52-5e1a-4d11-a55f-b3b68b57cb20/87952b52-5e1a-4d11-a55f-b3b68b57cb202.gif)
![[理学]第七章_特征选择.ppt_第3页](http://file2.renrendoc.com/fileroot3/2018-12/23/87952b52-5e1a-4d11-a55f-b3b68b57cb20/87952b52-5e1a-4d11-a55f-b3b68b57cb203.gif)
![[理学]第七章_特征选择.ppt_第4页](http://file2.renrendoc.com/fileroot3/2018-12/23/87952b52-5e1a-4d11-a55f-b3b68b57cb20/87952b52-5e1a-4d11-a55f-b3b68b57cb204.gif)
![[理学]第七章_特征选择.ppt_第5页](http://file2.renrendoc.com/fileroot3/2018-12/23/87952b52-5e1a-4d11-a55f-b3b68b57cb20/87952b52-5e1a-4d11-a55f-b3b68b57cb205.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、特征选择特征选择 河北大学工商学院 河北大学工商学院河北大学工商学院 Industrial 1,., ;,1,., j ab injm iiab a bm F F 河北大学工商学院河北大学工商学院 Industrial & Comerricial College , Hebei University 2021-4-22 选取策略选取策略 N个特征,2N个可能的特征子集! 河北大学工商学院河北大学工商学院 Industrial & Comerricial College , Hebei University 2021-4-22 选取策略选取策略(续)(续) n 全局最优搜索 分支定界法(Bran
2、ch and Bound) 思路:思路: 定义一个评价函数,该评价函数必须满足单 调性条件,即对两个子集S1和S2,如果S1是S2的子集, 则S1所对应的评价函数必须小于S2所对应的评价函 数值。树根是所有特征的集合,从树根往下,树的 每级分支都舍弃一个特征,而后根据可分性判据值 和事先定义的最佳特征子集的特征数目,搜索满足 条件的特征子集 河北大学工商学院河北大学工商学院 Industrial & Comerricial College , Hebei University 2021-4-22 选取策略选取策略(续)(续) 分支定界法的缺点:分支定界法的缺点: 1. 由于该算法无法对所有的特
3、征依据其重要性进行 排序,如何事先确定优化特征子集当中特征的数 目就成了一个很大的问题,该问题影响到算法的 求解规模; 2. 合乎问题要求的满足单调性的可分判据很难设计, 这里的合乎问题要求指能够让最后选择出的特征 子集符合决策的要求,取得较高的决策正确率; 3. 当处理高维度多类问题时,算法要运行多次,算 法运算效率低下的问题将非常明显。 河北大学工商学院河北大学工商学院 Industrial & Comerricial College , Hebei University 2021-4-22 选取策略选取策略(续)(续) n 采用随机搜索策略的特征选择算法 模拟退火算法、禁忌搜索算法、遗传
4、算 法、随机重采样算法(Bootstrap) 问题:问题: 1. 大量的时间消耗; 2. 如果在该类算法中采用的是统计得分的方式,则 仅能对所有特征的重要性进行排序,很难确定一 个最优的特征子集。 河北大学工商学院河北大学工商学院 Industrial & Comerricial College , Hebei University 2021-4-22 选取策略选取策略(续)(续) n 采用启发式的特征选择算法(8种) 1. 单独最优特征组合:单独最优特征组合: 该方法依靠计算各特征单独使用时的数据值对特 征排队,取前d个特征作为满足条件的特征组。 缺点:缺点: 仅当单个特征的数据值满足加和性
5、或乘性条件时才能选择出一 组最优的特征; 大多数情况下,该算法甚至可能取到最差的特征组合。 河北大学工商学院河北大学工商学院 Industrial & Comerricial College , Hebei University 2021-4-22 选取策略选取策略(续)(续) n 采用启发式的特征选择算法(8种) 2. 序列前向选择方法序列前向选择方法(SequentialForwardSelection): 也称为集合增加法,它是自下而上的搜索方法, 先把所需要的特征集合初始化为一个空集,每次 向特征集合中增加一个特征,当所需要的特征集 合达到要求时所得到的特征集合作为算法运行的 结果。
6、缺点:缺点: 特征之间的统计相关性没有得到充分的考虑,从 这个角度出发的搜索方式仅能适合一小部分满足 特殊条件的特征集合。 河北大学工商学院河北大学工商学院 Industrial & Comerricial College , Hebei University 2021-4-22 选取策略选取策略(续)(续) n 采用启发式的特征选择算法(8种) 3. 广义序列前向选择方法广义序列前向选择方法(GeneralizedSequential ForwardSelection): 该方法是SFS方法的加速方法,它可以根据准则 函数一次性向特征集合中增加r个特征。也就是 在没有入选优化特征子集的剩余特
7、征集中,寻找 一个规模为r的小特征集Yr,使得J(Xd1+Yr)最大 缺点:缺点: 该方法相对于SFS在特征统计相关性上要稍好些, 但是计算量相对SFS增大许多,且在SFS中出现 的问题依旧难以避免。 河北大学工商学院河北大学工商学院 Industrial & Comerricial College , Hebei University 2021-4-22 选取策略选取策略(续)(续) n 采用启发式的特征选择算法(8种) 4. 序列后向选择方法序列后向选择方法(SequentialBackwardSelection): 它是自上而下的搜索方法,该方法在运行之初假定 整个特征集合就是所需要的优
8、化特征集,而后在算 法的每步运行过程中删除一个对准则函数毫无贡献 的特征,直到剩余特征个数符合集合基数要求。 缺点:缺点:相对于SFS计算量大。 优点:优点:充分考虑特征之间的统计相关特性,因而 在采用同样合理的准则函数的时候,它的实际计 算性能和算法的鲁棒性要大大优于SFS算法。 河北大学工商学院河北大学工商学院 Industrial & Comerricial College , Hebei University 2021-4-22 选取策略选取策略(续)(续) n 采用启发式的特征选择算法(8种) 5. 广义序列后向选择方法广义序列后向选择方法(GeneralizedSequential
9、 BackwardSelection): 该方法是SBS方法的加速方法,它根据准则函数 在算法的每次循环当中,一次性删除特征一定个 数的无用特征。它是一种可应用于实际过程的快 速特征选择方法 优点:优点:速度较快,性能相对较好。 缺点:缺点:特征消除操作进行太快,容易丢失重要的 变量,导致找不到最优的特征组。 河北大学工商学院河北大学工商学院 Industrial & Comerricial College , Hebei University 2021-4-22 选取策略选取策略(续)(续) n 采用启发式的特征选择算法(8种) 6. 增增l去去r选择方法:选择方法: 该方法允许在特征选择过
10、程中进行回溯,如果lr, 则该算法是自下而上的方法,用SFS方法将l个特 征加入到当前特征集中,然后再用SBS方法删除r 个最差的特征,这种方法消除嵌套问题,因为某 一步获得的特征集不一定是下一步特征集的子集, 如果lr,则算法为自上而下的方法,从一个完 整特征集开始,依次删除r个特征,再增加l个特 征直到获得满足条件个数的特征。 该方法实际上是SBS和SFS方法的一种折衷,他 的运算速度比SBS快,运算效果比SFS好。 河北大学工商学院河北大学工商学院 Industrial & Comerricial College , Hebei University 2021-4-22 选取策略选取策略
11、(续)(续) n 采用启发式的特征选择算法(8种) 7. 广义增广义增l去去r选择方法:选择方法: 该方法在增l去r选择方法的基础上,用GSFS和 GSBS分别代替SFS和SBS。 前面讨论过的所有算法都可以看作它的特例。因 而它包含极其广泛的理论意义。 缺点:缺点: 操作极为复杂,难以制定实际规则加以利用。 河北大学工商学院河北大学工商学院 Industrial & Comerricial College , Hebei University 2021-4-22 选取策略选取策略(续)(续) n 采用启发式的特征选择算法(8种) 8. 浮动搜索方法:浮动搜索方法: 该方法改变上述一系列算法固定l、r的基本做法, 采用浮动的步长,也就是选择算法的不同步骤, 可以采用不同的l、r。实际的每轮的l、r可以根 据特征的统计特点来制定,这是一种非常实用的 改良机制 总结:总结:上述八种方法中,一般认为采用浮动广义后向选 择方法(FloatingGeneralizedSequentialBackward Selection,FGSBS)是较
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论