




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、技术创新中文核心期刊微计算机信息(测控自动化2008年第24卷第1-1期360元/年邮局订阅号:82-946现场总线技术应用200例模式识别模式识别中的特征提取研究Research on Feature Selection in Pattern Matching(1.南昌大学;2.江西师范大学曾庆鹏1吴水秀2王明文2ZENG QINGPENG WU SHUIXIU WANG MINGWEN摘要:特征提取是模式识别中的关键技术之一,本文提出了一种基于改进ReliefF 算法的主成分特征提取方法,通过该方法进行主特征特征提取可以有效降维,大大减轻了后续的分类器的工作量,同时也有助于提高分类器的分类
2、精度。关键词:模式识别;特征提取;主成分分析中图分类号:TP391文献标识码:A Abstract:Feature Selection is one of key technologies in Pattern Matching,a method of principal feature selection based on reforma-tive algorithm ReliefF is presented in this paper,using this method to select the principal feature will reduce the dimensionali
3、ty sig-nificantly,and the computing cost of the classify program can be decreased ,at the same time,the precision of the classify program can be increased.Key words:Pattern Matching,Feature Selection,Principal Component Analysis文章编号:1008-0570(200801-1-0220-02概述主成分分析是特征提取中很常用的一种变换方法,该方法通过使用变换后的几个主要的成
4、分来代替原始的特征信息,变换后的主成分之间是相互独立的,并且每个主成分都是变换前所有特征的一个线性组合。如果用变换后的所有主成分来代替原始的特征信息,一般没有信息的损失,因此被广泛应用到模式匹配的相关领域中。但很多情况下,通常选择少数几个包含大部分原始特征信息的主要成分来代替原始的特征信息,这样做虽然损失了部分特征信息,但可以使用更少的特征变量来代替原始的较多的特征变量,这样可以大大减轻后续分类器的计算量,同时对提高分类器的性能也是有帮助的。本文提出了一种基于改进ReliefF 算法的主特征提取方法。1ReliefF 算法及其实现ReliefF 算法的主要思想是:根据属性值在区分相互靠近的样本
5、实例的能力上来对属性的质量进行评价,首先随机地从训练数据中选择一个样本实例R,然后在训练数据中找出和样本实例R 在同一类中的k 个最近邻的样本实例,把这k 个样本实例称作Nhits,然后在训练数据中分别找出和样本实例R 不在同一个类中的k 个最近邻的样本实例,把这些k 个样本实例称作Nmisses,每个属性A 的权重的更新依赖于随机选择的样本实例R 、和R 在同一类吕的k 个近邻NHits 以及和R 不在同一类中的若干个k 个近邻Nmisses,在属性权重的更新公式中所有的NHits 和NMisses 的贡献是经过平均的。改进后的ReliefF 算法如下:set all weights WA:
6、=0.0;for i:=1to m do beginrandomly select an instance R i ;find k nearest hits H j ;for each class class(R i dofrom class C find k nearest misses M j (C ;for A:=1to a do;end;其中diff(A,I 1,I 2函数计算属性A 与实例I 1和I 2的区分度,其初始值定义如式(1:(1迭代计算如式(2:(22主成分选择设X 1,X 2,X p 为p 个随机变量,记X=(X 1,X 2,X p T ,令为X 的协方差矩阵,进行式(3
7、的线性变换:(3可以得到:显然我们希望Y 1是X 1,X 2,X p 的所有线性函数中方差最大的,此处限制a 1为单位向量,即有,这样可以使得达到最大,此时就称Y 1为第一主成分。如果第一主成分所包含的信息还不够多,不足以代表原始的p 个变量,就要考虑使用Y 2、Y 3、Y 4等,一般来说,X 的第i 主成分指:在限制条件和下寻找a i ,使得达到最大。曾庆鹏:讲师硕士基金项目:国家自然科学基金(60663007220- 邮局订阅号:82-946360元/年技术创新模式识别PLC 技术应用200例您的论文得到两院院士关注3基于主成分分析的特征提取基于前面介绍的原理,下面给出基于主成分分析的特征
8、提取方法的具体过程。第一步:去除无关特征变量。利用ReliefF 算法去掉原始特征中那些与分类不相关的特征。经过第一步处理后得到的数据矩阵为式(4:(4其中,X n ×p 表示一个n 行p 列的一个矩阵。代表n 个样本实例,并且每个样本实例是p 维的。x ij 表示第j 人特征变量在第i 个样本实例上的观测值,X j 代表第j 个特征变量的观测向量,I i 代表第i 个样本实例的观测向量。第二步:数据规一化处理。将矩阵X n ×p 转换为矩阵Z n ×p ,变换公式为式(5:(5其中,x j 代表矩阵X n ×p 中第j 列(第j 个特征变量的均值,代表
9、矩阵X n ×p 中第j 个特征的标准差。第三步:进行主成分变换。先计算矩阵Z n ×p 的协方差矩阵,然后计算协方差矩阵的特征值和特征向量,特征值从大到小依次为。相应的特征向量为。接着选择出合适数量的特征向量并构成变换矩阵U,最终得到变换后的数据矩阵Y 即:显然,Y 是n 行d 列的矩阵,y ij 表示在变换后的特征空间中第j 个特征变量在第i 个样本实例上的值。Y j 代表在变换后的特征空间中第j 个特征向量,也就是变换后的第j 主成分。S i 代表在变换后的特征空间中第i 个实例向量。还可以看出,变换前数据矩阵的大小为n ×p,变换后的数据矩阵大小为n
10、215;d,又因为d p,所以在相同的样本实例的情况下,变换后的数据矩阵的特征维数小于等于变换前的数据矩阵的特征维数。4实验及总结实验数据采用1999年KDD 入侵检测竞赛的标准数据集的部分数据,实验结果如表(1所示:表(1主成分分析结果由表可以看出,变换后的第一主成分贡献率达到28.625%,第二主成分贡献率达到16.671%,事实上,前10个主成分贡献率达到86.304%,这就是说,可以用10个主成分的数据信息来描述出变换前的20维特征数据的变化状态。将20个特征变量降维成10个主成分,大大减轻了后续的分类器的工作量,同时也有助于提高分类器的分类精度。本文作者创新点在于利用改进的Relie
11、fF 算法进行主成分特征提取并取得较好的实验效果,该算法可用于模式识别领域。参考文献4Robnik Sikonjia.Speeding up Relief algorithm with k-d tree.Proceedings of Electrotehnical and Computer Science Conference (ERK98.:137-140.5陈德钊,多元数据处理M,化学工业出版社,北京:1984.4作者简介:曾庆鹏(1974-,男,江西吉水人,讲师,硕士,研究方向:网络与信息安全;吴水秀(1975-,女,江西南丰人,讲师,硕士,研究方向:信息系统;王明文(1965-,男,江
12、西南康人,教授,博士,研究方向:信息检索,文本分类。Biography:Zeng Qing-peng(1974-,male,han,Jiangxi Province,NanChang University,Master degree,Major in computer application,Research area:network and information security.Wu Shui-xiu(1975-,female,han,Jiangxi Province,Jiangxi Normal University,Master degree,Major in computer ap
13、plication,Research area:information system.Wang Ming-wen (1965-,male,han,Jiangxi Province,Jiangxi Normal University,Doctor degree,Major in computer application,Research area:information Retrieval,text classify .(330031江西南昌南昌大学信息工程学院曾庆鹏(330027江西南昌江西师范大学计算机信息工程学院吴水秀王明文(School of Information Engineering ,NanChang University,NanChang 330031,ChinaZeng Qingpeng(College of Computer Information and Engineering ,Jiangxi Normal University ,NanChang 33
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川外国语大学成都学院《园林PSSU》2023-2024学年第二学期期末试卷
- 5层知识树课件
- 幼儿园手指游戏课程研究
- 阳光学院《航天医学工程概论》2023-2024学年第二学期期末试卷
- 2025年福建省福州市第十中学高三3.20联考考试英语试题含解析
- 开封市龙亭区2025年小学六年级数学毕业检测指导卷含解析
- 重庆第二师范学院《室内深化设计》2023-2024学年第二学期期末试卷
- 山东华宇工学院《机械设计》2023-2024学年第二学期期末试卷
- 浙江省杭州地区七校联考2024-2025学年高三下学期第一次统一考试(1月)化学试题含解析
- 贵州交通职业技术学院《包装系统设计》2023-2024学年第一学期期末试卷
- 中级考试外科基础题
- 2024高三一模宝山作文题解析及范文(用怎样的目光看待事物)
- 《纸质文物修复与保护》课件-31古籍书册结构
- 初三化学原子的结构课件1
- 《养老护理员》-课件:老年人权益保障法相关知识
- 2025年4月自考00262法律文书写作押题及答案
- 大数据时代下的客户关系管理与营销策略优化
- 《电力机车制动机》 课件 项目三 CCB-II制动系统
- 中小学职业生涯规划
- 医疗放射事故应急处理与辐射泄漏处置培训课件
- 门诊导医护理课件
评论
0/150
提交评论