版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、人工智能与模式识别专委会报告人工智能与模式识别专委会报告人工智能与模式识别专委会报告人工智能与模式识别专委会报告人工智能与模式识别专委会报告人工智能与模式识别专委会报告方以类聚,物以群分方以类聚,物以群分战国策战国策 齐策三齐策三周易周易 系辞上系辞上 齐宣王即位之初,好色、好味、好马而独不好士。淳于髡急,齐宣王即位之初,好色、好味、好马而独不好士。淳于髡急,“一日而见七人于宣王一日而见七人于宣王”。 宣王问:宣王问:“今一朝而见七士,则士不亦多乎?今一朝而见七士,则士不亦多乎?” 淳于髡曰:淳于髡曰:“不然。不然。夫鸟同翼者而聚居,兽同足者而俱行。夫鸟同翼者而聚居,兽同足者而俱行。今求柴胡、
2、桔梗于沮泽,则累世不得一焉;及之睾黍、梁父之阴,今求柴胡、桔梗于沮泽,则累世不得一焉;及之睾黍、梁父之阴,则郄车而载耳。夫物各有畴;今髡,贤者之畴也。王求士于髡,譬则郄车而载耳。夫物各有畴;今髡,贤者之畴也。王求士于髡,譬若挹水于河,而取火于燧也。髡将复见之,岂特七士也?若挹水于河,而取火于燧也。髡将复见之,岂特七士也?” 聚类分析聚类分析就是按照一定的规律和要求对事物进行区分和就是按照一定的规律和要求对事物进行区分和分类的过程,在这一过程中没有任何关于类分的分类的过程,在这一过程中没有任何关于类分的先验知识先验知识,没有教师指导,仅靠事物间的相似性作为类属划分的准则。没有教师指导,仅靠事物间
3、的相似性作为类属划分的准则。 聚类属于聚类属于无监督机器学习无监督机器学习的范畴的范畴。 聚类分析聚类分析是一个古老的问题,它伴随着人类社会的产生是一个古老的问题,它伴随着人类社会的产生和发展而不断深化,人类要认识世界就必须区别不同的事物和发展而不断深化,人类要认识世界就必须区别不同的事物并认识事物间的相似性(何清并认识事物间的相似性(何清98)。snRxxxX,21sTkskkkRxxxx,21ciXXXckiXXXXXXiikic1,1,21 cinkikikikcnhcinkkiRUM11,0;, 1;,1 , 0cinkikikikcnfcinkkiRUM11,0;, 1;,1 , 0
4、XxXxxkikkXiki01)(fccinkikmikmMUtspxDPUJ. .),(),(min112hccinkikikMUtspxDPUJ. .),(),(min1121fccinkikikMUtspxDPUJ. .),(),(min112221112)()()(cjmbjkbikbikddcixpnkmbiknkkmbikbi, 2 , 1for,1)(1)()1(FCM算法应用于数据挖掘中存在的问题:算法应用于数据挖掘中存在的问题:FCM-type算法在进行聚类分析时认为每维特征的贡献是均匀的,算法在进行聚类分析时认为每维特征的贡献是均匀的,并不进行特征的选择;并不进行特征的选择
5、;在实际应用中,很多聚类结构是存在于特征空间的子空间中的;在实际应用中,很多聚类结构是存在于特征空间的子空间中的;为了挖掘这样的聚类结构,就必须能够找到张成该子空间的变量,为了挖掘这样的聚类结构,就必须能够找到张成该子空间的变量,即进行特征选择。即进行特征选择。fccinksjijkjjmikwMUtspxdwPUJ. .),(),(min111fccinkikmikmMUtspxDPUJ. .),(),(min112RjXXhxjihitdiff1)min()max(_)(1)min()max()(1)(_iljiixclasslRjXXmxxclassPlPmissdiffRmissdif
6、fRhitdiffww_nkkfccinkikmikkmwMUtspxDwPUJ11121,. .),(),(min11)1(2),(),(crmrkikikpxDpxDnkmikknkkmikkiwxwv11 集成学习(集成学习(Ensemble)是一种机器学习范式,它使用多)是一种机器学习范式,它使用多个(通常是同质的)学习器来解决同一个问题。个(通常是同质的)学习器来解决同一个问题。 问题 . . 问题集成学习中使用的多个学习器称为个体学习器集成学习中使用的多个学习器称为个体学习器当个体学习器均为决策树时,称为当个体学习器均为决策树时,称为“决策树集成决策树集成”当个体学习器均为神经网络
7、时,称为当个体学习器均为神经网络时,称为“神经网络集成神经网络集成”当个体学习器均为聚类算法时,称为当个体学习器均为聚类算法时,称为“聚类算法集成聚类算法集成” l由于集成学习技术可以有效地提高学习系统的泛化能力,因此它成为由于集成学习技术可以有效地提高学习系统的泛化能力,因此它成为国际机器学习界的研究热点,并被国际权威国际机器学习界的研究热点,并被国际权威 T.G. Dietterich 称为当前机称为当前机器学习四大研究方向之首。器学习四大研究方向之首。T.G. Dietterich, AIMag97问题:问题:对对2020维超立方体空间中的维超立方体空间中的区域分类区域分类从上到下的四条
8、线分别表示:从上到下的四条线分别表示: 平均神经网络错误率平均神经网络错误率 最好神经网络错误率最好神经网络错误率 两种神经网络集成的错误率两种神经网络集成的错误率令人惊奇的是,集成的错误率比令人惊奇的是,集成的错误率比最好的个体还低最好的个体还低 L.K. Hansen & P. Salamon, TPAMI90期望结果个体1 (精度33.3%)个体2 (精度33.3%)个体3 (精度33.3%)集成(精度33.3%)投票个体必须有差异期望结果个体1 (精度33.3%)个体2 (精度33.3%)个体3 (精度33.3%)集成 (精度0%)投票个体精度不能太低个体学习器越精确、差异越大
9、,集成越好EEAA. Krogh & J. Vedelsby, NIPS94既然多个个体的集成比单个个体更好,那么是既然多个个体的集成比单个个体更好,那么是不是个体越多越好不是个体越多越好? ?更多的个体意味着:更多的个体意味着: 在预测时需要更大的计算开销,因为要计算更多的个体预测在预测时需要更大的计算开销,因为要计算更多的个体预测 更大的存储开销,因为有更多的个体需要保存更大的存储开销,因为有更多的个体需要保存个体的增加将使得个体间的差异越来越难以获得个体的增加将使得个体间的差异越来越难以获得Many Could be Better Than All:在有一组个体学习器:在有一组个
10、体学习器可用时,从中选择一部分进行集成,可能比用所有个可用时,从中选择一部分进行集成,可能比用所有个体学习器进行集成更好。体学习器进行集成更好。Z.-H. Zhou et al., AIJ02Breiman L. Bagging predicators. Machine Learning, 1996,24(2):123140.Breiman L. Bagging predicators. Machine Learning, 1996,24(2):123140.集成学习一般包含两个阶段:集成学习一般包含两个阶段:个体生成阶段:个体生成阶段:通过不同的个体生成方式产生不同的个体标记向量。通过不同的
11、个体生成方式产生不同的个体标记向量。个体学习器结合阶段:个体学习器结合阶段:可以采用投票等方式将个体标记向量进行结合。可以采用投票等方式将个体标记向量进行结合。聚类分析集成学习:聚类分析集成学习:个体生成阶段:个体生成阶段:(1)采用类似采用类似Bagging 算法中产生个体训练集的方式产生用于聚类的训算法中产生个体训练集的方式产生用于聚类的训 练集,即通过可重复取样技术从原向量集中产生若干训练集;练集,即通过可重复取样技术从原向量集中产生若干训练集;(2)对每个训练集用)对每个训练集用FCM算法进行分析,获得聚类中心;算法进行分析,获得聚类中心;(3)利用所得到的聚类中心对原向量集分别进行标
12、记,获得标记向量。)利用所得到的聚类中心对原向量集分别进行标记,获得标记向量。唐伟,周志华,基于唐伟,周志华,基于Bagging的选择性聚类集成,软件学报,的选择性聚类集成,软件学报,16(4): 496-502, 2005注意:注意:得到的标记向量由于缺乏先验的类别信息,并不能直接用于下一得到的标记向量由于缺乏先验的类别信息,并不能直接用于下一 阶段的结论合成。阶段的结论合成。 例如:例如:1,2,2,1,1,3,3,2,3,3,2,2,1,1为了对聚类结果进行结合,个体标记向量必须经过匹配建立相互之间的对为了对聚类结果进行结合,个体标记向量必须经过匹配建立相互之间的对应关系。应关系。个体学习器结合阶段:个体学习器结合阶段:基于权值的选择性投票策略基于权值的选择性投票策略聚类标记向量间的互信息在某种程度上能够刻画聚类个体间的紧密程度,聚类标记向量间
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文化产业示范基地复核书
- 河北省邢台市威县寺庄中学2024-2025学年八年级上学期期中地理试题(含答案)
- 实验室用拭子实验室工具产业链招商引资的调研报告
- 吉他弦桥市场需求与消费特点分析
- 单肩包市场发展预测和趋势分析
- 人教版英语八年级下册 Unit 1-3 单元阅读训练
- 高效灌溉技术在蔬菜种植中的应用分析报告
- 可充气薄橡胶玩具市场需求与消费特点分析
- 土耳其毡帽产业规划专项研究报告
- 城市公共设施门窗改造方案
- 快手2025CNY《寨子里的歌晚》招商项目方案
- 2023年唐山银行招聘考试真题
- 《小学低年级语文说话能力培养的研究》课题实施方案
- 大型机械运输服务方案
- 心肌炎护理查房课件
- 广告图像数码喷印材料市场
- 2024年安徽芜湖事业单位联考高频难、易错点500题模拟试题附带答案详解
- 2024年公司工会工作计划模版(三篇)
- 2024年秋季新人教版7年级上册生物课件 第2单元 第1章大单元整体设计
- 9.1增强安全意识课件-2024-2025学年统编版道德与法治七年级上册
- 学习总结报告成果展示
评论
0/150
提交评论