数据挖掘中讲义的特征选择课件_第1页
数据挖掘中讲义的特征选择课件_第2页
数据挖掘中讲义的特征选择课件_第3页
数据挖掘中讲义的特征选择课件_第4页
数据挖掘中讲义的特征选择课件_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精品数据挖掘中的特征选择拒用野生动植物制品别让濒危生命死在你手里 一些皮毛皮革业、餐饮业、保健业、化妆品及中成再制造业、工艺品制造业、旅游娱乐业等行业的发展可以说是直接或间接地利用了野生动物资源。熊掌、虎骨、象牙、猴脑、鱼翅、燕 窝、裘皮等,为了这些能卖好价钱的东西,偷猎 者无情地向野生动物开枪、下手。为了挽救野生 动植物的命运,我们应不穿珍稀动物皮毛服装,不使用珍贵皮毛服饰,不享用野生动植物制品。知识卡:生物多样牲 生物多样性:一是指生态系统多样性,如森林、草原、湿地、农田等;二是物种多样性,即自然界有上千万种生物,是丰富多彩的;三是遗传多样性,即基因多样性,是指在同一种类中,又有不同的个体

2、或品种。我国是最早的国际生物多样性公约缔约国之一。 43 不猎捕和饲养野生动物 保护脆弱的生物链 请不要捕捉和饲养野生动物,因为你的捕捉和饲养只会破坏它们的生活环境。一种动物的灭绝,就可能带来它的 天敌的生存危机和它的 猎物的繁殖泛滥。任何一个物种的消亡都意味着一个基因库的消失。每一块积木的丢失都会引起一连串物种的生存变化,使整个生态系统发生紊乱,就像多米诺骨牌一样。人类如果不停止对野生动物的捕杀和 对其生存环境的摧毁的话,最终必将危及到人类自身的生存,自毁于一个荒漠了的地球。 知识卡:我国的自然保护区 我国已建立400多处珍稀植物迁地保 护繁育基地、100多处植物园及近800个自然保护区。我

3、国于1988年发布国家重点保护野生动物名录,列入陆生野生动物330多种,其中国家一级保护野生动物有大熊猫、金丝猴、长臂猿、丹顶鹤等约90种;国家二级保护野生动物有小熊猫、穿山甲、黑熊、天鹅、鹦鹉等230种。44 制止偷猎和买卖生动物的行为行使你神圣的权利 一些珍稀濒危的野生动物己被列入禁止猎杀买卖的行列,但仍有一些不法分子偷猎偷卖,要制止这些违法行为只靠执法人员是不够的,需要我们每个有觉悟公民的参与。当你看到偷猎偷卖的现象时,请你一定进行劝阻和制止,并宣传有关常识,也可以向有夫部门举报。 法令栏:保护野生动物 中华人民共和国野生动物保护法规定:禁止出售、收购国家重点保护野生动物或者产品。商业部

4、规定,禁止收购和任何形式买卖国家重点保护动物及其产品(包括死体、毛皮、羽毛、内脏、血、骨、肉、角、卵、精液、胚胎、标本、药用部分等)。我国也是濒危野生动植物国际贸易公约的成员国之一。数据挖掘中的特征选择精品数据挖掘中的特征选择拒用野生动植物制品别让濒危生命死在你手里 一些皮毛皮革业、餐饮业、保健业、化妆品及中成再制造业、工艺品制造业、旅游娱乐业等行业的发展可以说是直接或间接地利用了野生动物资源。熊掌、虎骨、象牙、猴脑、鱼翅、燕 窝、裘皮等,为了这些能卖好价钱的东西,偷猎 者无情地向野生动物开枪、下手。为了挽救野生 动植物的命运,我们应不穿珍稀动物皮毛服装,不使用珍贵皮毛服饰,不享用野生动植物制

5、品。知识卡:生物多样牲 生物多样性:一是指生态系统多样性,如森林、草原、湿地、农田等;二是物种多样性,即自然界有上千万种生物,是丰富多彩的;三是遗传多样性,即基因多样性,是指在同一种类中,又有不同的个体或品种。我国是最早的国际生物多样性公约缔约国之一。 43 不猎捕和饲养野生动物 保护脆弱的生物链 请不要捕捉和饲养野生动物,因为你的捕捉和饲养只会破坏它们的生活环境。一种动物的灭绝,就可能带来它的 天敌的生存危机和它的 猎物的繁殖泛滥。任何一个物种的消亡都意味着一个基因库的消失。每一块积木的丢失都会引起一连串物种的生存变化,使整个生态系统发生紊乱,就像多米诺骨牌一样。人类如果不停止对野生动物的捕

6、杀和 对其生存环境的摧毁的话,最终必将危及到人类自身的生存,自毁于一个荒漠了的地球。 知识卡:我国的自然保护区 我国已建立400多处珍稀植物迁地保 护繁育基地、100多处植物园及近800个自然保护区。我国于1988年发布国家重点保护野生动物名录,列入陆生野生动物330多种,其中国家一级保护野生动物有大熊猫、金丝猴、长臂猿、丹顶鹤等约90种;国家二级保护野生动物有小熊猫、穿山甲、黑熊、天鹅、鹦鹉等230种。44 制止偷猎和买卖生动物的行为行使你神圣的权利 一些珍稀濒危的野生动物己被列入禁止猎杀买卖的行列,但仍有一些不法分子偷猎偷卖,要制止这些违法行为只靠执法人员是不够的,需要我们每个有觉悟公民的

7、参与。当你看到偷猎偷卖的现象时,请你一定进行劝阻和制止,并宣传有关常识,也可以向有夫部门举报。 法令栏:保护野生动物 中华人民共和国野生动物保护法规定:禁止出售、收购国家重点保护野生动物或者产品。商业部规定,禁止收购和任何形式买卖国家重点保护动物及其产品(包括死体、毛皮、羽毛、内脏、血、骨、肉、角、卵、精液、胚胎、标本、药用部分等)。我国也是濒危野生动植物国际贸易公约的成员国之一。为什么需要数据挖掘数据爆炸问题 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。我们拥有丰富的数据,但却缺乏有用的信息数据爆炸但知识贫乏 2022/8/222数据

8、挖掘中的特征选择数据挖掘的作用数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据挖掘是一种从大量数据中寻找其规律的技术。它综合了统计学、数据库技术和人工智能技术2022/8/223数据挖掘中的特征选择数据挖掘数据库越来越大有价值的知识海量的数据2022/8/224数据挖掘中的特征选择数据挖掘的应用数据分析和决策支持市场分析和管理客户关系管理 (CRM),市场占有量分析,交叉销售,目标市场风险分析和管理风险预测,客户保持,保险业的改良,质量控制,竞争分析欺骗检测和异常模式的监测 (孤立点)其他的应用文本挖掘 (新闻组,电子邮件,文档) 和Web挖掘流数据挖掘DNA 和生物数据

9、分析2022/8/225数据挖掘中的特征选择数据挖掘: 数据库中的知识挖掘(KDD)数据挖掘知识挖掘的核心数据清理数据集成数据库数据仓库Knowledge任务相关数据选择数据挖掘模式评估2022/8/226数据挖掘中的特征选择数据挖掘的步骤了解应用领域了解相关的知识和应用的目标创建目标数据集: 选择数据数据清理和预处理: (这个可能要占全过程60的工作量)数据缩减和变换找到有用的特征,维数缩减/变量缩减,不变量的表示选择数据挖掘的功能 数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析等2022/8/227数据挖掘中的特征选择选择挖掘算法数据挖掘: 寻找感兴趣的模式模式评估和

10、知识表示可视化,转换,消除冗余模式等等运用发现的知识2022/8/228数据挖掘中的特征选择数据挖掘和商业智能支持商业决策的潜能不断增长最终用户商业分析家 数据分析家DBA 决策支持数据表示可视化技术数据挖掘信息发现数据探索在线分析处理(OLAP),多维分析(MDA)统计分析,查询和报告数据仓库/数据市场数据源论文, 文件, 信息提供商, 数据库系统, 联机事务处理系统(OLTP)2022/8/229数据挖掘中的特征选择典型数据挖掘系统数据仓库数据清洗过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成2022/8/2210数据挖掘中的特征选择数据挖掘:多个学科的融合

11、数据挖掘数据库系统统计学其他学科算法机器学习可视化2022/8/2211数据挖掘中的特征选择数据挖掘的分类预言(Predication):用历史预测未来描述(Description):了解数据中潜在的规律2022/8/2212数据挖掘中的特征选择数据挖掘的主要方法分类(Classification)聚类(Clustering)相关规则(Association Rule)回归(Regression)其他2022/8/2213数据挖掘中的特征选择特征归约在数据挖掘中的作用因为在文本分类、信息检索和生物信息学等数据挖掘的应用领域中,数据的维数往往是很高的。高维的数据集中包含了大量的特征(属性)。比如

12、一个文本数据集中,每一个文本都可以用一个向量来表示,向量中的每一个元素就是每一个词在该文本中出现的频率。在这种情况下,这个数据集中就存在着成千上万的特征。这种高维的数据给数据挖掘带来了“维灾难”(The Curse of Dimensionality)问题。 2022/8/2214数据挖掘中的特征选择特征选择和特征降维是两类特征归约方法。2022/8/2215数据挖掘中的特征选择特征选择特征选择的一般过程包括:首先从特征全集中产生出一个特征子集,然后用评价函数对该特征子集进行评价,评价的结果与停止准则进行比较,若评价结果比停止准则好就停止,否则就继续产生下一组特征子集,继续进行特征选择。选出来

13、的特征子集一般还要验证其有效性。2022/8/2216数据挖掘中的特征选择 特征选择的过程 ( M. Dash and H. Liu 1997 )2022/8/2217数据挖掘中的特征选择特征选择大体上可以看作是一个搜索过程,搜索空间中的每一个状态都可以看成是一个可能特征子集。搜索的算法分为完全搜索(Complete),启发式搜索(Heuristic),随机搜索(Random) 3大类。 2022/8/2218数据挖掘中的特征选择完全搜索分为穷举搜索与非穷举搜索两类。(1) 广度优先搜索(BFS )(2) 分支限界搜索(BAB) (3) 定向搜索 (BS)(4) 最优优先搜索(Best Fir

14、st Search) 2022/8/2219数据挖掘中的特征选择启发式搜索(1) 序列前向选择(SFS)(2) 序列后向选择(SBS)(3) 双向搜索(BDS)(4) 增L去R选择算法 (LRS)(5) 序列浮动选择(Sequential Floating Selection)(6) 决策树(DTM)2022/8/2220数据挖掘中的特征选择 随机算法(1) 随机产生序列选择算法(RGSS)(2) 模拟退火算法(SA)(3) 遗传算法(GA)2022/8/2221数据挖掘中的特征选择特征的评价函数特征的评估函数分为五类:相关性,距离,信息增益,一致性和分类错误率。 常用的有平方距离,欧氏距离,

15、非线性测量,Minkowski距离,信息增益,最小描述长度,互信息,依赖性度量或相关性度量,一致性度量,分类错误率 ,分类正确率 2022/8/2222数据挖掘中的特征选择特征选择方法的模型一般地,特征选择方法可以分为三种模型,分别是:过滤模型、封装模型和混合模型。2022/8/2223数据挖掘中的特征选择过滤模型:根据训练集进行特征选择,在特征选择的过程中并不涉及任何学习算法。即特征子集在学习算法运行之前就被单独选定。但学习算法用于测试最终特征子集的性能。过滤模型简单且效率很高。由于过滤模型中的特征选择过程独立于学习算法,这就容易与后面的学习算法产生偏差,因此为了克服这个缺点提出了封装模型。

16、2022/8/2224数据挖掘中的特征选择2022/8/2225数据挖掘中的特征选择基于过滤模型的算法主要有两类:特征权重和子集搜索。这两类算法的不同之处在于是对单个特征进行评价还是对整个特征子集进行评价。2022/8/2226数据挖掘中的特征选择特征权重算法对每个特征指定一个权值,并按照它与目标概念的相关度对其进行排序,如果一个特征的相关度权值大于某个阈值,则认为该特征优秀,并且选择该特征。该算法缺点在于:他们可以捕获特征与目标概念间的相关性,却不能发现特征间的冗余性。而经验证明除了无关特征对学习任务的影响,冗余特征同样影响学习算法的速度和准确性,也应尽可能消除冗余特征。Relief算法是一

17、个比较著名的特征权重类方法。2022/8/2227数据挖掘中的特征选择子集搜索算法通过在一定的度量标准指导下遍历候选特征子集,对每个子集进行优劣评价,当搜索停止时即可选出最优(或近似最优)的特征子集。2022/8/2228数据挖掘中的特征选择封装模型:在此模型中,学习算法封装在特征选择的过程中,用特征子集在学习算法上得到的挖掘性能作为特征子集优劣的评估准则。在初始特征空间内进行多次搜索,直至得到最佳的特征子集。与过滤模型相比,封装模型具有更高的精度,但效率较低,运行速度慢于过滤模型。2022/8/2229数据挖掘中的特征选择2022/8/2230数据挖掘中的特征选择过滤模型与包裹模型的根本区别

18、在于对学习算法的使用方式。 混合模型:由于过滤模型与封装模型之间的互补性,混合模型把这两种模型进行组合,也就是先用过滤模式进行初选,再用封装模型来获得最佳的特征子集。2022/8/2231数据挖掘中的特征选择2022/8/2232数据挖掘中的特征选择数据降维数据降维是指通过线性或非线性映射将样本空间从高维空间映射到低维空间。降维方法主要分为两类:线性或非线性。 2022/8/2233数据挖掘中的特征选择数据降维是指通过线性或非线性映射将样本空间从高维空间映射到低维空间。降维方法主要分为两类:线性或非线性。而非线性降维方法又可分为基于核函数和基于特征值的方法。 2022/8/2234数据挖掘中的特征选择线性降维方法有:主成分分析(PCA),独立成分分析(ICA),线性判别分析(PCA),局部特征分析(LFA) 。2022/8/2235数据挖掘中的特征选择基于核函数的非线性降维方法有:基于核函数的主成分分析(KPCA),基于核

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论