5.3.3+4聚类分析与数据分类 课件 2021-2022学年高中信息技术粤教版_第1页
5.3.3+4聚类分析与数据分类 课件 2021-2022学年高中信息技术粤教版_第2页
5.3.3+4聚类分析与数据分类 课件 2021-2022学年高中信息技术粤教版_第3页
5.3.3+4聚类分析与数据分类 课件 2021-2022学年高中信息技术粤教版_第4页
5.3.3+4聚类分析与数据分类 课件 2021-2022学年高中信息技术粤教版_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

5.3.3+4聚类分析与数据分类《数据与计算》P113-118数据的特征探索系统日志采集法网络数据采集法(网络爬虫)其他数据采集法数据分析的步骤1.概念:是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。2.特点:不需要先给定分类标准能够自动进行分类达到“物以类聚、人以群分”的效果3.常用的算法:k-Means算法中文名:K-平均算法特点:自下而上的聚类分析方法一、聚类分析3.k-Means算法的基本算法及流程图初始化随机选择K个点作为中心聚类点依次计算其余数据点与中心点的距离将数据点分配给最近的中心点计算每个聚集中心的平均值,即为中心点重复步骤②-④,满足下列条件时,结束聚类。中心点的位置变化小于指定的阈值(默认为0.0001)达到最大迭代次数得到最大的频繁项集一、聚类分析从文件读取数据初始化聚类中心(随机)计算其余数据点与中心点的距离将数据点分配到最近的中心点中心点的位置变化小于指定的阈值开始结束否否是计算每个聚集的平均值,即中心点好友关系聚类从文件读取数据初始化聚类中心(随机)计算其余数据点与中心点的距离将数据点分配到最近的中心点中心点的位置变化小于指定的阈值开始结束否否是计算每个聚集的平均值,即中心点4.案例赏析一、聚类分析4.案例赏析:层次关系聚类一、聚类分析一、聚类分析

【项目练习】运行程序5-6-1聚类分析(教材范例),体验聚类分析。需要的数据存储在comany.CSV文件中,包括“客户年龄”、“平均每次消费金额”、“平均消费周期(天)。由于一起对3个数据的关系进行分析很难操作,所以分别选取2个类别进行比较。程序运行结果如下图:图1:图2:图3:图1图2图3红五星表示普通用户,消费金额偏低。矩形表示消费金额较高,为高级用户。蓝色为超级用户。红五星消费时间不定,消费金额不高。矩形表示消费金额中等,消费时间稳定。蓝色表示消费额高,消费时间短。年龄-消费时间图。点阵杂乱无章,两者关系不强。1.思路:先基于样本数据训练构建分类函数或者分类模型(分类器);然后用分类器将待分类数据进行分类。2.应用:预测(数据分类、回归分析)基于样本数据记录根据分类准则自动对未知数据进行推广描述从而实现对未知数据进行预测3.常用的方法:贝叶斯分类技术事件发生的概率二、数据分类客户特征A特征B特征C重要客户182.881.630重要客户180.486.129重要客户170.077.130重要客户180.474.828普通客户152.445.324普通客户167.668.026普通客户165.258.925普通客户175.268.027

【项目练习】如下表所示是某网络商城客户购物行为特征的一组统计资料。已知某客户购物行为特征A的数值为182.8,特征B为数值58.9,特征C为数值26,请问这是重要客户还是普通客户?二、数据分类程序运行结果为0,表示这人是普通客户程序5-7-1数据分析结果二、数据分类

【项目练习】运行“程序5-7-1数据分类.py”,修改代码,将某客户购物行为特征A的数值为182.8,特征B为数值58.9,特征C为数值26,查看该用户的类别。结果如下图所示。如果有两位客户的购物行为,那他们属于重要客户还是普通客户呢?客户1:特征A的数值为182.8特征B为数值74.8特征C为数值26客户2:特征A的数值为182.8特征B为数值74.8特征C为数值27三、课堂小结聚类分析数据分类聚类分析k-Means算法:自下而上的聚类分析方法特点不需要先给定分类标准达到“物以类聚、人以群分”的效果数据分类特点需要先构建分类器(分类标准)可用于预测贝叶斯分类技术:事件发生的概率四、课堂练习1.某超市曾经研究销售数据,发现购买方便面的顾客购买火腿肠、卤蛋等商品的概率很大,进而调整商品摆放位置。这种数据分析方法是( )A.聚类分析 B.分类分析 C.关联分析 D.回归分析2.下列关于聚类分析的说法,错误的是()A.可以从数据点集合中随机选择K个点作为初始的聚集中心B.对其他的每个数据点,以此判断其与K个中心点的距离,距离最近的表明它属于这项聚类C.聚类分析,必须先设定分类的标准,否则无法准确分类D.重新计算新的聚簇集合的平均值既中心点CC四、课堂练习3.聚类分析的算法有很多,其中最经典的自下而上的聚类分析方法是()。A.特征探索B.关联分析 C.K-Means算法D.数据分类4.K-平均算法属于数据分类方法。()5.下列()数据分析方法能达到“物以类聚、人以群分”的效果A.聚类分析 B.数据分类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论