




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据分析与挖掘建模BIGDATA
通过对顾客消费行为的分析,找到有价值的顾客。1大数据分析与挖掘建模概述2预知考试能否及格——逻辑回归3预测商场销量的高低——决策树4顾客消费价值分析——聚类分析6发电厂发电量的预测——神经网络5西红柿与排骨的关系——关联规则4.1聚类分析4.1.1定义
聚类:指根据数据对象之间的相似性,把一组数据对象划分为多个有意义组的过程,每个组称为类或簇(cluster),同一个簇内的数据对象之间具有较高的相似性,不同簇内的数据对象之间相差则较大。4.1聚类分析
4.1.2基本思想把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征来确定的。划分原则是组内距离最小化而组间距离最大化。4.1聚类分析
4.1.3聚类方式类别主要算法划分(分裂)方法K-Means算法、K-MEDOIDS算法、CLARANS算法层次分析法BIRCH算法、CURE算法、CHAMELEON算法基于密度的方法DBSCAN算法、DENCLUE算法、OPTICS算法基于网格的方法STING算法、CLIOUE算法、WAVE-USTER算法基于模型的方法统计学方法、神经网络方法基于概率的方法GMM算法4.1聚类分析
4.1.4聚类算法算法名称算法描述K-Means算法在最小化误差函数的基础上将数据划分为预定的类数K。K-MEDOIDS算法选用簇中离平均值最近的对象为簇中心。系统聚类分类的单位由高到低呈树形结构,且所处的位置越低,其包含的对象就越少。4.2K-Means聚类
4.2.1定义K-Means算法是典型的基于距离的非层次聚类算法,在误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性的评价指标,距离越近相似度越大。
目的:把n个点划分到k个聚类中,使每个点都属于离它最近的均值对应的聚类,来作为聚类的标准。4.2K-Means聚类
4.2.2算法过程
(d)4.2K-Means聚类
4.2.3常用参数参数名称说明n_clusters接收int,表示簇的个数Init接收str,表示初始簇中心的获取方法n_init
表示获取初始簇中心的更迭次数Max_iter表示最大迭代次数tol表示容忍度,即算法收敛的条件precompute_distances表示是否需要提前计算距离randomstate表示随机生成簇中心的状态条件copy_X表示是否在运行算法时将原始训练数据复制一份4.2K-Means聚类
4.2.4常用方法方法说明fit(X,y=None,sampleweight=None)sklearn中通用的方法,表示对数据x进行K-Means聚类fit_predict(X,y=None,sampleweight=None)计算簇中心,并为簇分配序号fit_transform(X,y=None,sampleweight=None)对样本进行聚类,并转换为簇距离空间get_params(deep=True)获取模型参数predict(X,sampleweight=None)预测X中每个样本所属的簇score(X,y=None,sample_weight=None)与K-Means算法目标相反的值setparams(**params)设置模型的参数transform(X)将X转换为簇距离空间4.3项目实战
4.3.1项目分析4.3项目实战
4.3.2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业财务合同范本
- 深圳市房产转让合同范本
- 城市土地开发和商品房借款合同书
- 2025探讨分期付款买卖合同中的期待权
- 反恐普法教育主题班会
- 陪诊师考试友善互动试题及答案
- 马工学的初心与使命探讨试题及答案
- 个人施工合作合同标准文本
- 2025年度毛绒玩具采购合同
- 2025聘请安保服务合同
- GB/T 11379-2008金属覆盖层工程用铬电镀层
- RCS9200五防在线运行系统
- GB 30978-2014饮水机能效限定值及能效等级
- 五年级下册道德与法治知识点填空
- 2022年初级纯碱生产工理论考试题库(汇总版)
- 生态环境部卫星环境应用中心第一次公开招考3名项目工作人员模拟试卷【共500题附答案解析】
- 三年级下册美术教案及课后反思-第10课 图形的联想|浙美版
- 强迫症ppt精品课件
- 《食品感官分析技术》最全完整版课件全套教学教程
- 三年级下册数学课件-4.1 整体与部分 ▏沪教版 (共21张ppt)
- 2022年芜湖职业技术学院职业适应性测试题库及答案解析
评论
0/150
提交评论