版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章物以类聚:发现新簇群课后习题答案一、考考你 1.关于聚类说法正确是D。A.聚类样本一定要有标签 B.应该将所有特征数据作为聚类依据C.聚类的k值可以随意指定 D.聚类质心就是各簇群特征的平均值 2.下列C聚类性能评价指标在[-1,1]之间,值越接近1说明聚类效果越好。 A.CH分数 B.戴维森堡丁指数DBI C.轮廓系数 D.inertia 3.k-means模型的A参数能保证聚类结果复现。 A.random_state B.init C.max_iter D.algorithm 4.衡量聚类效果好坏的主要依据是D。 A.各类之间的界限明显 B.各样本离各自质心之和最小 C.类别之间的协方差越大越好 D.同类样本紧促,不同类样本相距远 5.关于RFM模型的应用,说法错误的是D。 A.R、F、M是区分客户的三个重要指标 B.这三个指标是基于原始数据统计出来的 C.在具体场景应用RFM模型时,可以添加其它指标D.训练模型前样本不进行标准化处理也是可以的 二、亮一亮 1.在案例1中用k-均值算法对鸢尾花进行聚类时,有哪些办法能帮你找到最优的k值?参考答案:(1)尽可能多的获得鸢尾花的特征数据进行初步分析,基于特征数据确定种类的有效值作为k的数值。(2)在运行k-means聚类中根据聚类结果对比分析确定最优的k值。 2.在案例2的电商用户分类过程中,求各类客户样本的均值有何意义?请举例说明。 参考答案: 由于聚类前对原始数据进行了标准化处理,所以需要聚类后对质心进行反标准化转换,得到原始均值,方便观察聚类结果和对业务场景的解释。 三、帮帮我 1.Wholesalecustomersdata.csv文件保存有批发商客户数据,前5行数据如下图5.20所示。数据集各属性函数如下。图5.20批发商客户数据Channel:客户渠道,1指酒店类,2指零售类。Region:客户所在地区,1指里斯本,2指波尔图,3指其它地区。Fresh:在新鲜产品上的支出。Milk:在乳制品上的支出。Grocery:在杂货上的支出。Frozen:在冷冻产品上的支出。Detergents_Paper:在清洁剂(纸)上的支出。Delicassen:在熟食上的支出。请运用k-means聚类算法将这400名批发商客户进行聚类,并试图解释聚类结果。提示:聚类时只考虑后6个特征,因为这6个特征代表客户的进货能力。参考答案:#数据预处理#1.处理异常值在处理异常值之前,先来通过箱线图看看异常值.importseabornassnsimportpandasaspdimportmatplotlib.pyplotaspltdf=pd.read_csv(r'data\Wholesalecustomersdata.csv',sep=',')defget_boxplot(data,start,end):fig,ax=plt.subplots(1,end-start,figsize=(24,4))foriinrange(start,end):sns.boxplot(y=data[data.columns[i]],data=data,ax=ax[i-start])get_boxplot(df,2,8)解释:可以看到以上6个连续型变量均有异常值,由于k-means算法对异常值较敏感,因此选择剔除它。importnumpyasnpdefdrop_outlier(data,start,end):foriinrange(start,end):field=data.columns[i]Q1=np.quantile(data[field],0.25)Q3=np.quantile(data[field],0.75)deta=(Q3-Q1)*1.5data=data[(data[field]>=Q1-deta)&(data[field]<=Q3+deta)]returndatadel_df=drop_outlier(df,2,8)print("原有样本容量:{0},剔除后样本容量:{1}".format(df.shape[0],del_df.shape[0]))get_boxplot(del_df,2,8)#2.变量离散化、归一化del_df['Channel']=del_df.Channel.astype(str)del_df['Region']=del_df.Region.astype(str)del_df=pd.get_dummies(del_df)foriinrange(6):field=del_df.columns[i]del_df[field]=del_df[field].apply(lambdax:(x-del_df[field].mean())/del_df[field].mean())#3.迭代评估聚类的k值fromsklearn.clusterimportKMeansK=range(1,10)sse=[]forkinK:km=KMeans(n_clusters=k,random_state=10)km.fit(del_df)sse.append(km.inertia_)plt.figure(figsize=(8,6))plt.plot(K,sse,'-o',alpha=0.7)plt.xlabel("K")plt.ylabel("SSE")plt.show()根据肘部法则,选择K=2,也就是说将客户分成两群.#4.客户分群frompandas.plottingimportparallel_coordinates#训练模型km=KMeans(n_clusters=2,random_state=10)km.fit(del_df)centers=km.cluster_centers_labels=km.labels_customer=pd.DataFrame({'0':centers[0],"1":centers[1]}).Tcustomer.columns=del_df.keys()df_median=pd.DataFrame({'2':del_df.median()}).Tcustomer=pd.concat([customer,df_median])customer["category"]=["customer_1","customer_2",'median']#绘制图像plt.figure(figsize=(12,6))parallel_coordinates(customer,"category",color=('red','blue','black'))plt.xticks(rotation=15)plt.show()从6种产品每年消费支出来看,客户群1在冷冻产品上最高,在洗涤剂和纸制品上最低,而客户群2则在冷冻产品上最低,在洗涤剂和纸制品上最高,且客户群2在6种产品的消费支出均高于中位数水平,因此客户群2为重要客户,客户群1则是一般客户。#5.最终分群结果,将聚类后的标签加入数据集del_df['category']=labelsdel_df['category']=np.where(del_df.category==0,'customer_1','customer_2')customer=pd.DataFrame({'0':centers[0],"1":centers[1]}).Tcustomer["category"]=['customer_1_center',"customer_2_center"]customer.columns=del_df.keys()del_df=pd.concat([del_df,customer])#对6类产品每年消费水平进行绘制图像df_new=del_df[['Fresh','Milk','Grocery','Frozen','Detergents_Paper','Delicassen','category']]plt.figure(figsize=(18,6))paralle
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专题2 近代化的探索与中国共产党的诞生【单元测试】(解析版)
- 2025建设工程劳务承包合同协议
- 低碳社区房屋买卖范本
- 艺术启蒙幼儿园园长聘任协议
- 赠与房屋合同
- 林场油罐租赁协议
- 泥工建设施工合作协议
- 生态治理招投标小组职责探究
- 环保项目专职律师聘用合同模板
- 薪酬等级制度与员工工作生活平衡
- 废水余热回收技术方案
- 一年级上册看图列算式
- MHT:中小学生心理健康检测(含量表与评分说明)
- 企业战略管理顾问聘用合同
- 辽宁省朝阳市朝阳县2023-2024学年九年级上学期期末数学试题
- 自考英语二4500词汇汇总
- 2023-2024学年山东省临沂市兰山区部分学校数学九年级第一学期期末统考模拟试题含解析
- 医院心理科心理评估报告
- 数据跨境传输协议
- 学术综合英语(罗立胜)1-6单元课文翻译
- 新译林版五年级上册各单元教学反思(文本版本)(共5则)
评论
0/150
提交评论