Python人工智能技术与应用 课件 7.【课件】3-1 完成基于K-Means的汽车产品聚类分析实训_第1页
Python人工智能技术与应用 课件 7.【课件】3-1 完成基于K-Means的汽车产品聚类分析实训_第2页
Python人工智能技术与应用 课件 7.【课件】3-1 完成基于K-Means的汽车产品聚类分析实训_第3页
Python人工智能技术与应用 课件 7.【课件】3-1 完成基于K-Means的汽车产品聚类分析实训_第4页
Python人工智能技术与应用 课件 7.【课件】3-1 完成基于K-Means的汽车产品聚类分析实训_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《Python人工智能技术与应用》能力模块三掌握机器学习技术的基础应用任务一

完成基于K-means的汽车产品聚类分析实训TaskImport任务导入某无人汽车制造商打算开发一款新系列的汽车产品,在汽车产品开发之前需要了解消费者需求、市场趋势以及竞争对手情况等信息,从而更好地制定产品策略和市场推广方案。你作为该制造厂市场部门的市场数据分析师,主要职责是分析市场数据、趋势和消费者行为,以协助企业做出战略决策。现需要你利用Python编程语言和统计学知识对市场上的各类型汽车的竞品进行分析,帮助汽车制造商了解市场格局以及消费者需求,从而为产品设计和开发提供指导。素养目标引导问题的过程中,培养学生形成勤于思考的能力获得分析解决问题以及多元化思考解决问题的方法,形成创新意识。TaskObject任务目标知识目标了解聚类算法的定义与实现过程。了解K-means算法的定义和实现过程。了解K-means算法的适用情形与应用场景。技能目标掌握使用机器学习工具sklearn库搭建K-means模型。能够思考并确立好基于K-means实现对汽车产品数据分析的思路。培养勤于思考的职业习惯。新

授基于K-means实现汽车产品聚类分析项目04CONTENTS目录聚类分析算法定义与实现过程01K-means算法实现过程02K-means适用情形与应用场景0301聚类分析算法定义与实现过程聚类分析定义聚类分析过程聚类分析是一种无监督学习方法,通过度量数据点之间的距离来捕捉它们之间的相似性,并将它们分成相似的类别。聚类分析的过程包括选择合适的距离度量方法、选择聚类算法、初始化聚类中心、计算相似性、将数据点分配到聚类中心、更新聚类中心、重复以上步骤、评估聚类效果等步骤。通过度量数据点之间的距离来捕捉数据点之间的相似性,将数据点进行分组01聚类分析算法定义与实现过程指的是两个点在空间中的最短直线距离。欧式空间距离

欧式空间中两个点的最短直线距离dist(A,B)(一)选择合适的距离度量方法01聚类分析算法定义与实现过程又称“城市街区距离”(CityBlockdistance)或“出租车距离”。指从一个十字路口开车到另一个十字路口的驾驶距离。曼哈顿距离a+b为这两辆车的曼哈顿距离(一)选择合适的距离度量方法01聚类分析算法定义与实现过程对于k-means聚类,需要随机初始化k个聚类中心。(三)初始化聚类中心根据相似性,将每个数据点分配到与之距离最近的聚类中心。(五)将数据点分配到聚类中心聚类算法可以是层次聚类、k-means聚类、DBSCAN聚类等。每种算法都有其适用的场景和特点,需要根据问题需求选择合适的算法。(二)选择聚类算法对于每个数据点,计算其与其他数据点的相似性,即距离。可以根据选择的距离度量方法来计算距离。(四)计算相似性01聚类分析算法定义与实现过程重复以上步骤,直到聚类中心不再发生变化或达到预定的迭代次数。(七)重复以上步骤重新计算每个聚类的中心,即聚类中所有数据点的平均值。(六)更新聚类中心01聚类分析算法定义与实现过程组内距离小:聚类后的每一个类别中成员与成员之间的相似度高组间距离大:聚类后不同类别的成员之间的相似度低聚类算法评估的原则:组内距离最小,组间距离最大(八)评估聚类效果聚类算法结果评估的原则是小的组内距离和大的组间距离K-means算法实现过程02K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。肘部法是一种常用的K-Means聚类算法中确定K值的方法之一。其基本思想是随着聚类数K的增加,样本点到其所属类的距离会逐渐减小,因此K值增大会导致聚类效果变好。

当K值增加到一定程度时,聚类效果提升的效果会逐渐变小,这时再增加K值就不会对聚类效果产生显著的改善,甚至会导致过拟合,即产生过多的子簇,从而使聚类效果变差。故当聚类效果由好开始变坏时的K值即是选择的K值。02

假定取K=3,以下复现K-means算法对样本实现聚类的过程。左图为待聚类的样本。选取3个中心点,右图所示,红色、绿色和蓝色方框分别是选定的3个中心点。(一)随机选取中心点K-means算法实现过程待聚类的样本选取中心点红色、蓝色、绿色方框为中心点02对每个样本,找到距离自己最近的中心点,完成一次聚类。判断此次聚类前后样本点的聚类情况是否相同,若相同,算法终止。否则继续下一步。(二)通过距离度量进行类别划分K-means算法实现过程完成了一次聚类后的结果02(三)根据该次聚类的结果,更新中心点K-means算法实现过程重新选定了中心点02对每个样本,找到距离自己最近的中心点,完成一次聚类,判断与此次聚类前样本点的聚类情况是否相同。若相同,算法终止,否则继续下一步。(四)再次通过距离度量进行类别划分K-means算法实现过程根据新的中心点的二次聚类结果02(五)根据该次聚类的结果,更新中心点K-means算法实现过程根据聚类结果,再次更新中心点02对每个样本,找到距离自己最近的中心点,完成一次聚类。判断与此次聚类前样本点的聚类情况是否相同。(六)第三次通过距离度量进行类别划分K-means算法实现过程根据更新后的中心点,进行第三次聚类02(七)算法在上一步终止,最终的聚类结果K-means算法实现过程最终聚类结果03K-means适用情形与应用场景(一)K-means算法的适用情形

K-means算法适用于以下情形:数据集包含数值型数据、数据集具有固定的类别数量、数据集具有较大的数据量、聚类结果的可解释性较强。

K-means算法是一种基于距离度量的算法,因此它适用于数值型数据。

例如连续的数值变量。数据集包含数值型数据03K-means适用情形与应用场景(一)K-means算法的适用情形K-means算法需要预先指定聚类数量K,因此它适用于那些已经知道聚类数量的数据集。数据集具有固定的类别数量饮料产品数据集K=403K-means适用情形与应用场景(一)K-means算法的适用情形由于采用随机选取中心点的方法,K-means算法通常不能保证找到全局最优解,因此它适用于那些对聚类结果没有强烈要求的应用场景。聚类结果不需要完美K-means算法是一种可扩展的算法,它可以处理大量的数据点,并且可以通过并行化等方式加速计算。数据集具有较大的数据量K-means算法将数据点划分为不同的类别,这些类别具有直观的可解释性,因此它适用于那些需要对聚类结果进行解释的应用场景,例如市场细分和客户分群等。聚类结果的可解释性较强03K-means适用情形与应用场景(二)K-means算法的应用情形市场细分:K-means算法可以将潜在客户划分为不同的类别,帮助企业了解不同市场细分的特征和需求,制定相应的营销策略。客户分群:K-means算法可以根据客户的属性和行为,将客户划分为不同的群体,帮助企业更好地了解客户需求和行为,提供更个性化的服务和产品。模式检测:K-means算法可以检测出数据中的聚类模式,帮助企业发现数据中的规律和趋势,从而做出更好的决策推荐系统:K-means算法可以将用户划分为不同的群体,帮助推荐系统更准确地推荐相似兴趣的产品和服务。图像分割:K-means算法可以将图像中的像素点划分为不同的区域,帮助图像分析和识别等应用场景。基于K-means算法实现汽车产品聚类分析实训04

汽车产品聚类分析是一个常见的数据挖掘问题,其目的是将不同的汽车产品根据其特征属性进行聚类,以便更好地理解和分析不同汽车产品之间的相似性和差异性。选择K-means算法,根据K-means的聚类结果,即可分析出vokswagen汽车的聚类结果。流程为:(一)实现思路01收集数据并导入02数据探索性分析03数据特征处理04确定K值05运行K-means预测04

scikit-learn(简称sklearn)是一个用于机器学习的Python第三方库。它提供了丰富的机器学习算法和工具,包括分类、回归、聚类、降维、模型选择和数据预处理等功能。基于K-means算法实现汽车产品聚类分析实训(二)工具学习模块名称描述datasets包含一些标准数据集和数据生成器,用于测试和演示cluster包含一些聚类算法,如KMeans、DBSCAN等decomposition包含一些降维算法,如PCA、NMF等ensemble包含一些集成学习算法,如随机森林、Adaboost等feature_extraction包含一些特征提取方法,如PCA、特征选择等linear_model包含一些线性模型,如线性回归、岭回归、逻辑回归等model_selection包含一些模型选择和评估方法,如GridSearchCV、交叉验证等metrics包含一些评估指标,如精度、召回率、F1-score等preprocessing包含一些数据预处理方法,如缩放、归一化等sklearn的主要模块04可通过sklearn的preprocessing模块中的labelencoder方法进行一些数据预处理。下表为labelencoder的使用方法和使用sklearn对模型进行训练和预测。基于K-means算法实现汽车产品聚类分析实训(二)工具学习

sklearn的labelencoder的使用方法方法名称描述fit计算每个特征的编码transform将特征编码为整数fit_transformfit和transform的结合inverse_transform将编码解码回原始特征值04基于K-means算法实现汽车产品聚类分析实训(二)工具学习使用sklearn对模型进行训练和预测步骤描述命令1导入KMeans方法fromsklearn.clusterimportKMeans2加载数据集X=np.array([[1,2],[1,4],[1,0],[10,2],[10,4],[10,0]])3创建KMeans模型,设置聚类中心数量kmCluster=KMeans(n_clusters=2)4调用fit()函数,训练模型kmCluster.fit(X)5调用predict()函数,预测样本、其输出分别是:K中心点和数据集的完全标记kmCluster.predict(X)6调用score()函数,计算误差值kmCluster.score(X)7使用labels_方法获取聚类结果kmCluster.labels_8使用cluster_centers_方法获取聚类中心kmCluster.cluster_centers_04

收集汽车产品的特征数据,如品牌、价格、车型、发动机排量、燃油类型、车身尺寸等等,并进行数据清洗和处理。可选用car_price.csv数据集。car_price.csv数据集包含大量汽车特征数据,其中根据我们的研究目标选择最相关的特征,例如"fueltype"(燃油类型),"aspiration","doornumber"(车门数量)等。使用pandas.read_csv方法导入数据集。收集数据并导入(三)案例实现流程基于K-means算法实现汽车产品聚类分析实训04

下表是使用Pandasdataframe中的方法进行数据探索性分析。数据探索性分析(三)案例实现流程基于K-means算法实现汽车产品聚类分析实训子模块方法描述数据的整体概览head()返回前几行数据,默认前五行tail()返回后几行数据,默认后五行info()显示数据集的基本信息,包括每列的名称、非空值的数量和数据类型describe()提供数据集的基本统计信息,如均值、标准差、最大值和最小值等value_counts()计算每个唯一值出现的次数数据可视化dataframe.value_counts().plot(kind=”bar”)绘制条形图和饼图dataframe.boxplot()绘制箱线图洞察数据data.corr()探究变量之间的关系04(三)案例实现流程基于K-means算法实现汽车产品聚类分析实训使用sklearn中的labelencoder方法进行数据特征处理。非数值数据转化为数值数据。使用sklearn的LabelEncoder方法将数据中的非数值字段转化为数值,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论