版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2章人工智能技术基本原理2.4使用K均值算法进行聚类教学设计教学背景信息科技是现代科学技术领域的重要部分,主要研究以数字形式表达的信息及其应用中的科学原理、思维方法、处理过程和工程实现。当代高速发展的信息科技对全球经济、社会和文化发展起着越来越重要的作用。义务教育信息科技课程具有基础性、实践性和综合性,为高中阶段信息技术课程的学习奠定基础。信息科技课程旨在培养科学精神和科技伦理,提升自主可控意识,培育社会主义核心价值观,树立总体国家安全观,提升数字素养与技能。教材分析本节课的教学内容选自人教/地图出版社选择性必修4人工智能初步第2章人工智能技术基本原理2.4使用K均值算法进行聚类。智能已成为人们生活的一部分,它到底隐藏着多少人工智能的神奇“魔术”?智能助理和智能聊天等应用,正颠覆着我们与的交互方式;新闻资讯、在线购物等热门应用总在推送着适合我们的内容;图像识别智能应用能够识别图像或现实中的人、风景、地点,可帮助我们快速组织和检索图像;图像处理软件能对图像进行美化,打造个性化图像;当人们开车出行时,可以使用导航软件规划最佳路线......中的智能应用涉及许多人工智能技术,各类应用的智能表现离不开“机器学习”。机器学习与人类学习不同,它需要收集大量数据或积累大量经验。本章的核心是机器学习,涉及回归、分类和聚类等算法,以及神经网络、深度学习和强化学习等概念和理论。在本章的学习中,我们将以“智能技术初体验”为主题,开展项目活动,探索应用中的人工智能技术,领略技术背后人工智能算法的魅力,进而学习人工智能技术的基本原理。教学目标1.通过剖析案例,了解聚类的基本概念,能举例说明算法的应用场景。2.了解一种基于距离的聚类经典算法——K均值算法,能解释算法的关键环节。教学重点与难点教学重点:通过剖析案例,了解聚类的基本概念,能举例说明算法的应用场景。教学难点:了解一种基于距离的聚类经典算法——K均值算法,能解释算法的关键环节。教学方法与教学手段案例分析法、讲授法、任务驱动法。教学过程问题导入体验探索上的推送消息,你感兴趣吗每天我们的都能收到很多推送消息,如图2.4.1(参见教材P52)所示。为了吸引用户打开应用,继续阅读这些推送消息,互联网公司“悄悄”地做了很多工作。比如,用户在使用应用时,系统会记录他们的消费习惯、阅读偏好、评论风格及地理位置等信息,然后按照“物以类聚,人以群分”的思想,将这款应用的用户聚合为不同的类型,比如酷炫科技感等,然后对不同类型的用户“投其所好”,向他们推送该类人群可能感兴趣的消息,从而获得更多的阅读量和潜在的收益。思考:除了上面的案例,智能应用中还有哪些功能体现了“物以类聚,人以群分”的思想?认识基于距离的聚类2.3节中,我们借助决策树解决了患者应佩戴何种隐形眼镜的问题,分类算法中样本数据的种类是已知的,即不适合佩戴、适合佩戴软材质或硬材质的隐形眼镜。聚类算法不同于分类算法,它在操作时并不知道样本数据有多少种类,而是通过数据分析,发现数据之间的内在联系和相关性,将看似没有关联的事物聚合在一起,并将数据划分成若干集合,方便为数据打上标签,从而进行后续的分析和处理。其中,被划分的数据集合称作“簇”。实践活动办事处选址一家大型外企拟在我国设立4个办事处,每个办事处承接周边几个省份的业务。为降低管理成本,该企业希望对接的省会城市和直辖市离这4个办事处的距离之和尽可能小一些。图2.4.2(参见教材P53)按照经纬度坐标展示了该企业对接的我国部分省会城市和直辖市的位置,其中每一个点代表一座城市。尝试将这些城市划分为4类,按选址要求指出4个办事处的位置,并说明理由。在机器学习中,有很多种划分数据集的方法,其中最常用的一种是基于数据间距离的K均值聚类算法,又称作K均值算法。所谓基于距离,指的是如果把数据呈现在坐标系中,数据集中的每个样本都是空间中的一个点坐标,通过简单的计算就可以知道各个点之间的距离,距离越近,即相似程度越高。K均值算法是一个迭代算法,需要经过多次重复计算才能得到最终的结果。值得注意的是,由于样本数据不同,特征值的波动范围和计量单位很可能不一致。为了消除不同量纲的特征值对计算结果产生的影响,可以在使用K均值算法之前,对样本数据做归一化处理。例如,选出样本数据中每种特征值的最大值和最小值,将最大值与最小值的差作为分母,每个特征值与最小值的差作为分子,使得所有数据通过归一化处理后,都分布在区间[0,1]中,然后再代入算法进行计算。K均值算法的具体步骤如下:1.在空间中找出k个点,将这k个点称为质心,通过计算其他样本点到这k个质心的距离(即每两个点在坐标系中的直线距离),对样本点进行划分,从而把距离近的点划分在一起,组成k个簇;2.分别计算k个簇中所有样本点的几何中心,得到k个新的质心;3.重复上述过程,直到k个新质心与上一轮的质心位置完全相同。图2.4.3展示了利用K均值算法对n个样本点进行聚类的分步演示过程,这里k值取2。以“办事处选址”实践活动为例,在使用K均值算法之前,需要对样本数据进行归一化处理,得到如图2.4.4(参见教材P55)所示的结果。需要注意的是,k值的大小会给分组结果带来显著的区别,如果事先并不知道将数据划分为几簇最合适,那么k值的选定是比较困难的,这也是K均值算法的一个不足之处。“办事处选址”活动中,当k的取值依次为2、3、4、5时,得到的聚类结果如图2.4.5(参见教材P55)所示,其中相同颜色的点代表归属于同一个办事处管辖,大头钉标志代表推荐的办事处选址地。实际确定办事处所在的城市时,可选择最靠近推荐地的城市,即在相同颜色的点中,寻找最接近大头钉标志的那个点的位置,作为最终的选址地。阅读拓展基于密度的聚类和基于层次的聚类除了基于距离的聚类,常见的聚类方法还有两种。一种是基于密度的聚类,这种方法通过分析样本分布的紧密程度来确定聚类结果。通常,密度聚类算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终结果。具有噪声的基于密度的聚类方法(DensityBasedSpatialClusteringofApplicationswithNoise,DBSCAN)是一种典型的密度聚类算法。通过图2.4.6(参见教材P56)能够明显看出两种聚类算法结果的差异。另一种是基于层次的聚类,这种算法在不同层次对数据集进行划分。以凝聚的层次聚类算法(AgglomerativeNesting,AGNES)为例,它先将数据集中的每个样本看作一个初始聚类簇,然后再逐步将它们两两合并,直到获得最终的聚类结果,如图2.4.7(参见教材P56)所示。K均值聚类算法的一般流程类似决策树的构造过程,K均值聚类算法的一般流程也可以概括为图2.4.8(参见教材P56)所示的4个环节。收集数据准备数据测试算法使用算法K均值聚类算法除了可以用于研究城市之间的距离关系,还可用于分析城市人口与国内生产总值(GrossDomesticProduct,GDP)之间的关系,从而将我国部分省会和直辖市聚合成几类。下面通过一个实例来详细介绍这个流程。收集数据我们可以通过国家统计局等网站获取相关城市2016年的城市人口和GDP数据。准备数据由于样本数据计量单位不一致,可以先对样本数据作归一化处理,使所有样本数据集中分布在区间[0,1]中。归一化后借助Python编程语言绘制散点图,图中的横轴为归一化后的城市人口,纵轴为归一化后的GDP数据,如图2.4.9所示。下面将这些城市的人口和GDP数据进行聚类。测试算法不同于决策树的分类算法,由于获得的样本数据本身并没有类型,无须进行训练,所以可直接进入测试环节。应用K均值算法得到结果后,如何评价结果的优劣呢?误差平方和(SumofSquaredError,SSE)是一种能够评价聚类结果的指标,即求解所有点与其对应质心距离的平方之和。SSE的值越小,聚类的结果越好。使用算法当获得一个新的数据时,可以计算该数据与所有质心的距离,找出最近的质心,建议将这个新的数据聚合到最近质心所在的类。K均值算法是一种常用的聚类算法,它运算快,且较为简单,但是k值最初难以选定,且最初的质心选择会影响到最终的聚类结果。项目实施照片的聚类一、项目活动的拍照功能可以捕捉生活中的美好瞬间,但随着中的照片越来越多,想快速从中找到一张需要的照片就越来越难。如果中的照片能自动聚类,就能大幅提升查找效率。1.浏览中的照片,选取一些照片中的特征,如照片中人物的数量、是否有动物或照片中面积最大的颜色等,整理出一张特征数据表。2.依据整理好的特征数据表,尝试进行照片的自动聚类,将聚类后的照片存储在一个文件夹中,方便查找。二、项目检查1.在学习聚类算法后,能够分析中的照片,找到用于聚类的特征,实现聚类分析。2.基于所选照片的特征,填写表2.4.1。表2.4.1照片的特征统计照片人物的数量是否出现动物(1代表有动物,2代表没有)...照片1照片2...3.从众多特征中选取两个特征,实现对照片的聚类分析,并在班级里展示聚类结果。课后作业1.生活中,有哪些需要聚类的场景?尝试收集一些数据并进行聚类分析。2.针对上题收集到的数据,观察k取不同数值时的差异,尝试找出最适
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年食品烘干机项目可行性研究报告
- 2024年自动复位注射枪项目可行性研究报告
- 2024至2030年中国防雾滴母粒数据监测研究报告
- 2024年曲木办公椅项目可行性研究报告
- 2024年密封变压器项目可行性研究报告
- 2024至2030年中国环境测试议数据监测研究报告
- 2024至2030年中国比赛垒球数据监测研究报告
- 2024年版暖气片买卖协议范本版
- 2024-2030年芳烃树脂行业市场现状供需分析及投资评估规划分析研究报告
- 2024-2030年肾结石摘除气球行业市场现状供需分析及投资评估规划分析研究报告
- 2024年人教版七年级上册英语期中综合检测试卷及答案 (一)
- 重大事故隐患判定标准与相关事故案例培训课件
- 唐诗宋词人文解读智慧树知到期末考试答案章节答案2024年上海交通大学
- 完美着装智慧树知到期末考试答案章节答案2024年武汉纺织大学
- 《电视摄像》电子教案
- 深圳市中小学生流感疫苗接种知情同意书
- 射线、直线和角(张冬梅)
- 第一讲 伟大事业都始于梦想(课件)
- NCCN癌痛指南更新解读专家讲座
- 道路运输达标车辆核查记录表(货车)
- 人造血管内瘘护理
评论
0/150
提交评论