




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
宁夏大学
第四章k-近邻算法K-近邻算法www.islide.cc2目录
CONTENT01引言02算法概述03实验数据04算法实战05本章小结01引言引言
古人云:“近朱者赤,近墨者黑”。其实机器学习中的kNN算法的核心思想就是这句流传至今的名言。kNN算法又称为K近邻算法,是众多机器学习算法中少有的懒惰学习算法,该算法不仅可以用来回归也可以用来分类。本章将学习k近邻算法的基本理论,使用距离测量的方法分类物品,编写构造knn分类器python代码,利用实际的例子讲解如何使用k-近邻算法对糖尿病数据集进行分类预测。02算法概述算法概述1、基本概念k-近邻算法(k-NearestNeighbouralgorithm),又称为KNN算法,是数据挖掘技术中原理最简单的算法。KNN的工作原理:给定一个已知标签类别的训练数据集,输入没有标签的新数据后,在训练数据集中找到与新数据最邻近的k个实例,如果这k个实例的多数属于某个类别,那么新数据就属于这个类别。可以简单理解为:由那些离X最近的k个点来投票决定X归为哪一类。算法概述
简单地说,k近邻算法采用测量不同特征值之间的距离方法进行分类。上图中有红色三角和蓝色方块两种类别,现在需要判断绿色圆点属于哪种类别。当k=3时,绿色圆点属于红色三角这种类别;当k=5时,绿色圆点属于蓝色方块这种类别。算法概述
要度量空间中点距离的话,有好几种度量方式,比如常见的曼哈顿距离计算,欧式距离计算等等。不过通常KNN算法中使用的是欧式距离,这里只是简单说一下,拿二维平面为例,二维空间两个点的欧式距离计算公式如下:如果是多个特征扩展到N维空间,怎么计算?可以使用欧氏距离(也称欧几里得度量),如下所示:算法概述k-近邻算法步骤如下:(1)计算已知类别数据集中的点与当前点之间的距离;(2)按照距离递增次序排序;(3)选取与当前点距离最小的k个点;(4)确定前k个点所在类别的出现频率;(5)返回前k个点出现频率最高的类别作为当前点的预测类别。03实验数据准备数据数据集介绍DiabetesData也称糖尿病数据集是一类多重变量分析的数据集。通过对442例糖尿病患者的年龄、性别、体重指数、平均血压以及兴趣反应等10个属性进行分析,预测基线一年后疾病进展的定量测量值。本章将从糖尿病数据集中选取部分作为实验数据,并存放于diabetes.csv文本文件中。8个属性变量和标记值具体介绍如右图:处理数据导入数据集,并将数据进行归一化且将数据集进行划分为训练集和测试集,具体操作如下所示:数据归一化为避免其中某个特征数据过大而影响整体,接下来要进行数值归一化的处理,使得这四个特征的权重相等。数据归一化的处理方法有很多种,比如0-1标准化、Z-score标准化、Sigmoid压缩法等等,在这里我们使用最简单的0-1标准化,公式如下:将该计算公式封装为minmax()函数。处理数据集
归一化数据集后,按照一定比例地要求,将原始数据集分为训练集和测试集两部分。为保证数据地随机分配,采用打乱索引的方式打乱数据顺序。04案例实战k-近邻实现预测测试集并计算准确率
接下来,构建针对于心脏病数据集的分类器,上面我们已经将原始数据集进行归一化处理然后也切分了训练集和测试集,所以我们的函数的输入参数就可以是train、test和k(k-近邻算法的参数,也就是选择的距离最小的k个点)。结果分析准确度分数:调用datingClass()函数后,当k=9时,判断是否患糖尿病的预测准确率达到0.75预测结果下图即为测试集的预测情况:对比outcome和predict两列属性值情况,两者一致则为预测正确,否则即为错误。05本章小结本章小结
本章详细介绍了k近邻的相关理论,阐述了k-近邻算法的工作流程,通过一个糖尿病数据集讲述了如何使用k-近邻算法实现分类训练与预测。K-近邻算法是基于实例的学习,使用算法时我们必须有接近实际数据的训练样本数据。k-近邻算法必须保存全部数据集,如果训练的数据集很大,必须使用大量的存储空间。此外,由于必须对数据集中的每个数据计算距离值,实际使用时可能非常耗时。k-近邻算法的另一个缺陷是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 铁岭卫生职业学院《化工废水处理》2023-2024学年第二学期期末试卷
- 湖南冶金职业技术学院《高频电子线路及》2023-2024学年第二学期期末试卷
- 中国政法大学《新闻发布理论与实务》2023-2024学年第二学期期末试卷
- 广东工业大学《环境小品设计》2023-2024学年第二学期期末试卷
- 武汉科技大学《居住建筑设计原理》2023-2024学年第二学期期末试卷
- 2025年福建省沙县金沙高级中学高三下学期第三次质检考试英语试题含解析
- 四川商务职业学院《面向对象的系统分析和设计》2023-2024学年第二学期期末试卷
- 福建省东山县2024-2025学年初三毕业班联考(一)英语试题试卷含答案
- 赤峰应用技术职业学院《单片机原理与接口技术》2023-2024学年第二学期期末试卷
- 2025年浙江省鄞州高级中学高中毕业班第一次统考生物试题含解析
- 《机动车驾驶人考试场地布局规划指南》编制说明
- 《大数据财务分析》教学大纲
- 状语从句(练习)-2025年高考英语一轮复习(新教材新高考)
- DB11∕T 584-2022 薄抹灰外墙外保温工程技术规程
- JJF 2156-2024材料热膨胀仪校准规范
- 中国老年骨质疏松症诊疗指南(2023)解读课件
- 精 《校园的早晨》同步课件
- 医学教材 鼻窦病变的CT和MRI诊断思路解析
- 2024年河南省机关单位工勤技能人员培训考核高级工技师《职业道德》题库
- 2023光伏并网柜技术规范
- 综合港区海水淡化引水工程施工组织设计
评论
0/150
提交评论