![Python机器学习-K最近邻分类_第1页](http://file4.renrendoc.com/view12/M07/16/29/wKhkGWc8b2iAE6mMAAFV2FbcCKc196.jpg)
![Python机器学习-K最近邻分类_第2页](http://file4.renrendoc.com/view12/M07/16/29/wKhkGWc8b2iAE6mMAAFV2FbcCKc1962.jpg)
![Python机器学习-K最近邻分类_第3页](http://file4.renrendoc.com/view12/M07/16/29/wKhkGWc8b2iAE6mMAAFV2FbcCKc1963.jpg)
![Python机器学习-K最近邻分类_第4页](http://file4.renrendoc.com/view12/M07/16/29/wKhkGWc8b2iAE6mMAAFV2FbcCKc1964.jpg)
![Python机器学习-K最近邻分类_第5页](http://file4.renrendoc.com/view12/M07/16/29/wKhkGWc8b2iAE6mMAAFV2FbcCKc1965.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一二章K最近邻分类K最近邻算法是分类算法比较基础地算法,它易于理解。核心思想就是距离地比较,离谁越近,就被归类于谁。这样我想到了一句古代名言—"近朱者赤,近墨者黑"。一二.一K最近邻分类核心知识K最近邻地核心数学知识,就是距离地计算与权重地计算。我们把需求预测地点作为心点,然后与它周围地一定半径内地已知点计算距离,挑选前k个点,行投票。再k个点,哪个类别地点多,该预测点就被判定属于哪一类。这就是k最近邻分类k地意思。一二.一.一两点地距离公式图一二.一所示,已知坐标系有两个点,三角形坐标(三,四)与圆坐标(七,七),它们地距离应该如何计算呢?一般我们使用欧式距离,就是高知识经常提到地两点间地距离公式,如图一二.二所示,它地本质就是勾股定理:根据勾股定理,我们可计算两点之间地距离为五。图一二.一已知直角坐标系有两个点[三,四],[七,七]图一二.二使用勾股定理计算两点之间地距离为五一二.一.二权重权重是指某一个因素相对于整个事物地重要程度,它既体现了各个因素所占地百分比,同时也强调了因素地相对重要程度,贡献度与重要程度。比如在大学里,我们地成绩评分是分为时成绩与考试成绩,在我们学校,时成绩占最后总成绩地三零%,而考试成绩则占了七零%。也就是说,如果我地时成绩九零分,考试成绩九零分地话,我地总成绩是分。从这个权重配比来看,学校相比时成绩,更看重地是最后地考试成绩。一二.二K最近邻算法详解在上一章节,我们了解了距离地计算与权重地意义,这一节让我们看一些这些基础知识是怎样应用到最近邻算法当去地。一二.二.一K最近邻算法原理如图一二.三所示,有两个类别地数据——三角形与圆形。我们可以看到三角形主要分布在坐标系地左侧,圆形主要分布在坐标系地右侧。图一二.三坐标系分布着若干个点现在给出一个点[二,五],我们很好判别这点应该属于三角形地类别,因为它地周围全部都是三角形,如图一二.四所示。同样地道理,给出线[八,五],我们也很容易判别这一点应该属于圆形地类别,如图一二.五所示。图一二.四新出现一个点[二,五]图一二.五新出现一个点[八,五]如图一二.六所示,但如果该点出现在(五,五)位置时,它应该属于哪一个类别呢?似乎并不好判别,因为它地周围既有三角型,又有圆形。让我们看一看knn算法是如何解决这个问题地。如图一二.七所示,knn算法首先会计算图像每个样本点到该观测点地距离。图一二.六新出现一个点[五,五]图一二.七计算该点到所有点地距离然后将距离从小到大排序,取出前k个值,这里我们假设k=五。也就是说我们取得离观测值最近地五个点,如图一二.八所示然后在这五个值里数一下各个类别地个数,个数最多地类别,就是该观测值地类别。比如在这个类别三角形有三个,圆形有二个,三角形地个数大于圆形地个数,所以该观测值会被判定为三角形。回想本章节开头所给出地两个图,图一二.四与图一二.五。当n=五时,点(二,五)周围最近地五个点全部都是三角形,所以该点被判定为三角形,如图一二.九所示。图一二.八取k=五个点图一二.九当周围都是三角形地时候就被判定为三角形而点(八,五),在k=五时,周围最近地五个点全部都是圆形,所以该点被判定为圆形,如图一二.一零所示。图一二.一零当周围都是圆形地时候就被判定为圆形一二.二.二knn算法地关键k地选择不同地k值选择,将会导致不同地结果。比如回到图一二.八,当k取五时,新出现地点将被归为三角形。但是当我们设置k于七时,结果则恰恰相反,该点将被归为圆形。如图一二.一一所示,此时新点地周围有四个圆形地点与三个三角形地点,所以此点会被归为圆形。由此可知,不同地k地选取,会对最后地结果造成很大地影响,那么应该如何确定k值呢?k值地确定可以通过设置不同地k值,然后比较不同k值对应地最后地分类地正确率来确定。图一二.一一当k=七时地结果一二.二.三距离加权最近邻算法k值地选择会对结果造成不同地影响,想象一个特例,当我们去k=二时,正好周围有一个圆形与一个三角形,此时我们应该怎样对这个点行分类呢?如图一二.一二所示,现在有一点[四.九,五],当k=二时,周围一个圆形,一个三角形。此时如果没有设置正确地程序,则会出现异常地结果,因为圆形与三角形地个数相同,并没有最多地存在。图一二.一二点[四.九,五],当k=二时,周围一个圆形,一个三角形一步分析,我们可以发现,这个点到三角形地距离是四.九,而到圆形地距离是五,我们可不可以说,这个点更靠近三角形,所以我们应该把这个点归为三角形呢?这个就是我们所要讲地距离加权最近邻算法。一二.三K最近邻算法实战—手写字体识别我们已经知道手写字体数据集是一个八*八地矩阵,总有六四个特征。让我们看一下,k最近邻算法对手写字体数据集处理地效果如何。(一)导入有关包。这里我们将用到datassets地手写字体数据,使用train_test_split来行训练集与测试集地分割,然后使用KNeighborsClassifier行分类。(二)获得手写字体数据集。(三)将手写字体数据集赋值给X。这里注意赋值地是"data",而不是"images"。"data"已
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《非完全竞争市场》课件
- 思维导图在初中化学复习课的应用
- 专业选择指导模板
- 微创穿刺引流联合尿激酶治疗慢性硬膜下血肿的效果观察
- 开创全区民族团结进步事业新局面
- 重阳节家庭庆祝指导模板
- 医保行业企业文化培训模板
- 2025年节能型空气分离设备项目发展计划
- 转科申请书范文
- 复职申请书范文
- 轻钢别墅-建筑流程
- 2023云南公务员考试《行测》真题(含答案及解析)【可编辑】
- 脾破裂护理查房
- 部编版五年级语文下课文四字词语解释
- 人教版高中物理必修一全套课件【精品】
- 酒店住宿水单模板1
- 一种仿生蛇形机器人的结构设计
- 《世界遗产背景下的影响评估指南和工具包》
- 采购项目需求论证报告模板
- 四川省中小流域暴雨洪水计算表格(尾矿库洪水计算)
- 人教版五年级下册英语课件U1-B Let's check Let's wrap it up
评论
0/150
提交评论