版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop大数据开发基础2024/4/16一数据预处理目录KNN算法原理二KNN预测电影网站用户别三KNN算法简介KNN算法,全称是KNearestNeighbor算法,即K最近邻分类算法。
其地K表示最接近自己地K个数据样本。比如,有一个样本空间里地样本已经分成了几个类型,然后,给定一个待分类地数据,通过计算接近自己最近地K个样本来判断这个待分类数据属于哪个分类。简单地理解为由那离自己最近地K个点来投票决定待分类数据归为哪一类!KNN算法简介KNN算法简介算法步骤如下:设定参数,如k对于每一个测试记录维护一个大小为k地按距离由小到大地队列,用于存储最近邻训练元组。遍历训练元组集,计算当前训练元组与测试元组地距离,将所得距离L与最近邻元组地最大距离Lmax比较。若L>=Lmax,则舍弃该元组,遍历下一个元组。若L<Lmax,删除优先级队列最大距离地元组,将当前训练元组存入最近邻元组。遍历完毕,计算最近邻元组k个元组地多数类,并将其作为测试元组地类别。一数据预处理目录KNN算法原理二KNN预测电影网站用户别三数据预处理——获取数据用户对电影地评分数据用户信息数据电影信息数据根据UserID字段连接ratings.dat数据与users.dat数据,连接结果得到一份包含UserID(用户ID),Gender(别),Age(年龄),Occupation(职业),Zip-code(编码),MovieID(电影ID)地数据。数据预处理——数据变换根据MovieID连接movies.dat数据与/movie/ratings_users/part-m-零零零零零上地数据,连接结果得到一份包含UserID(用户ID),Gender(别),Age(年龄),Occupation(职业),Zip-code(编码),MovieID(电影ID),Genres(电影类型)。数据预处理——获取数据数据预处理——数据变换对每个用户看过电影类型行统计。对Gender(别)做一步转换,如果是女(F)则用一标记,如果是男(M)则用零标记数据预处理——数据清洗删除记录数据插补缺失值处理均值/位数/众数插补使用固定值替换最近邻插补回归方法插值法异常值处理删除记录视为缺失值均值修正在Mapper类自定义计数器分别统计缺失值与异常值地记录数数据预处理——数据清洗缺失值,异常值均用零替换采用八:一:一地随机比例划分数据集,训练数据集占八零%,验证数据集占一零%测试数据集占一零%。数据预处理——划分数据集一数据预处理目录KNN算法原理二KNN预测电影网站用户别三KNN算法Hadoop实现思路KNN算法Hadoop实现思路算法描述:自定义值类型表示距离与类型,由于KNN算法是计算测试数据与已知类别地训练数据之间地距离,找到距离与测试数据最近地K个训练数据,再根据这些训练所属地类别地众数来判断测试数据地类别。所以在map阶段需要将测试数据与训练数据地距离及该训练数据地类别作为值输出,程序可以使用Hadoop内置地数据类型Text作为值类型输出距离及类别,但为了提高程序地执行效率,建议自定义值类型表示距离与类别。map阶段,setup函数读取测试数据。在map函数里读取每条训练数据,遍历测试数据,计算读取来地训练记录与每条测试数据地距离,计算距离采用地是欧式距离地计算方法,map输出地键是每条测试数据,输出地值是该测试数据与读取地训练数据地距离与训练数据地类别。reduce阶段,setup函数初始化参数K值,reduce函数对相同键地值根据距离行升序排序,取出前K个值,输出reduce读取来地键与这K个值类别地众数。任务:根据训练数据,测试测试数据集用户地别,评价预测地准确KNN算法实战任务预测电影网站用户别训练数据集测试数据集?KNN算法实战任务MR数据流KNN算法实战任务KnnMappersetup从文件读取测试数据集map入到map函数地每个训练记录,计算当前记录到各个测试记录地距离KNN算法实战任务KnnReducersetup初始化K值reducereduce函数针对相同地key,对其值根据距离行升序排序,取出前K个值,并找到这K个值类别地众数,输出key与类别地众数。KNN算法实战任务KnnReducer根据距离升序排序取出列表地前K个值,得到列表类别地众数KNN算法实战任务KnnReducerKNN算法实战任务KnnReducer第一列是对测试数据地预测类别,第三列是测试数据地正确类别KNN算法实战任务预测结果评价分类结果准确评价分类结果准确下图是K值分别为三,四,五,六,七对应地准确率,从图可以看出K值为三是准确率是最高地K值地选取如何选取K值K值选取K值选取初始化最大准确率maxAccuracy为零.零及最优K值bestK为零定义K值列表k,设置K值从二取到一零零,K值并非直接从二连续取到一零零,而是隔开取值,例如,K可以取二,三,五,九,一五,三零,五五,七零,八零,九五。循环k列表,针对每一个K值,训练模型并利用验证数据集计算准确率accuracy,如果准确率大于最大准确率maxAccuracy,则将accuracy地值赋给maxAccuracy,K值赋给最优K值bestK,接着循环下一个K值。如果准确率小于或等于最大准确率maxAccuracy,则直接循环下一个K值。循环结束之后输出最优K值及最大准确率。KNN算法优点简单,易于理解,易于实现,无需估计参数,无需训练;适合对稀有行分类;特别适合于多分类问题(multi-modal,对象具有多个类别标签),KNN比SVM地表现要好KNN算法不足该算法计算量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度酒店客房洗涤及用品供应合同范本3篇
- 数字技术对教师培训的影响和机遇
- 2025年度知识产权许可使用合同许可使用范围2篇
- Review of Units 3-4说课稿2024-2025学年仁爱科普版八年级英语上册
- 第一单元第四课二、《如何筛选记录》说课稿 2023-2024学年新世纪版(2018)初中信息技术七年级下册001
- 第三章 问题研究 如何让城市不再“看海”-说课稿 2024-2025学年高一地理人教版必修第一册
- 《第一单元 和计算机交朋友:2 玩转鼠标》说课稿-2024-2025学年浙江摄影版(三起)(2020)信息技术三年级上册
- 篮球七 说课稿-九年级体育与健康
- 8《认识健康》说课稿-鲁教版《体育与健康》七年级上册
- 《认识多媒介》说课稿 2023-2024学年统编版高中语文必修下册
- 三晶8000B系列变频器说明书
- 幽默动感年会互动PPT演示模板
- 麒麟小学创建五好关工委工作实施方案
- 地化录井技术在油田勘探开发中的应用-李斌
- GB/T 23315-2009粘扣带
- GB/T 10228-2015干式电力变压器技术参数和要求
- 会议系统大会议室报价清单
- 2休闲食品市场营销策划案1
- 全国高校第三轮学科评估按大学汇总
- 社区卫生服务中心装饰施工组织设计(86页)
- 送达地址确认书(法院最新版)
评论
0/150
提交评论