版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘实验报告K最近邻分类算法学生证:姓名:沈洁一、数据源描述1.数据理解选择第二套虹膜数据集,有150组数据。考虑到训练数据集的随机性和多样性,选择100组rowNo模数3不等于0的组作为训练数据集,其余50组作为测试数据集。(1)每组数据有五个属性,即:1。以厘米为单位的独立长度2.萼片宽约厘米3.花瓣长度(厘米)4.花瓣宽度(厘米)5.class:-爱丽丝塞塔斯-蝴蝶花-爱丽丝弗吉尼亚(2)为了操作方便,给每组数据添加rowNo属性,第一组rowNo=1。2.数据清理真实世界的数据通常是不完整的、嘈杂的和不一致的。数据清理例程试图填充缺失值、平滑噪声和识别异常值,并纠正数据中的不一致。
2、a)缺失值:如果数据中有缺失值,忽略元组(注意:缺失属性值:无本文选择的第二组数据Iris数据集)。噪声数据:本文尚未考虑。第二,K近邻分类算法KNN(k近邻)算法也被称为K近邻法。假设每个类别包含多个样本数据,每个数据都有一个唯一的类别标记,指示这些样本属于哪个类别。KNN将计算每个样本数据和待分类数据之间的距离。如果特征空间中的大多数K个最相似的样本属于某一类别,那么该样本也属于该类别。在分类决策中,该方法仅根据一个或几个最近样本的类别来确定待分类样本的类别。虽然KNN方法在原理上也依赖于极限定理,但在进行类别决策时,它只与非常少的相邻样本相关。因此,这种方法可以避免样本的不平衡。此外,由
3、于KNN方法主要依赖于有限的相邻样本,而不是判断类域的方法,因此KNN方法比其他方法更适合于将样本集划分为更多重叠或重叠的类域。这种方法的缺点是计算量大,因为必须计算每个待分类文本和所有已知样本之间的距离,然后才能获得其K个最近邻。目前常用的解决方法是预先裁剪已知的样本点,并预先去除对分类影响不大的样本。该算法更适合于大样本类别域的自动分类,而小样本类别域更容易出现不匹配。(1)算法思想:k近邻分类方法存储所有训练样本,在接受新的待分类样本之前不需要构造模型,并且直到新的(未标记的)样本需要被分类时才建立分类。k近邻分类基于类比学习,其训练样本由N维数值属性描述,每个样本代表N维空间中的一个点
4、。这样,所有训练样本都存储在N维模式空间中。给定一个未知样本,K近邻分类搜索模式空间,找出最接近未知样本的K个训练样本。这k个训练样本是未知样本的k个“邻居”。“接近度”,也称为相异度,由欧几里德距离定义,其中两点X(x1,x2,xn)和Y(y1,y2,yn)之间的欧几里德距离为:未知样本被分配到k个最近邻中最常见的类别。在最简单的情况下,即当K=1时,未知样本被分配给模式空间中最近的训练样本的类别。(2)算法步骤:步骤1 -将距离初始化为最大值步骤2 -计算未知样本和每个训练样本之间的距离距离步骤3 -获取当前k个最近样本之间的最大距离maxdist步骤4 -如果距离小于最大距离,将训练样本
5、作为最近邻样本步骤5 -重复步骤2、3和4,直到计算出未知样本和所有训练样本之间的距离步骤6 -计算每个类别标签在最近邻样本中出现的次数步骤7 -选择频率最高的类别标签作为未知样本的类别标签第三,算法源代码/KNN.cpp K-最近邻分类算法/#包括#包括#包括#包括#包括#包括#包括/宏定义/#定义ATTR _数字4 /属性数目#定义最大尺寸训练集1000 /训练数据集的最大大小#定义最大尺寸测试集100 /测试数据集的最大大小#定义最大值10000.0 /属性最大值#定义K 7/结构体结构数据向量内部标识;/标识号char ClassLabel15;/分类标号双重属性ATTR数字;/属性;
6、结构距离结构内部标识;/标识号双倍距离;/距离char ClassLabel15;/分类标号;/全局变量/结构化数据向量训练集最大大小训练集;/训练数据集结构化数据向量测试集最大大小测试集;/测试数据集构造距离构造距离K;/K个最近邻距离int CurtiraningSetSize=0;/训练数据集的大小int CurtestSetSize=0;/测试数据集的大小/求向量1=(x1,x2,xn)和向量2=(y1,y2,yn)的欧几里德距离/双倍距离(结构数据向量向量向量1,结构数据向量向量2)双倍距离,总和=0.0;对于(整数1=0;点火电阻最大值.距离)最大值=1;返回maxNo/对未知样本样品分类/字符*分类(结构化数据向量示例)double dist=0;整数最大值=0,频率K,I,tmp频率=1;char * CurClassTable=GneArestDistance0.classLabel .memset(freq,1,size
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年福建农林大学金山学院高职单招职业适应性考试模拟试题带答案解析
- 2026年中职烹饪专业技能鉴定面试菜品种类与操作规范解读含答案
- 2026年宝鸡职业技术学院高职单招职业适应性测试备考试题带答案解析
- 2026年安徽中澳科技职业学院单招职业技能考试备考试题带答案解析
- 2026年黑龙江农垦职业学院高职单招职业适应性考试备考试题带答案解析
- 2026年校长竞聘常见答辩题型分类含答案
- 2026年老年辅具适配师认证试题及选型应用要点含答案
- 2026年网约车司机冲突处置演练题含答案
- 2026年河南轻工职业学院高职单招职业适应性考试模拟试题带答案解析
- 2026年广西工业职业技术学院高职单招职业适应性测试参考题库带答案解析
- 中国工艺美术馆招聘笔试试卷2021
- DB32T 3695-2019房屋面积测算技术规程
- GB/T 7044-2013色素炭黑
- GB 8270-2014食品安全国家标准食品添加剂甜菊糖苷
- 易制毒化学品日常管理有关问题权威解释和答疑
- T∕CCCMHPIE 1.44-2018 植物提取物 淫羊藿提取物
- 湖北省高等教育自学考试
- (完整word版)Word信纸(A4横条直接打印版)模板
- 中心卫生院关于成立按病种分值付费(DIP)工作领导小组及制度的通知
- 测试算例-各向同性湍流DNS
- 五年级上册数学课件 口算与应用题专项 人教版(共64张PPT)
评论
0/150
提交评论