版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章数据的预处理与距离分析数据分析与数据挖掘01数据的预处理数据清理数据清理(Datacleaning)的主要任务是解决数据的“准确性”“完整性”和“一致性”问题,主要工作包括去除数据中的噪声、解决缺失值问题、纠正数据值冲突。
数据集成(Dataintegration)的主要任务是把不同来源、格式、性质的数据在逻辑上或物理上有机地集成在一起,以便于数据统一集中处理,如图5.2(a)所示,主要包括属性类型一致、编码一致处理,冗余数据分析处理和数据存储。数据集成20%30%40%50%
数据变换(Dataconversion)的主要任务是依据数据分析模型的需要,将原始数据变换为所需要的数据形式。数据变换中最常用的是数据规范化。
数据规范化(Datanormalization)是指将数据整理成数据分析和数据挖掘所需要的数据形式,主要包括数据属性值编码、数据标准化、数据离散化和数据概念分层。数据变换数据归约(Datareduction)的主要任务是进行数据量上的精简,减少数据分析和数据存储的数据量,主要包括维度规约、数值规约、数据压缩和抽样归约。维度归约(Dimensionreduction)是从属性的角度着手,考虑精简属性。数值归约(Numericalreduction):一是判断是否能提高数据粒度。二是从对象角度考虑,判别并去除冗余对象。三是从重抽样角度考虑,通过二次抽样,获取更小规模的数据样本。数据归约数据压缩(Datacompression)是指从数据自身角度着手研究减少数据存储量的方法,包括无损压缩技术和有损压缩技术。抽样归约是指对给定的数据集进行二次抽样(重抽样),获得规模较小的数据集。数据归约02数据的常用组织方式
数据的逻辑组织是指数据存储的逻辑抽象。在数据分析和数据挖掘中,一类不考虑时间序列,另一类考虑时间序列。各类型数据通常以变量、对象、向量、矩阵、表、立方体和超立方体形式进行逻辑组织。数据的常用逻辑组织面向对象程序中的对象(Object),包括属性和方法,整个程序架构按照对象形式进行数据组织。在结构化编程语言中可以使用结构体来存储对象,在面向对象的编程语言中,可以定义类,然后利用类定义对象。数据的物理组织是指数据在计算时如何具体地存储,包括内存存储和外存存储。有些编程语言和统计软件可能已经设计了存储方式。数据的常用物理组织高精度计算与矩阵计算在大数据挖掘和统计分析中常常用到高精度计算。大多数编程语言对浮点数计算都有精度限制,如C++中的double类型可以保留15位或16位有效数字。编程语言、软件工具现有多个编程语言和软件工具可用于建模,编程语言包括Python、R、C++、Matlab;软件库包括orsci;软件包括SPSS、SAS、EViews、AMOS、Weka、SPSSmodeler等。选择哪种编程语言或软件工具与研究目的有关,如果作为一个模块需要集成在另外的系统中,则应该考虑整个系统所用的编程语言;如果只是进行关键问题的分析,则建议使用可视化软件工具。选择自己习惯使用的工具也是一项重要的依据。03相似度计算与距离分析
相似度(Similarity)用于度量两个对象的相近程度,取值一般在[0,1]区间,越接近1,相似程度越大。属性的相似度常称为相关程度(Correlationdegree)。相似度与距离的转换令x=(x1,x2,…,xn)和y=(y1,y2,…,yn)为两个对象,则闵可夫斯基距离(Minkowskidistance,又称闵氏距离)可由式(5.12)计算,其中,h=1,2,…,∞,每个h值代表一个具体测度。闵可夫斯基距离马氏距离马氏距离(Mahalanobisdistance)也是一种常用的距离测度,有时称作数据的协方差距离。马氏距离考虑了两方面特点:①与各属性的量纲无关,做了标准化处理;②考虑了各属性的(协方差)相关性,去除了属性的相互影响。如果对象包括各种属性类型,则需要进行混合属性的相似度计算或距离计算。令Xi和Xh,是两个对象,包括a(k=1,2,…,p)共有p个属性。第一种混合相似度计算方法是,设置各属性权重,进行加权计算综合相似度,如式(5.25)所示。混合属性的相似度与距离04kNN分类模型
分类(Classification)是指预先存在所有可能的类别,为一个新的样本对象标记其所属的类别。样本数据常用图5.9(a)所示的形式来组织,其中包括特征数据矩阵X和分类类别向量y。kNN分类模型概述在kNN算法中,当k=1时,也称1最近邻,或简称最近邻算法,此时只是选择X₀最近的一个邻居,按照该邻居的类别对X₀进行判别。kNN分类模型概述(1)计算距离,给定测试对象,计算它与训练集中的每个对象的距离。
(3)决定类别,根据这k个近邻归属的主要类别,对测试对象分类。距离加权kNN分类模型
(2)寻找邻居,圈定距离最近的k个训练对象,作为测试对象的近邻。05参数的点估计
原点矩与中心矩矩估计法矩估计法是利用样本原点矩Ak去估计总体原点矩αk。由于中心矩和原点矩存在转换关系,所以也可以用样本中心矩Ck;去估计总体中心矩Sk。极大似然估计法(MaximumLikelihoodEstimate,MLE),又称最大似然估计法,它是一种基于样本进行参数估计的方法。极大似然估计法06本章小结本章小结数据的预处理属于数据分析和数据挖掘的前序步骤,其处理质量也将严重影响后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 茶厂出租合作方案
- 茶产业课程设计
- 茶pai饮料行业研究报告
- 策划岗位薪资问题研究报告
- 白银泼墨艺术地坪施工方案
- 炒股的人看研究报告
- 五年级数学(小数四则混合运算)计算题专项练习及答案汇编
- 潮汕美食专题研究报告
- 四年级数学(三位数乘两位数)计算题专项练习及答案
- 仲恺农业工程学院《数据库原理与应用》2022-2023学年期末试卷
- 城中村改造的实施策略
- 建设工作管理报告
- JTG-H30-2015公路养护安全作业规程
- 2024-2030年中国赛马产业发展状况与前景动态预测报告
- 手术器械物品不全应急预案
- JT-T 295-2008 岸边集装箱起重机修理技术规范
- 危险化学品考试试题(含答案)
- 三年级上册语文 第五单元《交流平台与初试身手》教学课件
- 泌尿外科围手术期护理
- 2024年广西玉林北流市镇街道社区残疾人专职委员招聘笔试冲刺题(带答案解析)
- 2023年全国“供应链管理师”技能及理论知识考试题库(附含答案)
评论
0/150
提交评论