版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据转换之平滑处理《大数据导论》——数据采集与预处理纸质教材参考及视频适用林子雨.大数据导论.北京:人民邮电出版社,2020第5章数据采集与预处理
中职用数据转换之平滑处理——
常用:分箱、回归、聚类等分箱(Bin)方法将排序后的数据分配到若干箱子(称为Bin)中,用箱子数据替换原值,对原本数值大小变化较自由的数据加以限制,实现平滑。如图所示,箱子划分方法一般有两种,一种是等高方法,即每个箱子中元素的个数相等,另一种是等宽方法,即每个箱子的取值间距(左右边界之差)相同。其实是看按容量还是边界均分。数据转换之平滑处理——
常用:分箱、回归、聚类等分箱(Bin)方法实例1:假设有一个排好序的数据集X={4,8,15,21,21,24,25,28,34},这里采用基于平均值(也可以用边界例如最小或其他什么值)的等高分箱(容量均分)方法对其进行平滑处理,则分3箱的处理步骤如下:(1)把原始数据集X尽量容量均等的放入以下三个假想箱子: 4,8,15 21,21,24 25,28,34数据转换之平滑处理——
常用:分箱、回归、聚类等分箱(Bin)方法实例1:假设有一个排好序的数据集X={4,8,15,21,21,24,25,28,34},这里采用基于平均值(也可以用边界例如最小或其他什么值)的等高分箱(容量均分)方法对其进行平滑处理,则分3箱的处理步骤如下:(1)把原始数据集X尽量容量均等的放入以下三个假想箱子: 4,8,15 21,21,24 25,28,34(2)分别计算得到每个箱子的平均值: 9 22
29数据转换之平滑处理——
常用:分箱、回归、聚类等分箱(Bin)方法实例1:假设有一个排好序的数据集X={4,8,15,21,21,24,25,28,34},这里采用基于平均值(也可以用边界例如最小或其他什么值)的等高分箱(容量均分)方法对其进行平滑处理,则分3箱的处理步骤如下:(1)把原始数据集X尽量容量均等的放入以下三个假想箱子: 4,8,15 21,21,24 25,28,34(2)分别计算得到每个箱子的平均值: 9 22
29(3)用每个箱子的平均值替换该箱子内的所有元素: 9,9,9 22,22,22 29,29,29数据转换之平滑处理——
常用:分箱、回归、聚类等分箱(Bin)方法实例1:假设有一个排好序的数据集X={4,8,15,21,21,24,25,28,34},这里采用基于平均值(也可以用边界例如最小或其他什么值)的等高分箱(容量均分)方法对其进行平滑处理,则分3箱的处理步骤如下:(1)把原始数据集X尽量容量均等的放入以下三个假想箱子: 4,8,15 21,21,24 25,28,34(2)分别计算得到每个箱子的平均值: 9 22
29(3)用每个箱子的平均值替换该箱子内的所有元素: 9,9,9 22,22,22 29,29,29(4)合并各个箱子中的元素得到新的数据集X={9,9,9,22,22,22,29,29,29}。数据转换之平滑处理——
常用:分箱、回归、聚类等分箱(Bin)方法实例2:仍用前面排好序的数据集X={4,8,15,21,21,24,25,28,34},采用基于边界值的等高分箱(容量均分)方法对其进行平滑处理,则分3箱的处理需要从第二步修改:(1)把原始数据集X尽量容量均等的放入以下三个假想箱子: 4,8,15 21,21,24 25,28,34(2)分别计算得到每个箱子的平均值: 9 22
29(3)用每个箱子的平均值替换该箱子内的所有元素:
9,9,9 22,22,22 29,29,29(4)合并各个箱子中的元素得到新的数据集X={9,9,9,22,22,22,29,29,29}。数据转换之平滑处理——
常用:分箱、回归、聚类等分箱(Bin)方法实例2:仍用前面排好序的数据集X={4,8,15,21,21,24,25,28,34},采用基于边界值的等高分箱(容量均分)方法对其进行平滑处理,如果分箱处理的结果是X={4,4,15,21,21,24,25,25,34},则分3箱的处理需要从第二步修改:(1)把原始数据集X尽量容量均等的放入以下三个假想箱子: 4,8,15 21,21,24 25,28,34(2)分别计算得到每个箱子的平均值改上下边界值: 9改4,1522改21,24
29改25,34数据转换之平滑处理——
常用:分箱、回归、聚类等分箱(Bin)方法实例2:仍用前面排好序的数据集X={4,8,15,21,21,24,25,28,34},采用基于边界值的等高分箱(容量均分)方法对其进行平滑处理,如果分箱处理的结果是X={4,4,15,21,21,24,25,25,34},则分3箱的处理需要从第二步修改:(1)把原始数据集X尽量容量均等的放入以下三个假想箱子: 4,8,15 21,21,24 25,28,34(2)分别计算得到每个箱子的平均值改上下边界值: 9改4,1522改21,24
29改25,34(3)用每个箱子的平均值改下边界值替换该箱子内非边界的所有元素:
9,9,9改4,4,15
22,22,22改21,21,24
29,29,29改25,25,34数据转换之平滑处理——
常用:分箱、回归、聚类等分箱(Bin)方法实例2:仍用前面排好序的数据集X={4,8,15,21,21,24,25,28,34},采用基于边界值的等高分箱(容量均分)方法对其进行平滑处理,如果分箱处理的结果是X={4,4,15,21,21,24,25,25,34},则分3箱的处理需要从第二步修改:(1)把原始数据集X尽量容量均等的放入以下三个假想箱子: 4,8,15 21,21,24 25,28,34(2)分别计算得到每个箱子的平均值改上下边界值: 9改4,1522改21,24
29改25,34(3)用每个箱子的平均值改下边界值替换该箱子内非边界的所有元素:
9,9,9改4,4,15
22,22,22改21,21,24
29,29,29改25,25,34(4)合并各个箱子中的元素得到新的数据集
X={9,9,9,22,22,22,29,29,29}改{4,4,15,21,21,24,25,25,34}数据转换之平滑处理——
常用:分箱、回归、聚类等回归方法:主要利用拟合函数对数据进行平滑。例如,借助回归方法(包括多变量回归方法),就可以获得多个变量之间的拟合关系,从而达到利用一个(或一组)变量值来预测另一个变量取值的目的,最终拟合结果(预测值)因泛化而平滑。数据转换之平滑处理——
常用:分箱、回归、聚类等回归方法:如图所示,利用多项式回归所获得的拟合函数预测值代替原数据,能够帮助平滑数据并除去其中的噪声。问题:图中的黄色与蓝色线哪个是原数据哪个是预测数据?数据转换之平滑处理——
常用:分箱、回归、聚类等聚类方法:实际是无监督的分类,可以帮助发现异常数据。如图所示,相似或相邻近的数据聚合在一起形成了各个聚类集合,而那些位于这些聚类集合之外的数据对象,则被认为是异常数据。这些异常数据后续可替换为其他值,最终整体数据的图形有所平滑或变化峰值减小。问题:图中需要替换或清除的异常数据看起来有几个?数据转换之平滑处理——
练一练常用的平滑处理方法是()[多选题]a.回归b.图像识别c.分箱d.聚类数据转换之平滑处理——
练一练常用的平滑处理方法是()[多选题]a.回归b.图像识别c.分箱d.聚类处理过程中,每部分数据尽量包含的数据量一样多的平滑处理方法是()[单选题]a.K均值聚类b.图像识别c.等高分箱d.线性回归数据转换之平滑处理——
练一练常用的平滑处理方法是()[多选题]a.回归b.图像识别c.分箱d.聚类处理过程中,每部分数据尽量包含的数据量一样多的平滑处理方法是()[单选题]a.K均值聚类b.图像识别c.等高分箱d.线性回归几种常用平滑处理方法都是将原数据用图形上看起来相对平滑或变化峰值减小的数据替换()[单选题]a.对b.错数据转换之平滑处理——
练一练常用的平滑处理方法是()[多选题]
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保证合同的变更与解除
- 合同转让标准协议书范本2024年
- 2024年股权代持协议书编写要点
- 个人部分股权转让协议书2024年
- 2024年经营权转让合同范文
- 房屋买卖合同违约金纠纷的法律解决途径
- 售楼部售房合同协议书
- 新股申购流程与协议书
- 施工合同价款组成解析
- 回迁房买卖协议书
- 家纺面料未来发展趋势报告
- 供电企业作业安全风险辨识防范课件
- 烘焙实训室设计方案
- 田径大单元教学计划
- 2023计算机考研真题及答案
- 第3章 一元一次方程(复习课件)-人教版初中数学七年级上册
- 雨污分流管网工程施工方案
- 横河CS3000工程师培训资料
- 江苏省苏州市振华中学2023-2024学年九年级上学期期中物理试卷
- 慢性阻塞性肺疾病急性加重临床路径
- 人教版小学数学一年级上册第七单元《认识钟表》教学课件
评论
0/150
提交评论