(5.1.7)-1.4数据合并与数据变换_第1页
(5.1.7)-1.4数据合并与数据变换_第2页
(5.1.7)-1.4数据合并与数据变换_第3页
(5.1.7)-1.4数据合并与数据变换_第4页
(5.1.7)-1.4数据合并与数据变换_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

脚本——数据合并与数据变换(ppt1,2)同学,你好。这节课我们来学习数据合并与数据变换。(ppt3)先来了解一下数据变换的重要性。(ppt4)(动画1,2)为什么要对数据进行变换呢?例如回归分析中的异方差性,误差项的方差随着自变量的变化而变化,如果直接进行回归估计残差的方差会随着自变量的变化而变化,如果对变量进行适当变换,此时残差服从同一个正态分布。可以更好的发现数据之间的关系。(动画3)那为什么要对数据进行标准化呢?主要功能就是消除变量间的量纲关系,从而使数据具有可比性。(动画4)将数据变成可以挖掘使用的形式,更好的探索数据中隐藏的信息。(ppt5)下面我们来讲解怎么样来合并数据。(ppt6)(动画1)数据合并的第一种形式:横向表纵向表堆叠。(动画2)横向堆叠是将两个表在X轴向拼接在一起,在python可以使用concat函数完成。即在横向将不同列名称的两张或多张表合并。(动画3)纵向堆叠是将两个在Y轴向拼接在一起,也可以使用concat函数完成。即在纵向上,concat做列对齐,将不同行索引的两张或多张表纵向合并。(ppt7)我们来看两个例子。(动画1)下面是两张数据表,我们想要用横向堆叠将其合并。(动画2)采用并集方式合并之后得到表3,我们发现表3将原来的全部列拼接到一起,然后将相应的数据填入表中。(ppt8)(动画1)如果我们要用纵向堆叠将其合并。(动画2)类似合并之后得到表3,我们发现表3将全部的行拼接到一起,然后将对应的数据填入表中。(ppt9)(动画1)第二种形式是主键合并数据。(动画2)通过一个或多个键将两个数据集的行连接起来,主要利用merge函数。(动画3)如下表,在每一行增加了一个键,同一个行索引的键的名称相同。(动画4)合并后得到表3,我们发现在表3中用主键将两张表的行连接起来,这就是我们的主键合并数据的原理。(ppt10)(动画1)第三种是重叠合并数据。(动画2)若出现两份数据的内容几乎一致的情况,但是某些特征在其中一张表上是完整的,而在另外一张表上的数据则是缺失的时候,在python中可以用combine_first方法进行重叠数据合并。(动画3)如下表,两个数据表中都有一些缺失的数据,但是这些缺失的数据可以在另外一个表中找到,因此我们把他们重叠,(动画4)就可以得到表10,我们发现这个表的数据相对已经比较完整了。数据之间的合并操作还有很多,大家在后续学习中可以更深入了解。(ppt11)接下来我们来学习数据变换。(ppt12)(动画1)第一个是标准化数据。(动画2,3)先考虑用离差来标准化数据。离差标准化是对原始数据的一种线性变换,结果是将原始数据的数值映射到[0,1]区间之间,转换公式如下:X星等于(X-最小值)再除以极差。(动画4)离差标准化保留了原始数据值之间的联系,是消除量纲和数据取值范围影响最简单的方法。(ppt13)(动画1)再考虑用标准差标准化数据。标准差标准化也叫零均值标准化或分数标准化,是当前使用最广泛的数据标准化方法。经过该方法处理的数值均值为0,标准差为1,转化公式如下:X星等于X-均值除以原始数据的标准差服从标准正态分布。(动画2)标准差标准化后的值区间不局限于[0,1],并且存在负值。同时,标准差标准化和离差标准化一样不会改变数据的分布情况。(ppt14)(动画1)小数定标标准化数据。通过移动数据的小数位数,将数据映射到区间[-1,1]之间,移动的小数位数取决于数据绝对值的最大值。转化公式如下:X星等于X除以10的K次方。K我们一般通过经验取得,要保证10的k次方大于X的最大值,这样就会将所有的数据映射到区间[-1,1]之间。(ppt15)(动画1)我们来对三种标准化数据的方式进行总结。离差标准化方法简单,便于理解,标准化后的数据限定在[0,1]区间内;标准差标准化受到数据分布的影响较小;小数定标标准化方法适用范围广,并且受到数据分布的影响较小,相比较于前两种方法而言该方法适用程度适中。(ppt16)(动画1)接下来我们看第二种数据变换的方式,简单函数变换。简单函数变换就是对原始数据进行某些数学函数变换,常用的函数变换包括平方、开方、对数、差分运算等。(动画2)如果对数据进行平方、开方和对数运算。(动画3)对特性数据可以将不具有正态分布的数据变换成具有正态分布的数据。(动画4)如果对数据进行差分运算,(动画5)一般可以将非平稳序列转换成平稳序列。(ppt17)(动画1)常用的第三种数据变换方式,连续属性的离散化。(动画2)一些数据挖掘算法,特别是某些分类算法,要求数据是分类属性形式,如ID3算法(决策树,分类算法)、Apriori算法(关联算法)等。这样,常常需要将连续属性变换成分类属性,即连续属性离散化。(动画3)连续属性变换成分类属性涉及两个子任务:决定需要多少个分类变量,以及确定如何将连续属性值映射到这些分类值。(ppt18)将连续属性离散化一般有三种方法。(动画1)第一种是等宽法。将属性的值域分成具有相同宽度的区间,区间的个数由数据本身的特点决定,或者由用户指定,类似于制作频率分布表。(动画2)如右边的图所示,每一个区间的宽度是相同的,但是区间中的数据个数是不同的。(动画3)第二种是等频法,即将相同数量的记录放进每个区间。(动画4)如右边的图所示,每一个区间中数据的个数是相同的,但是所占的区间宽度确实不同的。(动画5)基于聚类分析的方法:一维聚类的方法包括两个步骤,首先将连续属性的值用聚类算法(如K-Means算法)进行聚类,然后将聚类得到的簇进行处理,合并到一个簇的连续属性值并做同一标记。(ppt19)下面我们来讲解转换数据。(ppt20)(动画1)第一种是利用哑变量处理数据。(动画2)哑变量,也叫虚拟变量,引入哑变量的目的是,将不能够定量处理的变量量化。它是人为虚设的变量,通常取值为0或1,来反映某个变量的不同属性。(动画3)Python中可以利用pandas库中的get_dummies函数对类别型特征进行哑变量处理。(ppt21)(动画1)我们通过一个例子来了解哑变量的原理。我们想要研究的是学历为小学、中学、大学、硕士和博士的人,如果一个人他属于这个学历,就记为1,否则,记为0。(动画2)因为对于我们所研究的群体,如果他不是小学、中学、大学或者硕士,他必然就是博士,因此我们固定博士,记为(0,0,0,0)。(动画3)我们得到哑变量处理之后的表格如右表所示,得到的是一个四维矩阵。(ppt22)(动画1)所以我们哑变量处理数据的特点就是对于一个类别型特征,若其取值有m个,则经过哑变量处理后就变成了m个二元特征,并且这些特征互斥,每次只有一个激活,这使得数据变得稀疏。对类别型特征进行哑变量处理主要解决了部分算法模型无法处理类别型数据的问题,这在一定程度上起到了扩充特征的作用。由于数据变成了稀疏矩阵的形式,因此也加速了算法模型的运算速度。(ppt23)(动画1)接下来我们来讲解one-hot编码处理类别数据。one-hot编码也叫做独热码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制。(ppt24)(动画1)还是考虑之前的那个例子,One-hot编码会对每一个状态都进行编码,因此我们可以得到右边那个五维的矩阵形式。(ppt25)(动画1)那么哑变量与one-hot编码有什么区别呢?哑变量将定性特征转化为n-1个特征,而One-hot则是转化为n个特征。即哑变量在编码时会去除第一个状态,而One-hot则对所有的状态都会进行编码。(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论