《大数据技术应用基础》课件 项目四 数据预处理_第1页
《大数据技术应用基础》课件 项目四 数据预处理_第2页
《大数据技术应用基础》课件 项目四 数据预处理_第3页
《大数据技术应用基础》课件 项目四 数据预处理_第4页
《大数据技术应用基础》课件 项目四 数据预处理_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目四数据预处理《大数据技术应用基础》模块一

数据整理与描述核心目标职业能力1.理解数据预处理的流程,能独立完成数据预处理任务;2.具备发现“脏数据”以及处理“脏数据”的能力;3.具备数据分类以及数据降维的能力。职业素养1.养成数据规范化的思维;2.养成及时清洗数据,保证数据完整可用性的习惯;3.培养对数据的敏感度;4.培养以数据分析的视角看待数据的思维习惯。知识图谱项目背景小张在学习完数据爬取的知识后,将之前出现的茶叶品类数据爬取完全并将其保存为本地的Excel文件(可从附录中的数据中心下载,名称为茶叶品类数据.xlsx),但是打开一看却发现其中内容非常混乱,根本不能用来做数据分析,于是小张决定先对该表格进行一些正式分析前的处理。在本项目中,小张需要学习数据预处理相关的知识,弄清楚是什么导致爬取得到的数据看上去很混乱,并尝试将爬取到数据表格通过数据预处理的方法转化成清晰整洁以便于下一步的分析。0102常见的数据类型数据预处理的概念与目的问题引入学习完网络爬虫之后,小张从网站上爬取下来不同茶叶品类的产品信息以及销售信息,只不过爬取下来的信息十分的混乱,虽然网页上有用的信息都被爬取到了本地,不仅有许多的空白单元格,而且许多的单位没有统一,很多的数字也以文字形式来表示,这对数据分析带来很多不便。小张决定先对混乱的数据进行数据整理。常见的数据类型01一、常见的数据类型尺度小大一、常见的数据类型定类数据是按照现象的某种属性对其进行分类或分组而得到的反映事物类型的数据。茶叶品牌产业工业农业服务业性别(一)分类数据一、常见的数据类型定序数据只能归于某一有序类别的非数字型数据,代表的是有序的类别。特级一级二级三级优良合格不合格(二)顺序数据定距数据对事物能进行准确测度,其数据表现为“数值”。一、常见的数据类型间隔数据可以进行加减运算,但不能进行乘除运算!(三)间隔数据一、常见的数据类型定比数据与定距数据属于同一层次,有绝对零点,可以进行加减乘除运算。销售量为030kg是15kg的两倍30℃是15℃的两倍(四)比率数据数据预处理的概念与目的02数据预处理是指对采集到的数据进行加工整理,形成适合数据分析的样式,保证数据的一致性和有效性。二、数据预处理的概念与目的基本目的是从大量的、可能杂乱无章的、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。二、数据预处理的概念与目的二、数据预处理的概念与目的【例题】小张爬取到的茶叶品类数据图如图1,十分的混乱,直接对其进行数据分析的建模工作是十分困难的,故需要先进行数据预处理,使得“脏数据”可以成为整洁可用的数据。图1茶叶品类数据图探讨实践讨论小张所爬取的数据都是什么类型的数据?存在什么问题?拓展训练对小张爬取的每个数据属性标注数据类型并举例说明其他不同类型的数据。谢谢观看项目四数据预处理《大数据技术应用基础》模块二

“脏数据”类型核心目标职业能力1.理解数据预处理的流程,能独立完成数据预处理任务;2.具备发现“脏数据”以及处理“脏数据”的能力;3.具备数据分类以及数据降维的能力。职业素养1.养成数据规范化的思维;2.养成及时清洗数据,保证数据完整可用性的习惯;3.培养对数据的敏感度;4.培养以数据分析的视角看待数据的思维习惯。知识图谱项目背景小张在学习完数据爬取的知识后,将之前出现的茶叶品类数据爬取完全并将其保存为本地的Excel文件(可从附录中的数据中心下载,名称为茶叶品类数据.xlsx),但是打开一看却发现其中内容非常混乱,根本不能用来做数据分析,于是小张决定先对该表格进行一些正式分析前的处理。在本项目中,小张需要学习数据预处理相关的知识,弄清楚是什么导致爬取得到的数据看上去很混乱,并尝试将爬取到数据表格通过数据预处理的方法转化成清晰整洁以便于下一步的分析。0102“脏数据”的概念常见脏数据类型问题引入了解了什么是数据预处理以及数据预处理的目的之后,小张准备从爬取到的茶叶品类数据着手,开始识别这杂乱无章的数据是怎么导致的,什么是“脏数据”?“脏数据”的类型又有哪些?它们分别对数据分析造成了什么麻烦?在学习完本节后,小张将对“脏数据”有一个较为全面的认知。“脏数据”的概念01一、“脏数据”的概念在发生货物运转时,需要向数据库中加入运转的详细信息,如时间,仓库编号和货物量等。然而,有时由于数据员的疏忽,网络的问题等。久而久之,其他人员查询系统时得到了许多不准确的信息,这导致了经销商的许多决策失误。后来该经销商才意思到是数据出了问题,于是花费了许多人力和时间清除了积存在数据库中的“脏数据”。建造仓库记录货物调度的数据库一、“脏数据”的概念脏数据一般是指不符合要求以及不能直接进行相应分析的数据。常见脏数据类型02二、常见脏数据类型数据中缺少某些记录或是一些记录中缺少某些属性数据来源中根本不存在该数据爬虫程序编写的不正确导致获取不到该内容本地操作时出现的失误导致的二、常见脏数据类型图1缺失数据示例(一)缺失值某一记录的某一属性与其他记录的该属性值差距较大,或者超出了该属性值的可取区间。录入错误记录本身较为特殊二、常见脏数据类型(二)异常值数据中出现两条重复的记录,又或者是不完全重复但是及其相似的记录。二、常见脏数据类型除了商品名称其他属性值都相同是否指向同一商品是否为同一记录的重复录入(三)重复值同一属性的值格式不一致其他属性相同的记录在某一属性上出现完全不同的属性值。二、常见脏数据类型图2单位不一致的属性(四)不一致的值二、常见脏数据类型脏数据类型缺失值影响数据的完整性异常值影响数据的准确性重复值影响的是数据的有效性不一致的值影响数据的正确性探讨实践讨论更多有关“脏数据”的例子,并列举更多它们的危害。拓展训练尝试对小张爬取得到的茶叶品类数据进行不同类型“脏数据的识别。谢谢观看项目四数据预处理《大数据技术应用基础》模块三数据预处理策略核心目标职业能力1.理解数据预处理的流程,能独立完成数据预处理任务;2.具备发现“脏数据”以及处理“脏数据”的能力;3.具备数据分类以及数据降维的能力。职业素养1.养成数据规范化的思维;2.养成及时清洗数据,保证数据完整可用性的习惯;3.培养对数据的敏感度;4.培养以数据分析的视角看待数据的思维习惯。知识图谱项目背景小张在学习完数据爬取的知识后,将之前出现的茶叶品类数据爬取完全并将其保存为本地的Excel文件(可从附录中的数据中心下载,名称为茶叶品类数据.xlsx),但是打开一看却发现其中内容非常混乱,根本不能用来做数据分析,于是小张决定先对该表格进行一些正式分析前的处理。在本项目中,小张需要学习数据预处理相关的知识,弄清楚是什么导致爬取得到的数据看上去很混乱,并尝试将爬取到数据表格通过数据预处理的方法转化成清晰整洁以便于下一步的分析。0102常见数据预处理方法数据降维方法问题引入明白了“脏数据”的危害之后,面对爬取到的混乱的茶叶品类数据,小张决定开始学习数据预处理的方法,希望能够将该数据处理成为能够进行高效建模分析的数据。在本节小张将学习到针对不同“脏数据”的数据预处理方法以及数据降维的基本方法。常见数据预处理方法01一、常见数据预处理方法数据预处理删除数据数据插补数据分类数据类型转换归一化与标准化

图1缺失值过多的记录图2考虑删除的属性一、常见数据预处理方法缺失值太多的记录两条记录所有属性值都一样有数据的更新(一)删除数据一、常见数据预处理方法在Python中,可以使用pandas库的dropna方法来删除空白的行,使用drop_duplicates方法来删除重复的行。代码importpandasaspd#导入pandas库并记为pd data={'a':[1,2,1],'b':[1,None,1]}#创建字典给定数据,其中None表示空值df=pd.DataFrame(data)#使用上面给定的数据创建DataFrame变量print(df)#输出dfdf=df.dropna()#使用dropna方法去除带有空白值的行print(df)#再次输出dfdf=df.drop_duplicates()#使用drop_duplicates方法去除重复值print(df)#再次输出df输出结果

ab011.012NaN211.0ab011.0211.0ab011.0(一)删除数据一、常见数据预处理方法针对的是缺失值的情况。回归替换法热卡填充法均值插补法

插补方法(二)数据插补一、常见数据预处理方法均值插补法对于数值型数据,某一记录的某属性缺失值使用全部其他记录在该属性的平均值来插补;对于离散型数据,一个属性对于多个值,缺失值选取该属性的众数进行插补。(二)数据插补一、常见数据预处理方法均值插补法【例】某商铺某周茶叶的销量分别为10、20、30、15、丢失、24、18。【解析】若使用均值插补法插补该缺失值,可以将其余六天的销量值求平均值以代替,此处求得其余六天均值为19.5,则可以用19.5来代替第五天丢失的销量值。(二)数据插补一、常见数据预处理方法热卡填充法在其他记录中寻找一个在其他属性上与含缺失值记录最相似的记录,且缺失记录的缺失的属性在相似记录里是不缺失的,这样就可以得到相似记录在缺失属性上的值用以填补带缺失值的记录。(二)数据插补一、常见数据预处理方法回归替换法将缺失值的填补看成回归问题,使用数据完整的记录建立线性回归方程再利用线性回归方程计算出缺失值。(二)数据插补一、常见数据预处理方法按性质分类定位定性定量定时按尺度划分定类定序定距定比(三)数据分类一、常见数据预处理方法在Python中,将数据转化为DataFrame变量之后可以使用dtypes查看不同属性的数据类型代码importpandasaspd#导入pandas库并记为pddf=pd.read_excel('C:/下载/茶叶品类数据.xlsx')#读取文件print(df.dtypes)#输出每个属性的数据类型(三)数据分类一、常见数据预处理方法输出结果Unnamed:0int64品牌object商品名称object商品毛重object建议茶具object采摘要求object采摘地object发酵程度object类别object包装形式object净含量object生产许可证号object储存方法object保质期object产品标准号object价格float64好评率object全部评价object好评object中评object差评object网址objectdtype:object属性值为文本型的属性,可以将其变换成数值型属性来处理。图3文本型属性数值化一、常见数据预处理方法(四)数据类型转换使用哑变量和独热编码进行转换。一、常见数据预处理方法图4独热编码(四)数据类型转换一、常见数据预处理方法在Pandas库中,可以使用函数pd.get_dummies(data,columns,prefix_sep)将分类数据使用独热编码的方式转化为数值型数据。其中,data代表要转化的数据;

columns代表要转化的列;

prefix_sep表示新增加的列名称使用什么分隔。(四)数据类型转换一、常见数据预处理方法代码importpandasaspd#导入pandas库并记为pddata={'发酵程度':['不发酵','轻发酵','半发酵','全发酵','后发酵']}#创建字典给定数据df=pd.DataFrame(data)#创建DataFrame变量print(df)#输出dfdf=pd.get_dummies(df,columns=['发酵程度'],prefix_sep='_')#使用get_dummies进行独热编码操作print(df)#再次输出df(四)数据类型转换一、常见数据预处理方法输出结果

发酵程度0不发酵1轻发酵2半发酵3全发酵4后发酵发酵程度_不发酵发酵程度_全发酵发酵程度_半发酵发酵程度_后发酵发酵程度_轻发酵010000100001200100301000400010(四)数据类型转换为了确保数据一致性,需要保证同一属性下属性值的单位统一。一、常见数据预处理方法表1未处理的数据属性数量销量(件)2000000019000000170000002100000025000000净含量(g)200500300100500表2归一化后的数据属性数量销量-0.05-0.175-0.4250.0750.575净含量-0.30.45-0.05-0.550.45归一化优点:使得模型的训练速度加快以及量纲一致。缺点:会改变原始数据的数据分布,使得原始信息有所损失。(五)归一化与标准化保留原始数据的数据分布,减少原始信息损失。一、常见数据预处理方法表3标准化后的数据属性数量销量-0.13484-0.47194-1.146140.202261.55066净含量-0.670821.00623-0.11180-1.229841.00623表1未处理的数据属性数量销量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论