《新媒体数据分析》课件-第3章 新媒体数据的处理_第1页
《新媒体数据分析》课件-第3章 新媒体数据的处理_第2页
《新媒体数据分析》课件-第3章 新媒体数据的处理_第3页
《新媒体数据分析》课件-第3章 新媒体数据的处理_第4页
《新媒体数据分析》课件-第3章 新媒体数据的处理_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章新媒体数据的处理导

语1999年美国宇航局NASA丢失了一个价值1.25亿美元的火星轨道飞行器,而丢失的原因让美国人哭笑不得,原来飞行器的设计者洛克希德·马丁公司的工程师在设计时使用的都是英制度量衡(英寸、英尺等),而NASA用的是国际公制(厘米、米等),因此虽然输入的数据是正确的,但因为单位不同而导致导航信息错误,飞行器因此丢失。古人云:差之毫厘,谬以千里。1%的错误等于100%的失败,我们不要轻视一个数据的作用。毫不夸张地说,一个数字能影响一个结果,一个结果能影响一个决策,一个错误的决策能毁掉一个组织!学习目标由于互联网的发明,“开放”已经成为人类社会一个不可逆转、不断加速的社会思潮。如果说收集数据是一种意识,使用数据是一种文化、一种习惯,那么处理数据、分析数据将成为人人应当具备的一种能力和生活态度。在整个数据分析过程中,有高达60%的时间是用于数据处理,只有对采集过来的数据进行精细化地处理,才能便于后续分析。处理后的数据不仅能提高准确性,还能减少因为出错而造成的复查时间,降低因错误分析给带来的决策风险。本章主要讲解新媒体数据处理的基本原理、通用处理方法,然后通过一些典型的案例展示不同类型数据的处理过程。目

录第一节新媒体数据处理的基本原理第二节数据清洗第三节数据加工第四节数据透视表的使用第一节新媒体数据处理的基本原理一、什么是数据处理二、数据处理的基本流程三、通用的新媒体数据处理方法一、什么是数据处理

数据处理就是根据数据分析的目的,将收集到的数据,用适当的处理方法进行整理加工,形成适合数据分析的要求样式,它是数据分析前必不可少的阶段。它的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于特定分析目标具有价值、有意义的数据。二、数据处理的基本流程

数据处理主要包括数据清洗、数据加工。

首先我们先将有问题的数据进行清洗,数据清洗的结果是对各种脏数据进行对应方式的处理,得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。清洗数据包括三部分:清除掉不必要的重复数据;填充缺失的数据,检测逻辑错误的数据。

其次是进行数据加工。经过数据清洗步骤之后,数据表中的数据已经没有错误值存在了,但这时的数据仍然不适合直接进行分析和呈现,还需要根据数据分析的目的,对数据进行加工。因为数据表中现有的数据字段不满足我们的数据分析需求,所以需要对现有字段进行抽取、计算或者转换,形成我们分析所需要的一列新数据字段。三、通用的新媒体数据处理方法

数据处理是指根据数据分析的目的,将收集到的原始数据(包括数值的和非数值的)用适当的处理方法进行整理加工,使原始数据更加符合数据分析的目标要求样式。它是数据分析前必不可少的阶段。它的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于特定分析目标具有价值、有意义的数据,使原始数据整理成为一份具备准确性、完整性和一致性的数据。一般要达到这个标准需要对原始数据进行清洗和加工。第二节数据清洗一、剔除重复数据二、填补缺失数据三、修正错误数据四、规范数据格式五、数据清洗常用函数一、剔除重复数据

在采集数据过程中,同一份数据可能由于采集渠道不同而进行了多次输入,可能因为操作失误重复输入数据。种种原因造成数据表中的数据存在重复现象,筛选剔除多余的数据是开展数据处理工作的首要任务。(一)查找重复项

要剔除一份数据表中的重复数据就需要先找到数据表中的重复项。这里以网站用户流量为例介绍四种查找重复项的方法。1.条件格式法2.函数法3.高级筛选法4.数据透视表法1.条件格式法2.函数法3.高级筛选法4.数据透视表法(二)删除重复项

通过以上此种方法查找到重复项之和,就需要将重复项删除。除了手动删除找到的重复项以外,下面给大家介绍四种删除重复项的方法。1.菜单删除重复项2.排序删除重复项3.条件格式删除重复项4.筛选删除重复项1.菜单删除重复项2.排序删除重复项3.条件格式删除重复项

使用排序的方法删除重复项有两个弊端,一是只适用数据量较小的数据表,二是当数据是一串编码或非数字型数据时人工就不容易辨识出重复项。那么,用条件格式可以自动标识出重复项,再手动删除。4.筛选删除重复项(三)利用Python处理重复数据

在Python中利用drop_duplicates()方法,该方法默认对所有值进行重复值判断,且默认保留第一个(行)值。二、填补缺失数据

采集的原始数据除了会出现数据重复以外,经常还会出现数据缺失的问题,缺失值指的是现有数据集中某个或某些属性的值是不完全的。缺失值产生的原因多种多样,主要分为机械原因和人为原因。

处理缺失值有两种思路,即删除和插补。对于主观数据,人将影响数据的真实性,存在缺失值的样本的其他属性的真实值不能保证,所以对于主观数据一般不推荐插补的方法,而采取删除存在缺失值的个案。插补主要是针对客观数据,它的可靠性有保证。(一)缺失值为空值

在数据表里,缺失值最常见的表现形式就是空值或者错误标识符。如果缺失值以空白单元格的形式出现,首先是将缺失值的单元格找出来,最快捷的方法是利用Excel的定位功能。

处理缺失值的方法一般有3种:(1)样本平均值替代法。用一个样本统计量的值代替缺失值。最典型的做法就是使用该变量的样本平均值代替缺失值。例如一组销量数据中有缺失值,就可以使用评价销量来进行替换。(2)模型计算值替代法。用一个统计模型计算出来的值去代替缺失值,常使用的模型有回归模型、判别模型等,例如连续时间段内公众号粉丝增长的数据中有缺失值,可以通过数据预测回归分析法,计算出数值替代缺失值。(3)删除缺失值法。当数据量足够大,且缺失值较数量不是太多,且变量之间不存在高度相关的情况下,可以对缺失值做删除处理。(二)缺失值为错误标识符

当缺失值是以错误标识符形式出现的时候,处理方法和空值类似,只是步骤由“定位->输入平均值”改为“查找->替换”。同样可以利用快捷键,查找功能的快捷键为“Ctrl+F”,替换功能的快捷键为“Ctrl+H”,在“查找内容”文本框中输入要查找的文本或数字,在“替换为”中输入要替换的文本或数字,单击“替换”即可,如图3-14。一般情况下选择将数字型字段的错误标识符替换为“0”或平均值。(三)利用Python处理缺失数据

在Python中直接调用info()方法就会返回每一列的缺失情况。Python中缺失值一般用NaN表示。三、修正错误数据

原始数据表中可能存在不符合逻辑的数据,例如图文消息送达人数180人,图文页阅读人数却达到300人,这明显不符合逻辑。在数据清洗过程中,需要检查出这类错误并修正数据。检查数据是否存在逻辑错误,我们不可能逐一进行排查,这样效率太低,而需要运用函数或条件格式快速判断。(一)函数检查法

在Excel中,函数的使用方法是在英文状态下输入“=”后再根据不同的函数的语法输入公式,如“=AVERAGE()”就是返回所有参数的算术平均值。IF函数是用来判断数据逻辑正确与否的常用函数。

使用IF函数不仅可以判断数字型数据是否符合特定的要求,还可以判断非数字型数据是否符合要求,例如,一张微博粉丝用户信息表中,“性别”一栏的值中出现了“南”、“32”等非性别数据,如果数据量少可以人工检测,如果数据量过大,使用IF函数很快就能找出数据表中出现错误的全部数据。(二)条件格式法

在Excel中,函数的使用方法是在英文状态下输入“=”后再根据不同的函数的语法输入公式,如“=AVERAGE()”就是返回所有参数的算术平均值。IF函数是用来判断数据逻辑正确与否的常用函数。(三)利用Python处理错误数据

在Python中,删除异常值用到的方法和Excel中的方法原理类似,Python中是通过过滤的方法对异常值进行删除。比如df表中有年龄这个指标,要把年龄大于100的值删掉,可以通过筛选把年龄大于100的晒出来,然后删除筛选出的部分数据。而如果对异常值进行填充的话,就需要用到replace()方法对特定的值进行替换。(三)利用Python处理错误数据

在Python中,删除异常值用到的方法和Excel中的方法原理类似,Python中是通过过滤的方法对异常值进行删除。比如df表中有年龄这个指标,要把年龄大于100的值删掉,可以通过筛选把年龄大于100的晒出来,然后删除筛选出的部分数据。而如果对异常值进行填充的话,就需要用到replace()方法对特定的值进行替换。1.一对一替换2.一对多替换3.多对多替换四、规范数据格式

采集过来的原始数据包括数值、文本、日期等多种格式。不同类型的数据对应不同的格式,数据的格式如果有误,将会影响后期数据加工和呈现。因此,规范数据格式是数据清洗过程中必不可少的过程。通常情况下,我们检查数据格式需要重点关注的是数值格式中的小数位数、数值格式中的千分位分隔符、百分比格式、日期格式以及时间格式等。(一)数值格式规范

针对前三个格式问题检查的方法比较简单,先选中对应的数据列,然后在“开始”选项卡中的“数字”组中对选中的数据进行查看,查看格式是否正确,如果格式全部统一,在“设置单元格格式”对话框中,它会对应一种格式,如“常规”、“数值”、“百分比”,如果选中的这一列数据在“设置单元格格式”对话框中没有对应的格式,说明这一列的数据格式不同统一,可以直接在对话框中进行设置和调整。(二)日期格式规范

日期格式的规范比起数值格式规范相对复杂一些,尤其是当日期书写方式不统一时,不是直接在“设置单元格格式”对话框中直接修改就能解决的,而是要借助“分列”功能来实现日期格式的统一修改。(三)利用Python处理数据格式

Python不像Excel中对数据类型分的那么详细,主要有6种数据类型,如下表。

Python数据类型类型说明int整形数,即整数float浮点数,即含有小数点的数objectPython对象类型,用O表示string_字符串类型,经常用S表示,S10表示长度为10的字符串unicode_固定长度的unicode类型,跟字符串定义方式一样datetime64[ns]表示时间格式五、数据清洗常用函数函数功能语法Trim去除单元格两端的空格。=TRIM(text)Clean删除文本中所有不能打印的字符。=CLEAN(text)Concatenate连接单元格内的内容=CONCATENATE(text1,[text2],...)Mid提取字符串中间的字符串=MID(text,start_num,num_chars)Left提取字符串左边的字符串=LEFT(text,[num_chars])Right提取字符串右边的字符串=RIGHT(text,[num_chars])Repalce替换字符串中的连续几个字符或者某个字符=REPLACE(old_text,start_num,num_chars,new_text)Substitute替换字符串中的连续几个字符或者某个字符=SUBSTITUTE(text,old_text,new_text,[instance_num])第三节数据加工一、数据转换二、数据计算三、数据分组四、数据重组五、数据排序一、数据转换

在数据分析前,需要考虑数据表的呈现形式是否方便后续的数据分析和规律的把握,如行列字段的设置、数据记录方式等。数据转换就是针对不恰当的数据表呈现进行调整的方法,以满足后续数据分析的需求。(一)行列互换

通常采集好的原始数据表是一维数据表,但在采集或记录时没有考虑周全,行列设置不太恰当,当后续数据更新或增加时,不方便查看。针对这种情况,可以借助行列互换的方法将字段设置进行调整。(二)记录方式转换

Excel的替换功能将不统一的表述方式快速统一起来。替换功能的使用方法比较简单易掌握,但需注意的是,在使用替换功能统一数据记录方式前,要先明确后期数据分析的需求,结合需求进行记录方式转换。(三)利用Python进行数据转换

在Python中通过在源数据表的基础上调用.T方法实现数据表的行列互换。二、数据计算

数据计算是运用最广泛的数据加工方法,主要是运用简单的数学运算或函数计算,将原始的采集数据处理成为便于后续数据分析的新字段。(一)简单计算

简单计算就是Excel表格中单元格对应的名称与加、减、乘、除等简单运算符结合使用计算的过程。简单计算通常包括数据求和、计算平均数、计算比例等。(一)简单计算

简单计算就是Excel表格中单元格对应的名称与加、减、乘、除等简单运算符结合使用计算的过程。简单计算通常包括数据求和、计算平均数、计算比例等。(二)函数计算

当简单的加减乘除运算不能满足计算需求时,就需要使用函数进行计算。使用函数计算数据,需要掌握函数计算的格式,即:“=”+函数名称+数据单元格区域”,此外,还需要掌握具体的某个函数的使用方法。表

常用函数使用方法函数函数作用函数示意SUM求和=SUM(A2:A20)计算A2至A20之间单元格数据的总和AVERAGE求平均数=AVERAGE(A2:A20)计算A2至A20之间单元格数据的平均数COUNTIF条件计算=COUNTIF(A2:A20,"女")计算A2至A20之间含有“女”字的单元格的数量(三)利用Python进行数据计算

1.简单计算2.比较运算3.汇总运算4.相关性运算三、数据分组

数据分组是依据数据分析的需要,将原始数据按照某种标准划分成不同的组别,分组后的的数据称为分组数据。数据分组的方法有单变量值分组和组距分组两种。数据分组的主要目的是观察数据的分布特征。

数据分组应遵循两个原则,即“相互独立”和“完全穷尽”。所谓相互独立,即分组之间不能有交叉,组别之间具有明显的差异性,每个数据只能归属于某一组;所谓完全穷尽,即分组中不要遗漏任何数据,保证完整性,各组的空间足以容纳总体的所有数据。

Excel是通过运用VLOOKUP函数实现快速分组的。VLOOKUP函数是Excel中一个纵向查找函数,可以用来返回数据所在分组的名称。其功能是按列查找,最终返回该列所需查询序列所对应的值。VLOOKUP函数的语法为:VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)四、数据重组

根据数据分析目的的不同,所需要的数据项目也有所不同。在采集数据时可能考虑不够细致,将所有可能用到的数据都统计在一起,这难免会出现数据多余、数据项目不符合需求等情况,此时就需要重新组合现有数据,使其符合数据分析的需要。数据分组主要从三个方面着手,即将一个数据拆分成两个数据、将两个数据合并成一个数据、从多个数据中抽取部分数据组合成新的数据。(一)数据拆分

在采集到的数据表中,一列数据项可能包含多种类型的信息。例如,IP地址信息包含IP地址、用户所在省份、用户所在城市等,在进行后续数据分析时,如果需要单独统计用户所在省份、城市分布的话,需要将这组数据进行拆分。对数据进行拆分时,使用Excel中的分列功能。该功能可以根据数据的规律,用不同的标准实现数据拆分。(二)数据合并

数据合并与数据拆分的作用正好相反,它是将多列数据合并成一列数据。例如将省份列和城市列合并为归属地列(即省份+城市)。数据合并主要使用逻辑连接符和文本转换函数实现多列数据的合并。1.使用“&”逻辑连接符2.使用“TEXT”文本转换函数3.使用“CONCATENATE”文本转换函数(三)数据抽取

数据抽取是指从现有原始数据中抽取部分数据作为目标分析对象。抽取情况分为两种,一种是从一列数据中抽取一部分,另一种是从多列数据中抽取部分数据列。两种抽取方法都要借助函数实现。1.从一列数据中抽取部分数据2.从多列数据中抽取部分列五、数据排序

在数据加工过程中,面对凌乱的原始数据,可以采用排序的方法将其进行整理。Excel不仅可以提供诸如按某个字段升序、降序,按颜色、字母、笔划等方式的简单排序,还可以提供解决复杂问题的自定义排序。(一)基础排序

1.按数值大小排序

2.按颜色排序3.按笔划或字母排序(二)自定义排序

基本排序对于某些复杂的数据处理并不能解决问题。数值型数据的排序规制比较简单,根据大小即可排序;而涉及到非数字型数据的排序规制就比较复杂,这时可以通过自定义进行排序。(三)利用Python进行排序

在Python中若想对某一列进行排序,需要用到sort_values()方法,在sort_values后的括号中指明要排序的名列,以及升序还是降序排列。第四节数据透视表的使用一、数据透视表的创建二、数据透视表的使用技巧三、数据透视表的应用

数据透视表是一种类似于数据分组的操作方法,常见于Excel与类似的表格应用中。数据透视表是将每一列作为输入,输出将数据不断细分为多个维度累计信息的二维数据表。

数据透视表(PivotTable)是一种交互式的表。之所以称为数据透视表,是因为一张数据透视表仅靠鼠标拖动字段位置,就可以动态地改变它的版面布局,变换出各种类型的分析报表,以便按照不同方式展示数据特征。使用时只需指定所需分析的字段、数据透视表的组织形式,以及要计算的类型(求和、计数、平均、方差等)。如果原始数据发生更改,则可以刷新数据透视表来更改汇总结果。一、数据透视表的创建(一)数据透视表的基本构造(二)Excel中创建数据透视表

用Excel2016建立透视表有两种方法:一种是使用系统推荐的透视表,可以省去字段设置的过程;另一种是自定义建立透视表,可以灵活地选择数据区域及进行字段设置。(三)Python中创建数据透视表

Python中数据透视表的制作原理与Excel中的制作原理是一样的,Python中的数据透视表用到的是pivot_table()方法。二、数据透视表的使用技巧

数据透视表不仅仅能动态、便捷地改变数据表的组织结构形式,还能将数据进行多样的结构分析和对比分析,比如计算百分比、环比、同比,分组统计,使用筛选器等功能。(一)计算百分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论