大数据分析方法与应用 课件 第2章 数据分析基础_第1页
大数据分析方法与应用 课件 第2章 数据分析基础_第2页
大数据分析方法与应用 课件 第2章 数据分析基础_第3页
大数据分析方法与应用 课件 第2章 数据分析基础_第4页
大数据分析方法与应用 课件 第2章 数据分析基础_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据分析方法与应用第2章数据分析基础2.1数据的类型与分布目录CONTENTS2.2变量之间的关系第2章数据分析基础2.3数据的可视化——基于Excel(2019)的应用2.4数据的输入2.1数据的类型与分布

数据的类型定性数据(也称为名义数据)是一种用于描述各种类别或属性的数据。定量数据是以数字表现的数据,它可以被测量、计算和比较。数据的收集方式(数据收集方式会影响数据的分布特征)

截面数据(Cross-sectionaldata)是指在同一时间点上对某个总体进行测量所得到的数据。时间序列数据(Time

series

data)是一种按时间顺序排列的观测值的集合,这些观测值通常时间间隔采集。2.2变量之间的关系协方差(Covariance)是描述两个随机变量之间关系的统计量。它用于衡量两个变量在同一时间段内的变动趋势是否同向或相反。当协方差为正值时,表示两个变量呈正相关关系,即当一个变量增大时,另一个变量也可能会增大。当协方差为负值时,表示两个变量呈负相关关系,即当一个变量增大时,另一个变量可能会减小。当协方差接近于零时,表示两个变量之间没有线性关系。协方差只能描述变量之间的线性关系,并不能确定其因果关系。2.2.1协方差相关系数(Pearsoncorrelationcoefficient)是一种用于衡量两个变量之间线性关系强度和方向的统计量。相关系数用希腊字母ρ表示,取值范围为[-1,1]。相关系数定量地刻画了X和Y的相关程度,即|ρxy|越大,相关程度越大;|ρxy|=0对应相关程度最低。相关系数是一种非参数统计量,不受变量分布形状的影响,适用于各种分布。其中2.2变量之间的关系2.2.2相关系数散点图是描述变量关系的一种直观方法,可以从散点图中直观地看出两个变量之间是否存在相关关系、是正线性相关还是负线性相关,也可以大致看出变量之间关系强度如何,但是对于具体关系强度则需要相关系数来判断。2.3数据的可视化——基于Excel的应用2.3.1散点图【例2-1】广告业近年来得到广泛应用,尤其在产品推广中发挥了巨大作用,也影响着产品的销售收入,因此了解广告费对销售收入的影响至关重要。某公司销售额和广告费用的数据如表2-1所示。表2-1某公司销售额和广告费用广告费用(万元)销售额1052126015701877208223942.3数据的可视化——基于Excel(2019)的应用2.3.1散点图1)打开Excel表格,选中需要制作散点图的数据单元格,单击“插入”菜单下的散点图。绘制广告费用对销售收入的影响情况的散点图2.3数据的可视化——基于Excel(2019)的应用2.3.1散点图2)选中“XY散点图”,然后界面右侧会显示很多的散点图,选择一个合适的,单击确定。3)单击“图表标题”,输入标题名称。2.3数据的可视化——基于Excel(2019)的应用2.3.1散点图4)在图表空白处单击选中图表,然后单击右上角的“+”号,勾选“数据标签”,这样每个散点图数据点上都会显示数值,单击“趋势线”,还能添加趋势线。可以发现销售额和广告费用之间呈现一种线性关系,即随着广告费用的增加,销售额也会增加。2.3数据的可视化——基于Excel(2019)的应用2.3.1散点图【例2-2】三大产业的发展对我国经济发展有着举足轻重的作用,通过柱形图和折线图表示三大产业在2019-2022年的增加值,可以直观看出这四年的变化情况。我国2019-2022年第一、第二和第三产业增加值如表2-2所示。表2-2我国2019-2022年第一、第二和第三产业增加值年份第一产业增加值第二产业增加值第三产业增加值201970,467386,165534,233202077,754384,255553,977202183,086450,904609,680202288,345483,164638,6982.3数据的可视化——基于Excel(2019)的应用2.3.2柱形图和折线图1)打开Excel,选择相关数据,选定插入,单击“柱状图形”。绘制我国2019-2022年第一、第二和第三产业增加值变化的柱形图2.3数据的可视化——基于Excel(2019)的应用2.3.2柱形图和折线图2)选择一种柱形图,单击确定。3)单击“图表设计”菜单项,在“图标布局”和“图表式样”中选择需要的布局和式样。2.3数据的可视化——基于Excel(2019)的应用2.3.2柱形图和折线图4)如果选择有图表标题和坐标轴标题的布局,则得到如下的图表。单击标题可以修改标题文本。2.3数据的可视化——基于Excel(2019)的应用2.3.2柱形图和折线图5)修改横坐标轴。右键单击横坐标,单击选择数据,在水平(分类)轴标签下单击编辑,选择需要显示的横坐标数据,单击确定。2.3数据的可视化——基于Excel(2019)的应用2.3.2柱形图和折线图6)得到最终的柱状图。通过比较不同柱子的长度,可以快速看出哪个类别或时间段的数据更大或更小。2.3数据的可视化——基于Excel(2019)的应用2.3.2柱形图和折线图1)打开Excel,选择相关数据,选定插入,单击“折线图形”。单击标题可以修改标题文本。绘制我国2019-2022年第一、第二和第三产业增加值变化的折线图2.3数据的可视化——基于Excel(2019)的应用2.3.2柱形图和折线图2)修改横坐标轴。右键单击横坐标,单击选择数据,在水平(分类)轴标签下单击编辑,选择需要显示的横坐标数据,单击确定。2.3数据的可视化——基于Excel(2019)的应用2.3.2柱形图和折线图3)得到数据最终的折线图。折线图通常由一系列数据点连接而成,表示数据随时间或某一变量变化而变化的趋势。2.3数据的可视化——基于Excel(2019)的应用2.3.2柱形图和折线图2.3数据的可视化——基于Excel(2019)的应用2.3.3数据透视表数据透视表是一种数据分析工具,用于对大量数据进行汇总、整理和分析。它以电子表格的形式展示数据,通过行和列的组合来提供多维度的统计信息。数据透视表有以下几个主要功能:1)汇总数据通过将数据按照不同的维度进行分组,数据透视表可以将大量数据汇总并显示总计、平均值、最大值、最小值等统计指标。2)过滤数据数据透视表可以根据特定的条件筛选数据,只显示符合条件的记录,从而更精确地进行数据分析。3)重新排序通过拖动字段或更改字段顺序,可以动态调整数据透视表中的数据展示方式,使其更符合分析需求。4)数据透视图数据透视表可以将数据以交叉表格的形式展示,清晰直观地呈现不同维度之间的关系,帮助用户发现数据中的模式、趋势和异常情况。2.3数据的可视化——基于Excel(2019)的应用2.3.3数据透视表【例2-3】以销售月表为例,表中记录了订单号、订单日期、订单金额、销售人员和销售人员部门,如下表2-3所示。表2-3销售月表订单号订单日期订单金额销售人员部门202305012023.8.17100,000Alan销售1部202305022023.8.1720,000Lily销售2部202305032023.8.185000Alan销售1部202305042023.8.1930000Alan销售1部202305052023.8.20200,000Tom销售1部202305062023.8.2125,000Mike销售2部202305072023.8.212,000Lily销售2部202305082023.8.2250,000Helen销售3部202305092023.8.2323,000Mike销售2部2023050102023.8.2440,000Tom销售1部2023050112023.8.2510,000Helen销售3部2.3数据的可视化——基于Excel(2019)的应用1)单击插入,单击数据透视图。以销售人员分类查询订单总额2)选择数据透视表,选中需要分析的数据区域。2.3数据的可视化——基于Excel(2019)的应用2.3.3数据透视表3)选择需要添加到报表的字段—销售人员和销售金额,即显示各销售人员负责的订单金额总计的情况。2.3数据的可视化——基于Excel(2019)的应用2.3.3数据透视表4)根据数据透视图分析销售人员、销售金额和销售部门之间关系通过使用数据透视表,用户可以更加灵活和高效地对复杂的数据进行分析和理解,快速找到有意义的数据洞察,并支持决策制定和问题解决。2.3数据的可视化——基于Excel(2019)的应用2.3.3数据透视表直接键盘输入用自定义格式输入LEFT用条件函数IF输入用“有效性”工具输入输入序列用字符提取函数RIGHTMID输入用查找函数VLOOKUP输入等2.4数据的输入2.4.1Excel数据的输入方法1)单击Excel菜单:“数据\数据验证”。2.4数据的输入2.4.2数据有效性2)数据验证-设置日期验证条件。如果输入的数据是2023年某高校大学生的出生年月,在“允许”下拉菜单中选定“日期”,输入“开始日期”和“结束”日期。2.4数据的输入2.4.2数据有效性2.4数据的输入

3)数据验证-设置文本长度验证条件。如果输入的数据是学生的身份证号码,在“允许”下拉中选定“文本长度”,“数据”下拉选定“等于”,“长度”输入18。2.4.2数据有效性2.4数据的输入

4)数据验证-设置序列验证条件。设置还可以建立输入项目的下拉菜单,特别适合输入定制的项目。例如:建立毕业院校的下拉菜单。打开“数据验证/设置/允许”下拉菜单,选定“序列”。选定下拉菜单中的院校名称,就可以方便地输入所选内容。2.4.2数据有效性2.4数据的输入

5)数据验证-输入信息提示。“输入信息”用于用户定制选定输入单元格时出现的提示信息。例如,对于输入身份证号码的单元格。2.4.2数据有效性2.4数据的输入

6)数据验证-出错警告。输入的身份证号码超过18位时出现的错误警告。2.4.2数据有效性条件函数IF是Excel中常用的条件判断函数,其语法格式为:=IF(logical_test,[value_if_true],[value_if_false])。logical_test:表示要进行判断的条件,如果该条件为TRUE,则返回value_if_true的值,否则返回value_if_false的值。value_if_true:表示当logical_test为TRUE时返回的值。value_if_false:表示当logical_test为FALSE时返回的值。2.4数据的输入

2.4.3条件函数IF【例2-4】某公司根据员工今年的累计销售总额计算员工年终奖金,计算规则为:当累计销售总额[50000,∞)时,奖励5000元;当累计销售总额[30000,50000),奖励3000元;当累计销售总额[20000,30000),奖励2000元,当累计销售总额[0,20000),没有奖金奖励。该公司本年度员工的累计销售金额如表2-4所示。表2-4本年度员工累计销售金额员工ID员工销售金额(元)Alan60,000Alex55,000Helen46,000Lily22,000Mike15,000Tom37,0002.4数据的输入

2.4数据的输入

增设“奖励金额”一列,插入IF函数公式。得到最终员工的年终奖励金额。IF函数嵌套的层数最多为7层。多个条件的情况,还是推荐用函数VLOOKUP来实现。VLOOKUP是一种在Excel或其他电子表格程序中使用的函数,用于在一个区域中查找指定值,并返回该值所在行或列的相关数据。其语法格式为:VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)

lookup_value:要查找的值。table_array:包含要进行查找的数据区域,该区域至少包含两列。col_index_num:目标数据所在列的索引号,该值从1开始计数。range_lookup:指定是否需要进行近似匹配的布尔值,可选参数,常用的有0或FALSE表示仅进行精确匹配,1或TRUE表示进行近似匹配。2.4数据的输入

2.4.4函数VLOOKUP员工ID员工销售金额(元)Alan60,000Alex55,000Helen46,000Lily22,000Mike15,000Tom37,0002.4数据的输入

【例2-5】使用VLOOKUP函数实现多个条件数据的查找和输入。表2-3销售月表中记录了订单号、订单日期、订单金额、销售人员和销售人员部门。表2-3销售月表订单号订单日期订单金额销售人员部门202305012023.8.17100,000Alan销售1部202305022023.8.17

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论