![第4章-数据挖掘基础及可视化_第1页](http://file4.renrendoc.com/view9/M01/17/2C/wKhkGWdSYhuAVo8TAAC1J2SIle4384.jpg)
![第4章-数据挖掘基础及可视化_第2页](http://file4.renrendoc.com/view9/M01/17/2C/wKhkGWdSYhuAVo8TAAC1J2SIle43842.jpg)
![第4章-数据挖掘基础及可视化_第3页](http://file4.renrendoc.com/view9/M01/17/2C/wKhkGWdSYhuAVo8TAAC1J2SIle43843.jpg)
![第4章-数据挖掘基础及可视化_第4页](http://file4.renrendoc.com/view9/M01/17/2C/wKhkGWdSYhuAVo8TAAC1J2SIle43844.jpg)
![第4章-数据挖掘基础及可视化_第5页](http://file4.renrendoc.com/view9/M01/17/2C/wKhkGWdSYhuAVo8TAAC1J2SIle43845.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章数据挖掘基础及可视化4.1数据的透视分析第4章数据挖掘基础及可视4.1.1透视表的构建1.Python基础编程环境pandas有一个强大的数据透视函数pivot_table(),可以生成任意维度透视表。既可以进行数据重塑,也可以进行分组统计,还可以实现Excel等电子表格的透视表功能,且更为灵活。4.1数据的透视分析第4章数据挖掘基础及可视4.1.1透视表的构建1.无筛选透视表
2.有筛选透视表
3.透视表的分析4.1.2透视图的绘制
4.1数据的透视分析第4章数据挖掘基础及可视化4.1.1透视表的构建1.Python基础编程环境pandas有一个强大的数据透视函数pivot_table(),可以生成任意维度透视表。既可以进行数据重塑,也可以进行分组统计,还可以实现Excel等电子表格的透视表功能,且更为灵活。4.1数据的透视分析第4章数据挖掘基础及可视化4.1.1透视表的构建pivot_table有四个最重要的参数values(值)、index(行)、columns(列)、aggfunc(聚集函数,默认求均值),本文以这四个参数为中心讲解pivot_table操作是如何进行。4.1数据的透视分析第4章数据挖掘基础及可视化4.1.1透视表的构建1.无筛选透视表(1)纵向数据下面是用pandas的pivot_table函数实现Excel类似的透视功能。注意,如果不改变函数中的参数顺序的话,也可以不写参数名,只写变量名。4.1数据的透视分析
第4章数据挖掘基础及可视化4.1数据的透视分析第4章数据挖掘基础及可视化4.1.1透视表的构建1.无筛选透视表Excel的基本操作1)在DAV_data.xlsx文档中选取【数据】表单,选定数据中的任意一个单元格,单击“插入”选项卡,单击“表格”组“数据透视表”下拉按钮,将弹出下图所示的“创建数据透视表”对话框。4.1数据的透视分析第4章数据挖掘基础及可视化4.1数据的透视分析第4章数据挖掘基础及可视化4.1.1透视表的构建1.无筛选透视表Excel的基本操作2)在新工作表的右边将出现“数据透视表字段”任务窗框。在字段复选框中选中“年份”和“GDP”二项,其中“GDP”取平均项、“年份”作为行字段,这时数据透视表会即时显示相应的结果,见下图所示。4.1数据的透视分析第4章数据挖掘基础及可视化4.1数据的透视分析第4章数据挖掘基础及可视化4.1.1透视表的构建1.无筛选透视表Excel的基本操作3)选择A列的行标签数据和B列的平均值项:GDP数据,在“插入”菜单中选择“图表”组的“折线图”下拉按钮,将绘制上图所示的折线图。4.1数据的透视分析第4章数据挖掘基础及可视化(2)横向数据4.1数据的透视分析第4章数据挖掘基础及可视化(3)数据重塑
下面是采用Excel的透视表功能选择交叉分组数据。在新工作表的右边的“数据透视表字段”面板上选中“年份”、“地区”和“人均GDP”二项,其中“人均GDP”取平均项、“年份”作为行字段,“地区”为列字段,这时数据透视表会即时显示相应的结果,见下图所示。4.1数据的透视分析第4章数据挖掘基础及可视化4.1数据的透视分析第4章数据挖掘基础及可视化4.1.1透视表的构建2.有筛选透视表有筛选的透视表相当于Excel中的带分页的透视表。(1)横向数据4.1数据的透视分析第4章数据挖掘基础及可视化(1)横向数据4.1数据的透视分析第4章数据挖掘基础及可视化(2)纵向数据4.1数据的透视分析第4章数据挖掘基础及可视化(2)纵向数据4.1数据的透视分析第4章数据挖掘基础及可视化4.1.1透视表的构建2.有筛选透视表Excel的基本操作在新工作表的右边的“数据透视表字段”面板上选中“年份”、“地区”和“进出口额”、“消费总额”及“RD经费”五项,其中“进出口额”、“消费总额”及“RD经费”取平均项、“年份”作为行字段,“地区”为筛选字段,这时数据透视表会即时显示相应的结果,见下图所示。4.1数据的透视分析第4章数据挖掘基础及可视化4.1数据的透视分析第4章数据挖掘基础及可视化4.1.1透视表的构建3.透视表的分析(1)单变量统计下面应用透视表对单个变量求它们的基本统计量4.1数据的透视分析第4章数据挖掘基础及可视化4.1数据的透视分析第4章数据挖掘基础及可视化4.1.1透视表的构建3.透视表的分析Excel的基本操作在新工作表的右边的“数据透视表字段”面板上选中“年份”、“地区”和“GDP”,其中“GDP”选取五次,分别设置值字段为计数、最小值、最大值、平均值和标准偏差,“年份”作为筛选字段,“地区”为行字段,这时数据透视表会即时显示相应的结果,见下图所示。4.1数据的透视分析第4章数据挖掘基础及可视化4.1数据的透视分析第4章数据挖掘基础及可视化4.1.1透视表的构建3.透视表的分析4.1数据的透视分析第4章数据挖掘基础及可视化4.1.1透视表的构建3.透视表的分析(2)分组变量统计4.1数据的透视分析第4章数据挖掘基础及可视化4.1.1透视表的构建3.透视表的分析(2)分组变量统计4.1数据的透视分析第4章数据挖掘基础及可视化4.1.2
透视图的绘制透视图即为对透视表的结果绘制相应的统计图,所以透视图的绘制通常是在透视表的基础上进行。4.1数据的透视分析第4章数据挖掘基础及可视化4.1.2
透视图的绘制透视图即为对透视表的结果绘制相应的统计图,所以透视图的绘制通常是在透视表的基础上进行。4.1数据的透视分析第4章数据挖掘基础及可视化4.1.2
透视图的绘制Excel的基本操作1)选定【数据】清单中的任意一个单元格,单击“插入”选项卡,单击“表格”组“数据透视表”下拉按钮,构建透视表的工作表。2)在工作表的右边将出现“数据透视表字段列表”任务窗框。在字段复选框中选中“地区”、“年份”和“GDP”三项,其中“GDP”作为求和项、“年份”作为图例字段、“地区”作为轴字段。3)在透视表的行标签中选取“广州、深圳、珠海”三个地区,在透视表的列标签中选取“2010、2015、2019”三个时段,形成下表的结果。4)选择B4:D7单元格区域,切换到“插入”选项卡,在“图表”组中单击“柱形图”按钮,在子图表类型中,选择二维柱形图,即可生成如下图。4.1数据的透视分析第4章数据挖掘基础及可视化4.1.2
透视图的绘制4.2
探索数据分析第4章数据挖掘基础及可视化4.2.1纵向数据探索分析1.绝对动态数列
2.相对动态数列
4.2.2
横向数据探索分析1.频数表与直方图
2.数据的分布特征3.正态分布检验图
4.2
探索数据分析第4章数据挖掘基础及可视化探索性数据分析也是数据挖掘的基础。当面对一组陌生的数据时,进行探索性统计分析有助于我们掌握数据的基本情况。探索性数据分析是通过分析数据集以决定选择哪种方法适合统计推断的过程。对于一维数据,它们是否近似地服从正态分布?是否呈现拖尾或截尾分布?其分布是对称的,还是呈偏态的?分布是单峰、双峰、还是多峰的?实现这一分析的主要过程是计算基本统计量和绘制基本可视化图。4.2
探索数据分析第4章数据挖掘基础及可视化4.2.1纵向数据探索分析1.绝对动态数列把一系列同类的总量指标按时间先后顺序排列而形成的动态数列,称为绝对数动态数列或绝对增长量,说明事物在一定时期所增加的绝对数量。可分别计算累计增长量和逐期增长量。(1)定基数报告期指标与某一固定期(基期)指标之差,也称累计增长量(简称定基数)。定基数=ai-a1式中,ai为第i期指标,a1为第1期(基期)指标。(2)环比数报告期的指标与前一期指标之差,也称逐期增长量(简称环比数)。环比数=ai-ai-1式中,ai为第i期指标,ai1为第i1期指标。4.2
探索数据分析第4章数据挖掘基础及可视化4.2.1纵向数据探索分析1.绝对动态数列4.2
探索数据分析第4章数据挖掘基础及可视化4.2
探索数据分析第4章数据挖掘基础及可视化4.2.1纵向数据探索分析2.相对动态数列把一系列同类的相对指标数值按时间先后顺序排列而形成的动态数列,称为相对数动态数列。它可以用来说明社会现象间的相对变化情况。(1)定基发展速度(定基比)
统一用某个时间的指标做基数,以各时间的指标与之相比。
定基比=100*ai/a1
式中,ai为第i期指标,a1为第1期(基期)指标。4.2
探索数据分析第4章数据挖掘基础及可视化4.2.1纵向数据探索分析2.相对动态数列把一系列同类的相对指标数值按时间先后顺序排列而形成的动态数列,称为相对数动态数列。它可以用来说明社会现象间的相对变化情况。(2)环比发展速度(环基比)
以前一时间的指标做基数,以相邻的后一时间的指标与之相比。
环基比=100*ai/ai1
式中,ai为第i期指标,ai1为第i1期指标。4.2
探索数据分析第4章数据挖掘基础及可视化4.2.1纵向数据探索分析4.2
探索数据分析第4章数据挖掘基础及可视化4.2.1纵向数据探索分析Excel的基本操作(1)在透视表中选需要的数据,本例是珠海的“进出口额”数据。(2)在格子C4中输入=B4-B$4,然后通过拉伸或复制扩展到C23。(3)在格子D4中输入=B4-B3,然后通过拉伸或复制扩展到D23。(4)在格子E4中输入=B4/B$4,然后通过拉伸或复制扩展到E23。(5)在格子F4中输入=B4/B3,然后通过拉伸或复制扩展到F23。(6)以地区列A为横坐标,进出口额B列、定基数C列、环基数D列为纵坐标分别绘制它们的面积图4.2
探索数据分析第4章数据挖掘基础及可视化4.2.1纵向数据探索分析4.2
探索数据分析第4章数据挖掘基础及可视化4.2.1纵向数据探索分析4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析1.频数表与直方图(1)频数表频数表是统计中由于所观测的数据较多,为简化计算,将这些数据按等间隔分组,然后按选举唱票法数出落在每个组内观测值的个数,称为(组)频数。这样得到的表称“频数表”或“频数分布表”。因为频数除以总频数即频率,所以频数表或频数分布表除以总频数即得频率表或频率分布表。分析频数分布的目的是要根据子样中各个变值的频率分布情况来推测母体中各个变值的频率分布情况。利用pandas的cut函数将数据进行分组,如将人均GDP分成10组,这时数据变成定性数据了,其中bins也可指定为分组区间。4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析1.频数表与直方图(2)直方图直方图(histogram),又称频数分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。直方图是频数表的图形表示,是一个连续变量(定量变量)的概率分布的估计,它是一种连续条形图,一般用横轴表示数据类型,纵轴表示频数分布情况。4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析1.频数表与直方图(2)直方图直方图用于表示连续型变量的频数分布,常用于考察变量的分布是否服从某种分布类型,如正态分布或偏态分布。图形以矩形的面积表示各组段的频数(或频率),各矩形的面积总和为总频数(或等于1)。当例数趋于无穷大时,直方图中频率间的连线即为分布的密度曲线。4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析1.频数表与直方图(2)直方图直方图用于表示连续型变量的频数分布,实际应用中常用于考察变量的分布是否服从某种分布类型,如正态分布。图形以矩形的面积表示各组段的频数(或频率),各矩形的面积总和为总频数(或等于1)。pandas里用来作直方图的函数类型是hist,也可以用kde绘制概率密度图。4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2横向数据探索分析Excel的基本操作(1)在透视表中选需要的数据,本例是珠海的“进出口额”数据。(2)切换到“数据”选项卡,单击“分析”组中的“数据分析”按钮,将弹出“数据分析”框,在分析工具框中选择“直方图”。(3)输入输入区域:B4:B423接受区域:空选择标志:不选(4)输出选项80输出区域:E4选定图表输出(5)单击确定按钮,得结果如下。4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2横向数据探索分析4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2横向数据探索分析4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析1.频数表与直方图由频数表和直方图可看出频数分布的两个重要特征:集中趋势和离散程度。身高有高有矮,但多数人身高集中在中间部分组段,以中等身高居多,此为集中趋势;由中等身高到较矮或较高的频数分布逐渐减少,反映了离散程度。对于计量型资料,可从集中趋势和离散程度两个侧面去分析其规律性。4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析2.数据的分布特征当数据量不断增加时,直方图及频数分布将趋向于总体的分布。(1)正态分布正态分布是数据分析中最主要分布。正态分布也是古典统计学的核心,它有两个参数:位置参数均值,尺度参数标准差。正态分布的图形如倒立的钟,且分布对称。现实生活中,很多变量是服从正态分布的,比如人的身高、体重和智商IQ。4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析2.数据的分布特征正态分布的概率曲线函数有如下形式。它的图形是对称的钟形曲线,常称为正态曲线,记为x~N(μ,σ2)。可用正态化变换(也称标准化变换)z=(x-μ)/σ,将一般正态分布x~N(μ,σ2)转换为标准正态分布z~N(0,1)。标准正态分布概率密度函数为4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析2.数据的分布特征①标准正态分布曲线4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析2.数据的分布特征②一般正态随机数及分布图
下面模拟生成一般正态分布随机数,如生成100个均值为170cm,标准差为10cm的人群身高正态分布随机数。
正态分布是一种典型的对称分布,而不是对称分布的分布都可看做偏态分布。
4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析
4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析2.数据的分布特征当数据量不断增加时,直方图及频数分布将趋向于总体的分布。(2)偏态分布偏态分布是与“正态分布”相对,分布曲线左右不对称的数据次数分布,是连续随机变量概率分布的一种。可以通过峰度和偏度的计算,衡量偏态的程度。可分为正偏态和负偏态,前者曲线右侧偏长,左侧偏短(称为右偏态或正偏态);后者曲线左侧偏长,右侧偏短(称为左偏态或负偏态)。4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析假设Y是对数分布随机数,那么Z=log(Y)就为正态分布随机数。4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析4.2
探索数据分析第4章数据挖掘基础及可视化4.2.2
横向数据探索分析(2)偏态分布有时,为了使数据更适应相应的统计分布,经常需要对数据进行一些变量变换,最简单的变量变换是线性变换,这种变换不影响数据结构。在经济管理中常用的数据变换是对数变换(如log(x)),因为经济数据通常是指数增长的,对数变
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 钦州2025年广西钦州市市直中学教师专场招聘140人笔试历年参考题库附带答案详解
- 红河云南民建红河州委招聘公益性岗位人员笔试历年参考题库附带答案详解
- 百色2025年广西百色学院招聘187人笔试历年参考题库附带答案详解
- 楚雄云南楚雄双江自治县综合行政执法局招聘编外长聘人员笔试历年参考题库附带答案详解
- 2025年速冻麻竹笋项目可行性研究报告
- 2025年虾蟹脱壳促长散项目可行性研究报告
- 2025年绝缘型快装检修架项目可行性研究报告
- 2025年登山滑雪杖织带项目可行性研究报告
- 2025年溪黄草凉茶颗粒项目可行性研究报告
- 2025至2031年中国水性UV底漆行业投资前景及策略咨询研究报告
- 中国氢内燃机行业发展环境、市场运行格局及前景研究报告-智研咨询(2024版)
- 开学季初三冲刺中考开学第一课为梦想加油课件
- 《自然保护区划分》课件
- 2025年普通卷钉项目可行性研究报告
- 2025年建筑施工春节节后复工复产工作专项方案
- 学校食堂餐厅管理者食堂安全考试题附答案
- 《商用车预见性巡航系统技术规范》
- 玻璃电动平移门施工方案
- 春季安全开学第一课
- 陕鼓集团招聘笔试题目
- 长鑫存储校招在线测评题库
评论
0/150
提交评论