版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
●教育部经济管理类核心课程教材●“十二五”普通高等教育本科国家级规划教材●北京高等教育精品教材●北京高等学校优质本科教材课件(第8版)—SPSS和Excel实现五”普通高等教台本科国家级现则教材统计学SPSS
和Excel实现(第8版)STATISTICS统计学2022/5/22北京高等教育精品教材第
1
章
统计、数据和计算机1.1统计学及其应用领域
1.2怎样获得数据1
.3
统计与计算机第1章数据、统计和计算机描述推
断
)应用2022/5/22思维导图数据分析基础统计方法基础关系分析预测非参数检验统
计
学(
第
8
版
)
—第2章用图表展示数据第3章用统计量描述数据第4章概率分布第5章参数估计第6章假设检验第7章类别变量推断第8章方
头
v
反
计第9章一元线性回归第10章多元线性回归第11章时间序列预测第12章非参数检验1-3图表展示统计量描述推断理论基础估计原理与方法检验原理与方法类别变量与类别变量因变量,数值
自变量:类别因变量:数值
自变量:数值或类别时间序列参数方法不适应的情形描述方法推断方法其他方法统计方法分类与本书框架思考以下问题●吸烟对健康是有害的,吸香烟的男性减少寿命2250天●不结婚的男性会减少寿命3500天,不结婚的女性会减少寿命1600天●身体超重30%会使寿命减少1300天●每天摄取500毫升维生素C,生命可延长6年●身材高的父亲,其子女的身材也较高●第二个出生的子女没有第一个聪明,第三个出生的子女没有第二个聪明,依此类推●学生们在听了莫扎特钢琴曲10分钟后的推理,要比他们听10分钟娱乐性的其他曲目后的推理做得更好●漂亮的女性有损男性的智力。男性在看到漂亮女性时智力会下降,这就是为什么大学里的女孩子比
男孩子学习好的原因●上课坐在前面的学生平均考试分数比坐在后面的学生高●中国科学院空间环境研究预报中心的专家称,在神舟七号载人航天飞行期间,飞船遭遇空间碎片的
概率在百万分之一以下2022/5/22
统计学(第8版)—
1-4怎样理解这样一些统计结论第1章数据、统计和计算机
、
统计学及其应用领域什么是统计学统计学——收集、处理、分析、解释数据并从数据中得出结论的科学描述性方法⑩
研究数据收集、整理和描述的统计学
方法⑩
描述数据特征,找出数据的基本规律⑩内容包括:数据收集、处理、展示、描述性分析推断性方法⑩
研究如何利用样本数据来推断总体特征的统计学方法⑩
对总体特征作出推断⑩内容包括:参数估计和假设检验2022/5/22
统计学(第8版)—
1-5●统计学研究的是来自各领域的数据●统计学没有任何固定的对象,是一门独特的学问●用于解决其他领域内的问题统计学基本上是寄生的。靠研究其他领域内的工作而生存。这不是对统计学的轻视,
这是因为对很多寄主来说,如果没有寄生虫就会死。对有的动物来说,如果没有寄生
虫就不能消化它们的食物。因此,人类奋斗的很多领域,如果没有统计学,虽然不会
死亡,但一定会变得很弱2022/5/22
统计学(第8版)—1-6统计学及其应用领域第1章数据、统计和计算机统计学研究什么例1-
1】——用统计识别作者1787—1788年,三位作者亚历山大
·汉密尔顿(AlexanderHamilton)、约翰
·杰伊(JohnJay)和詹姆斯
·麦迪逊(JamesMadison)为了说服纽约人认可
宪法,匿名发表了85篇著名的论文。这些论文中的大多数作者已经得到了识别
但是,其中12篇的作者身份引起了争议。通过对这些论文不同单词的频数进行统计分析,得出的结论是詹姆斯
·麦迪逊最有可能是这12篇论文的作者。现在对于这些存在争议的论文,认为詹姆斯
·麦迪逊是原创作者的说法占主导地位
而且几乎可以肯定这种说法是正确的2022/5/22
统计学(第8版)—1-7统计学的应用领域——几个例子第1章数据、统计和计算机统计学的应用领域【例1-2】
——用简单的描述统计量得到一个重要发现费舍(R.A.Fisher)在1952的一篇文章中举了一个例子,说明如何由基本的描述统计量的知
识引出一个重要的发现。20世纪早期,哥本哈根卡尔堡实验室的施密特(J.Schmidt)发现不同
地区所捕获的同种鱼类的脊椎骨和鳃线的数量有很大不同;甚至在同一海湾内不同地点所捕
获的同种鱼类,也发现这样的倾向然而,鳗鱼的脊椎骨的数量变化不大。施密特从欧洲各地、冰岛、亚速尔群岛以及尼罗河
等几乎分离的海域里所捕获的鳗鱼的样本中,计算发现了几乎一样的均值和标准偏差值。由
此,施密特推断所有各个不同海域内的鳗鱼是由海洋中某公共场所繁殖的。后来名为“戴纳
(Dana)”的科学考察船在一次远征中发现了这个场所2022/5/22
统计学(第8版)—1-8统计学的应用领域——几个例子统计学的应用领域第1章数据、统计和计算机1.1【
例1-3】——挑战者号航天飞机失事预测1986年1月28日清晨,载有7名航天员的挑战者号进入发射状态。发射几分钟后,航天飞机发生爆炸,
机上的航天员全部遇难。在此次失事前,该航天飞机24次发射成功。将航天飞机送入太空的两个固体燃
料推进器有6支O型项圈密封,在几次飞行中,曾发生过O型项圈被腐蚀或气体泄漏事故。这类事故与气温是否有关系呢?本次发射时的天气预报气温为摄氏零下0.56°C。根据前23次飞行中O型项圈发生腐蚀或泄漏事故损坏的个数(因变量y)及发射时火箭连接处的温度(自变量x)数据进行线性回归得到的回归方程为y=2.1771-0.0856x当温度为-0.56°C时,O型项圈发生事故的预计次数为2.225次。结果显示温度与O型项圈事故之间有
一定的相关性。如果当时那些经理们看到了回归的预测结果,也许推迟发射会成为其谨慎的选择2022/5/22
统计学(第8版)—1-9统计学的应用领域——几个例子统计学的应用领域第1章数据、统计和计算机●统计滥用不好的样本或过小的样本误导性图表局部描述故意曲解●统计应用上的两个极端——不用或几乎不用统计;简单问题复杂化●在统计应用中,这两个极端都是不可取的●简单的方法不一定没用,复杂的方法也不一定
有用。正如有的学者所说的,最简单的模型往
往是最有用的●统计应该恰当地应用到它能起作用的地方。不能把统计神秘化,更不能歪曲统计,把统计作
为掩盖实事的陷阱2022/5/22统计学(第8版)—
1-10统计学的应用领域第1章数据、统计和计算机统计的误用与滥用1.1●
变
量
(
v
a
r
i
a
b
l
e
)观察一个企业的销售额,这个月和上个月不同;观察股票市场上涨股票的家数,今天与昨天数量不一样;观察一个班学生的生活费
支出,一个人和另一个人不一样;投掷一枚骰子观察其出现的点数,这次投掷的结果和下一次也不一样“企业销售额”、“上涨股票的家数”、“
生活费支出”、“投掷一枚骰子出现的点数
”等就是变量●
数
据
(
d
a
t
a
)变量的观测结果无序类别变量(名义值)有序类别变量
(顺序值)离散变量
(有限值)连续变量
(无限制)类别变量(定性变量)数值变量
(定量变量)2022/5/22
统计学(第8版)—1-11变量与数据——变量及其分类第1章数据、统计和计算机怎样获得数据变量的基本分类●类别变量(categorical
variable)>取值为事物属性或类别以及区间值的变量,也称分类变量(classified
variable)或定性变量(qualitative
variable)>比如,观察人的性别、公司所属的行业、用户对商品的评价时,得到的结果就不是数字,而是用法文字表示
的类别类别变量根据取值是否有序分为两种口名义(nominal)值类别变量也称无序类别变量,其取值是不可以排序的口顺序(ordinal)值类别变量也称有序类别变量,其取值间可以排序●数值变量(metric
variable)>取值为数字的变量,也称为定量变量(quantitative
variable)数值型变量根据其取值的不同,可以分为离散变量(discrete
variable)和连续变量(continuous
variable口离散型变量是只能取有限个值是变量,而且其取值可以——列举。连续型变量是可以在一个或多个区间中取任何值的变量,它的取值是连续
不断的,不能——列举●数据(data)量
的观察
结
果2022/5/22
统计学(第8版)—
1-12变量与数据——变量及其分类第1章数据、统计和计算机怎样获得数据●简单随机抽样从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素
都有相同的机会(概率)被抽中抽取元素的具体方法有放回抽样和无放回抽样●
分层抽样将总体单位按某种特征或规则划分为不同层,再从不同的层中随机地抽取样本●系统抽样将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取
一个单位作为初始单位,然后按事先规定好的规则确定其他样本元素●整群抽样将总体中若干个单位合并为组(群),抽样时直接抽取群,再对中选群中的所有
单位全部实施调查●二手数据●抽取样本总体(population):
包含所研究
的全部个体(或数据)的集合样本(sample):
从总体中抽取的
一部分元素的集合样本量(sample
size):构成样本
的元素的数目●概率抽样方法根据已知的概率抽取样本元素
,也称随机抽样2022/5/22
统计学(第8版)—
1-13第1章数据、统计和计算机怎样获得数据数据的来源●SAS
——统计分析系统(Statistical
Analysis
System)的缩写●SPSS
——SPSS原是社会科学统计软件包(statisticalpackageforthesocial
science)的缩写,现为统计产品与服务解决方案软件(Statistical
Product
and
Service
Solutions)
的缩写,是世界最早的统计分析软件●
R—
——基于R语言的一种优秀的统计软件。在CRAN网站/
上下载R的各种版本●
EXCEL——Microsoft公司推出的Office系列产品之一,是一个功能强大的电子表格
软件2022/5/22
统计学(第8版)—
1-14第1章数据、统计和计算机统计与计算机常用统计软件THE
END统计THANKSTHE
ENDTHANKS●教育部经济管理类核心课程教材●“十二五”普通高等教育本科国家级规划教材●北京高等教育精品教材●北京高等学校优质本科教材课件统计学(第8版)2022/5/22无"普通高等教有本科国家级现则教材统计学SPSS
和Excel实现(第8版)STATISTICS北京高等教育精品教材第
2
章
用图表展示数据2
.1生成频数分布表2.2类别数值数据可视化2.3数值数据可视化2.3合理使用图表类别数据生成频数表数值数据观察频数类别数据可视化观察频数构成展示分布展示关系数值数据可视化展示相似时间序列简单频数表二维列联表类别化分组表简单条形图帕累托图簇状条形图
堆积条形图饼图
环
形图直方图茎叶图
箱形图
散
点
图
气泡图
雷达图
轮廓图
折线图
面积图统计学(第8版)—
2-19思维导图数据的图表展示2022/5/22下面的数据是2016年8月5日到2016年8月21日在巴西里约热内卢举办的第31届奥运会
上,获得金牌前6名的国家奖牌数的分布状况日在伦敦举办的第30届奥运会上,获得
金牌前6名的国家奖牌排名国家金牌银牌铜牌总数1美国637381212英国272317673中国261826704俄罗斯191819565德国171015426日本1282141根据上面的数据,你认为可以选择哪些图形来展示三个国家所获得的奖牌情况?学完
本章的图表展示技术,这样的问题就会迎刃而解2022/5/22统计学(第8版)—
2-20用哪些图形展示奖牌思考以下问题类别数据的频数分布表生成频数分布表●
列出各类别●
计算各类别的频数●
生成频数分布表计算描述统计量●频数(frequency):落在各类别中的数
据个数●比例(proportion):某一类别数据个数占全部数据个数的比值●百分比(percentage):将对比的基数作
为100而计算的比值●比率(ratio):不同类别数值个数的比值2022/5/22统计学(第8版)—
2-21第2章用图表展示数据生成频数分布表性别饮料类型性别饮料类型女碳酸饮料女茶类饮料男茶类饮料男矿泉水男矿泉水女茶类饮料女矿泉水女碳酸饮料男碳酸饮料女矿泉水男矿泉水男其他饮料…………男其他饮料女茶类饮料女碳酸饮料女其他饮料男茶类饮料女果汁男茶类饮料男茶类饮料女碳酸饮料女其他饮料男碳酸饮料女矿泉水
生成频数分布表类别数据的频数分布表——简单频数表——例题分析【例2
-
1]为研究人们对不同类型软饮料的偏好
情况,一家调查公司在
某超市随机调查了50名
消费者。表2-1是消费者
性别及其所偏好的饮料
类型记录。生成频数分
布表,观察不同性别的消费者及其所偏好的饮
料类型的分布状况●
只涉及一个类别变量●
这个变量的各类别(
取值)可以放在频数
分布表中“行”的位置
,也可以放在“列”的
位置●
将该变量的各类别及其相应的频数列出来就是一个简单的频数
表,也称为一维列联
表2022/5/22
统计学(第8版)—
2-22饮料类型频率百分比有效百分比累积百分比有效茶类饮料1122.022.022.0果汁612.012.034.0矿泉水1020.020.054.0其他饮料816.016.070.0碳酸饮料1530.030.0100.0总计50100.0100.0性别频率百分比有效百分比累积百分比有效男2244.044.044.0女2856.056.0100.0总计50100.0100.0类别数据的频数分布表——简单频数表——例题分析2022/5/22统计学(第8版)—
2-23生成频数分布表第2
章用图表展示数据SPSS
输
出●涉及两个类别变量●将一个变量的各类别放在“行”的位置,另一个变量的各类别放在“列”
的位置(行和列可以互换)生成频数分布表,这样表格称为二维列联表(contingency
table),简称列联表或交叉表(cross
table)●列联表主要用于反映两个类别变量的交叉频数分布状况2022/5/22
统计学(第8版)—2-24类别数据的频数分布表——二维列联表第
2
章
用图表展示数据生成频数分布表性别。饮料类型交叉表饮料类型总计茶类饮料果汁矿泉水其他饮料碳酸饮料性别男计数7162622占性别的百分比31.8%4.5%273%9.1%273%100.0%占饮料类型的百分比63.6%16.7%60.0%25.0%40.0%44.0%占总计的百分比14.0%2.0%12.0%4.0%12.0%44.0%女计数4546928占性别的百分比14.3%17.9%14.3%21.4%32.1%100.0%占饮料类型的百分比364%83.3%40.0%75.0%60.0%56.0%占总计的百分比8.0%10.0%8.0%12.0%18.0%56.0%总计计数161081550占性别的百分比22.0%12.0%20.0%16.0%30.0%100.0%占饮料类型的百分比100.0%100.0%100.0%100.0%100.0%100.0%占总计的百分比22.0%12.0%20.0%16.0%30.0%100.0%性别*饮料类型
交叉表计数饮料类型总计茶类
饮料果汁矿泉
水其他
饮料碳酸
饮料性别男7162622女4546928总计1161081550类别数据的频数分布表——二维列联表——例题分析第2章用图表展示数据统计学(第8版)—
2-25生成频数分布表【例2-2】沿用例2-1。SPSS输出结果2022/5/22234159187155172183182177163158143198141167194225177189196203187160214168173178184209176188161152149211196234185189196206150161178168174153186190160171228162223170165179186175197208153163218180175144178191197192166196179171233179187173174210154164215233175188237194198168174226180172190172187189200211156165175210207181205195201172203165196172176182188195202213
生成频数分布表数值数据的频数分布表——数据分组——类别化处理——例题分析表展2【例2-3】某电脑公司2021年前4个月的销售额数据如表2-6
所示。对数据额做适当分组
,分析销售额的分布特征2022/5/22统计学(第8版)—
2-26确定组数的方法有几种。设组数为K,根据斯特奇斯
(Sturges)
给出的组数确定方法,K=1+log₁0(n)/log₁0(2)
。
当然这只是个
大概数,具体的组数可根据需要适当调整。表2-6共有120个数据,
K=1+log₁0(100)/log₁0(2)≈8,因此,可以将数据大概分成8
组。当然,这只是个大概数,实际分组时,可根据需要适当调整。
本例可将组距确定为10●
确定各组的组距(组的宽度)>组距可根据全部数据的最大值和最小值及所分的组数来确定,即
组距=(最大值-最小值)÷组数。对于表2-6数据,最小值为141,
最大值为237,则组距=(237-141)/8≈12,因此组距可取12。为便
于理解,本例取组距=10(使用者根据分析的需要确定一个大概数即可)●
统计出各组的频数即得频数分布表>
在统计各组频数时,恰好等于某一组上限的变量值一般不算在本
组内,而算在下一组,即一个组的数值x满足a≤x<b。销售额分组(万元)天数(天)频率(%)140-15043.3315-16097.50160-1701613.33170-1802722.50180-1902016.67190-2001714.17200-210108.33210=22086.67220-23043.33230-24054.17合计120100.00数值数据的频数分布表——数据分组——类别化处理——例题分析●确定要分的组数
某电脑公司2021年前4个月销售额的分组表2022/5/22
统计学(第8版)—
2-27生成频数分布表第2
章用图表展示数据●条形图(bar
plot)是用一定宽度和高度的矩形表示各类别频数多少的图形
,主要用于展示类别数据的频数分布●绘制条形图时,各类别可以放在x轴(横轴),也可以放在y轴(纵轴)。类别放在x轴的条形图称为垂直条形图(verticalbarplot)或柱形图,类别放在
y轴的条形图称为水平条形图(horizontal
bar
plot)●只有一个类别变量时,可以绘制简单条形图和帕累托图;有两个类别变量时
,可以绘制簇状条形图或堆积条形图类别数据可视化——简单条形图和帕累托图——简单条形图2022/5/22
统计学(第8版)—2-28第2章
用图表展示数据类别数据可视化类别数据可视化——简单条形图和帕累托图——简单条形图——例题分析2022/5/22统计学(第8版)—
2-29类别数据可视化第2
章用图表展示数据●
帕累托图
(paretoplot)
是以意大利经济学家V.Pareto的名字而命名●按各类别的频数多少降序排列后绘制
的条形图●帕累托图可以看做是简单条形图的一
个变种,利用该图很容易看出哪类频
数出现得多,哪类频数出现得少类别数据可视化——简单条形图和帕累托图——帕累托图——例题分析2022/5/22统计学(第8版)—
2-30类别数据可视化例2-4沿用例2-1第2
章用图表展示数据四矿泉水
饮料类型四碳酸饮料团茶类饮料日果汁其他饮料百分比计
数20●簇状条形图中,一个类别变量作为坐标轴,另一个类别变量各类别频数的条形并列摆放计数计数D2●当有据两个类别变量时,可以将两个变量的条形图以簇状或
堆积的方式绘制,这就是簇状
条形图和堆积条形图●在堆积条形图中,
一个类别变量作为坐标轴,另一个类别变
量各类别的频数按比例堆叠在同一个条中(例2
-
5沿用例2-1108类别数据可视化——簇状条形图和堆积条形图——例题分析性别□男
■女6152022/5/22
统计学(第8版)—2-31日矿泉水其他饮料碳酸饮料
饮料类型类别数据可视化果汁
矿泉水
其
饮碳
饮饮料类型4茶类饮料
果汁第2章用图表展示数据4茶类饮
料性别□男
■女5
类别数据可视化类别数据可视化——饼图和环形图——饼图——例题分析●
饼图
(piechart)
是用圆形及圆内
扇形的角度来表
示一个样本(或
总体)中各类别
的频数占总频数
比例大小的图形●对于研究结构性
问题十分有用性别44009饮料类型数饮2-322022/5/22
统计学(第8版)—例2-6沿用例2-1性别男饮料类型茶类饮
料果汁矿泉水其他饮料
碳酸饮料女
类别数据可视化类别数据可视化——饼图和环形图——环形图——例题分析表展2东部中部西部总计非常满意104140132376比较满意156108120384一般148148160456不满意156108140404非常不满意156116108380总计7206206602000●环形图与饼图类似,但
又有区别。环形图中间
有一个“空洞”,每个样本用一个环来表示,样
本中每一类别的频数构
成用环中的一段表示●环形图可显示多个样本
各类别频数占其相应总频数的比例,从而有利
于构成的比较研究例
2
-
7
■为研究不同地区的消费者对网上购物的满意度,随机抽取东部、中部和西部的2000个消费者进行调查,得到的结果如表2
-8所示。绘制环形
图,分析各类别的人数构成状况2022/5/22
统计学(第8版)—2-33数值数据可视化——展示分布的图形——直方图●直方图——将数据分组后,在x轴上用矩形的宽度表示每个组
的组距,在y轴上用矩形的高度
表示每个组的频数或密度,多
个矩形并列在一起就是直方图●利用直方图的形状可以观察数
据分布的特征2022/5/22统计学(第8版)—
2-34数值数据的图表展示第2
章用图表展示数据与条形图的区别●条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽
度则表示各组的组距●由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形
图则是分开排列●条形图主要用于展示类别数据,而直方图则主要用于展示数值数据数值数据可视化——展示分布的图形——直方图——与条形图的区别2022/5/22
统计学(第8版)—2-35第2章
用图表展示数据数值数据可视化日期1
月2月3月4月5
月6月13592191081925131251655233501814145942443101123348561263830481227158285419662817165105937552970864561592830466890531531446411
数值数据的图表展示数值数据可视化——展示分布的图形——直方图——例题分析展2【例2-8】
2020年1月-6月北京市的PM2.5
数据。绘制
直方图分析PM2.5的分布特
征2022/5/22统计学(第8版)—
2-362022/5/22统计学(第8版)—
2-37数值数据的图表展示第2章用图表展示数据●用于显示未分组的原始数据的分布●由“茎”和“叶”两部分构成,其图形是由数字组成的●以该组数据的高位数值作树茎,低位数字作树叶●树叶上只保留最后一位数字●茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息
直方图适用于大批量数据,茎叶图适用于小批量数据数值数据可视化——展示分布的图形——茎叶图2022/5/22统计学(第8版)—
2-38第
2
章
用图表展示数据数值数据可视化【例2-9】沿用例2-8●图中的第1列给出每个茎上叶子的频数(显示为频率
),第2列是“茎”
(Stem),
第3列是“叶”●下面标出了极端值的个数,共有11个(系统自动将
>=117的数值定义为极端值。茎的宽度为10,每个
叶代表一个数据(案例)。图2-11显示,PM2.5主要分
布在10~19之间,有35个叶子,即出现35天。从叶
子的分布看,PM2.5
呈现右偏分布PM2.5茎叶图频率
Stem
&叶21.00
0.35566777777888888999935.00
1.0000000111112244444567777788889999924.002.00111133333356666788889926.003.0000112344445555667778899920.00
4.0111112233444556788918.00
5.00011113355556899913.00
6.01112344566688.00
7.001225562.00
8.562.00
9.072.00
10.8911.00极值(>=117)主干宽度:10每
个
叶:1
个
案
数值数据可视化数值数据可视化——展示分布的图形——茎叶图——例题分析2022/5/22统计学(第8版)—
2-39●首先,找出一组数据的中位数
(
median)
和两个四分位数
(quartiles)
,并画出箱子箱形图的示意图●其次,计算出内围栏和相邻值,并画出须线。内围栏
(
interfence)是与Q
₂5%和
Q₇5%的距离等于1.5倍四分位差的两个点
,其中Q₂5%-1.5×1QR
称为下内围栏,Q₇5%+1.5×1QR
称
为上内围栏。上下内围栏一般不在箱线图中显示,只是作为
确定离群点的界限。然后找出上下内围栏之间的最大值和最
小值(即非离群点的最大值和最小值),称为相邻值(
adjacent
value)
,其中大于Q₂5%-1.5×1QR
的最小值称
为下相邻值,小于Q₇5%+1.5×1Q
R
的最大值称为上相邻值。用直线将上下相邻值分别与箱子连接,称为须线(
whiskers)
。25%四分位数离群点00须线中位数75%四分位数上相邻值离群点0须线●最后,找出离群点,并在图中单独标出。离群点
(
outlier)
是
大
于
上
内
围
栏
或
小
于
下
内
围
栏
的
数
值
,
也
称
外
部
点(
outside
value)
,
在图中用“O”单独标出1.5倍四分位差一下内围栏Q₂5%-1.5×IQR四分位差1.5倍四分位差上内围栏Q75%+1.5×IQR2022/5/22统计学(第8版)—
2-40数值数据可视化——展示分布的图形——箱形图第
2
章
用图表展示数据数值数据可视化下相邻值左偏分布010
20对称分布古。否吕-3
-2
0
2
3右偏分布0
10
20
30010
2030-3
30.00
0.02
0.04
0.06
0.08
0.10数值数据可视化——展示分布的图形——箱形图2022/5/22统计学(第8版)—
2-41第2
章用图表展示数据数值数据可视化的箱
形图
【例2-9】沿用例2-8图中,“O”和对应的数字表示离
群点的位置及其数值。图2显示
,2月份的PM2.5数值较高(中
位数较大),4月份的PM2.5数
值较低(中位数较小)。从分布
形状看,6月份PM2.5的分布大致为对称,其余月份PM2.5的分
布均为右偏分布,其中,2月份
PM2.5的分布偏斜程度最大,其次是1月份和3月份。这几个月均
出现了较多的离群值数值数据可视化——展示分布的图形——箱形图——例题分析2022/5/22统计学(第8版)—
2-42第
2
章
用图表展示数据数值数据可视化地区地区生产总值房地产开发投资社会消费品零售总额北京市35371.33838.415063.7天津市14104.32727.84218.2河北省35104.54347.112985.5山西省17026.71656.57030.5内蒙古自治区17212.51042.05051.1陕西省25793.23903.710213.0甘肃省8718.31257.93700.3青海省2966.0406.3948.5宁夏回族自治区3748.5403.11399.4新疆维吾尔自治区13597.11074.03617.0●散点图——将两个变量的各
对观测点画在二维坐标中,
并利用各观测点的分布来展
示两个变量间的关系●设两个变量分别为x
和y,
每对观测值(xi,yi)
在二维坐标中用一个点表示,n
对观测值在坐标中形成的n
个点图称为散点图●利用散点图可以观察两个变
量间是否有关系,如果有,
则关系的形态以及关系强度
如何等
数值数据可视化数值数据可视化——展示变量间关系的图形——散点图【例2-11】我国2019年我国31个地区的地区生产总值、房地产开发投
资和社会消费品零售总额数据。绘散点图观察它们之间的关系2022/5/22
统计学(第8版)—2-43
数值数据可视化数值数据可视化——展示变量间关系的图形——散点图——例题分析600001重叠散点图300000
4000005000042022/5/22
统计学(第8版)—
2-44(例2-11地区生产总值
房地产开发投资
社会消费品零售总额O医产开发段责△地区圈弃复段费
囚费要四总额普通散点图房地产开发投资
社会消费品零售总额200000房地产开发投资矩阵散点图1000001600004000020000120001000000800000120000R²线性(L)-0935地区生产总值地区生产总值6【例2-11】绘气泡图观察它们之间的关系气泡大小=社会消费品零售总额180001600014000120001000080006000400020002000040000
60000
80000地区生产总值●普通散点图只能展示两个变量间的关系●对于3个变量之间的关系,除
了可以绘制三维散点图外,也
可
以
绘
制气
泡
图
(bubblechart),
它可以看作是散点
图的一个变种●在气泡图中,第3个变量数值
的大小用圆的大小表示。数值数据可视化——展示变量间关系的图形——气泡图——例题分析2022/5/22统计学(第8版)—
2-45第2章用图表展示数据数值数据可视化房地产开发投资100000120000●
雷
达图
(rad
ar
chart)
是从一个
点出发,用每一
条射线代表一个
变量,多个变量
的数据点连接成
线,即围成一个
区域,多个样本
围成多个区域,就是雷达图●可用于研究多个样本之间的相似程度。
【例2-12】2
018年北京、天津、上海和重庆的人均消费支出数据,绘制雷达图
,比较不同地区的家庭消费支出的特点和相似性地区食品烟酒衣着居住生活用品及服务交通通信教育文
化娱乐医疗保健其他用品
及服务北京8064.92175.514110.32371.94767.43999.43274.51078.6天津8647.51990.06406.31818.44280.93186.62676.9896.3上海10728.22036.814208.52095.54881.25049.43070.21281.5重庆6220.81454.53498.81338.92545.02087.81660.0442.8数值数据可视化——展示样本相似性的图形——雷达图——例题分析2022/5/22
统计学(第8版)—
2-46第
2
章
用图表展示数据数值数据可视化 【例2-12]2018年北京、天津、上海和重庆的人均消费支出数据,绘制雷达图,比较不同地区的家庭消费支出的特点和相似性食品烟酒1600014000其他用品及服务12000
衣着10000800060医疗保健
住一北京-天津上海重庆食品烟酒100000其他用品及服务医疗保健1000010010010衣着居住一北京
一天津
-上海
重庆教育文化娱乐
生活用品及服务交通通信教育文化娱乐
生活用品及服务交通通信数值数据可视化——展示样本相似性的图形——雷达图——例题分析2022/5/22统计学(第8版)—
2-47第2章
用图表展示数据数值数据可视化●
轮廓图
(outlinechart)也称为平
行坐标图或多线图●用x轴表示各样本
,y
轴表示每个样
本的多个变量的
取值,将同一样
本的不同变量取
值用折线连接,
即为轮廓图食品烟酒衣着居住生活用品及服务交通通信教育文化娱乐医疗
保健其他用品及服务4.92175.514110.32371.94767.43999.44.51078.68647.51990.06406.31818.44280.93186.626
6.9896.310728.22036.814208.52095.54881.25049.430
0.21281.56220.81454.53498.81338.92545.02087.81660.0442.8
【例2-12】2018年北京、天津、上海和重庆的人均消费支出数据,绘制轮廓图
,比较不同地区的家庭消费支出的特点和相似性数值数据可视化——展示样本相似性的图形——轮廓图——例题分析2022/5/22
统计学(第8版)—
2-48第2章用图表展示数据数值数据可视化16000140001200010000支出金额400006000002月份的数据为例,绘制的PM2.5的折线图。日
期■1
月■2
月
200●时间序列是一种常见的数
据形式,它是在不同时间
点上记录的一组数据,如
各年份的GDP数据、各月
份的CPI数据、一年中各交
易日的股票价格指数收盘
数据等●利用折线图(linechart)
和面积图
(area
graph),
可以观察时间序列的变化
模式和特征12345678910111213141516171819202122232425262728293031日
期2022/5/22
统计学(第8版)—
2-49数值数据可视化——时间序列图形——折线图和面积图——例题分析数值数据可视化【例2-13】沿用例2-8。以例2-8中1月份和第2章用
图表
展
示数
据-O-
1
月
一
-2
月●一幅完整的图形大体上包括图形主体、标题、坐标轴注释等要素。图形主体用于表达数据信息●标题用于注释图形的内容,
一般包括数据所属的时间(when)、地点(where)和内容(what),此外,还应包括必要的图形编号。标题可以放在图的上方,也可放在图的下方●坐标轴注释需要标示出坐标轴代表的变量名称,以便于阅读和理解●图形的比例也十分重要,一般图形大致为4:3的一个矩形,过长或过高的图形都有
可能歪曲数据,给人留下错误的印象2022/5/22
统计学(第8版)—2-50第
2
章
用图表展示数据使用图表的注意事项合理使用图表数据特征THANKSTHE
END用图形探索●教育部经济管理类核心课程教材●“十二五”普通高等教育本科国家级规划教材●北京高等教育精品教材●北京高等学校优质本科教材课件统计学(第8版)2022/5/22无"普通高等教有本科国家级现则教材统计学SPSS
和Excel实现(第8版)STATISTICS北京高等教育精品教材第
3
章
用统计量描述性数据3
.1描述水平的统计量3.2描述差异的统计量3.3
描述分布形状的统计量纳塔利娅
帕杰林娜郭文琚卓格巴德拉赫
蒙赫珠勒妮诺
·萨卢克瓦泽维多利亚
柴卡莱万多夫斯卡
萨贡亚斯娜
舍卡里奇10.010.09.39.89.38.110.28.510.510.010.39.410.39.610.010.48.710.010.49.29.910.210.48.39.510.19.99.910.610.19.210.210.29.89.310.510.39.510.710.510.49.19.89.48.510.49.29.99.79.710.710.710.610.59.410.09.510.89.29.19.810.79.39.39.79.210.88.69.69.9在2008年的第29届北京奥运会女子10米气手枪比赛中,每个运动员首先进行每组10枪共4组的预赛,根据预赛总成绩确定进入决赛的8名运动员。决赛时8名运动员再进行10枪射击,预赛成绩加上决赛成绩确定最后的名次。在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表所示最后的比赛结果是,中国运动员郭文…凭借决赛的稳定发挥,以总成绩492.3环夺得金牌,预赛排在第1名的俄罗斯运动员纳塔利娅
·
帕杰林娜以总成绩489.1环获得银牌,预赛
排在第4名的格鲁吉亚运动员妮诺
·萨卢克瓦泽以总成绩487.4环获得铜牌,而预赛排在第3名的蒙古国运动员卓格巴德拉赫
·
蒙赫珠勒仅以479.6环的成绩名列第8。由此可见,在射击比赛中,运动员能否取得好的成绩,发挥的稳定性至关重要。那么,怎样评价一名运动员的发挥是否稳定呢?通过本章内容的学习就能很容易回答这样的问题
哪名运动员发挥更稳定思考以下问题2022/5/22统计学(第8版)—
2-54中位数四分位数百分位数2-55描述水平描述差异描述分布
形状统计学(第8版)—平均数分位数众数极差和四分位差方差和标准差离散系数标准分数偏度系数峰度系数第2
章用图表展示数据思维导图用统计量描述数据2022/5/22平均数简单平均数●平均数——也称为均值,常用
的统计量之一●消除了观测值的随机波动●易受极端值的影响●根据总体数据计算的,称为总
体平均数,记为μ;根据样本
数据计算的,称为样本平均数,
记为x加权平均数2022/5/22统计学(第8版)—
2-56描述水平的统计量第2章用图表展示数据859783616786559270868175915596868991668772925082799090859566平均数——简单平均数——例题分析【例3-1]
在某年级中随机抽取30名学生,得到每名学生的统计学考试分数如表3-12022/5/22统计学(第8版)—
2-57所示。计算30名学生考试分数的平均数描述水平的统计量第2章用图表展示数据=80【例3
-
1】沿用例3-1。假定将30名学生的数学考试分数分组后结果表3-2所示。计算
考试分数的平均数分组组中值(m)人数(f)分组组中值(m;)人数(f)60以下55360以下55360~7065460~7065470~8075470~8075480~90851080~908510850Zi=1x=90~10095990~1009598552430二30n=81合计
30合计302430
描述水平的统计量平均数——加权平均数——例题分析2022/5/22统计学(第8版)—
2-58m;×f165260300●
分位数———组数据按从小到大排序后,可以找出排在某个
位置上的数值,该数值可以代
表数据水平的高低。这些位置上的数值就是相应的分位数(quantile)。常用的分位数有
中位数、四分位数、百分位数
等
描述水平的统计量分位数——中位数——例题分析例3-3■计算例3-1的中位数将30名学生的考试分数排序,然后确定中位数的位置:
(30+1)÷2=15.5,中位数是排序后的第15.5位置上的数值,即中位数在第15个数值(85)和第16个数值(85)中间(0.5)的位置上。因此(85+85)/2=852022/5/22
统计学(第8版)—
2-59●中
位
数——排序后处于中间位置上的值。不受极端值影响数值计算位置确
定【例3-4】沿用例3-1。计算四分位数,即Q₂
5%在第7个数值(67)和第8个数值(70)之间0.75的位置上,因此,Q₂
5%=67+0.75×(70-67)=69.25。,即Q75%在第23个数值(90)和第24
个数值(91)之间0.25的位置上,因此,Q75%=90+0.25×(91-90)=90.25。●
四分位数——
一组数据排序
后处在25%和75%位置上的数
值●
它是用3个点将全部数据等分
为4部分,其中每部分包含
25%的数据。●
中间的四分位数就是中位数,
通常所说的四分位数是指处
在25%位置上和75%位置上的
两个数值2022/5/22
统计学(第8版)—
2-60分位数——四分位数——例题分析第2章用图表展示数据描述水平的统计量位置确定分位数——百分位数——例题分析●百分位数——用99个
点将数据分成100等份,
处在各分位点上的数
值就是百分位数●百分位数提供了各项
数据在最小值和最大
值之间分布的信息【例3
-
5】沿用例3-1。计算30个学生考试分数的第5个百分位数和第90个百分位数第5个百分位数在第1个值(50)和第2个值(55)之间0.5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度创新技术研发项目劳动合同
- 2025年度二零二五年度能源行业员工劳动合同标准协议
- 2025年度并购重组财务顾问并购重组财务顾问培训协议
- 2025年度房屋买卖合同合同解除后的后续处理纠纷起诉状
- 2025年度高层建筑幕墙施工安全管理合同
- 2025年度工地施工期间第三方损害赔偿免责协议3篇
- 2025年度充电桩行业人才培养与就业合作合同范本
- 2025年度房地产联合开发合同-新能源产业园区合作2篇
- 2025年度工厂信息化系统升级合作协议合同3篇
- 2025年度公司特色花卉组合采购服务协议
- 土石方挖运工程承包合同范本
- 2024海南省图书馆公开招聘财政定额补贴人员15人(一)高频考题难、易错点模拟试题(共500题)附带答案详解
- 心理统计学统计方法
- 北斗创新设计导航-知到答案、智慧树答案
- 【韩国三星在中国的跨文化管理探析-以上海子公司为例5800字】
- 新学位法专题讲座课件
- 坠积性肺炎治疗新进展
- 心身疾病的心理与康复治疗
- 2024年02月四川省省直机关2024年度公开遴选和公开选调公务员笔试参考题库附带答案详解
- 2024安吉桃花源萌宠露营节活动方案
- 壮医药水蛭疗法
评论
0/150
提交评论