版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本章考情
年份单选题多选题合计
2020年4题4分3题6分10分
2019年3题3分1题2分5分
2018年3题3分1题2分5分
本章重点:
1.统计学、描述统计与推断统计的含义。
2.变量、数据,定性变量和定量变量,分类数据、顺序数据和数值型数据。
3.观测数据和实验数据,一手数据和二手数据。
4.统计调查的含义及其分类(全面调查和非全面调查、连续调查和不连续调查),常用统计调查方
式〔统计报表、普查、抽样调查、重点调查和典型调查)的含义、特点和应用场合。
5.数据科学与大数据。
知识点一:统计学
(一)统计学:一门关于数据的学科,它提供了一系列用于收集、处理、分析和解释数据的方法。
(二)统计学两个分支:
1.描述统计:研究数据收集、整理和描述的统计学方法。主要内容:如何取得所需要的数据,如何
用图表或数学方法对数据进行整理和展示,如何描述数据的一般性特征。
【示例】利用统计图表展示GDP的变化、利用增长率描述人均可支配收入的基本走势、利用统计表
描述公司员工年龄分布等。
2.♦断统计:研究如何利用样本数据来推断总体特征的方法。_________________________
某国家男青年的身高构成一个总体,想知道这个总体的均值,
利用样本信息推断总
随机抽取部分人,测得身高的均值,再用这些数据来估计这群
让体特征
人的平均身高
假设检利用样本信息判断对若假设“该国男青年平均身高超过1.7米”,需要通过样本检
1总体的假设是否成立验此命题是否成立
【例题•单选题】(2020年)下列统计处理中,属于描述统计的是()。
A.利用均值测度一组数据的集中趋势
B.利用抽样调查数据推断城镇居民平均收入
C.利用样本信息推断消费者对某品牌的知晓度
D.利用最小二乘法拟合线性回归模型
『正确答案」A
r答案解析J描述统计是研究数据收集、整理和描述的统计学方法。其内容包括如何取得所需要的
数据,如何用图表或数学方法对数据进行整理和展示,如何描述数据的一般性特征。选项BCD属于
推断统计。
【例题•单选题】利用概率样本数据推断全国居民人均消费支出,适用的统计学方法是()。
A.参数估计
B.相关分析
C.假设检验
D.描述统计
『正确答案』A
f答案解析』本题考查统计学。参数估计是利用样本信息推断总体特征。
知识点二,变量和数据
(一)变量
1.变量:研究对象的属性或特征,它是相对于常数而言的。常数只有一个固定取值,而变量可以有
两个或更多个可能的取值。
【示例】性别、受教育水平、年收入等。
2.分类:
定量变重(数量变量)变量的取便是数量职工人数、年销售额等
分类变量变量的取值为类别性别、出行方式、工作行业等
定性变量变量的取值表现为类别且具有一定顺
顺序变量客户满意度、经济师职称等
序
(二)数据
1.含义:对变量进行测量、观测的结果。数据根据需要可以是数值、文字或者图像等形式。
2.分类
分类变量的观测结果,,性别,,
分类数据表现为类别,i般用文字来表述,也可用数值="男”,“女”
代码表示=“0”,“1”
“客户满意度”
顺序变量的观测结果
="非常满意”,“满意”,”不
顺序数据也表现为类别,一般用文字来表述,也可用数
满意”
值代码表示
=“1”,“2”,“3”
数值型数定量变量的观测结果“年龄”
1表现为具体表示大小或多少的数值=“20”,“30”,“40”
3.对不同类型的数据,可采用不同的统计方法来处理和分析。
(1)分类数据:计算出各类别的频率,但对其进行加、减、乘或除等数学运算是没有意义的。
(2)数值型数据:可以进行数学运算,计算均值和方差等统计量。
【例题・单选题】(2020年)对顺序变量观测的结果称为()。
A.顺序数据
B.定量数据
C.分类数据
D.数值型数据
『正确答案」A
r答案解析J数据是对变量进行测量、观测的结果。顺序数据是对顺序变量的观测结果。
【例题・单选题】下列变量中,属于分类变量的是()。
A.运输方式
B.公共预算收入
C.商品零售额
D.新增就业人数
r正确答案JA
「答案解析」本题考查变量和数据。当变量的取值表现为类别时则被称为分类变量,比如企业所属
行业。
【例题•多选题】分类数据和顺序数据的共同点是()。
A.可用数值代码表示
R.表现为类别
C.通常用文字表述
D.有顺序
E.不区分顺序
f正确答案』ABC
『答案解析」本题考查分类数据和顺序数据。二者都表现为类别,都可以用文字表述,也都可以用
数值代码表示。
知识点三:数据的来源
<-)按收集方法分类:观测数据和实验数据
1.观测数据:通过直接调查或测量而收集到的数据,是在没有对事物施加任何人为控制因素的条件
下得到的,几乎所有与社会经济现象会关的统计数据都是观测数据。
【示例】GDP、CPI、房价等。
2.实验数据:通过在实验中控制实验对象以及其所处的实验环境收集到的数据。自然科学领域的数
据大多都是实验数据。
【示例】一种新产品使用寿命的数据等。
(二)统计数据按来源分为:
L一手数据:来源于直接的调查和科学实验的数据,对使用者来说这是数据的直接来源。来源主要
有:调查或观察、实验。
2.二手数据:来源于别人的调杳或实验的数据,对使用者来说这是数据的间接来源。来源主要有:
统计年鉴、内部财务报表等。
【例题•单选题】(2020年)下列统计数据中,属于观测数据的是()。
A.居民收入数据
B.新药疗效数据
C.电池使用寿命数据
D.轮胎使用寿命数据
I1正确答案』A
【答案解析」通过直接调查或测量而收集到的数据,称为观测数据。观测数据是在没有对事物施加
任何人为控制因素的条件下得到的,几乎所有与社会经济现象有关的统计数据都是观测数据。选项
BCD属于实验数据。
【例题・单选题】通过直接统计调查获得的数据属于()。
A.二手数据
B.实验数据
C.间接数据
D.一手数据
『正确答案」D
『答案解析」本题考查数据的来源。统计数据,就其本身的来源来看,最初都来源于调查或实验。
但从使用者的角度看,数据的来源主要有两种:一是直接的调查和科学实验,对使用者来说,这是
数据的直接来源,称为直接数据或一手数据;二是别人的调查或实验的数据,对使用者来说,这是
数据的间接来源,称为间接数据或二手数据。一手数据的来源主要有两个:一是调查或观察,二是
实验。在社会经济领域,统计调查是获得数据的主要方法,也是获得一手数据的重要方式。
知识点四:统计调查
(一)统计调查的概念与分类
1.统计调查:按照预定的目的和任务,运用科学的统计调查方法,有计划有组织地收集数据信息资
料的过程。
调查过程有两个重要特征:
(1)调查是一种有计划、有方法、有程序的活动;
(2)调查的结果表现为搜集到的数据。
2.分类
(1)按调查对象的范围不同
全面调查:对构成调查对象的所有单位进行逐一的、无一遗漏的调查,包括全面统计报表和普查。
例如,人口普查、经济普查等。
非仝面调查:对调查对象中的一部分单位进行调查,包括非仝面统计报表、抽样调查、重点调查和
典型调查等。例如,城市居民家庭的生活水平等。
(2)按登记的时间是否连续
J为观察总体现象在一定时期内(通常是一年内)的数量变化
J要求随着调查对象的发展变化,连续地进行调查登记,说明现象产品产量
连续调查
的发展过程能源的消耗等
J目的是了解现象在一段时期的总量
V间隔一个相当长的时间(通常是一年以上)所作的调查生产设备拥有
不连续调
J数值在短期内变化不大,不需要连续登记量
查
/为了对总体现象在一定时点上的状态进行研究耕地面积等
(-)统计调查的方式
统计报表、普查、抽样调查、重点调查、典型调查
调查方
含义分类/特征
式
按照国家有关法规的
1.按调查对象范围的不同分为:全面统计报表和非全面统计
规定,以一定的原始数
报表。目前的大多数统计报表都是全面统计报表
统计报据为基础,自上而下地
2.按报送周期长短的不同分为:日报、月报、季报、年报等
表统一布置,自下而上地
3.按报表内容和实施范围的不同分为:国家的、部门的、地
逐级提供基本统计数
方的统计报表
据的一种调查方式
1普.查通常是二次性的或者周期性的
2.一般需要规定统一的标准调查时间,以避免调查数据的重
为某一特定目的而专复或遗漏,保证普查结果的准确性
门组织的一次性全面3数.据一般比较准确,规范化程度较高,可以为抽样调查或
调查,主要用于了解处其他调查提供基本依据
普查
于某一时点状态上的4.使用范围比较窄,只能调查一些最基本及特定的现象
社会经济现象的基本】.经济普查每10年进行两次,分别在福逢年份的末尾数字为
全貌3、8的年份实施
2.人口普查逢“0”的年份进行
3.农业普查逢“6”的年份进行,均为每10年一次
从调查对象的总体中1经.济性(最显著优点)
抽样调随机抽取一部分单位2.时效性强:可以迅速、及时地获得所需要的信息,弥补全
查作为样本进行调查,并面调查的不足
根据样本调查结果来3.适应面广:适用于各个领域
推断总体数量特征的4.准确性高:误差往往很小
一种非全面调查
1.重点单位虽然只是全部单位中的一部分,但就调查的标志
从调查对象的全部单值来说在总体中占绝大比重
重点调
位中选择少数重点单2.调查单位不是随机抽取的,结果不能推断总体
查
位进行调查3.适用范围很广
4.调查目的只要求了解基本状况和发展趋势
【示例】调查全国工业企业的资产总额情况,只需对全国大中型工业企业进行重点调查即可。因为
虽然大中型工业企业数占全国工业企业数不到5%,但这些大中型企业的资产总额却占全国工业的60%
以上。
作用:
根据调查的目的与要求,在对被调查对象进行全面分
典型调1.弥补全面调查的不足
析的基础上,有意识地选择若干具有典型意义的或有
查2.在一定条件下可以验证全面
代表性的单位进行的调查
调查数据的真实性
【例题•单选题】(2020年)第七次全国人口普查与第六次全国人口普查相同,普查标准时间定
为普查年份的()。
A.1月1日0时
B.11月1日0时
C.7月1口0时
D.12月31日。时
[正确答案JB
[答案解析』第六次人口普查的标准时间为普查年份的11月1日0时。
【例题•多选题】(2020年)关于抽样调查的说法,正确的有()。
A.抽样调查只抽取部分样本进行调查
B.抽样调查的时效性强
C.抽样调查耗费大量人力、物力、财力
D.抽样调查根据样本调查结果推断总体数量特征
E.抽样调查工作量小
f正确答案JABDE
I1答案解析」抽样调查是从调查对象的总体中抽取一部分单位作为样本进行调查,并根据样本调查
结果来推断总体数量特征的一种非全面调查。所以AD正确。抽样调查具有经济性、时效性强、适
应面广的特点。由于调查的样本单位通常是总体单位中的很小一部分,调查的工作量小,因而可以
节省大量的人力、物力、财力和时间。所以BE正确,C错误。
【例题・单选题】为及时了解全国城市商品零售价格的变动趋势,按照商品零售额排序对前35个
大中型城市的商品零售价格变化情况进行调查,这种调查方法属于()。
A.全面调查
B.典型调查
C.重点调查
D.随机调查
F正确答案JC
「答案解析」本题考杳重点调查。重点调查是一种非全面调查,它是在所要调查的总体中选择一部
分重点单位进行的调查。所选择的重点单位虽然只是全部单位中的一部分,但就调查的标志值来说
在总体中占绝大比重,调查这一部分单位的情况.能够大致反映被调查对象的基本情况C
【例题・多选题】普查的特点有()。
A.使用范围广,适用于各个领域
B.需要耗费大量的人力、物力和财力
C.周期性的普查通常需要间隔较长时间
D.规范化程度较高
E.一般需要规定统一的标准调查时间
『正确答案』BCDE
『答案解析」本题考查统计调查的方式“普查的特点:(1)普查通常是一次性的或周期性的,由
于普查涉及面广、调查单位多,需要耗费大量的人力、物力和财力,通常需要间隔较长的时间;(2)
普查一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性;
(3)普查的数据一般比较准确,规范化程度也比较高,因此它可以为抽样调查或其他调查提供基
本依据;(4)普查的使用范围比较窄,只能调查一些最基本及特定的现象。
知识点五:数据科学与大数据
(一)数据科学:一门通过系统性研究获取与数据相关的知识体系的学科。数据科学一方面研究数
据本身的特性和变化规律,另一方面通过对数据的研究为自然科学和社会科学提供一种新的方法,从而
揭示自然界和人类行为的现象和规律。
包含:对数据进行采集、存储、处理、分析、表现等一系列活动。
研究对象数据
研究目标通过对数据的分析,来解释、预测、洞见和决策,为现实世界服务
(二)大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理利处理的数据集合,是需
要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的迤量、高增长率和多样化的信息资
产。
大数据特征(多选)
数据量大大数据的起始计量单位是PB(1024TB)、EB或ZB
包括网络R志、音频、视频、图片、地理位置等各种结构化、半结构化和非结构
化的数据
L结构化数据:指存偌在数据库里,可以用二维表结构实现表达的数据
数据多样性2.非结构化数据:数据结构不规则或不完整,没有预定义的数据,包括所有格式
(多选)的办公文档、文本、图片、报表、图像、音频信息、视频信息等
3.半结构化数据:介于完全结构化数据和完全非结构化数据之间的数据,具有一
定的结构性;例如员工简历,有的简历只有教育情况,有的简历包括教育、婚姻、
户籍、出入境等很多信息
价值密度低大数据价值密度的高低与数据总量的大小成叵比_
数据的产生
一般要在秒级时间范围内给出分析结果,超出这个时间数据就可能失去价值,即
和处理速度
大数据的处理要符合“1秒定律”
快
(三)数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在
其中但又有潜在价值的信息和知识的过程。
L数据挖掘内涵:(多选上
数据源必须是真实的、大量的、有噪声的
发现的是用户感兴趣的知识
发现的知识是可接受.可理解.可运用的一
并不要求发现放之四海而皆准的知识,仅支持特定的发现问题
数据挖掘以解决实际问题为出发点,核心任务是对数据关系和特征进行探索。
2.数据挖掘分为:
有指导学习对目标需求的概念进行学习和建模,通过探索数据和建立模型来实现从观察变
(监督学习)量到目标需求的有效解程
无指导学习
没有明确的标识变量来表达目标概念,主要任务是探索数据之间的内在联系和
(非监督学
结构
习)
3.数据挖掘算法:常用的算法有分类、聚类分析、关联分析、趋势与演化分析、特征分析、异常分
析等。(多选)
分类确定目标对象属于哪个预定的类别,以实现对未来潜在的预测需求
把•组数据按照差异性和相似性分为几个类别,使得同类的数据相似性尽量大,
聚类分析
不同类的数据相似性尽可能小,跨类的数据关联性尽可能低
对数据集中反复出现的相关关系和关联性进行挖掘提取,从而可以根据一个数
关联分析
据项的出现预测其他数据项的出现
趋势与演化包括数据变化趋势、序列模式分析、周期性分析以及相似程度分析等内容,缠
分析计学的回归分析方法经常用于这类问题的分析
(四)数据可视化:借助图形化手段清晰有效地传达与沟通信息。(多选)
简单,表现清晰,利用人对形状、颜色、运动的敏感,有效传递信息,帮
可视化优势
助用户从数据中发现关系、规律和趋势
面向科学与工程领域的数据,如包含空间坐标和几何信息的三维空间测量
科学可视
数据、计算机模拟数据和医学影像数据,重点探索以几何、拓扑和形状特
两大分化
征来呈现数据中蕴含的规律
支
信息可视处理对象是非结构化、非几何的抽象数据,如金融交易、社交网络和文本
化数据
【例题•多选题】(2020年)关于大数据多样性的说法,正确的有()。
A.大数据只包括结构化数据
B.结构化数据是指存储在数据库里,可以用二维表结构实现表达的数据
C.半结构化数据是介于完全结构化数据和完全非结构化数据之间的数据
D.半结构化数据具有一定的结构性
E.非结构化数据是指数据结构不规则或不完整、没有预定义的数据
[正确答案」BCDE
『答案解析」大数据类型繁多,包括网络日志、音频、视频、图片、地理位置等各种结构化、半结
构化和非结构化的数据。结构化数据是指存储在数据库里,可以用二维表结构实现表达的数据;非
结构化数据是指数据结构不规则或不完整,没有预定义的数据,包括所有格式的办公文档、文本、
图片、报表、图像、音频信息、视频信息等;半结构化数据是介于完全结构化数据和完全非结构化
数据之间的数据,具有一定的结构性,例如员工简历,有的简历只有教育情况,有的简历包括教育、
婚姻、户籍、出入境等很多信息。
【例题•多选题】(2020年)关于数据可视化的说法,正确的有()。
A.数据可视化借助图形化手段清晰有效地传达与沟通信息
B.数据可视化包含科学可视化和信息可视化两个重点分支
C.数据可视化传达的信息比较复杂,需要专力解读
D.科学可视化面向科学与工程领域数据
E.信息可视化的处理对象是非结构化、非几何的抽象数据
『正确答案』ABDE
f答案解析』数据可视化,即借助图形化手段清晰有效地传达与沟通信息。可视化的优势在于简单,
表现清晰,利用人对形状、颜色、运动的敏感,有效传递信息,帮助用户从数据中发现关系、规律
和趋势。所以C错误。数据可视化包含两个重点分支:科学可视化和信息可视化。科学可视化面向
科学与工程领域的数据;信息可视化的处理对象是非结构化、非几何的抽象数据。
【例题・多选题】以下属于大数据特征的有()。
A.数据量大
B.数据多样性
C.数据的产生和处理速度快
D.价值密度高
E.价值高
『正确答案』ABC
r答案解析」本题考查大数据特征。大数据的特征有:数据量大、数据多样性、价值密度低、数据
的产生和处理速度快。
广|统计学两大分支H触潮计
T变量
T统计潮查分皿E图r
统计与统计科学
全1微怫原
血
一统计调查方式卜_____
胆Wt
而
q统计科学与大数据卜gm咐语鼠分类,集法
本章考情
年份单选题多选题合计
2020年4题4分0题。分4分
2019年2题2分1题2分4分
2018年3题3分1题2分5分
本章重点:
1.测度数据集中趋势的统计量:均值、中位数和众数。
2.测度数据离散程度的统计量:方差、标准差和离散系数。
3.测度数据分布偏态的统计量:偏态系数、标准分数。
4.测度变量相关关系的统计量:散点图、相关系数。
知识点一:集中趋势的测度
1.均值。平均数,数据组中所有数值的总和除以该组数值的个数。
均值是集中趋势最主要的测度值,它是一组数据的重心所在,解释了一组数据的平均水平。
a
f员+……+Z_
nn
【示例】某售货小组5名营业员,元旦一天的销售额分别为520元、600元、480元、750元和500
元,求该日平均销售额。
平均销售额=(520+600+480+750+500)4-5=570(元)
【注意1】均值主要适用于数值型数据,但不适用于分类和顺序数据。
【注意2】均值容易受到极端值的影响,极端值会使得均值向极大值或极小值方向倾斜,使得均值
对数据组的代表性减弱。
需要全部信息避不开极端值!
2.中位数。把一组数据按从小到大或从大到小的顺序进行排列,位置居中的数值叫作中位数,用
Mr表不:
rx-
苧当n为奇数时
-(X+X)当n为偶数时
129'(-+1)
【注意1】中位数是一个位置代表值,主要用于顺序数据和数值型数据,但不适用于分类数据。
【注意2】中位数的优点:不受极端值的影响,抗干扰性强,尤其适用于偏斜分布的数值型数据。
不需要全部信息能避开极端值!
3.众数:一组数据中出现次数(频数)最多的变量值°不适用于描述定量数据的集中位置。
【注意】适用于描述分类数据和顺序数据的集中趋势。在定量数据中,可能出现多众数和无众数的
情况,因此众数不适于描述定量数据的集中位置。
不需要全部信息能避开极端值!
总结:
指标适用特点
•利用全部信息,受极端值影响
均值定量变量
•如有明显极端值,则代表性差
顺序变量•不受极端值影响
中位数
定量变量•适用于分布不对称的数据
•没有充分利用全部信息,稳定性优于众数,差于均值
•没有充分利用全部信息.,不受极端值影响
分类变量
众数•适用于分布明显呈偏态的数据
顺序变量
,可能不唯一
【例题•单选题】(2020年)在测度数据集中趋势时,中位数与众数的共同优点是()。
A.能够充分利用数据的全部信息
B.适用于分类变量
C.适用于定量变量
D.不受极端值影响
「正确答案」D
[答案解析]中位数与众数的共同优点是都不受极端值的影响。
【例题•单选题】2019年某企业集团下辖8个分公司的销售额分别为10000万元、3600万元、800
万元、1000万元、600万元、3000万元、2800万元、2200万元,这组数据中的中位数是()万元。
A.2200
B.2800
C.2500
D.3000
『正确答案」C
[答案解析」本题考查中位数的计算。(2800+2200)/2=2500o
知识点二:离散程度的测度
(一)方差和标准差
离散程度:反映数据之间的差异程度。集中趋势的测度值对一组数据的代表程度,取决于该组数据
的离散水平。
数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差;离散程度解小,其代表性就
越好。
L方差
(1)方差:数据组中各数值与其均值离差平方的平均数。
(2)方差越小,说明数据值与均值的平均距离越小,均值的代表性越好。
》总体方差公式:
N_
2
Z(\-x)N_
a2=-----------s2=—-Y)2
NN-1外
》样本方差公式:
1区-刘
一(n-1)
【示例】某售货小组5名营业员,元旦一天的销售额分别为520元、600元、480元、750元和500
元,平均销售额为570元,计算日销售额的样本方差。
Z(x「刘
e2_j-1____________
"(n-1)
=[(520-570)2+(600-570)2+(480-570)2+(750-570)2+(500-570)2]4-(5-1)
=12200(元2)
2.标准差
方差是反映数据离散程度的重要测度指标,但是其单位是原数据单位的平方,没有解释意义。因此,
我们经常使用标准差来测度数据的离散程度,标准差即方差的平方根。标准差与方差只适用于数值型
数据,它们对极端值很敏感。
Z(x.-x)2
【示例】5名营业员元旦当天的销售额的标准差
=^^2200=110.45(7L)
(二)离散系数
L离散系数:变异系数或标准差系数。
2.标准差与均值的比值:
s
cv=2
X
3.适用:不同类别数据离散程度的比较。
【注意】标准差的大小不仅与数据的测度单位有关,也与观测值的均值大小有关,不能直接用标准
差比较不同变量的离散程度。离散系数消除了测度单位和观测值水平不同的影响,因而可以直接用来
比较变量的离散程度。
【示例】某学校学生的平均年龄为20岁,标准差为3岁;该校教师的平均年龄为38岁,标准差为
3岁。比较该校学生年龄和教师年龄的离散程度。
「止确答案」学生年龄的离散程发更大。
I■答案解析」学生年龄的离散系数=3/20=0.15
教师年龄的离散系数=3/38=0.0789
【例题•单选题】(2020年)与标准差相比,方差在测度数据离散程度时的缺点是()。
A.计算方法复杂
B.不适用于数值型数据
C.其单位是原数据单位的平方,没有解释意义
D.数学性质较差
r正确答案」C
[答案解析」方差是反映数据离散程度的重要测度指标,但是其单位是原数据单位的平方,没有解
释意义。
【例题・多选题】下列统计量中,容易受极端值影响的有()。
A.均值
B.方差
C.众数
D.中位数
E.标准差
『正确答案1ARE
『答案解析」本题考查集中趋势和离散程度的测度指标。均值、方差、标准差容易受极端值的影响。
【例题•单选题】根据2014年某城市金融业和制造业各1000人的年薪样本数据来比较这两个行业
从业人员年薪的离散程度,应采用的统计量是()。
A.标准分数
B.相关系数
C.变异系数
D.偏态系数
f正确答案」C
『答案解析』本题考查离散系数。离散系数也称为变异系数或标准差系数,即标准差与均值的比值,
主要用于不同类别数据离散程度的比较。
知识点三:分布形态的测度
(一)偏态系数(SK):
1.偏度:指数据分布的偏斜方向和程度,描述数据分布对称程度。(.匿选)
2.偏态系数:测度数据分布偏度的指标。偏态系数取决•于离差三次方的平均数与标准差三次方的
比值。
SK=
(〃-1)〃(力-2)yElIfsJ
3.应用:偏态系数的绝对值越大,说明数据分布的偏斜程度越大。
SK=0说明数据分布是对随
SK>01.说明数据分布为右偏
偏态系数为正2.取值。〜0.5(说明轻度右偏)0.5-1(说明中度右偏)大于1(说明严重右
值偏)
SK<01.说明数据分布为左偏
偏态系数为负2.0^0.5(说明轻度左偏)一0.5^^-1(说明中度左偏)小于一1(说明严
值重左偏)
【例题•单选题】(2020年)下列统计量中,用于测度数据分布偏度的是()。
A.方差
B.标准差
C.偏态系数
D.均值
I1正确答案』C
『答案解析」测度数据分布偏度的统计量称为偏态系数。
【例题•单选题】(2020年)如果一组数据的偏态系数为-0.4,则该组数据的分布为()。
A.轻度左偏
B.中度左偏
C.中度右偏
D.轻度右偏
『正确答案」A
[答案解析』偏态系数为0,说明数据的分布是对称的。偏态系数为正,说明分布是右偏的,取值
在。〜0.5之间说明轻度右偏,取值在0.5〜1之间,说明中度右偏,取值大于1说明严重右偏;偏
态系数为负,说明分布为左偏.取值在0-----0.5之间,说明轻度左偏.取值在-0.5-----1之间.
说明中度左偏,取值小于一1,说明严重左偏。本题中,偏态系数为-0.4,说明轻度左偏。
【例题•单选题】关于偏态系数的说法,正确的是()。
A.偏态系数为正值,说明数据对称
B.偏态系数的绝对值越大,说明数据越对称
C.偏态系数等于0,说明数据对称
D.偏态系数等于1,说明数据对称
『正确答案』C
『答案解析」本题考查偏态系数。如果偏态系数为正值,说明分布为右偏的"A选项错误。偏态系
数的绝对值越大,说明数据分布的偏斜程度越大。B选项错误。偏态系数等于0,说明数据对称。C
选项正确。偏态系数等于1,说明系数中度右偏。D选项错误。
【例题•多选题】在某电商网站上,商品甲得到6个评价得分,分别是1、4、4、5、5、5;商品
乙得到5个评分,分别是3、3、3、4、4。关于这两组数据的说法,正确的有()。
A.商品中的评分中位数高于商品乙
B.商品甲的评分均值低于商品乙
C商品甲的评分众数高于商品乙
D.商品甲的评分分布离散程度大于商品乙
E.商品甲的评分分布是左偏的
『正确答案』ACDE
I1答案解析」本题考查集中趋势、离散程度的测度。
商品甲:评分中位数=(4+5)/2=4.5,众数=5,均值=(1+4+4+5+5+5)/6=4,方
差=[(1-4)24-(4-4)2+(4-4)2+(5-4)2+(5-4)24-(5-4)2]/5=2.4,标准差
=1.55,离散系数=1.55/4=0.3875。
商品乙:评分中位数=3,众数=3,均值=3.4,标准差=0.55,离散系数=0.55/3.4=0.16。
由于商品甲离差三次方,即(1-4)3+(4-4)3+(4-4)3+(5-4)3+(5-4)3+(5
-4)3=-24,根据公式可知偏态系数为负,说明数据分布左偏。
(-)标准分数
1.标准分数(Z分数):统计学上常用的一种标准化方法。标准分数可以给出数值距离均值的相对
位置,用于比较不同分布的变量值。
2.公式:标准分数2=(数值一均值)+标准差
3.结果:标准分数Z越大越好。
【注意】转变后的标准分数并没有改变数值在原分布中的位置,也没有改变数据原分布的偏度,但
是标准分数的平均数为0,标准差为1。
【示例1】考核A中员工得分80分,均值80分,标准差为20分,在考核B中员工得分70分,均
值60分,标准差为5分。
80分的Z分数=(80-80)4-20=0
70分的Z分数=(70-60)小5=2
【说明】70分在考核B中的相对排名高于80分在考核A中的相对排名。
【示例2】某班期末考试。语文考试全班平均成绩73分,标准差7分,甲得了78分;数学考试全
班平均成绩80分,标准差6.5分,甲得了83分。甲哪一门成绩更优秀?
因为两科分布(均值、标准差)不同,不能用原始数据直接比较,需要转换成标准分数,然后比较。
Z(语文)=(78-73)4-7=0.71
z(数学)=(83-80)+6.5=0.46
【说明】甲的语文成绩更优秀,
4.实际应用:当数据服从对称的钟形分布时,可以运用经验法则来判断与均值的距离在特定倍数标
准差之内的数据项所占比例。
-68.00%-
—95.00%~
1--------------99.00%-------------1
约有68%的数据与平均数的距离在1个标准差之内,标准分数在[-1,1]_范围内:
约有嬴的数据与平均数的距离在2个标准差之内,标准分数在[-2,2]范围内:
约有缪的数据与平均数的距离在3个标准差之内,标准分数在[-3,3]范围内。
【示例】语文考试全班平均成绩73分,标准差7分:
则68%的同学得分在66和80之间;
则95%的同学得分在59和87之间;
则99国的同学得分在52和94之间,
【例题•单选题】某公司员工年度业绩考核中,全体员工考核成绩的均值为80,方差为25。某员
工在这次业绩考核中成绩为85,则该员工考核成绩的标准分数为(
A.3.4
B.0.2
C.1.0
D.17.0
「正确答案」C
f答案解析』本题考查分布形态的测度。标准分数可以给出数值距离均值的相对位置,计算方法是
用数值减去均值所得的差除以标准差,标准分数=(85—80)/5=1。
【例题•多选题】某企业客户满意度数据服从对称的钟形分布,均值为75,标准差为5。根据经验
法则,关于该企业客户满意度的说法,正确的有()。
A.约有68%的客户满意度在[70,80]范围内
B.约有68%的客户满意度在[75,85]范围内
C.约有95%的客户满意度在[75,95]范围内
D.约有95%的客户满意度在[65,85]范围内
E.约有99%的客户满意度在[60,90]范围内
I1正确答案』ADE
『答案解析』本题考查标准分数。经验法则表明:约有68%的数据与平均数的距离在1个标准差之
内,约有95%的数据与平均数的距离在2个标准差之内,约有99%的数据与平均数的距离在3个标
准差之内。
知识点四:变量间的相关分析
(一)相关关系分类
1.按相关的程度:完全相关、不完全相关和不相关C
2.按相关的方向:正相关和负相关。
3.按相关的形式:线性相关和非线性相关。
【注意]相关关系并不等同于因果关系。
(二)两变量的散点图:两个变显间的关系可以用散点图来展示。
1.观测点分布无规律:不相关。
2.观测点分布密集在一条线周围:线性相关。
(1)正相关:直线向右上倾斜;
(2)负相关:直线向右下倾斜。
3.观测点呈现曲线模式:两个变量非线性相关.
(三)相关系数的定义和计算
1.Pearson相关系数:度量的是两个变量之间的线性相关关系。
2.Pearson相关系数的取值范围:—
(1)0<r^l:变量X和Y之间存在正线性相关关系;
(2)-l^r<0:变量X和Y之间存在负线性相关关系;
(3)r=l:变量X和Y之间为完全正线性相关,即变量Y的取值完全依赖于变量X;
(4)r=-l:变量X和Y之间为完全负线性相关,即变量Y的取值完全依赖于变量X。
【注意】Pearson相关系数只适用于线性相关关系的判断。因此三=0只表示两个变量之间不存在
线性相关关系,并不说明变量之间没有任何关系,比如它们之间可能存在非线性相关关系。
3.相关程度:
(1)|r>0.8:高度相关;
<2)0.5<|r|<0,8:中度相关;
<3)0.3<|r|<0.5:低度相关;
<4)|r|<0.3:说明两个变量之间的相关程度极弱,可视为无线性相关关系。
【例题-多选题】关于相关关系的说法,正确的有()。
A.完全相关是指一个变量的取值变化完全由另一个变量的取值变化所确定
B.相关关系等同于因果关系
C.正相关是指一个变量的取值随着另一个变量的取值增大而增大
D.不相关是指两个变量的取值变化彼此互不影响
E.相关关系等同于函数关系
『正确答案』ACD
f答案解析」本题考查变量间的相关关系。相关关系并不等同于因果关系和函数关系。
【例题・单选题】根据下面的变量X和变量Y的散点图,可以看出这两个变量的Pearson相关系数
r的取值范围是()。
15(T
100-
50-
0-
•50-
•100-
-15G
A.r<—1
B.OWrVl
C.r21
D.-l^r<0
『正确答案』D
f答案解析」本题考查散点图与相关关系。若一lWrVO,表明变量X和Y之间存在负线性相关关
系O
【例题・单选题】2014年某企业员工的工龄和月平均工资的散点图如下:
.一
Q5000个・•••・•••「•
4500•**
)•••
胃4000…
篦3500:f*
叮3000.:*
2500
2000
15005101520253035
1000工龄(年)
500
0
根据以上散点图,工龄和月平均工资两个变量的相关关系是().
A.正相关、线性相关
B.负相关、线性相关
C.正相关、非线性相关
D.负相关、非线性相关
I1正确答案』C
『答案解析』本题考查散点图。首先,观测点的走势很容易判断出是正相关关系;其次,观测点呈
现出曲线模式,并不是直线的模式,所以两个变量为非线性相关关系。
均值、中位数、众数
本章考情
年份单选题多选题合计
2020年1题1分1题2分3分
2019年1题1分2题4分5分
2018年4题4分1题2分6分
本章重点:
1.抽样调查基本概念:总体、样本、样本量、总体参数、样本统计量与抽样框。
2.概率抽样和非概率抽样,抽样误差和非抽样误差(抽样框误差、无回答误差、计量误差)。
3.几种基本概率抽样方法:简单随机抽样、分层抽样、系统抽样、整群抽样和多阶段抽样。
4.估计量的性质,抽样误差影响因素,样本量的影响因素。
知识点一:抽样调查基本概念
(一)抽样调查基本概念
1.总体:调杳对象的全体,调查总体必须是明确的而不能是模糊的。
【示例】研究全国钢铁企业盈利状况,所有钢铁企业是总体。
2.样本:总体的一部分,它由从总体中按一定原则或程序抽出的部分个体所组成。
样本量:样本中包含的入样单位的个数。
【示例】选取了20家钢铁企业是样本。
3.抽样框:供抽样所用的所有抽样单元的名单,是抽样总体的具体表现。
【示例】工商局注册的200家企业;公司200名注册在职人员名册。
4.总体参数:变量的数字特征,根据总体中所有单位的数值计算的。
【示例】所有钢铁企业盈利总额,所有钢铁企业盈利均值。
5.样本统计量:根据样本中各单位的数值计算的,是对总体参数的估计,因此也称为估计量。
常用的样本统计量:样本均值,样本比例、样本方差等。
【示例】20家企业盈利总额,20家企业盈利均值。
【例题•单选题】供抽样所用的所有抽样单元的名单称为()。
A.抽样框
B.总体
C.总体参数
D.样本
『正确答案」A
f答案解析」本题考查抽样框。抽样框是供抽样所用的所有抽样单元的名单,是抽样总体的具体表
现。
【例题・单选题】从某单位所有在职员工中随机抽取300人进行抽样调查,来研究该单位在职职工
中亚健康人员占比状况,该项调查的总体是()。
A.随机抽取的300名在职员工
B.该单位所有亚健康在职员工
C.该单位所有在职员工
D.被调查的300名在职员工中的亚健康员工
『正确答案」C
f答案解析」本题考查抽样调查的基本概念。总体即调查对象的全体,乜就是该单位所有在职员工。
(二)概率抽样与非概率抽样
根据抽取样本方法的不同,抽样分为:
1.概率抽样(随机抽样):指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的
方法。
(1)随机原则:在抽取样本时排除主观」•有意识地抽取调查单元的情况.使每个单元都有一定的
机会被抽中。
(2)特点:
J按一定的概率以随机原则抽取样本;
J总体中每个单元被抽中的概率是已知的,或者是可以计算出来的;
J当采用样本对总体参数进行估计时,要考虑到每个样本单元被抽中的概率。
(3)分类:
等概率抽样每个单位被抽入样本的概率相等
不等概率抽样每个单位被抽入样本的概率不同
2.非概率抽样(非随机抽样):调查者根据自己的方便或主观判断抽取样本的方法。
(1)最主要的特征:抽取样本时并不是依据随机原则。
(2)非概率抽样方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 儿科医生简短述职报告
- 中秋节的演讲稿(范文15篇)
- 口才班课件教学课件
- 高等数学教程 上册 第4版 习题及答案 P225 第9章 微分方程
- 文书模板-天然气公司股东协议书
- 政策滥用及其对商家的影响 -2023年全球参考基准
- 高校课程课件教学课件
- 綦江区七年级上学期语文期末考试试卷
- 第二中学九年级上学期语文开学考试试卷
- 部编版小学语文三年级上册第20课《美丽小兴安岭》读写练习题
- 八上语文古诗词理解性默写
- 湖南省长沙市雅礼集团2024-2025学年九年级上学期11月期中英语试题
- 2023年 评审准则质量记录手册表格汇编(101个)
- 2024年度采购合同管理程序指南
- GB/T 44693.1-2024危险化学品企业工艺平稳性第1部分:管理导则
- 湖南省三湘名校教育联盟2023-2024学年高二下学期4月期中联考地理试题
- 2024年银行考试-征信人员考试近5年真题附答案
- 世界一流港口综合评价报告
- 二年级数学看错数字问题专项练习
- 七十岁老人换驾照考三力测试题库
- 2024《整治形式主义为基层减负若干规定》全文课件
评论
0/150
提交评论