版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章统计和数据
本章主要内容:
1.统计的含义
2.定性与定量数据、观测与实验数据
3.数据的直接与间接来源、搜集数据的方法
重点:
1.统计分析数据的方法:描述统计与推断统计
2.数据的类型:定性与定量变量、观测与实验数据
3.数据的来源:直接来源与间接来源
4.搜集数据的方法:普查、抽样调查、统计报表、重点调查、典型调查。
难点:
1.描述与推断统计的区别
2.定性变量与定量变量的区别
3.典型抽样的形式
第一节统计的含义
知识点一:什么是统计
1.含义
统计是用来处理数据的,关于数据的一门学问。按大百科全书的定义:统计学是
用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。
[例题•多选题]下列关于统计学的描述,正确的有()。
a.统计学是用来处理数据的,是关于数据的一门学问
b.统计学是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方
法
c.统计分析数据的方法大体上可分为描述统计和推断统计两大类
d.在现代社会中,几乎所有领域都会应用到统计学
e.统计的应用范围很广泛,有时也会被滥用
答案:abcde
解析:统计学是用以收集数据,分析数据和由数据得出结论的一组概念、原则和
方法。统计分析数据分描述统计和推断统计。统计是适用于所有学科领域的通用
数据分析方法,是一种通用的数据分析语言。
2.种类
统计分析数据的方法分两种:描述统计和推断统计
描述统计:是研究数据搜集、处理和描述的统计学方法。其内容包括如何取得研
究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综
合、概括与分析,得出所关心的数据特征。
推断统计:是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参
数估计和假设检验两大类。
[例题•单选题]研究如何利用样本数据来推断总体特征的统计学方法是()。
a.描述统计b.理论统计
c.推断统计d.应用统计
答案:c
解析:推断统计是研究如何利用样本数据来推断总体特征的统计学方法,内容包
括参数估计和假设检验两大类
[例题•判断题]描述统计是研究如何利用样本数据来获得总体特征的统计学方
法。
答案:错
解析:描述统计是研究数据搜集、处理和描述的统计学方法。
知识点二:统计的应用
一、统计的应用领域
统计是适用于所有学科领域的通用数据分析方法,是一种通用的数据分析语言。
无论是在社会科学领域,还是在自然科学领域,进行某个课题的研究时,为使观
点与结论具有事实依据和说服力,必须根据调查研究或实验取得的统计数据来说
明问题,这需要运用科学地统计方法来进行。
二、统计的误用与滥用
统计常常被人们有意或无意地滥用。如,错误的统计定义、错误的图表提示、一
个不合理的样本、数据的遗漏或逻辑错误等。这些误用有些是常识性的,有些是
技术性的,有些则是故意的。作为从数据中寻找事实的统计,却被有人变成了歪
曲事实的工具。
[例题•判断题]统计是适用于所有科学领域的通用数据分析方法。
答案:正确。
解析:统计是适用于所有学科领域的通用数据分析方法,是一种通用的数据分析
语言。
第二节数据类型
知识点一:变量与数据
变数或变量:是指没有固定的值,可以改变的数。它们的特点是从一次观察到下
一次观察会出现不同的结果。
数据:把观察到的结果记录下来就是数据。统计数据就是统计变量的具体表现。
[例题•判断题]变量是数据的具体体现。
答案:错误。
解析:数据是变量的具体表现。
知识点二:数据类型
一、定性变量(数据)与定量变量(数据)
(一)定性变量:反映“职业”、“教育程度”等现象的属性特点的变量
定性变量的特点:它只能反映现象的属性特点,而不能说明具体量的大小和差异。
定性变量的分类:分类变量与顺序变量
分类变量:没有量的特征,只有分类特征。这种只反映现象分类特征的变量又称
分类变量。分类变量的观测结果就是分类数据。说明事物类别的一个名称。如“性
别”就是一个分类变量。分类变量没有数值特征,所以不能对其数据进行数学运
算。
顺序变量:如果类别具有一定的顺序,如,“教育类别”,这样的变量称为顺序
变量,相应的观察结果就是顺序数据。说明事物有序类别的一个名称,这类变量
的具体表现就是顺序数据。
顺序数据之间虽然可以比较大小,却无法计算相互之间大小、高低和优劣的距离。
这样的数据仍然用来表示事物在性质上的差异,而不能用来反映事物在数量上的
差异。
(二)数值(定量)变量:
反映“天气温度”、“月收入”等变量可以用数值表示其观察结果,而且这些数
值具有明确的数值含义,不仅能分类而且能测量出来具体大小和差异。这些变量
就是定量变量也称数值变量,定量变量的观察结果成为定量数据。是说明事物数
字特征的一个名称。
定性变量与定量变量的区别:
1.分类变量没有数值特征,所以不能对其数据进行数学运算。分类数据只能用来
区分事物,而不能用来表明实物之间的大小、优劣关系。
2.顺序变量比分类变量向前进一步,它不仅能用来区分客观现象的不同类别,而
且还可以表明现象之间的大小、高低、优劣关系。显然,顺序数据的功能比分类
数据要强一些,对事物的划分也更精细一些。但顺序数据的数据之间虽然可以比
较大小,却无法计算相互之间的大小、高低或优劣的距离。只是反映事物在性质
上的差异,而不能用来反映事物在数量上的差异。因此,从本质上,顺序数据仍
然是定性数据中的一种。
3.数值型数据作为统计研究的主要资料,其特征在于它们都是以数值的形式出现
的,有些数值型数据只可以计算数据之间的绝对差,而有些数值型数据不仅可以
计算数据之间的绝对差,还可以计算数据之间的相对差。其计量精度远远高于定
性数据。在统计学研究中,对数值型数据的研究是定量分析的主要内容。
从上述三种数据的基本特点可以看出,这三类数据对事物的描述是由定性到定
量、由低级到高级,从粗略到精细。在统计研究中,需要明确各种数据所适用的
统计方法,正确的选择和应用,这是正确进行统计研究的基本要求。
[例题•单选题]下列变量是定性变量的是()。
a.年龄
b.职业
c.居民的受教育年限
d.月收入
答案:b
解析:定性变量是反映“职业”、“教育程度”等现象的属性特点的变量,不能
说明具体量的大小和差异。
[例题•单选题]为了便于数据分析,人们常用数字1表示男性,2表示女性,
这个数字1和2()o
a.具有数量上的差异
b.具有实际数字含义
c.只是一个编号
d.可以进行运算
答案:c
解析:这种变量是分类变量,没有量的特征,只有分类特征。
[例题•单选题]若产品质量由高到低划分为三个级别:1级、2级、3级,则
下列说法中正确的是()。
a.1级品的质量是2级品的两倍
b.2级品的质量是1级品的两倍
c.产品质量级别是顺序数据
d.产品质量级别是定量数据
答案:c
解析:产品质量级别是定性变量,只是反映产品之间在质量上的性质差异,却无
法计算相互之间大小、高低和优劣的距离。
[例题•单选题]下列关于变量数据的说法错误的是()。
a.分类数据只能用来区分事物,不能用来表明事物间的大小、优劣
b.顺序数据具有数值特征,可以用于反映事物在数量上的差异
c.数值型数据的计量功能要大于分类数据和顺序数据
d.在统计学研究中,对数值型数据的研究是定量分析的主要内容
答案:b
解析:顺序数据的数据之间虽然可以比较大小,却无法计算相互之间的大小、高
低或优劣的距离。只是反映事物在性质上的差异,而不能用来反映事物在数量上
的差异。
二、观测数据和实验数据
按获取数据的方法不同,可分为观测数据和实验数据。
观测数据可能是全面数据也可能是样本数据(局部),实验数据一般都是样本数
据。
1.观测数据。
观测数据是对客观现象进行实地观测所取得的数据,在数据取得的过程中一般没
有人为的控制和条件约束。在社会经济问题研究中,观测是取得数据最主要的方
法。
2.实验数据。
实验数据一般是在科学实验环境下取得的数据。在实验中,实验环境是受到严格
控制的,数据的产生一定是某一约束条件下的结果。在自然科学研究中实验的方
法应用非常普遍。
[例题•单选题]根据获取方法不同,数据可分为观测数据和()o
a.描述数据
b.实验数据
c.推断数据
d.分析数据
答案:b
解析:按获取数据的方法不同,可分为观测数据和实验数据。
第二章数据描述
重点:
1.定性数据和定量数据的图表展示方法
2.标准的统计表的构成
3.定性数据和定量数据的数字特征
难点:
1.定性数据和定量数据的图表展示的区别
2.定性数据和定量数据的数字特征的区别
知识点一:定性数据的图表展示方法
定性数据包括分类数据和顺序数据,它们的图表展示方法基本相同。通常可以用
频数分布表和图形来描述。
一.生成频数分布表
定性数据本身是对事物的一种分类,因此,只要先把所有的类别都列出来,然后
统计出每一类别的频数,就是一张频数分布表。频数分布表中落在某一特定类别
的数据个数称为频数。频数分布包含了很多有用的信息,通过它可以观察不同类
型数据的分布情况。
频数分步表一般是用excel生成。
[例题•单选题]在某一特定类别中的数据个数称为()。
a.均值b.众数
c.标准差d.频数
答案:d
解析:频数分布表中落在某一特定类别的数据个数称为频数。频数分布包含了很
多有用的信息,通过它可以观察不同类型数据的分布情况。
二.定性数据的图形表示
定性数据(分类数据和顺序数据)可以描绘出它们各类的比例,常用饼图和条形
图表示。
(-)饼图
饼图又称圆饼图、圆形图等,它是利用圆形及圆内扇形面积来表示数值大小的图
形。饼图主要用于总体中各组成部分所占比重的研究。
(二)条形图
条形图是用宽度相同的条形的高度或长度来表述数据多少的图形,用于观察不同
类别数据的多少或分布情况。
(三)环形图
饼图只能显示一个变量(如年龄变量)各部分所占的比重。如果我们想比较不同
变量之间的结构差异,就可以通过环形图来实现。
首先,利用产生频数表的方法先做出分性别的年龄分布表;然后,根据
上表再绘制出环形图。
[例题•单选题]条形图是利用宽度相同的条形的()来表述数据多少的图形。
a.面积b.高度或长度
c.频数d.类别
答案:b
解析:条形图是用宽度相同的条形的高度或长度来表述数据多少的图形,用于观
察不同类别数据的多少或分布情况。
[例题•单选题]若需要比较不同变量之间的结构差异,可采用的图形为()。
a.频数分布图b.条形图
c.饼图d.环形图
答案:d
解析:饼图只能显示一个变量(如年龄变量)各部分所占的比重。如果我们想比
较不同变量之间的结构差异,就可以通过环形图来实现。
[例题•单选题]饼图是利用圆形及圆内扇形的()来表示数值大小。
a.面积b.弧线长度c.角度d.颜色
答案:a
解析:饼图又称圆饼图、圆形图等,它是利用圆形及圆内扇形面积来表示数值大
小的图形。饼图主要用于总体中各组成部分所占比重的研究。
第二节用图表展示定量数据
知识点一:生成频数分布表
定性数据的图示表示方法,也都适用于定量数据。但定量数据还有一些特定的图
示方法,它们并不适用于定性数据。
生成定量数据的频数分布表时,首先是将数据进行分组,然后再统计出各组别的
数据频数即可
定量数据频数分布表的生成过程:
首先,要对数据进行分组
其次,要确定组距。所谓组距是指每个组变量值中的最大值与最小值之差。每组
最大值称为该组上限,最小值称为该组下限。则组距等于上限与下限之差,即组
距=上限-下限
[例题•单选题]生成定量数据的频数分布表时,首先要对数据()
a.分类b.确定组距c.分组d.确定组频数
答案:c
解析:生成定量数据的频数分布表时,首先是将数据进行分组,然后再统计出各
组别的数据频数即可。
在确定组距是,一般应掌握的原则:-是要考虑各组的划分是否能区分总体内部
各个组成部分的性质差别。如果不能正确反映各部分质的差异,必须重新分组。
二是要能准确地清晰地反映总体单位的分布特征。
在确定组距时,在研究的现象变动比较均匀的情况下,可以采用等距分组;而当
研究的现象变动很不均匀时,例如急剧的增长或急剧的下降,波动的幅度很大时,
则一般采用不等距分组。在实际工作中,要结合实际情况确定各组的组距。
[例题•判断题]能够对统计总体进行分组,是由统计总体中的各个单位所具有的
同质性特点决定的。
答案:错误
解析:在确定组距是,一般应掌握的原则:一是要考虑各组的划分是否能区分总
体内部各个组成部分的性质差别。如果不能正确反映各部分质的差异,必须重新
分组。
最后,统计出各组的频数及频数分布表。在统计各组频数时,恰好等于某一组的
组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。
[例题•单选题]在统计分组中,如果某一数值恰好等于某一组的组限时,则采取
()O
a.下限不在内的原则b.上限不在内的原则
c.上下限都可以在内的原则d.上下限都不在内的原则
答案:b
解析:分组采取的是“上限不在内”的原则.
[例题•多选题]确定组距时()o
a.要考虑各组的划分是否能区分总体内部各个组成部分的性质差别
b.要能准确清晰地反映总体单位的分布特征
c.在研究的现象变动比较均匀时,可采用等距分组
d.在研究的现象变动不均匀时,可采用不等距分组
e.各组的下组限一般不包括在本组当中
答案:abed
解析:分组采取的是“上限不在内”的原则.
[例题•单选题]某连续变量分为五组,第一组为40-50,第二组为50-60,
第三组为60-70第四组为70-80,第五组为80以上,依照规定()。
a.50在第一组,70在第四组b.60在第二组,80在第五组c.70在第四
组,80在第五组d.80在第四组,50在第二组
答案:c
解析:分组有“上限不在其内”,所以50在第二组、60在第三组、70在第四组、
80在第五组。
知识点二:定量数据的图形表示
定性数据的图形都可以表述定量数据,但效果不好。
常用来表述定量数据统计图形有:直方图、折线图和散点图。
此外还有茎叶图、箱线图等,由于excel不能实现这些图。
1.直方图
对于一个定量数据,直方图是一个常见的而且非常重要的图形。它的横坐标代表
变量分组,纵指标代表各变量值出现的频数,这样,各组与相应的频数就形成了
一个矩形,即直方图。
2.折线图
折线图是利用线段的升降来说明现象变动的一种统计图,它主要用于表示现象的
分配情况、现象在时间上的变化和两个现象之间的依存关系等。
3.散点图
散点图能反映两个变量的关系,判断其变化的方向是否相同
[例题•单选题]下列图形中不能在excel当中实现的是()。
a.直方图b.折线图
C.箱形图d.散点图
答案:C
解析:常用来表述定量数据统计图形有直方图、折线图和散点图。此外还有茎叶
图、箱线图等,由于excel不能实现这些图。
[例题•单选题]常用于表示定性数据的统计图是()。
a.直方图b.散点图
c.条形图d.折线图
答案:c
解析:直方图、散点图和折线图都是表示定量数据的统计图。
[例题•单选题]常用于表示定量数据的统计图是()。
a.直方图b.条形图
c.饼图d.环形图
答案:a
解析:直方图只能表示定量数据不能表示定性数据。
第三节用统计表来表示数据
知识点一:统计表的构成
统计表和统计图是显示统计数据的两种方式。
统计表是一种用密集的形式归纳数据的方法,它主要利用行和列中的数据来表述
现象特征。
人们利用统计表的主要目的有:一是在文章中使用它以支持自己的观点;二是利
用它组织数据。
把整理汇总得出的统计数据资料,按照一定的结构和顺序,有系统地排列在一定
的表格内,就形成一张统计表。
统计表的主要优点是:能使统计资料条理化、系统化,能清晰的表达统计资料的
内容,且简明易懂、节省篇幅,便于对表中资料进行对比,并易于检查数字的完
整性和正确性。
统计表一般由五个部分组成,即表头、行标题、列标题、数字资料和表外附加构
成。
表头,在表的上方,说明的是表的主要内容
行标题和列标题,放在表的第一行和第一列,表示的是所研究问题类别的名称和
指标名称
表的其余部分是具体的数字资料
表外附加,放在表的下方,说明资料来源、指标注释和必要的说明等内容。通常,
统计表左右两边不能封口
[例题-多选题]下列关于统计表的说法中,正确的有()。
a.统计表是组织数据的一种有效形式b.表头放在统计表的上方c.行标题放在
统计表的第二行d.统计表的左右两边不能封口e.统计表可用来支持使用者的
观点
答案:abde
解析:统计表是一种用密集的形式归纳数据的方法,它主要利用行和列中的数据
来表述现象特征。行标题放在统计表的第一列,第一行是列标题。
[例题•多选题]统计表组成部分包括()。
a.表头b.行标题c.列标题d.数字资料
e.表外附加
答案:abcde
解析:统计表组成部分包括:表头;行、列标题;数字资料;表外附加。
第四节用数字来概括数据
知识点一:对统计数据的分布特征的考查
针对一组数据的分布特征,可以从两个方面来考查它:
-是该组数据的集中趋势,即该组数据的数值向其中心值的靠拢程度。
二是该组数据的离散程度,它反映的是该组数据的各个数值远离其中心的趋势和
程度。
[例题•判断]针对统计数据的分布特征的考查,主要是从该组数据的集中趋势和
离散程度两方面来考查的。
答案:正确
解析:集中趋势和离散程度这两个方面反映了数据分布特征的不同侧面,让我们
从不同视角来分析统计数据,以达到分析和运用统计数据的目的。
由于定性数据主要是计数,比较简单,对定性数据的集中趋势常用的方法就是计
算百分比、中位数和众数。
中位数是将总体各单位标志值按大小顺序排列,处于中间位置的那个数(如果样
本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。
众数就是数据中出现次数或出现频率最多的数值。在定性数据中,由于记录的是
频数,因此众数用得多些。
[例题•多选题]对于定性数据,反映其集中趋势的数字特征有()。
a.比例b.百分比c.平均数
d.众数e.中位数
答案:abde
解析:由于定性数据主要是计数,比较简单,对定性数据的集中趋势常用的方法
就是计算百分比、中位数和众数。注意,百分比是一种比例。
知识点二:定量数据的数字特征
由于定量数据有数值实际含义,可以进行加减乘除计算,所以反映定量数据特征
的统计量很多,常用的有:
反映数据集中趋势的水平度量:平均数、中位数、众数和分位数等
反映数据离散程度的差异度量:极差、四分位差、标准差和方差
[例题•单选题]某组数据的离散程度是指()。
a.该组数据的数值向其中心值的靠拢程度
b.该组数据的数值远离其中心值的趋势和程度
c.该组数据的数值向其中位数值的靠拢程度
d.该组数据的数值远离其中位数值的趋势和程度
答案:b
解析:离散程度反映的是该组数据的各个数值远离其中心的趋势和程度。反映数
据离散程度的差异度量有极差、四分位差、标准差和方差。
[例题•多选题]对于定量数据,反映其集中趋势的数字特征有()。
a.平均数b.中位数c.标准差
d.方差e.众数
答案:abe
解析:对于定量数据,反映数据集中趋势的水平度量:平均数、中位数、众数和
分位数等。
一、水平的度量
1.平均数平均数也称为均值,是把某一组数据进行算术平均,用以表述某一事
物的平均水平,它在统计中叫做均值。
简单平均数:把一个变量的所有观测值相加再除以观测值的数目。x=~
加权平均数:如果原始数据为分组数据,则采用加权平均数公式计算,其中的权
»
数f为各组的频数。x=
用excel中的【average】函数求平均数。
[例题•单选题]对于一组数据:10、25、36、40、53、69,中位数为0。
a.36b.40c.38d.44.5
答案:c
解析:偶数位数是中间两数的平均数,即(36+40)/2=38。
2.众数
数组中出现次数最多的数。用excel中的[mode]函数求众数
[例题•单选题]对于一组数据:16、25、25、27、27、36、36、36、41、41、41、
41,众数为()。
a.16b.25c.36d.41
答案:d
解析:众数是出现次数最多的数,41出现次数4次,最多。
3.用哪个值代表一组数据平均数、中位数和众数是描述数据水平的三个主要统
计量,要合理使用则需要了解它们的不同特点和应用场合。平均数易为多数人理
解和接受,实际中用的也较多,但主要缺点是更容易受少数极端数值的影响,对
于严重偏态分布的数据,平均数的代表性较差。中位数和众数提供的信息不像平
均数那样多,但它们也有优点,比如不受极端值的影响,具有统计上的稳健性,
当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数和众数,这时
它们的代表性要比平均数好。
[例题•单选题]下列关于平均数、中位数和众数的描述,错误的是0。
a.三者都是用来反映数据的集中趋势
b.平均数易被多数人理解和接受,实际中用的也较多
c.众数容易受到极端值的影响d.当数据为偏态分布时,使用众数和中位数的
代表性较好
答案:c
解析:平均数容易受到极端值的影响。
[例题•单选题]在反映数据集中趋势的水平度量中,最易受到极端数值影响的是
()O
a.平均数b.中位数
c.众数d.分位数
答案:a
解析:平均数容易受到极端值的影响。
二、差异的度量
对社会经济现象不仅需要对现象的集中趋势进行分析(平均数、中位数、众数),
而且还需要进行差异程度分析即离散程度分析。研究事物现象的差异性,从差异
性的事物现象中,寻求解决差异性的一些方法。
1.极差(range)r=xBilx-x„llll
极差又称全距,是最简单的离散指标,它是一组数据中的最大值和最小值之差。
计算极差非常简单,含义也很直观。但是,它仅仅受最大值和最小值的影响,不
能反映一组数据分布的情况,而且它非常容易受数据中极端值的影响。因此,
它不能准确地描述数据的分散程度。
2.方差和标准差
为了反映数据中的每一个观察值与平均水平的差异程度就必须引入方程和标准
差的概念。
方差:将各个变量值和其均值离差平方的平均数,作为样本数据,它反映了样本
中各个观测值到其均值的平均离散程度。其计算公式为:
守
未分组的计算公式:
分组的计算公式:工S
标准差是方差的平方根,它与方差相比更具量纲性,而且与变量值的计量单位相
同,使用的范围比方差更广泛。其计算公式为:
未分组的计算公式:V«-i
分组的计算公式:
在一个统计样本中,其标准差越大,说明它的各个观测值分布的越分散,它的趋
中程度就越差。反之,其标准差越小,说明它的各个观测值分布的越集中,它的
趋中程度就越好。
求法:利用excel中的方差函数[var]得到方差,再利用标准差函数[stdev]
得到标准差。
3.离散系数
离散系数也称变异系数、标准差系数,它是将一组数据的标准差除以其均值,用
来测度数据离散程度的相对数。其计算公式为:
总体数据的离散系数:X
样本数据的离散系数:X
4.标准分数
标准分数也称标准化值或z分数,它是变量值与其平均数的离差除以标准差后的
值,用以测定某一个数据在该组数据中的相对位置。其计算公式为:
S
标准分数最大的用途是可以把两组数据中的两个不同均值,不同标准差的数据进
行对比,以判定它们在各组中的位置。
[例题•判断题]一个总体的差异程度不仅受标准差大小的影响,而且还受数据
本身数值大小的影响。
答案:正确
解析:总体的差异程度比较最好的是离散系数,是标准差除以其均值。
[例题•单选题]下列说法错误的是()。
a.极差容易受数据中极端值的影响,不能准确地反映数据的分散程度
b.标准差的大小会受到数据本身数值大小的影响
c.一组数据的离散系数除以均值即为标准差
d.标准差相同的两组数据的差异程度可能不同
答案:c
解析:一组数据的离散系数乘以均值即为标准差
[例题•单选题]已知一组数据均值为3,标准差为1.58,则其离散系数为()。
a.1.90b.0.53
c.4.58d.4.74
答案:b
解析:离散系数=标准差/均值=L58/3=0.53
[例题•单选题]已知第一组数据的均值为5,标准差为1.58;第二组数据均值为
125,标准差为2.58,则()。
a.第一组数据离散程度小于第二组数据
b.第一组数据离散程度等于第二组数据
c.第一组数据离散程度大于第二组数据
d.以上都不对
答案:c
解析:vl=l.58/5,v2=2.58/125,v2<vl,第一组数据离散程度大于第二组数据.
[例题•单选题]两个总体的平均数不等,标准差相等,比较两总体平均数的代表
性()。
a.平均数大的代表性大b.平均数小的代表性大
c.平均数大的代表性小d.两平均数的代表性相同
答案:a
解析:离散系数=标准差/均值,标准差相等,均值越大,离散系数越小,均值的
代表性越大。
第三章参数估计
重点:
1.总体参数与统计量
2.样本均值与样本比例及其标准误差
难点:
1.区间估计
2.样本量的确定
知识点一:总体分布与总体参数
统计分析数据的方法包括:描述统计和推断统计(第一章)
推断统计是研究如何利用样本数据来推断总体特征的统计学方法,包括参数估
计和假设检验两大类。
总体分布是总体中所有观测值所形成的分布。
总体参数是对总体特征的某个概括性的度量。通常有
总体平均数(u)
总体方差(。②)
总体比例(兀)
知识点二:统计量和抽样分布
总体参数是未知的,但可以利用样本信息来推断。
统计量是根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括
性度量。
统计量是样本的函数,如样本均值(3)、样本方差(S2),样本比例(P)等。
构成统计量的函数中不能包括未知因素。
由于样本是从总体中随机抽取的,样本具有随机性,由样本数据计算出的统计量
也就是随机的。统计量的取值是依据样本而变化的,不同的样本可以计算出不同
的统计量值。
[例题•单选题]以下为总体参数的是()
a.样本均值b.样本方差
c.样本比例d.总体均值
答案:d
解析:总体参数是对总体特征的某个概括性的度量。通常有总体平均数、总体方
差、总体比
例题•判断题:统计量是样本的函数。
答案:正确
解析:统计量是样本的函数,如样本均值(7)、样本方差($2)、样本比例(p)
等。构成统计量的函数中不能包括未知因素。
[例题•判断题]在抽样推断中,作为推断对象的总体和作为观察对象的样本都
是确定的、唯一的。
答案:错误
解析:作为推断对象的总体是唯一的,但作为观察对象的样本不是唯一
的,不同的样本可以计算出不同的统计量值。。
(一)样本均值的抽样分布
设总体共有n个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有
C=------------
n"种抽法,即可以组成n0不同的样本,在不重复抽样时,共有川个
可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成
的分布就是样本均值的分布。
但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布
实际上是一种理论分布。
数理统计学的相关定理已经证明:
从即样本均值的均值就是总体均值。
.
在重置抽样时,样本均值的方差为总体方b?的1/n,即:’
在不重置抽样时,样本均值的方差为
_a2N-n
=TN-\
N-x
其中,菽斤为修正系数,对于无限总体进行不重置抽样时,可以按照重置抽样
计算,当总体为有限总体,n比较大而n/n25%时,修正系数可以简化为1-n/n,
当n比较大,而n/n〈5%时,修正系数可以近似为1,即可以按重置抽样计算。
当总体服从正态分布时,样本均值一定服从正态分布,即有x~n(“,b‘)时,
x~n(",n)
若总体为未知的非正态分布时,只要样本容量n足够大(通常要求n230),
样本均值仍会接近正态分布。样本分布的期望值为总体均值,样本方差/为总
体方差〃的1/n。这就是统计上著名的中心极限定理。
该定理可以表述为:从均值为",方差为b,的总体中,抽取样本量为n的随机样
本,当n充分大时(通常要求n230),样本均值的分布近似服从均值为“,
方差为n的正态分布。
如果总体不是正态分布,当n为小样本时(通常n<30),样本均值的分
布则不服从正态分布。
[例题•单选题]设一个总体共有5个元素,从中随机抽取一个容量为2的样本,
在重置抽样时,共有()个样本
a.25b.10c.5
d.1
答案:a
解析:在重置抽样时,共有d种抽法,共有样本4个,即52=5X5=25个。
[例题•单选题]设一个总体共有5个元素,从中随机抽取一个容量为2的样本,
在不重置抽样时,共有()个样本
a.25b.10
c.5d.1
答案:b
解析:在不重复抽样时,共有一丽F个可能的样本。即
5!_5x4x3x2xl_1Q
S21(5-2)12xlx3x2x1(个)
(二)样本比例的抽样分布
比例是指具有某种属性的单位占全部单位数的比重。
总体比例(通常用元表示)是总体中具有某种属性的单位数占全部总体单位数
的比例,是一个参数,通常是未知的,也是我们想通过抽样得到的说明总体特征
的数据。
样本比例(通常用p表示)是随机抽取的样本中具有某种属性的单位数占样本全
部单位数的比例,是一个样本统计量,是随机变量,对于一个已经抽取出来的样
本来讲,是可以观察到的。描述所有可能样本比例的概率分布就是样本比例的抽
样分布。
当样本容量比较大时,样本比例p近似服从正态分布,且有p的数学期望就是总
体比率JT,即0(p)=Jt
而P的方差与抽样方法有关,在重置抽样下为N,在不重置抽样下为
E1-.N'-为
nN-1
即在重置抽样时,P的分布为p~n(一,H)
在不重置抽样时,P的分布为p~n(才,nAT-1)
一般讲,当np25,并n(『p)25时,就可以认为样本容量足够大。对于无限
总体进行不重置抽样时,可以按照重置抽样计算,当总体为有限总体,当n比较
大,而n/n<5%时,修正系数”-1会趋向1,这时也可以按重置抽样计算方
差。
从上述分析可以看出,随着样本容量的增大,样本比例的方差愈来愈小,说明样
本比例随样本容量增大,围绕总体比例分布的峰度愈来愈高。
[例题•单选题]当样本容量比较大时,在重置抽样条件下,样本比例p的方差为
()
———快1-”)
a.nb.石c.nNd.\
答案:a
El—-
解析:当样本容量比较大时,在重置抽样条件下,样本比例P的方差为〃
[例题•单选题]设一个总体含有3个可能元素,取值分别为1,2,3。从该总体
中采取重复抽样方法抽取样本量为2的所有可能样本,样本均值为2的概率值是
()
a.1/9b.2/9c.1/3d.4/9
答案:c
解析:在重复抽样下,样本为1,2,3的概率都是1/3。
[例题•判断题]样本容量是指从一个总体中可能抽取的样本个数。
答案:错误
解析:样本容量是样本中个体的数目。一个总体可以有多个样本,各个样本的的
容量可以相同可以不同。
[例题•判断题]在确定总体比例估计中的样本容量时,如果缺少比例的方差,常
取比例值为0.5。
答案:正确
知识点三:统计量的标准误差
统计量的标准误差也称为标准误,是指样本统计量分布的标准差。可用于衡量样
本统计量的离散程度。在参数估计中,它是用于衡量样本统计量与总体参数之间
差距的一个重要尺度。
a
b-=片
样本均值的标准误计算公式为:r石
当总体标准差。未知时,可用样本标准差S代替计算,这时计算的标准误差称
为估计标准误差。
IM1-兀)
相应地,样本比例的标准误计算公式为
同样,当总体比例的方差n(1-n)未知时,可用样本比例的方差p(『p)代
替。
[例题・单选题]样本均值的标准误差计算公式为()
工^卜一令
a.nb.、份c.\Ld.'JV/
答案:b
1
解析:样本均值的标准误差计算公式为方0
[例题•单选题]样本比例的标准误差计算公式为()
b警C产拜d.场g
江1-兀)
n
答案:a
解析:样本比例的标准误差计算公式为'-4―
[例题•单选题]统计量的标准误差也称为标准误,其大小与()。
a.样本量的平方根成反比b.样本量的大小成反比
C.样本量的大小成正比d.总体的标准差成反比
答案:a
解析:样本均值的标准误计算公式为:T忑,标准误与标准差成正
比,与样本量的平方根成反比。
[例题•多选题]在参数估计中统计量的标准误差可用于。
a.衡量样本统计量与总体参数之间的差距
b.衡量样本统计量的离散程度
c.衡量样本统计量的集中程度
d.衡量总体参数的离散程度
e.衡量总体参数的集中程度。
答案:ab
解析:统计量的标准误差也称为标准误,是指样本统计量分布的标准差。可用于
衡量样本统计量的离散程度。在参数估计中,它是用于衡量样本统计量与总体参
数之间差距的一个重要尺度。
第二节参数估计
知识点一:点估计与区间估计
一.点估计与区间估计
参数估计是用样本统计量去估计总体的参数。
用样本统计量来估计总体参数有两种方法:点估计和区间估计
点估计:是用样本统计量的实现值来近似相应的总体参数。
区间估计:是根据估计可靠程度的要求,利用随机抽取的样本的统计量确定能够
覆盖总体参数的可能区间的一种估计方法。
区间估计是包括样本统计量在内(有时是以统计量为中心)的一个区间,该区间
通常是由样本统计量加减估计标准误差得到的。与点估计不同,进行区间估计时,
根据样本统计量的抽样分布,可以对统计量与总体参数的接近程度给出一个概率
度量。
标准正态分布为n(0,1)分布,将概率分布标准化的公式为:
观测值-均值x—〃
Z
标准差=Bg
将z所对应的概率称为置信度或置信水平,将”表示的范围称为置
信区间。
几个概率下的置信区间:
1.以68.73%的置信水平推断总体参数推断总体参数口的置信区间为(Z=l)
-a-a
(J厘J力)
2.以95.45%的置信水平推断总体参数推断总体参数口的置信区间为(z=2)
Jn)
3.以99.73%的置信水平推断总体参数推断总体参数口的置信区间为(z=3)
()
4.还有一个95%的概率度为z=l.96
X-196/E+】969
[例题•多选题]由样本统计量来估计总体参数的方法有()
a.点估计b.区间估计c.假设检验
d.近似估计e.抽样估计
答案:ab
解析:用样本统计量来估计总体参数有两种方法:点估计和区间估计
[例题•单选题]以68.27%的置信水平推断总体参数的置信区间为
C.色哈,"W)&H吟,,啕
答案:a
a-a)
解析:68.27%的置信水平,其置信度为1,则置信区间为
知识点二:评价估计量的标准
用于估计总体参数的估计量可以有很多,如何选择估计效果最好的那种估计量,
评价估计量的好坏的标准具体有:
1.无偏性,是指估计量抽样分布的期望值等于被估计的总体参数。e(8)=8
2.有效性,是指估计量的方差尽可能小。对同一个总体参数的两个无偏估计量,
有更小方差的估计量更有效。
3.一致性,是指随着样本量的增大,标准误u'一而越小,点估计量的值越来越
接近被估计总体的参数。
[例题•多选题]评价估计量的标准为()。
a.一致性b.无偏性c.显著性
d.有效性e.综合性
答案:abd
解析:评价估计量的标准为:一致性、无偏性、有效性。
[例题•多选题]样本均值是总体均值的()
a.无偏估计量b.一致估计量c.有偏估计量
d.无效估计e.近似估计量
答案:ab
解析:从无偏性和一致性来看,样本均值是总体均值的无偏估计量、一致估计
量。
知识点三:一个总体均值的区间估计
在对总体均值进行区间估计时,需要考虑总体是否为正态分布、总体方差是否已
知,用于估计的样本是大样本(n230)还是小样本(n<30)等几种情况。但不
管哪种情况,总体均值的置信区间都是由样本均值加减估计误差得到的
一般将置信水平表示为卜a,统计量分布两侧面积各为a/2的分位数值,它
取决于事先所要求的置信度(或可靠程度)。因此总体均值在1-a置信水平
下的置信区间可一般性地表达为:(;-分位数值*7的标准误差,7+分位数值
*7的标准误差)
(-)大样本的估计
大样本(n230)情况下,当总体方差已知时,总体均值"在置信
-a-a
水平下的置信区间为(6册)
式中:a为事先确定的一个概率值,它是总体均值不包括在置信区间的概率;
a
1-a为置信水平;z.n为标准正态分布上两侧面积各为a/2时的z值;、/〃
为估计误差。
大样本情况下,当总体方差。,未知时,上式中的b,可以用样本方差一代替,总
体均值〃在i-a置信水平下的置信区间为(X不‘X
[例题•单选题]以95.45%的置信水平推断总体参数的置信区间为
卜春氏6牙+2竟)
C.
答案:b
-c0
解析:95.45%的置信水平,其置信度为2,则置信区间为・R喙)
(二)小样本的估计
小样本(n<30)情况下,对总体均值的估计都是建立在总体服从正态分布的假定
前提下。
(1)当总体方差。已知时,样本均值经过标准化后仍服从标准正态分布,此时
总体均值〃在1-a置信水平下的置信区间仍为('"Q『FC
(2)如果总体方差b:未知时,样本均值经过标准化后仍服从自由度为(n-1)
,=---=~:(«-I)
的t分布,即sljn。t分布也是对称分布,只不过计算出来的t值
对应的概率要查t分布概率表。总体均值〃在1-仪置信水平下的置信区间为
-S-S
(V«)
总体均值的置信区间是由样本均值和估计误差两部分组成的。
[例题•单选题]小样本情况下,总体服从正态分布,总体方差已知,总体均值在
置信水平
1-3帝)+3与]卜-4弓5+4三]
C.IW-Jn)&\5W
答案:a
解析:小样本(n<30)情况下,当总体方差b?已知时,样本均值经过标准化后
仍服从标准正态分布,此时总体均值〃在1-&置信水平下的置信区间仍为
X-Z.〃—=,X+Z./27,
(5)
[例题•单选题]小样本情况下,总体服从正态分布,总体方差未知,总体均值在
置信水平
;25+2
b.(-ii)
份-3爷)+3
c.\W7鞫)d.I'inm)
答案:a
解析:小样本情况下,如果总体方差未知时,总体均值在置信水平(・a)下
的置信区间为J'"2而天)
[例题•单选题]在其他条件不变的情况下,提高抽样推断的置信度,抽样误差范
围会()。
a.不变b.变小
c.变大d.不能确定
答案:c
aa
解析:估计误差%"工,当抽样推断的置信度提高,不为变大,范围会
变大。
知识点四:一个总体比例的区间估计
在大样本(n230)情况下,当总体比例不已知时,在卜&置信水平下,总
体比例的置信区间为囱,*—川〃)
在大样本(n230)情况下,当总体比例不未知时,在1-&置信水平下,总
体比例的置信区间为(n‘、呻附‘)
总体比例的置信区间是由样本比例和估计误差两部分组成的。
[例题•单选题]根据随机抽样调查资料,某企业工人生产定额平均完成103%,
标准误为1%,置信度为95.45%时,可以推断该企业工人的生产定额平均完成百
分比()。
a.小于101%b.大于105%
c.在102%—104%之间d.在101%—105%之间
答案:d
解析:估计误差=2*1%,则103%±2%,范围为(101%,105%)
[例题•判断题]当np》5,并且n(l-p)25时,就可以认为样本容量足够大,样
本比例近似服从正态分布。
答案:正确
解析:在大样本条件下,根据中心极限定理,若np",n(l-p)»,则二
项分布可用正态分布近似。
第三节样本量的确定
知识点一:估计总体均值时样本量的确定
总体均值的置信区间是由样本均值和估计误差两部分组成的。
1.在重置抽样条件下,设e代表允许的估计误差,则样本量计算公式为:
如果总体标准差。未知,可以用样本标准差s来代替;也可以用试验调查的办
法,选择一个初始样本,以该样本的标准差s作为总体标准差。的估计值。
样本量与置信水平成正比,与总体方差成正比,与允许的估计误差的平方成反比。
[例题•计算题]对某大学的消费支出进行估计,已知该校的大学生消费支出的标
准差为300元,现在想要估计消费支出95%的置信区间,允许的估计误差不超过
30元,则应抽取多大的样本量?
解:已知。=300,e=30,z“2=1.96.则
“阴196〃3002
E2=303=384.16心385人
即应抽取385人作为样本。(注意,不是四舍五入)
[例题•多选题]决定样本量大小的因素有()
a.置信水平b.总体方差c.允许的估计误差
d.总体均值e.总体比例
答案:abc
解析:在重置抽样条件下,设e代表允许的估计误差,则样本量计算公式为:
[例题•判断题]样本量与置信水平成正比,与总体方差成反比,与允许的估计误
差成正比.()
答案:错误
解析,样本广*_平的平方成正比,与总体方差成正
比,与允许的估计误差的平方成反比.
知识点二:估计总体比例时样本量的确定
在重置抽样条件下,设e代表允许的估计误差,则样本量计算公式为:
(入2)'瓶1・幻
n=
样本量越大,估计误差就越小,估计的精度就越高。
估计误差由使用者预先确定。
大多数情况下,估计误差的取值一般应小于o.L
如果总体比例n的值不知道,可以用样本比例s来代替,或者取n=0.5,使
得Ji(1-n)达到最大。
[例题计算题]某冷库对贮藏一批禽蛋的变质率进行抽样调查,根据以前的资料,
禽蛋贮藏期变质率为5.3虬4.9%,现在允许误差不超过5%,推断的置信水平为
95%,问至少要抽取多少禽蛋进行检查?
解:已知n1=5.3%,n2=4.9%,e=5%>z„/2=l.96.
因为:(1-n.)=0.053x(1-0.053)=0.050
3(l-n2)=0.049x(1-0.049)=0.047,选方差最大的0.050,则
S用1.96?x0.050
n=
E2~=~005a-=76.83心77个
即应抽取77个禽蛋作为样本。
[例题•多选题]计算样本容量,如果总体比例的值未知,可以()
a.用样本比例来代替
b.取总体比例值为0.5,使得意(1-JT)达到最大
c.取总体比例值为0.1,使得n(1-n)达到最大
d.取总体比例值为0.2,使得口(1-n)达到最小
e.取总体比例值为0.3,使得n(1-n)达到最小
答案:ab
解析:计算样本容量,如果总体比例的值未知,大多数情况下,估计误差的取值
一般应小于0.1.如果总体比例n的值不知道,可以用样本比例s来代替,或者
取m=0.5,使得n(1-JT)达到最大。
[例题•判断题]在确定总体比例估计中的样本容量时,如果缺少比例的方差,常
取比例值为0.50
答案:正确
解析:取n=0.5,使得n(1-g)达到最大。
第四章假设检验
重点:
1、假设检验的过程
2、总体均值的假设检验、大样本与小样本检验
3、总体比例的假设检验
难点:
1、假设检验的过程
2、总体方差已知与总体方差未知的检验统计量的区别
第一节假设检验的基本原理
知识点一:假设检验的含义
假设检验是统计推断的另一项重要内容,它与参数估计类似,只是角度
不同。参数估计是用样本统计量估计总体参数的方法。
而假设检验是先对总体参数或分布形式提出某种假设,然后利用样本信
息和相关统计量的分布特征检验这个假设做出是否拒绝原来假设的结
论。
一.为什么要进行假设检验
进行假设检验是为了找出样本均值与总体均值之间存在误差的原因。
二.如何进行假设检验
运用小概率事件来检验。
小概率事件是指在一次事件中几乎不可能发生的事件,一般称为“显著
性水平”,用a来表示。显著性水平一般取值为a=0.05或a=5%0
三.假设检验的过程
1.提出原假设和替换假设(备择假设)。
在统计学中,把需要通过样本去推断其正确与否的命题称为原假设(零
假设),用瓜表示。
h0:某一给定数
与原假设相对立的就是备择假设,用h表示。
hi:PW某一给定数(双尾检验)
h1:IO某一给定数或〈某一给定数(单尾检验)
对于任何一个假设检验问题,其所有的结果都应包含在这两个假设范围
内。因此,在h。和储中,总有一个假设,且只能有一个假设成立。接
受h。,就表明否定了h,,反之亦然,否定h。,就表明接受了hlo
2.确定适当的检验统计量。
用于检验假设问题的统计量称为检验统计量。如同在参数估计中一样,
需要借助于样本统计量进行统计推断。
在大样本中,检验统计量服从正态分布,用z统计量。
在小样本中,检验统计量服从t分布,用t统计量。这和参数估计的考
虑情况是一样的。
3.确定显著性水平。
根据样本所得的数据来拒绝零假设的概率应小于0.05,当然也可能是
0.01,0.005等。
显著性水平就是允许的小概率水平,但小概率并不能说明不会发生,仅
仅是发生的概率很小罢了。统计推断中的假设检验是根据样本的数据信
息对关于总体参数的某种假设进行的判断,由于样本的信息与总体参数
的真实情况不完全一致,无论我们做出的拒绝或不拒绝原假设的结论,
都有可能犯错误。
第一类错误:弃真错误,即h。本来正确,却拒绝了它,犯这类错误的概
率不超过a,即:p(拒绝h。|h。为真}Wa
第二类错误:取伪错误,即h。本不真,却接受了它,犯这类错误的概率
不超过B,即:p{接受h°I也为真}Wa
在一般的假设检验问题中,犯第一类错误的概率最大不超过a,但由于
备选假设往往不是一个点,所以无法算出第二类错误的概率Bo一般情
况下,人们认为犯第一类错误的后果更严重一些,因此通常会取一个较
小的a值。人们通常选择显著性水平为0.05或比0.05更小的概率。
4.根据数据计算检验统计量值和与这个统计量值对应的概率p值,并进
行决策。
①设有总体:x〜n(R,o■),o。已知;
2
②随机抽样:样本均值工〜n(ix,o/n);
X一〃
③将“标准化:z=B品〜n(0,1);
④确定a值,查概率表,定临界值k
⑤将z和k值对比,作出判断。
确定显著性水平a,就确定了临界值k
根据显著性水平和统计量的分布,可以找出接受域和拒绝域
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度车辆改装设计与施工合同7篇
- 二零二五版文化娱乐行业人才代理招聘与项目合作合同3篇
- 二零二五年度科研实验室虫害控制与实验安全合同3篇
- 2025年度车辆保养与环保排放检测服务合同4篇
- 2025办公室装修合同书协议
- 2025年度橱柜安装与厨房装修工程分包合同范本4篇
- 2025年度场建筑钢材定制加工与销售合同3篇
- 2025房屋个人装修合同协议书
- 债权附义务赠与合同
- 二零二四年度业绩考核与股权激励相结合的劳动合同3篇
- 【探迹科技】2024知识产权行业发展趋势报告-从工业轰鸣到数智浪潮知识产权成为竞争市场的“矛与盾”
- 《中国政法大学》课件
- GB/T 35270-2024婴幼儿背带(袋)
- 2024-2025学年高二上学期期末数学试卷(新题型:19题)(基础篇)(含答案)
- 2022版艺术新课标解读心得(课件)小学美术
- Profinet(S523-FANUC)发那科通讯设置
- 红色历史研学旅行课程设计
- 下运动神经元损害综合征疾病演示课件
- 2023中考地理真题(含解析)
- JJF 1101-2019环境试验设备温度、湿度参数校准规范
- GB/T 25000.51-2016系统与软件工程系统与软件质量要求和评价(SQuaRE)第51部分:就绪可用软件产品(RUSP)的质量要求和测试细则
评论
0/150
提交评论