2023年统计学笔记精修版_第1页
2023年统计学笔记精修版_第2页
2023年统计学笔记精修版_第3页
2023年统计学笔记精修版_第4页
2023年统计学笔记精修版_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

绪论

第一节记录学的含义和作用

一、什么是记录学

1.记录学的含义

记录学是有效搜集、处理、分析和解释数据,发现规律,以便更好决策日勺一门措施论学科。

2.分析数据的措施有描述记录、推断记录。

⑴描述记录

①描述记录是将所搜集的数据处理后,用数值、表格或图形形式体现的有用信息。

②描述记录是基础,它为推断记录、记录征询、记录决策提供必要

⑵推断记录就是根据样本数据特性去估计或检查总体的数据特性。

二、记录学的作用和重要性

1.记录学的作用

人们用数据发现的规律做出更好的决策。

三、要发现规律,对记录数据一般有规定:客观性、合用性、精确性和及时性。

记录学是怎样处理实际问题的?

记录学处理实际问题的基本思绪是:

①提出与记录有关的实际问题;

②建立有效II勺指标体系;

③搜集数据;

④选用或发明有效的记录措施处理、显示所搜集数据的特性;

⑤根据所搜集数据的特性、结合定性、定量知识作出总体特性的合理推断:

⑥根据推断给出更好决策H勺提议;

不处理问题时,反复第②・⑥步。

第二节记录学的基本概念

♦一、总体、单位和样本

1.总体

记录总体是根据一定目确实定口勺,由客观存在口勺、具有某种同质性口勺许多种别事物构成日勺整

体。

⑴同质性是确定记录总体口勺基本原则,它是根据记录的研究目的而定的J。研究目的不一样,

所确定的总体也不一样,其同质性的I意义也随之变化。

⑵记录总体还应具有大量性,即记录总体应应当由足够数量的同质性单位构成。

2.总体单位(简称单位)是构成总体的各个个体。如经典案例1中英军R勺每架战机;事例

4中时每个居民。

3.由总体的部分单位构成的集合称为样本(又称子样)。构成样本的单位称为样品,样本中

样品的数目称为样本容量。

4.记录学处理问题的目的是认识总体的数据特性。不过,当调查是破坏性口勺,或者出于成

本、时间等原因考虑时,不必要或不也许对构成总体的所有单位都进行调查。

二、标志、指标(参数)和记录量

志:

⑴总体单位普遍具有日勺属性或特性称为标志。

⑵标志按其体现分为品质标志和数最标志两种。

①品质标志表明单位属性方面的特性,品质标志的体现只能用非数值来描述.

♦:♦(如:经典案例1中英军战机的类型,事例4中每个居民口勺性别。)

♦②数量标志表明单位数量方面H勺特性,其体现用数值来描述

(如:经典案例1中英军战机的弹孔位置,事例4中每个居民的收入。)

2.参数(标志)

⑴记录总体具有H勺数量特性的概念和数值称为记录指标,也称为参数。

⑵记录指标由两项基本要素构成,即指标的概念和指标的取值。

(指标的概念是对所研究现象本质U勺抽象概括,也是对总体数量特性的I质的规定性。)

(例如事例4中居民人口数100万人,总收入31.4亿元。)

⑶记录指标按表达形式可以分为数量指标和质量指标.

①但凡反应现象总规模、总水平的记录指标称为数量指标,用绝对数来表达。例如事例4中

居民总数100万人、总收入31.4亿元等,

②但凡反应现象相对水平和工作质量的记录指标称为质量指标,用相对数或平均数来袤达.

例如企业职工平均工资5000元、工人出勤率93%等。质量指标是总量指标的派生指标,以

反应现象之间的内在联络和对比关系。

⑷单个指标不能反应总体的全貌,这便需要设置指标体系。记录指标体系是由一系列互相联

络的记录指标构成的有机整体,用以反应所研究现象各方面互相依存互相制约的关系。

3.记录量

⑴记录量是样本观测量的一种已知函数,用来阐明样本的特性。是样本观测量的一种已知函

数,用来阐明样本的特性。

⑵抽取的样本不一样,记录量的观测值也就不一样。如样本平均数、样本方差、样本比例是

记录量,抽取样本后,人们一般用与总体参数对应的记录量观测值,作为总体参数的估计.

(如某汽车制造企业从生产的一批轿车中抽取了16辆轿车,用这些轿车的平均行驶里程值、

合格率值分别作为该批轿车平均行驶里程、合格率日勺估计。)

三、数据

(一)变量与变量值

1.即阐明现象日勺某一事实或数量口勺特性称为变量,将上述标志、指标和记录量的名称进行归

纳就是变量。

2.2.变量II勺详细体现是变量值,数据就是变量及其体现,也可称为反应客观事物的事实或数

量根据。

3.如:收入是一种变量,收入的体现是变量值。

将在特定研究过程中搜集的所有数据集合在一起,称为数据集。

根据变量值确实定与否,变量分为确定性变量(受确定性原因影响,原因是明确的,可解释,

可控制的)与随机变量(受许多不确定原因影响,如员工的起床时间)。

(-)数据口勺计量尺度

搜集数据时需要用到如下四种由低到高的计量尺度:定类尺度、定序尺度、定距尺度和定比

尺度,计量尺度U勺不一样决定了不一样的数据分析与处理措施。

1.定类尺度是阐明客观现象无序类别的计量。定类尺度的重要数学特性是或“W”.如

居民U勺性别是男、女计量,战机的类型是战斗机、轰炸机、侦察机等计量,这一场所的所使

用时数值只作为无序分类的代码。

2.定序尺度是阐明客观现象有序类别的非数值计量。定序尺度口勺重要数学特性是或

“>”.例如,对居民的满意度计量可以分为非常满意、满意、一般、不满意、非常不满意五

类。这一场所11勺所使用的数值只作为有序分类的代码。

3.定距尺度是阐明客观现象数值间距故意义II勺计量。其用确切的数值反应现象之间在量方

面的差异,定距尺度的重要数学特性是.如息量指标是定距尺度计量H勺。

(0不代表不存在)

4.定比尺度是阐明客观现象两个数值比故意义口勺计量。定比尺度日勺重要数学特性是“X”

a

如质量指标中日勺相对数、平均数是定比尺度计量的(0代衣不存在)

5数据分类

⑴定类尺度,定序尺度的数据统称为定性数据。定性变量是指带有定性数据的变量。

⑵定距尺度,定比尺度的数据统称为为定量数据。定量变量是指带有定量数据的变量。

根据定量变量值持续出现与否,定量变量分为持续性变量与离散型变量。

①持续型变量是指变量在某一区域内的取值是持续不停的,无法一一列举。如:军机的弹孔位

置,产品日勺寿命等。

②离散型变量是指变量的取值是间断口勺,可以一一列举。例如,产品数等。

(三)数据II勺类型

根据对客观现象观测的角度不一样,记录数据可分为:横截面数据•、时间序列数据和面板数

据。

1.横截面数据又称为静态数据­,它是指在同一时间对同一总体内不一样单位进行观测而获得

的数据。例如,2023年全国各省、市、自治区的居民收入总值就属于横截面数据。

2.时间序列数据又称为动态数据,它是指在某一段时期内准时间次序对同一总体进行观测而

获得的数据%例如,“十二五”期间我国按年份次序的居民收入总值就属于时间序列数据

3.面板数据则是同步在时间和截面空间上获得的二维数

据。例如20231023年30个企业的总产值数据。面板数据

则由30个企业23年的数据构成,共有300个观测值。从某

一年份看,它是由30个企业总产值数

第二章搜集数据

第一节记录调查方案设计

调查方案设计是指导整个调查过程的大纲性文献,其重要内容重要包括如下几种方面:

一、确定调查目日勺

1.调查要到达的详细目的

2.回答“为何调查?”

3.调查之前必须明确

二、确定调查对象和调查单位

1.调查对象:调查研究欧J总体或调查范围

2.调查单位:需要对之进行调查日勺单位。可以是调查对象的所有单位(全面调查),

也可以是调查对象中H勺•部分单位(非全面调查)

回答“向谁调查?

三、选择合适的调查方式、调查措施

1.调查方式是指调查的组织方式,重要有:普查、抽样调查、经典调查、重点调查和记

录报表制度

调查措施是指搜集记录资料的措施,重要有:问卷法、访谈法、观测法和试验法

四、设计调查项目和调查表

1.调查项目:调查的I详细内容

2.调查表:体现调查项目的表格或问卷。有单一表和一览表两种形式。

3回答“调查什么?”

五、确定调查时间

1.记录调查时间包括两种涵义:调查时间和调查期限

2.调杳时间:调查资料日勺所属时间(时期或时点)。

调杳期限:进行调查工作的时间,包括搜集资料和报送资料的整个工作所需要的时间

六、调查汇报的撰写

调查汇报的撰写包括:调查过程的描述、根据调查数据所做的决策、对调查成果的评价

【在调查方案中,应给出:提交调查汇报的详细时间,并对调查的精度、费用等提出详细规

定】

七、制定调查工作的组织实行计划

第二节数据搜集来源

一、数据搜集的来源

1.原始数据:必须规定调研者亲自搜集

2.二手数据:调研者需要识别和评估二手数据的有效性

二、二手数据的搜集

1.二手数据的来源

⑴内部二手数据

⑵外部二手数据

2.二手数据搜集的|特点

长处:快捷、成本低、易获取

四、缺陷:有关性差、时效性差、可靠性低

五、二手数据搜集的注意事项

1.二手数据H勺评估重要包括:

2.研究目H勺H勺评估一一调研日勺目口勺是什么

3.二手数据来源评估一一谁搜集了这些资料

4.研究内容评估一一搜集了某些什么样的资料

5.调杳方式、措施评估一一这些资料怎样获得欧I

6.二手数据有关性评估一一这些资料与其他资料H勺一致程度怎样

7.二手数据时效性评估一一这些资料是何时搜集日勺

第三节原始数据的搜集

一、数据搜集的分类

按数据搜集口勺组织方式不一样,分为记录报表和专门调查

记录报表:按照国家有关法规的规定,自上而下地统一布置、自下而上地逐层填报的一

种调查组织方式。

1.专门调查:为了某一特定目的或专门问题而专门组织的调查

按数据搜奥对象包括范围的大小不一样,分为全面调查和非全面调杳

全面调查:对构成调查对象中的所有党委进行一一不漏的调查

非全面调查:是在记录调查过程中,仅对调查中的一部分单位进行调查。包括:抽样调查、

重点调查、经典调查和非全面记录报表

按数据搜集日勺登记时间与否持续,分为常常性调查和一次性调查

2.常常性调查:又称持续性调杳,它是为了观测社会经济现象在一定期期内的数量变化所

进行口勺调查登记或数据搜集

♦一次性调查:又称不持续性调查,它是对所研究日勺社会经济现象间隔一段时间所进行H勺

调查登记或数据搜集

按数据搜集实行主体的不一样,分为政府记录调查和民间记录调杳

♦:♦二、数据搜集的调查方式

1.数据搜集的调查方式,按照组织方式重要有:普查、抽样调查、经典调查、重点调查和

记录报表制度

普查:专门组织的一次性全面调查

普查的特点:

(1)•般是一次性调查,周期性强

⑵全面性调查,搜集的资料全面、系统、精确

⑶普查11勺点多面广,工作量大,投入多

普查应遵照如下原则:

⑴时间统一性原则

⑵登记工作的规范性原则

⑶普查项目统一规定原则

⑷同类普查同周期性原则

抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本数据推断总体

数量特性的一种非全面调查。

⑴概率抽样:根据随机原则从总体中抽选样本,并根据样本信息对总体的某些特性做出

估计推断,对推断也许出现的误差可以从概率意义上加以控制

非概率抽样:调查组根据自己的以便或主观判断抽取样本的措施

⑵抽样调查优势:经济性、时效性、精确性

①⑶几种详细的抽样方式:

②简朴随机抽样一一是指从总体N个单位中随机抽取n个单位作为样本,使每个也

许的样本被抽中的I概率相等的一种抽样方式。

③分层抽样一一重要特性分层按比例抽样,重要使用于总体中的个体有明显差异。

共同点:每个个体被抽到的概率都相等N/Mo

④整群抽样一一是将总体中各单位归并成若干个互不交叉、互不反复的集合,称之

为群;然后以群为抽样单位抽取样本的一种抽样方式。【应用整群抽样时,规定各群有很好

的代表性,即群内各单位的差异要大,群间差异要小】

等距抽样——首先将总体各单位按一定次序排列,更具样本容量大小确定抽选间隔,然

后随机抽取一种进入样本,直到满足规定为止的一种抽样方式

多阶段抽样一一是指将抽样过程分阶段进行,每个阶段使用的抽样措施往往不一样,即

将多种抽样措施结合使用,其在大型流行病学调查中常用。

第一阶段,将总体分为若干个一级抽样单位,从中抽选若干个一级抽样单位入样;

第二阶段,将入样的每个一级单位提成若干个二级抽样单位,从入样的每个一级单位中各抽

选若干个二级抽样单位入样……,依此类推,直到获得最终样本

3.经典调查:

从调查对象的所有单位中选择少数经典单位进行调查。目”勺是描述和揭示事物的本质特性

和规律。调查成果不能用于推断总体

4.重点调查:

从调查对象的所有单位中选择少数重点单位进行调查。调查成果不能用于推断总体

5.记录报表制度:按照国家有关法规的规定,自上而下地统一布置、自下而上地逐层填报

的一种调查组织方式。

记录报表内容:报表目录、报表表式、填表阐明

记录报表的资料来源:原始记录、记录台账、企业内部报表

三、数据搜集H勺措施

1.问卷法:邮寄调查、调查、电脑辅助调查、网络调查

2.访谈法

长处:广泛地认识客观现象、深入地研究问题、资料搜集可靠和应用面很广

缺陷:必须依赖具的较高素质的访问员、直接交谈会对获取资料的各观性产生负面影响、

在不便问询时访谈无法实行、调杳费用大、时间长,也许会碰到意料不到H勺困难

集体访谈:将•组被调查者集中在调查现场,让他们对调查的主题刊登意见以获得资料

2.【常用"勺有:头脑风暴法、德尔非法(专家意见法)、深度访谈法】

3.个别访谈:调查者对每一名受访者进行一对一单独访谈。

4.观测法:

就调查对象的行动和意识,调查人员边观测边记录以搜集所需信息

调查人员不是强行介入

可以在被调查者不察觉的状况下获得资料

4.试验法

在设定的特殊试验场所、特殊状态下,对调查对象进行试验以获得所

需资料。有室内试验法和市场试验法

第四节记录数据的质量

一、记录数据H勺误差

记录调查误差分为登记性误差和代表性误差

1)登记性误差:由于调查者或被调查者口勺人为原因所导致FI勺误差。理论上讲可以消除

代表性误差:用样本数据进行推断时所产生的误差。一股无法消除,但事先可以进行控制和

计算

第三章整顿和显示数据

第一节数据的整顿与显示问题的提出

1.根据处理问题IJ勺目确实定分组的变量,如经典案例4中分组的变量为收入。

2.确定组数等,如经典案例4中,收入由贫到富分为5组,持续型变量如收入还波及到确定每

组组距、上限和下限。

3.按不重不漏"勺原则对数据进行分组,确定各组频数、频率,经典案例4还波及到每组的收

入值等。

第二节4.用表、图显示整顿的数据,如表3・1、图3・1

第三节定量数据的整顿与显示

一、定量数据的整顿

1.重要采用记录分组来整顿。数据分组后,把每组的个数称为频数。每组个数所占比

例称为频率。

2.记录分组就是指根据记录研究的目的和客观现象的内在特点,按某个变量(或几种

变量)把被研究的总体划提成为若干个不一样性质的组,然后再记录出各组的频数,就形成

了一张频数分布表。

记录分组措施:单变量值分组和组距分组

1)单变量值分组就是将一种变量值作为一组,适合变量值较少的状况。

①例如居民家庭按照人II数进行分组,可分为1口人家庭、2口人家庭、3口人家

庭、4口人家庭、5口人以上家庭H勺组别。

②组距式分组是将变量值的一种区间作为一组,适合于持续变量和变量值较多的离

散型变量状况。组距式分组可采用等距分组,也可采用不等距分组。

③等距分组是指每组组距相等。

等距分组的基本环节有:

第一步:确定组数:一般状况下,一批数据所分的组数不应少于5组且不多于15组。在实

际分组时,可以参照经验公式来确定组数K,即/

第二步:确定组距:组距是•组的上限与下限之差

组距=(最大值-最小值)小组数

第三步:记录出各组的频数并整顿成频数分布表。

[记录各组频数时要注意遵照不重不漏的原则。为处理不重的问题,记录分组时习惯规定

“上组限不在组内”例如100这一数值不能算在“90~100”这一组,而是算在“100~110”

这一组内。】

闭口组:有上、下限值

开口组:“XX如下”及“XX以上”

组中值一一常用作各组的代表值:下限与上限之间的中点值,即:

组中值:下限值+上限值

-2

/(100如下,缺下限)

④(90以上,缺上限)

⑤不等距分组是指并非所有组距都相等。

二、定量数据日勺图示

定量数据常用的记录图重要有直方图、茎叶图、曲线图、散点图等。

三、频数分布图口勺类型

频数分布图则属于其中一种记录图,其重要类型有如下三种。

钟型分布:“两头小,中间大”即中间变量值分布R勺频数多,两端分布频数少,

(III)中,其分布特性是以变量日勺平均数为对称轴,左右两侧对称分布

(I)(II)中为非对称分布,(I)是右偏分布(II)是左偏分布,

U型分布:“两头大,中间小”即中间日勺变量值分布频数少,两端的变量值分布频数多,与钟

型分布刚好相反

J型分布:有两种类型,一种是正J型,即频数伴随变量的增大而增多;另i种则呈反J型,即

频数伴随变量H勺增大而减少

反J型

第四节品质数据的整顿与显示

一、定类数据H勺整顿与图示

(一)定类数据H勺整顿

定类数据整顿重要用频数分布表进行。

(")定类数据口勺图示

定类数据B勺图示重要有条形图、饼图等

二、定序数据H勺整顿与图示

(一)定序数据H勺整顿

定序数据也是采用频数分析表进行整顿。

还可以计算合计频数和合计频率,合计措施有两种:向上合计和向F合计。

(")定序数据H勺图示

定序型数据的记录图重要有合计频数分布图和环形图。(P50-51)

第五节图表的合理使用

一、鉴别图形优劣口勺准则

(一)一张好的图形应臬有MJ特性

…1.反应数据分布特性和规律八

...2.便于比较。

...3.有对图形的描述和文字阐明。

(")鉴别图形优劣的准则

.•.1.与否有助于真实、精确洞察问题的实质。

...2.与否提供完整的信息量,与否使复杂的)观点简朴化。

二、记录表的设计

(一)记录表H勺概念和构造

1.概念

记录表是体现记录资料的一种形式。

2.构造

从形式上看,由四部分构成:

总标题:是表口勺名称,概括记录表中要阐明的内容;

B.横行标题:是各组H勺名称,反应总体各构成部分;

C、纵览标题:是分组标志或指标H勺名称,阐明纵行所列各项资料的内容;

D、指标数值:也称数字资料,是记录表的详细内容。

从内容上看,由主词和宾词两个部分构成。主词是记录表所阐明的总体,总体的I各组或各组

日勺名称。宾词是用于阐明主词的多种指标。一般,记录表的主词列布表的左方,宾词列在表

时右方,如表310所示(P52)

(-)记录表口勺种类

记录表按照总体分组状况不一样,可分为简朴表、分组表和及合表三类。

(三)记录表H勺编制

1.记录表线条的绘制。

一般记录表的上下端以粗线绘制,表内纵横线以细线绘制。表格口勺左右不封口。

2.合计栏的J设置。

记录表各纵列需要合计时,可将合计列放在最终一行,各横行若需要合计时,可将合计列放

在最前一栏或最终一栏。

3.标题日勺设计。

记录表的标题要简要扼要,以简洁而精确H勺文字来概括记录资料的内容、资料所属时间、

空间等。

4.计量单位的列法。

指标数值一般要有计量单位,若只有一种计量单位时,可在表右上端注明。假如计量单位

不统一,可专设计量单位栏。

5.标志值的书写。

标志值应当填写整洁,对准位数。当数值太小可忽视不计时,写上“0”;当缺失某项资料

时,用符号“…”表达;不应有数字时,用符号表达。

6.注解或资料来源的标明。

一般而言,记录表下方应当注明资料来源,以便查考。

第四章数据分布的数字特性

第一节数据集中趋势的测定

一、集中趋势测定问题的提出和作用

(一)问题U勺提出

对于总体中的个体数据,有时会展现出在一定范围内以某个数据为中心上下波动的分布

特性,即数据有时具有它分布日勺中心,我们称之为数据分布的集中趋势。该怎样测定一组数

据的集中趋势呢?

二)集中趋势测定日勺作用

1.集中趋势指标的分类

算术平均数

集数值平均数调和平均数

趋儿何平均数

指众数

位置代表值

中位数

2.集中趋势指标H勺作用

(1)可以反应一组数据分布的中心或一般水平;

(2)可以反应同一现象在不一样步间或空间条件下的发展趋势或差异;

(3)可以用来分析现象之间的依存关系;

(4)样本平均数是记录推断的一种重要记录量。

。二、集中趋势H勺测定

(-)数值平均数

❖数值平均数只合用于定量数据(数值型数据),而不合用于定性数据。

❖1.算术平均数

(1)简朴算术平均数

①简朴算术平均数是根据未分组数据(原始数据)计算的一种平均数,它是招所有

日勺原始数据相加再除以数据总个数得到的。

样本计算的简朴算术平均数的计算公式是:

_今

——

总体数据计算”勺简朴算术平均数II勺计算公式为:

N

ZE

〃=一

N

(2)加权算术平均数

加权算术平均数是根据分组数据计算日勺一种平均数。设样本被分为k组,各组的频数为fi样

本计算的加权算术平均数的计算公式为:

其中,Xi有两种状况:在单变量值分组中,Xi代表各组的变量值;在组距式分组中,Xi代表各

组的组中值,/称作权重:频率)。

总体数据计算日勺加权算术平均数欧I计算公式为:

Z"kf

xz5Zfi

i=li=l

(3)算术平均数的重要数学性质

①各变量值与其算术平均数的离差之和等于零;

即:/

②各变审值与其算术平均数的I离差平方和最小。

Z(x,-ip=min或2(为一工=min

即:0

2.调和平均数

调和平均数加权算术平均数的一种变形。

调和平均数与加权算术平均数口勺关系是:

若已知各组变量值及其标志总量mi(mi=xifi),而缺乏fi的数据时,则加权算术平均数

可通过变形得到fi(fi=mi/xi)后,再以mi为权数的J调和平均数形式来计算。

为=登

乙Xj乙X,

3.几何平均数

几何平均数是n个变量值连乘积曰勺n次方根

(1)简朴几何平均数

当样本数据中各变量值出现的次数都相似时,用简朴儿何平均数公式。

礼=自尸4•…•x〃=麻

式中,xi代表各变量值,n为样本容量,/为连乘符号

(2)加权几何平均数

当样本数据中各变量值出现U勺次数不全相似时,用加权几何平均数公式。

XG」倜叫游喏•…•呼

式中,XI代表各变量值,n为样本容量,/为连乘符号

【假如获得一组总体数据,根据总体数据计算U勺几何平均数〃勺公式与样本数据的基本相

似。】

需要注意的是:

当数据中出现零或负值时不适宜计算几何平均数;

几何平均数是•种合用于特殊数据日勺平均数,当变量值之间具有连乘积关系时,采用几何平

均数愈加合理;

现实生活中,几何平均数重要用于计算现象的平均增长率和平均发展速度(详见本书第九

章)。

(二)位置代表值

1.众数

1)众数(Mode)是一组数据中出现频数最多的变量值,一般用符号表达。

2)众数代表日勺是最常见、最普遍H勺状况。众数不仅可以度量定性数据口勺集中趋势,还可以

度量定量数据的集中趋势。

①众数的特点:

②众数是位置型平均数,它只与位置有关,不受数据中极端值日勺影响;

③从分布形态上看,众数是一组数据分布最高峰点所对应的变量值;

④众数具有不唯一性(可以有一种或多种或没有)

①组距式分组数据中众数H勺求解较为复杂。在组距式分组数据中,求解众数的环节:

②先要确定众数所在组;

③假如是等距分组数据,那么次数最多的那一组就为众数组;假如是不等距分组数

据,那么组密度(组频率/组距)最大H勺组就为众数组。

之后再按照下列公式求解众数的近似值。计算公式如下:

下限公式:/

或上限公式:/

L-众数所在组的卜.限

U-众数所在组的上限

fm~众数所在组的次数

-众数所在组前一组的次数

九.1一众数所在组后一组的次数

〃一众数所在组的组距

2.中位数

1)中位数是一组数据从小到大排序后位于中间位置上的变量值,一般用符号表达。

2)由于中位数和位置有关,因此中位数只能度量定序数据和数值型数据口勺集中趋势;

①求解中位数的环节:

②首先,对数据进行徘序;

3)另一方面,确定中位数的H立置,即中间位置;

4)最终,计算中间位置上的变量值。

①中位数的位置计算公式为:

数据个数n为奇数,

②中位数为:/

③数据个数n为偶数

中位数为:/

④分组数据中位数的求解

对于分组数据而言,不需要再此外排序,直接按照分组日勺次序即可。

分组数据中位数日勺位置计算公式:

岫她跖¥(》,焰缈黝I)

求出中位数位置后,按照卜列公式求解中位数的近似值。

下限公式:

ZjS

Mt%上+—^-------xrf(4.13)

-ftv

或上同公式:

)。所I

MnU——-----------xd(4.14)

t4(看例题P68)

5)中位数特点及应用

6)中位数是位置型度量值,其特点是不受极端值的影响,因此具有稳定性;

7)在实际运用中,当数据R勺偏斜程度较大时,用中位数作为该组数据•般水平的代表值比

较合适。

8)分位数

①实际上,测度数据在特定位置上日勺水平,还可以计算四分位数、十分位数和百分位数

等,我们统称它们为分位数。

四分位数的计算措施:

四分位数:定义:一组数据由小到大排序后位于25%位置和75%位置处的变量值。

A.【位于在25%位置处的变量值(即下四分位数,用符号QL表达)和处在75%位置处U勺

变量值(即上四分位数,用符号QU表达),上、下四分位数之间恰好包括了50%的数

据。】

B.求解四分位数的环节

a)先排序;

b)然后确定上、下四分位数的位置:

最终,求对应位置上的变量值。(看例题P69)

Q位位13.(力蜴据幔)

44

9)箱线图

将中位数、四分位数和其他指标结合起来,可以更详细的反应数据的分布特性。箱线图是由

一组数据的最小值(Xmin)、最大值(Xmax)、下四分位数(QL)、上四分位数(QU)

和中位数(Me)这五个特性值构成。通过箱线图,可以观测数据H勺中心位置、离散程度及

对称性等特性,同步还可以进行多组数据分布的比较。

(三)算术平均数、众数和中位数三者的比较与应用

(1)算术平均数属于数值型平均数,它是根据所有数据计算日勺集中趋势测度值,因此可以综

合反应所有数据口勺信息:众数和中位数属于位置型代表值,它们是根据数据分布的特定位置

确定出的集中趋势测度值,因此不能概括所有数据日勺信息

(2)算术平均数和中位数在任何一组数据中都存在且具有唯一性,但不一定所有数据都存

在众数,且众数也不具有唯一-性。一般状况下,在数据量充足大并且具有明显集中趋势时,计

算众数才故意义:

(3)算术平均数只合用于定量数据,中位数合用于定序数据和定量数据,众数则合用于所有

数据,即定性数据和定量数据均可;

(4)算术平均数受极端值的J影响,因此,当数据偏斜程度较大时(数据中存在极端值),不

适宜用算术平均数来代表数据日勺一般水平。众数和中位数不受极端值的影响,因此,当数据

偏斜程度较大时,可以考虑用众数或中位数来代表数据日勺一般水平;

(5)算术平均数可以估L或推断总体特性值。而众数和中位数不适宜用作此类推断

(6)算术平均数和众数、中位数的数量关系重要取决于数据分布的偏斜程度(非对称程

度)

对于展现单峰分布的数据,假如数据口勺分布是对称的I,则众数M0、中位数Me和算术平均数

X三者相等,即MO=Me=X

假如数据展现左偏(负偏)分布,阐明数据中存在极小值

从而略使中位数偏小,而众数则完全不受极小值大小和位置的影响,因此一般状况下,三者的

关系体现为X<Me<MO

假如数据展现右偏(正偏)分布,则一般有:MOVMeVX

第二节(7)皮尔逊经验公式数据展现偏斜但偏斜程度不大时,算术

平均数、众数和中位数之间存在一定的比例关系,即/

第三节数据离散程度的测定

一、离散程度测定问题的提出和作用

(一)离散程度测定问题的提出

由于差异性是数据口勺本质属性,因此各个数据与其分布中心之间总是存在着不一样程度

的偏离。我们把数据偏离其中心值口勺程度叫做离散程度,离散程度可以阐明数据之间差异程

度的大小,那么怎样测定一组数据H勺离散程度呢?

(二)离散程度测定的作用

离散程度的大小重要通过变异指标来测定。变异指标日勺重要作用有:

1.可以衡量平均指标的代表程度。变异指标值越大,则数据H勺离散程度越大、数据越分

散,继而平均指标H勺代表性就越弱;反之,变异指标值越小,则数据口勺离散程度越小、数

据越集中,继而平均指标的代表性就越强;

2.可以反应数据的稳定性却均衡性。变异指标值越大,则数据的离散程度越大,数据的稳定

性和均衡性就越差;反之,则数据日勺离散程度越小,数据内稳定性和均衡性就越好。

二、离散程度H勺测定

(一)异众比率

异众比率是指非众数组的频数占总频数的I比重,一般用Vr表达,计算公式为:

fn

i.式中:/是众数组的频数;/是变量值的总频数

1)异众比率H勺特点:

可用来衡量众数H勺代表性强弱,即,异众比率越大,则众数欧I代表性越弱;反之,众数的代表

性就越强;

异众比率重要用于测度定性数据日勺离散程度,也可以用于定量数据离散程度口勺测度。

(二)极差、四分位差和平均差

1.极差

1)极差(Range)乂称全龙,是一组数据中最大值与最小值之差,一般用R表达。计算公式

为:/

2)对于原始数据和单变量值分组数据:/为•组数据日勺最大值;/为•组数据日勺最小值。

对于组距式分组数据,极差就用变量值最大组的上限减去变量值最小组日勺卜.限近似得到。

极差的特点:极差是变异指标中最简朴的测度值,其长处是计算简便、易于掌握。但因极差

只运用了•组数据两端的信息,轻易受到极端值的I影响。因此,极差不能全面、稳定地反应

数据的离散程度。

2.四分位差

1)四分位差是指上四分位数(QU)与下四分位数(QL)之差,因此也叫内距或四分间距,

一般用表达。计算公式为:/

①四分位差特点:

②四分位差只能阐明中间50%数据的离散程度,它仍然不能充足反应所有数据的离散

状况。四分位差越大,阐明中间50%数据的离散程度越大;四分位差越小,阐明中间

50%数据的离散程度越小;

在一定程度上,四分位差也可以反应中位数的代表性好坏;

四分位差是一种次序记录量,因此四分位差合用于测度定序数据和定量数据"勺禽散程度。

3.平均差

1)平均差(meandeviation)是各变量值与其算术平均数离差绝对值的平均数。因此,也称平

均绝对离差,一般用M.D表达。

2)平均差的计算有两种状况

①简朴平均法

假如数据是未分组数据(原始数据),则用简朴算术平均法来计算平均差:

M.D=上------(〃为变量值个数)

②加权平均法

假如数据是分组数据,采用加权算术平均法来计算平均差:

二k,-司y;

M.D=q~i--------(左为组数)

①平均差的特点:

♦:♦平均差意义明确,计算成果易于理解,并且运用了所有数据H勺信息,反应了每个变量值与

平均数的平均差异程度。因此能全面地反应一组数据的离散状况。平均差越大,则数据

时离散程度越大;平均差越小,则数据的离散程度越小;

*为了防止正负离差互相抵消日勺现象发生,平均差在计算时给离差加上了绝对值。但由于

绝对值的)出现给计算带来了很大口勺不便,因此在实际应用中受到很大H勺限制。

*(三)方差和原则差

1)方差是各变量值与其算术平均数离差平方的J算术平均数。原则差就是方差的平方

根。

①方差、原则差特点:

2)方差、原则差运用了所有数据的信息,能很好地反应数据日勺离散程度;

3)方差、原则差是通过平方的措施消去离差的正负号,这更便于数学上日勺处理。为此,

方差、原则差是记录中最重要的变异指标,同步也是实际中应用最广泛欧I离散程度

测度值。

4)方差、原则差计算公式

总体数据

①未分组数据(原始数据)的总体方差和标准差的计算公式分别为:

(4.20)

②分组数据的总体方差和标准差的汁算公式分别为:

»(X,-“)2£区(X,-〃)2/

b?=q---------------,b=q-----------------(K为组数)(4.21)

SzVSr/

Z-lIr=l

样本数据

①未分组数据(原始数据)的样本方差和样本原则差的计算公式分别为:

£(%一斤)2忙区一方

S2=----------------S=--------------

77-11W-1

②分组数据H勺样本方差和样本原则差的计算公式分别为:

之(k-/之(X一斤)2/

_/=i/=1_________________

一kiz-i

Ez-i

/=1I(k为组数)

。(四)原则化值(原则分数)

原则化值就是用各变量值与其平均数的离差再除以其原则差。

原则化值U勺计算公式为:

X,-X

zi=---------

S

1)原则化值日勺特点:

2)原则化值具有均值为0,原则差为1的特性。

3)经验法则【3。质量管理法则的原理】

•使用条件:在正态分布或近似正态分布(对称的钟型分布)的条件下

•大概有68%的数据位于均值土1个原则差范围内;

•大概有95%的数据位于均值±2个原则差范围内:

•大概有99%的数据位于均值±3个原则差范围内

4)切比雪夫定理

运用切比雪夫定理来判断有多少的I数据落入以均值为中心的k(原则化值)个原则差

范围内。

•使用条件:任意分布形态的数据:

•根据切比雪夫定理的I内容,至少有(/)的数据落入均值左右k个原则差范围内,其

中k为不小于1的任意数,当然也可认为小数。

•k=2阐明至少有75%欧J数据落入均值±2个原则差范围内;

•k=3阐明至少有89%的数据落入均值±3个原则差范围内;

•k=4阐明至少有94%的数据落入均值±4个原则差范围内。

(五)离散系数

•离散系数也称变异系数(coefficientofvariation),它是极差、四分位差、平均差或原

则差等变异指标与其算术平均数对比的成果。

•常用的离散系数有极差系数、平均差系数和原则差系数,但应用最广泛的是原则差系

数。

原则差系数的计算公式:

(1)对于总体数据,其标准差系数计算公式为:

va=-(4.25)

4

其中:匕为总体标准差系数,。为总体标准差,〃为总体算术平均数。

(2)对于样本数据,其标准差系数计算公式为:

S

v==(4.26)

X

其中:匕为样本标准差系数,S为样本标准差,又为样本算术平均数。

•离散系数H勺作用

离散系数是测度数据嗡散程度的相对记录量,可用于比较不一样变量值水平或不一样计

量单位的不一样组别数据的离散程度。离散系数大日勺,则该组数据的离散程度就大;离散系

数小I包则该组数据的离散程度就小。

总结:反应数据离散程度的各测定值的应用场所

1)对于分类数据,重要用异众比率来测度其离散程度;

2)对于次序数据,重要用四分位差来测度其离散程度;

3)对于数值型数据,重要用方差或原则差来测度其离散程度.

4)当需要对不•样组别数据的离散程度进行比较时,则使用离散系数。

第三节数据分布形态的测定

一、分布形态测定问题的提出和作用

(一)分布形态测定问题的提出

集中趋势和离散程度是数据分布特性H勺两个重要方面,但要想全面理解数据的分布特点,

我们还需要懂得数据的分布形状,那么怎样测定一组数据日勺分布形状呢?

(二)分布形态测定时作用

通过度布形态日勺测定,我们可以理解数据分布形状的对称性以及分布曲线的扁平陡峭程

度。将这两点结合,我们还可以判断数据与否靠近于正态分布。

二、矩

1.数据分布形态的测度重要是通过偏度系数和峰度系数来实现的。矩又是计算偏度系数

和峰度系数曰勺基础

2.矩可分为总体矩和样本矩

样本距

一般来说,将一组样本Xl/-,Xn与其算术平均数X离差的k次方的平均数称为样本的Jk阶中

心矩,即/

其中,储为各组变量值,为各组变量值的权数。可以看出,一阶原点矩即样本算术平

均数。

算术平均数:一阶原点矩

方差:二阶中心矩

阶数k=3和k=4时,矩则可以反应数据的分布形态特性。矩可以当作是一系列反应数据分布

特性指标时统称。

三、偏度

偏度(skewness)是指数据分布的不对称程度或偏斜程度。偏度也就是对数据非对称程度

和方向的测度。用来测定偏度的记录量是偏度系数,记作SK。

对于分组数据,偏度系数SK的计算公式为:

SK=2

S'

其中,出为样本的3阶中心理,S,为样本标准差的三次方。

①偏态系数性质:

②假如分布是对称的,则SK=O;

•假如SKWO,阐明分布是非对称的,

当SK>0时,表明分布是右偏分布(正偏分布);

当SK<0时,表明分布是左偏分布(负偏分布)。SK的数值越大,表明数据的偏斜程度越

大。

四、峰度

1.峰度(kurtosis)是指数据分布曲线的陡峭或扁平的程度。

对峰度的度量一般以正态分布曲线为原则进行比较,假如比正态分布曲线愈加尖峭,称

为尖峰分布;假如比正态分布曲线愈加扁平,称为扁平分布。

测度峰度日勺记录量是峰度系数,记作Ko

对于分组数据,峰度系数K的计算公式为:

K=2・3

S4片中.4为样本的4阶中心矩.S"为样本标准参的四次方,

•峰态系数性质:

•当K=0时,阐明分布为正态分布;

当K>0时,阐明曲线是尖峰(陡峭)分布,即数据比正态分布更集中,K的数值越大,则曲线

越陡峭;

当K<0时,阐明曲线是扁平分布,即数据比正态分布更分散,K的数值越小,则曲线越平缓。

第五章抽样分布

第一节抽样分布基本概念

一、样本容量和样本个数

1.总体是研究口勺所有个体构成的集合,常用表达

二、从中随机抽取部分个体构成一种样本,构成样本H勺个体的数目,常用n表达,称为样

本容量,也称样本量。

三、参数和记录量

1.参数是用来描述总体数量特性H勺,如总体均值U、总体比例n、总体方差。2等

2.记录量是用来描述样本数量特性日勺,是由样本构造的函数,如样本均值X、样本比例P、

样本方差S2等

3.由于总体是唯一的、固定不变H勺,故参数往往是一种未知时常数;而样本不唯一,且一

旦抽取出来,就成为已知,故记录量是随机变量,其取值伴随样本日勺变化而变化。

4.抽样的目的就是要根据样本记录量去估计或推断总体参数。

四、抽样分布

1.记录量是随机变量。抽样分布就是记录量的概率分布

2.样本均值的概率分布、样本比例的概率分布、样本方差的概率分布等都称为抽样分

布。

五、现实世界中,我们面对日勺总体往往很大,进而样本数目将很可观,不也许将所有的样

本都抽取出来。因此抽样分布实质上是一种理论分布。它也许是精确的某已知分布,也

也许是以某已知分布为极限U勺极限分布。

六、抽样分布理论在准断记录中具有重要的作用,它是后续参数估计和假设检查的

理论根据和基础。

七、抽样分布的数字特性

(-)样本均值的数字特性

设总体的平均数为U,方差为。2,采用反复抽样的方式,从中抽取独立同分布

的样本:XI,…,Xno根据数学期望和方差的性质,可推出样本均值X数学期望(平均

数)、方差与总体的平均数、方差之间的J关系

E(又)=〃丫=〃b鳖

X101520253035404550

Pj_2_2£^£211

例题:252525252525252525

样本均值的J平均数

121750

〃=10x—+15x—+--+50X—=—=30

'25252525

总体均值

/7=1X(10+20+30+40+50)=30

样本均值U勺方差

《啕中-[丽闫卿确刑

总体方差

An=2

由式(5.1)可知:牙的平均数为4,

方差为0%。随着〃的增大,其方差越来越

小,从而牙的取值越来越向着4堂拢,故用

1》去估计〃理论依据成立。]

2.以上结论均建立在反复抽样情形下,

若是在不反复抽样情形下,方差需要用系数进行修正,从而样本均值的数字特性为:

(-)样本比例的数字特性

比例:总体(或样本〕中具有某种属性的个体数与所有个体数之比,总体比例记为冗。

根据数学期望和方差的性质,可推出样本比例P日勺数学期望、方差与总体的平均数、方

差之间口勺关系:

E(p)=%=兀b:=不(1一乃)

n

用P估计”理论根据成立

以上结论均建立在反复抽样情形卜,若是在不反发抽样情形卜,当样本容量很大时,方差

需要用系数进行修正,从而样本比例的数字特性为:

E(p)=-L个子

(三)样本方差的数字特性

设总体X方差为。2,采用反复抽样

的方式,从中抽取独立同分布H勺样本:X1…,Xn根据数学期望和方差的性质,可推出样本

方差的数学期望、方差与总体H勺方差之间的关系为:

/I—1

以上结论均建立在反复抽样情形下,若是在不反复抽样情形下,方差需要用系数进行修

正,从而样本方差的数字特性为

r・■.,

2a41N-n।

E(S2)=cr2cr2,=

〃工'二L:

(四)原则误(重点)

•记录量抽样分布的原则差,称为记录量的原则误,也称原则误差

•原则误可用于阐明抽样误差的大小。抽样误差是指由抽样的随机性引起的样本成果

与总体的真实值之间的差异,它描述的是所有样本也许的成果与总体真值之间的平均性

差异。若总体原则差未知,可用样本原则差替代,此时I向原则误称为估计原则误。

•样本均值的原则误为。x

•样本比例口勺原则误为。P

•样本方差H勺原则误为。s:

第二节几种常见的抽样分布

一、样本均值的抽样分布

1.样本均值的抽样分布,就是采用反复抽样的I方式,选用容量为的所有样本,由样本均值

所有也许的取值形成的概率分布。

2.分两种状况来讨论样本均值的抽样分布类型。

1)总体服从正态分布

a)正态分布的再生定理;若总体变量X〜N(口,。2),从这个总体中抽取容量为n的样本,

则样本均值X〜N(U,o2/n)

b)什么是正态分布

1

/(.V)=―)Le统一8VKV400

若X的概率密度函数为:727rb

其中,U和。都是参数,且。>0,则称X服从参数为U和。的正态分布,记作

X〜N”,02)。

正态分布的概率密度曲线是一条对称的钟型曲线。U决定了图形的中位置,。决定了图形

中曲线的陡峭程度。

2)当参数U=0,。=1时,这样的正态分布为原则正态分布,记为N(0,1),其概率密度函

数为:/

3)总体服从非正态分布

独立同分布中心极限定理表明:无论总体服从何种分布,只要其平均数和方差

存在,那么从中抽取的独立同分布样本XI,…Xn,,其均值在当n很大时,就会近似

服从正态分布X〜N(U,02)o

大样本:n230

总体("b?)

JE态分布j态分徐

人样本小样本

总结:烧伞箕谢D"非正态分布

❖二、样本比例的抽样分布

1.样本比例是一种特殊的样本均值。从而,根据样本均值的抽样分布理论可得样本比例

的抽样分布

2.大样本:同步满足npWS和n(1-p)N5

当样本容量很大时,样本比例P的抽样分布为:

-4)、

P~/V

n

在不反复抽样情形下,当样本容量很大时,样本比例的抽祥分布为:

万(1-4)N-n

P~万,

nN-1?

•需要修正:对于有限总体,要用修正系数修正

不需要修正:无限总体/此时N很大而抽样比时,修正系数趋于1,方差可以按反复抽样情

形时(即不用修正)的公式计算

♦:♦三、样本方差的抽样分布(不考)

样本方差S2的抽样分布,就是采用反复抽样的方式,选用容量为n的所有样本,由样本方差

S2的所有也许的取值形成的概率分布。

设总体服从均值为U,方差S2的正态分布,XI…,Xn为来自该总体的样本,则样本方差S2K

抽样分布为:

称(〃一1卜服从自由度为n-1的X?分布(卡方分布)。

卡方分布的数字特性,可得:

ES)=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论