应用统计学讲义_第1页
应用统计学讲义_第2页
应用统计学讲义_第3页
应用统计学讲义_第4页
应用统计学讲义_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《应用统计学》讲义

高晓彩编

西北大学公共管理学院

第一章绪论

第一节统计学的基本概念

一、一般称谓

Statistics,单数表示“统计学”、复数表示“统计、统计数字、统计资料”。

*由学生给出实例

“全班管理学平均成绩为87分”——统计结果(资料)

“第四次人口普查”——统计工作过程

“用EXCEL软件将05级人力资料管理班学生开设的5门课程平均成绩用

图表进行比较分析”---------分析统计数据的方法与技术,即统计学。

二、统计学的定义

定义P2:统计学是研究数据收集、整理、显示与分析方法(或公式)的科学。

目的是探索数据内在数量规律性,以达到对客观事物总体的科学认识。

*以全班平均身高测量为例

1、数据收集的方法:研究如何获得统计分析的原始数据。

身高测量的记录纸——问卷设计方法

全班都测吗?——调查对象确定方法

用测量尺一个个测量还是打电话询问?——调查实施方法

2、数据整理方法:

有一份记录纸记录值为“0.76米”,是否记录有误?——资料审核方法

男、女生分开计算平均值吗?——统计分组方法

测量对象中男生占%、女生占%——统计汇总方法

3、数据显示方法:

结果用语言描述还是做成表格?——统计表制作方法

表格不够直观,做成图形。——统计图制作

4、数据分析的方法:

研究如何通过统计描述和推断的方法来探索数据内在规律性。

“全班62人,抽取30人测量,平均身高为1.68米,分布基本为正态分布”

——数据描述

“由此估计全班平均身高为1.70米”-------统计推断

三、学习方法与统计软件

注重应用。

2

EXCEL

SPSS(StatisticalProductandServiceSolutions),统计产品与服务解决方案,

原名为社会科学统计软件包。

第二节统计学的分科

从方法构成分类法、从方法研究与应用分类法。

一、描述统计学与推断统计学

(一)描述统计学(DescriptiveStatistics)

P7定义。内容包括数据收集、整理、显示与分布特征的描述。

1、数据收集与整理:问卷设计、资料审核、统计分组与统计汇总。(第二

章1-4节)。

2、数据显示:统计表、统计图(如饼图、线图等)制作。(第二章9节)

3、数据分布特征描述:(第三章5—7节)

*以正态分布为例

一般水平(均值)--------集中趋势

变异情况(标准差)--------离散趋势

(二)推断统计学(InferentialStatistics)

P7定义。如果数据的获得是通过抽样法取得,就需要用样本(部分个体)

数据推断总体(所有个体)数量特征。

1、参数(抽样)估计:(第四、五章)

用样本统计量指标值(均值、标准差、率等)推断总体(所有个体)统计

指标值。

例1:全班62人,抽取30人测量,平均身高为1.68米,分布基本为正态分布,

由此估计全班平均身高为多少?

2、假设检验:(第六章,两个总体之间比较)

用样本统计量指标值检验总体是否具体某种性质。

例1:“厂家标签值每盒重250g对吗?”——质量检验问题。

例2:“本次技术改革是成功的?”——技改效果评价。

特例3:“美、英、日三国人均收入基本处于同一水平?”——多组比较(第

七章)。

特例4:“体重与身高成正比,用身高来预测一下身高”——相关与回归分

析。(第八章)

3

(三)描述统计与推断统计的关系

P7图l-lo

由描述统计获得样本统计量指标值

在大概率条件下进行推断总体

推断统计的结果是研究问题的最终答案。

二、理论统计与应用统计

1、TheoreticalStatistics:研究统计理论与方法的数理证明。

2、AppliedStatistics:研究用统计方法解决实际问题。(第九章~第十二章)。

第三节统计学基本术语

一、总体、单位与样本

1、总体(Population):指统计研究所确定的所有客观对象构成的集合。

总体确定实例分析:“第四次人口普查”、“西北大学学生状况调查”

无限总体——总体单位无数总体、N很大的总体(抽样比<5%)

有限总体——总体单位数有限

2、单位(Unit):用N表示总体所有单位数。

3、样本(sample):

按随机化原则从总体中抽取一定数量的单位所组成的小集合。

随机抽样

实例分析:政府政绩反映与扶贫款申请两种情况下的家庭人均收入调查。

样本量(capacityofsample),用n表示。

大样本:n>30o

小样本:n<=30

二、标志与指标

1、标志:指总体单位所具有的属性(如性别、职业、身高等)。即问卷设计

中每一个调查项目或变量。

品质标志(品质变量):如性别、职业

数值标志(数值变量):如身高、家庭经济

2、统计指标:综合反映总体数量特征的概念和统计结果值。

如职工总人数为1200人,男性占60%,女性占40%。

三、参数与统计量

1、参数(parameter):指用于说明总体的指标。

4

均值一口

标准差----0

方差——。?

率——P

2、统计量(statistics):指用于说明样本的指标。

均值一x

标准差——S

方差——S2

率——P

本章小结:

以“西北大学学生消费状况分析”为例,让学生总结:(1)研究目标

(2)研究过程及方法。

强调:(1)研究的最终目标是掌握总体特征。

(2)过程:

A、总体一>抽样样本测量一>总体特征值。需要概率论作中界。

B、总体每个单位都测量一>总体特征值。

5

第二章统计数据的描述

第一节数据的计量尺度

**何谓数据?

中文——反映客观现象的数值、符号、图形、音像资料等。强调了数据的来源,

即客观现象。

英文"data"------informationpreparedforandoperatedonacomputerprogramme0

强调了数据的处理方式。

综合之——数据是用一定的方法所测得的量化反映客观事物属性的信息。即收集

反映客观事物属性的信息(数据)的第一步工作就是确定测量方法。

依据客观事物属性的不同特点,其测量方法分为四种。

一、列名尺度(又称定类尺度)

1、nominalscale:按事物的某种属性对其进行平行分类或分组。其划分的各类

别之间无大小或优劣之分,且次序可以改变。

2、适用:

取值只能大体进行平行分类的品质标志(变量)。

3、记录形式:

品质变量名:类别名罗列或用无意数字代表。

例:性别:男/女

或性别:(1)男(2)女

二、顺序尺度(又称定序尺度)

1、ordinalscale:按事物的某种属性对其进行分类或分组基础上,将类别等级

由大到小或由小到大排序。

2、适用:

取值可以进行分类且各类别具有等级差异的品质标志(变量)。

3、记录形式:

品质变量名:类别名序号由大到小或由小到大排列。

例:文化程度:(1)文盲;(2)小学;(3)初中;(4)高中以上。

三、间隔尺度(定距尺度)

Kintervalscale:选定一个测量单位,对数值标志在分类排序基础上测量其间

距。测量出的数值间有加、减意义,无乘除意义。

2、适用:

6

可用数值记录其值而无比率意义的数值标志。

3、记录形式:

数值变量名:____________

四、比例尺度(定比尺度)

1、ratioscale:选定一个测量单位,对数值标志在测量间距基础上,测量其比

率。

2、适用:

可用数值记录其值且有比率意义的数值标志。

3、记录形式:

数值变量名:____________

综合例题分析:

企业状况调查

企业类型:(1)民营;(2)合资企业;(3)国有企业。

企业文化环境:(1)优(2)良好(3)一般(4)较差(5)差

工人平均工资:

工人对企业管理的满意度:1—2—3—4—5—6—7—8—9—10

第二节调查问卷设计

-、问卷构成

(一)表头:即调查表的名称。

(二)表体

1、说明词(前言):包括问候语、调查目的说明、填表说明和问卷编号等。

2、调查项目

(三)表外附加:包括调查人签名、调查日期、被调查人合作程度等。

二、实例练习

某家电企业想通过市场调查了解以下问题:

(1)企业产品的知名度

(2)产品的市场占有率

(3)用户对产品质量的评价及满意程度

让学生设计一份调查问卷,进行讲评。

7

第三节统计数据的收集

统计调查——社会经济类研究问题

数据来源:直接来源

科学实验——自然科学类研究问题

间接来源:图书、期刊、网络查询等

本节主要讲授统计调查。

一、统计调查的类型

(-)普查

1、定义:

指对总体中所有单位都实施调查。

如人口普查、农业普查、库存物资清查等。调查结果直接给出了总体的准

确情况。

2、适用:

国家或部门需要准确掌握其国情、国力及资源状况时。

(二)重点调查

1、定义:在调查对象中选择儿个在总体中占有绝大比重的单位进行调查。

例:(1)对全国2005年钢铁生产状况调查。

可对鞍钢、上纲、武钢、太钢、宝钢五大钢铁生产巨头进行调查。

(2)陕西师范类院校生源状况调查。

可对陕师大、咸阳师范学院、渭南师范等招生大的院校调查。

2、适用:

当调查目的只要求掌握总体的大体状况,而在总体中又明显存在若干个能

集中反映总体状况的单位时。

(三)抽样调查

1、定义:根据随机原则从调查总体中抽取一定数量的单位进行调查,然后由

样本统计量推断总体。

例:中国西部地区成人受教育状况调查。

普查、重点调查是否适用?

2、适用:

当调查目的只要求掌握总体的大体状况,而在总体中不存在或不明显存在

8

若干个能集中反映总体状况的单位时。

(四)典型调查

1、定义:指在对调查对象进行全面分析基础上,有意识选择部分有典型性单

位进行的调查。

例:交通事故调查中,对某些事故高发段或重大事故的调查。

2、适用:

对特殊事件或典型事例的分析。

二、基本抽样方法

(-)简单随机抽样法

1、定义:指对总体单位不进行任何的分类或排序,完全按随机化原则进行。

2、适用资料:总体各单位特征差异较小。

3、基本方法

(1)抽签法:为无任何抽样工具下采用的一种最简单的方法,抽出的样

本误一般较大。

(2)随机数字表法:在无计算机抽样工具情况下采用。

**用随机数字表进行说明。课堂演示。

(3)计算机随机抽样法

在EXCEL软件中用RAND()函数。

**结合上机操作说明

(-)分层抽样

1、定义:按影响调查结果的某一标志对总体进行分层(类),在各层中进行

随机抽样。

2、适用资料:总体各类别中存在有较大的特征差异。

3、方法

(1)按影响调查结果的某一标志对总体进行分层,或按空间方位进行分层。

例:(1)大学生消费状况调查,可按年级分为大1~大4四类

(2)产品全国市场调查,可按东、南、西、北、中分别抽取五大城市

调查。

(2)确定样本量n(待讲)

(3)确定各层的抽样数目nl

有两种分配方法:

9

等额分配法----ni=n/k

等比例分配法—ni=Ni/N*n

(4)按简单随机法在各层进行抽样。

n=Zni

(三)等距抽样法

1、定义:对总体单位进行排序基础上,按一定的间距进行抽样。

2、适用资料•:

(1)总体各单位数值存在由大到小的顺序差异。

如工资料调查

(2)总体各单位的位置自然处于排序状态

如居民门牌号、企业自动生产线上的产品。

3、方法

(1)无关标志排队等距抽样法

指排队标志与调查内容无关(适用2)。

A、按无关标志对各单位进行排队;

B、计算抽样间距

K=N/n

C、按间距K进行抽样

**以“某小区共有1500户居民,从中抽取300户进行调查”为例讲解

K=5,在第1间距内任意取1户为起点(如第3户)进行抽样。

(2)有关标志排队等距抽样

(1)半距起点法

**图示说明

I——O——I——O——I——O——I——O——I——O——I——o—

优点是较简单,但仅能抽到一个样本。

(2)对称等距抽样

**图示说明

1—0---------1----0—1—0---------1----0—1—0---------1----0—|

(四)整群抽样法

10

1、定义:将总体按某指标分为若干部分(群),然后以“群”为单位进行抽

样,对抽到“群”中的所有个体都进行调查。

如:以班为单位的抽样调查

***以主讲教师本人参加的项目“秦巴山区示范区儿童MR患病状况调查”

为例

其中有一个乡共有6个自然村,0~14岁儿童人数分别为190、134、116、106、

144、175。用整群法抽取430名儿童进行调查。

**让学生用抽签法进行抽样。

三、数据整理

1、资料审核

逻辑排除法、极端数据排除、计算等

2、分组

(1)按品质标志分组——品质型数列

(2)按数值标志分组一一离散型数列、组距式数列(组下限、组上限、组距、

全距)

上机实践操作1:

一、EXCEL软件介绍

二、SPSS软件介绍

(-)>启动

Whatwouldyouliketodo?

Runthetutorial浏览操作指导

Typeindata显示数据编辑窗口,建立新数据文件

Runanexistingquery运行已存在的文件

CreatenewqueryusingDatabaseWizard运用数据库向导建立一个新文件

Openanexistingdatasource打开已存在的数据文件

Openanthertypeoffile打开其它类型的文件

(二)数据编辑

1、定义变量:对立数据结构或产生一个空白表

VariableView

11

(1)Name不超过8个字符

(2)Type:Numeric(标准数值型)、comma(显示逗号的数值型)、Dot

(显示句点的数值型)、Scientificnotation(科学计数型)、Date(日期型)、Dollar

(美元型)、Customcurrency(自定义型)、String(字符型)

(3)Width填写数据的最大字符数

(4)Decimals小数点位数

(5)Label变量名标签,起注释作用

(6)Values变量值标签,对变量可能取值进一步描述

(7)Missing定义缺失值

(8)Columns显示变量的长度

(9)Align变量对齐方式

(10)Measure变量的测量尺度

Nominal(定性)、Ordinal(定序)、Scale(定距或定比)

2、编辑数据(点Dataview)

输入数据,可用“edit”窗口进行

3、修改

可用edit、data窗口结合完成,变量、观察值的修改、删除、增加。

(三)数据整理(Data窗口)

Sortcases排序

Selectcases选择数据(如对所有女生进行操作)

Aggregate分类汇总

Mergrfiles文件合并

(四)数据转换(Transform窗口)

由1个或两个变量值产生出一个新变量的值

(五)分析(Analyze)

作业:(1)输入“学生科研情况调查表”

(2)从1-30个数字中抽样10个数字

12

第四节数据统计汇总

指在分组基础上,对数据分布情况用表(频数分布表)或图(统计图)进行

描述。

一、频数分布表

(-)>定义:指在统计分组基础上,对附合各组特征的单位进行分类汇总,形

成总体各单位在各组中的分布,又称分布数列。

(二)一般形式

由三列组成:

标志(valid)频数(frequency)频率(percent)

组1

组2

合计(total)

(三)类型

**以P21-P23为例,让学生先看数列表,再讲解。

单项数列:(1)品质变量P21表2.4、表2.5

(2)离散型数值变量,数据类型较少P22表2.6

组距数列:(1)离散型数值变量,数据类型较多;P23表2.8

(2)连续型数值变量。

组上限——每组最大值

组下限——每组最小值

组距——组上限-下限

(四)编制

1、单项数列表

用计算机自动完成

SPSS----》analysis----》descriptivestatistic----》frequency

2、组距数列表

人工与计算机结合完成。

(1)确定组数

A、经验法或行业约定法。

13

例:P23表2.9对年龄的分组按人群特点分为婴幼儿、少年儿童、中青年、

老年。

B、正态分布数据:斯特吉斯经验公式法(Sturges'rule)o

K=l+3.3221ogl0"

n——数据个数K——组数

(2)计算组距

等距数列d=(极大值-极小值)/K

(3)确定各组上、下限

第一组:下限=总体数据极小值-组距/2

上限=总体数据极小值+组距/2

其它组顺延。

(4)计算各组频数、频率、累积频数、累积频率、组中值

频数、频率:计算时可用计算机进行——按各组上、下以及上限组不在内

原则进行数据分类替换,再进行汇总。

累积频数、累积频率:

向上累积值意义——指达到本组上限以下的人数或比例。

向下累积值意义——指达到本组下限以上的人数或比例。

组中值=(组上限+下限)/2

缺下限组组中值=上限-邻组组距/2

缺上限组组中值=下限+邻组组距/2

综合练习:50名工人,最少日加工零件数为107件,最多为139件,试编制距

式频数分布表

K=l+3.3221ogl050=7

D=(139-107)/7=5

■wr

105-110

110-115

115-120

120-125

125-130

130-135

134-140

14

二、频数分布图

直方图:以组距为X轴,频数或频率为Y轴

折线图:连接直方图各组中值。

P25图2.2

当N为无穷大时,形成光滑线,即得分布曲线。

P25图2.3正态、偏态分布(左、右偏的特点)

洛伦茨曲线:以组距为X轴,累积频数为Y轴

P25图2.4

第五节统计图制作

数据显示包括了统计表的统计图两种主要形式,本节主要讲述图与表的配合

使用及其制作。

一、常用统计图

1、条形图(barcharts)

图例:以各组代表值为X轴,以测量值为Y轴。

**给出不同的数据表、图例,并讲解适用情况

适用:(1)同一总体,不同测量指标值(标准分数)的比较;

——同班同学不同课程考试成绩比较。

(2)不同总体,同质性测量指标值间的比较。

——不同班级同一门课程考试成绩的比较。

2、饼图(pie)

图例:以各组数据值构成饼图各扇形面积,总面积之各为100虬

**给出数据表、图例,并讲解适用情况

适用:(1)同一总体,不同部分所占比例的比较,用饼图;

——P23表2.8或同班同学不同年龄组学生所占比例的比较。

(2)不同总体,同质性部分所占比例的比较,用环形图。

——两个班各年龄组学生所占比例的相互比较。

3、线图(line)

图例:以时间为X轴,以测量值为Y轴。

**给出数据表、图例,并讲解适用情况

适用:随时间变化的数据,发展趋势分析。

15

4、散点图(scatterplots)

图例:以第一变量为X轴,第二变量为Y轴。

**给出数据表、图例,并讲解适用情况

适用:两个变量相关关系趋势分析。

5、直方图(histogram)

图例:以各组组距或代表值为X轴,以频数或频率为Y轴。

适用:数据分布趋势分析。

上机实践操作2:

(1)频数分布表、直方图制作。

P59第1题

(2)其它统计图制作

用P61第6题数据制作饼图。

第六节数据分布集中趋势测量

指计算一组数据的一般水平或中心值。

一、均值(mean)

总体用也样本用于。

表示总体或样本人群的平均水平。

(一)公式:

1、未分组数据(第一手资料)

P32公式2.3

xi——每个观察值

n——数据个数

2、分组资料(二手资料)

P32公式2.4——给出频数的二手资料

xi——每组组中值或代表值

fi——每组频数

16

P32公式2.5——给出频率的二手资料

xi——每组组中值或代表值

fi/Sfi——每组频率

(二)适用资料

正态分布的数值型变量。

如身高、体重、IQ等。

二、众数Mode

指调查数据中出现次数最多的标志值。用M。表示。

表示总体或样本人群中大多数人的水平。

(一)公式:

1、未分组一手数据

即为调查数据中出现次数最多的标志值。

例:P22,表2.6

Mo=19

表示本班大多数学生为19岁.

2、分组组距式数据

P29公式2.1

L一众数组下限

A1——众数组频数与上一组频数之差。

△2——众数组频数与下一组频数之差。

i——众数组组距

例:P23,表2.8数据

众数组(频数最大的组)为第3组,

Mo=100+(13-7)/(13-7+13-5)*10=104.29(件)

(二)适用资料

(1)用定序尺度测量的组距式数据

例:

问卷变量为家庭人月均收入:(1)200-400;(2)400-600;(3)600-800;

4)800以上

要计算当地大多数家庭的人月均收入水平。

17

(2)社会经济现象中不宜用均值作为一般水平的现象。

如:车辆高度、服装加工等

(3)数值型数据,数据明显为偏态分布,极差较小(尖峰分布)

三、中位数median

指调查数据由低到高排列后,处于最中间位置的标志值。用Me表示。

表示总体或样本人群中处于中等水平的个体水平。

(一)公式:

1、未分组一手数据

数据排序后

n为奇数时:

Me=X(n+1)/2

n为偶数时:

Me=(Xn/2+Xn/2+1)/2

例:P22,表2.7数据排序后,第15位(30/2)数据为103件,第16位(30/2+1)

数据为105件,则:

Me=(103105)/2=104(件)

表示30名工人中,处于中等水平的工人日加工零件数为104件。

2、分组组距式数据

P31公式2.2

N/2——中位数组位置,即向下累积达到次数半值的组

L——中位数组下限

Sm-1——中位数组以前各组的频数之各和。

fm——中位数组频数

i——中位数组组距

例:P24,表2.10数据

中位数组为第3组,

Mo=100+(15-10)713*10=103.8(^)

(二)适用资料

(1)用定序尺度测量的组距式数据

例:

问卷变量为家庭人月均收入:(1)200-400;(2)400-600;(3)600-800;

18

4)800以上

要计算当地中等水平家庭的人月均收入水平。

(2)数值型数据,数据明显为偏态分布,极差较大(偏峰分布)

***儿何均值、分位数、切尾均值自学了解。

综合练习:

2004年,对某市500户居民家庭月收入抽样调查数据为:

组别户数

500元以下40

500-80090

800-1100110

1100-1400105

1400-170070

1700-200050

200以上35

合计500

求:(1)本市居民家庭平均月收入

(2)本市大多数居民家庭月收入

(3)本市中等水平居民家庭月收入

第七节数据分布离散趋势测量

***图示并举例说明

例:数据3、3、4的平均值为3.3,数据1、5、4的平均值同样是3.3,其

区别是,第一组数据每个值与均值相差不大,而第二组差异较大。(让学生自己

计算并总结)。

即:离散趋势测量是描述一组数据中,每个观察值偏离平均值的状况,即数

据的变异性。

一、常用离散趋势测量指标

(一)极差(range)

1、公式

R=max(xi)-min(xi)

19

**值的图示及意义说明(分布曲线的跨度)

2、适用资料:

偏态分布数据,即一般水平用Mo、Me表示时,其离差状况用R表示。

(二)方差与标准差(variance,standarddeviation)

方差:总体用。2表示,样本用d表示;

标准差:总体用。表示,样本用S表示。

1、公式

(1)未分组一手资料

总体:

2(xrx)2

o2=----------

N

£(xj-x)2

o=SQR(----------)

N

样本:

Z(Xi-x)2

s2=----------P40,公式2.10

n-l

£(Xi-x)2Sxi2-(ZxD2/n

s=SQR(----------)=SQR(---------------)**计算机编程公式

n-ln-l

Xi-------每个观察值

n-l----自由度(degreeoffreedom,df)

(1)表示数据中与均值进行离差计算数据的个数。由于当n=l时,x,=x

勺元=0,因此,在总离差计算数据的个数中要减去1。

(2)表示在n个单位中,当均值一定时,可自由取值的单位个数。

例:有5个数据1、2、3、4、5,其均值为3,则只有四个单位可经自由取

值,最后一个为定值。

(2)分组二手资料

以样本为例:

s2——P41,公式2.11

20

S——P41,公式2.13

提问:Xi、fi各代表什么?

2、标准差的特点及适用资料

特点:(1)有单位,与测量指标单位相同。

**图示其意义,1S表示平均差异的单位值)

(2)有正、负,+说明高于均值,-表示低于均值

**图示说明:正态分布中,界于均值与±1S、均值与±2S之间以及低于均值

IS、2s的意义,从而引出大、小概率的含义。

适用:正态分布数据,即一般水平用均值表示时,其离差状况用S表示。

(三)离散系数

1、公式

P42公式2.14**分别对应于总体及样本

2、特点及适用资料

特点:无单位的标准化值。

适用:(1)对同一总体不同测量指标的离散程度进行比较。

例:对全班同学体重测量得到的标准差为18kg,身高测量得到的标准差为

0.18m,对二者的离散程度进行比较。能否直接比较?

(2)对不同总体同一测量指标的离散程度进行比较。

例:对全班同学体重测量得到女生的标准差为6kg,男生测量得到的标准差

为18kg,对二者的离散程度进行比较。能否直接比较?

二、标准差的应用

(一)计算标准分数(standardscore)

对总体状况进行综合评价计算总分时,为使不同测量指标之间值具有可加

性,从而使用了标准分数法。

例:对个体综合实力进行评价,有健康指标(身高、体重)、智商、心理素

质、人际交往等,由于测量指标间使用工具及单位的不同,不能直接用原始分数

进行简单相加,必须进行标准分数化后才可评价。

1、公式

一般公式_

Xj-X

Z=----------

S

Xi・测量的原始分数

21

z分数的变异公式:

为消除Z分数的负值和小数,对Z进行扩大。

T=aZ+b

2、以高考分数计算为例(P2知识阅读)

单科分_

Xj-X

Z=--------

S

Xi——表示考生某门课程的原始分数

5、S分别代表全国考生某门课程的平均分数和标准差

总分

Z总、=Z语文+Z数学+Z英语+Z理综

例:甲生乙生全国考生

语文120115100(10)

数学9595110(15)

英语130120120(10)

理综合210240210(15)

总分550555

从原始分数看,优生录取乙

标准分数:Z甲=2Z乙=1.9应优生录取甲。

(二)检验数据分布的形态

1、检验数据分布的偏态---偏斜系数(skewness)

2(Xi-x)3fj

SK=-----------

nS3

SK=O,正态分布

SK<0,左偏分布

SK>0,右偏分布

2、检验数据分布的峰态---峰度系数(kurtosis)

22

Z(xrx)4fj

K=---------------3

nS4

K=0,正态分布

K<0,平峰分布

K>0,尖峰分布

三、数据分布特点描述指标的综合选择

在分别掌握了集中趋势(元、Mo、Me)、离散趋势(R、S)、偏态(SK)

及峰度(K)后,如何从计算机给出的多种指标值中选择适合研究者所取数据的

分布特点值呢?

(1)当SK=O时,即正态分布时,选取无、S分别作为集中与离散趋势指标,

表不为:xiS

(2)当SKW0,且K<0,即偏态平峰分布时,选取Me、R分别作为集中

与离散趋势指标,

表示为:MeR(或范围min~max)

(3)当SKW0,且K>0,即偏态尖峰分布时,选取Mo、R分别作为集中

与离散趋势指标,

表示为:MOR(或范围min~max)

上机实践操作3:

数据集中与离散趋势测量.

SPSS----analysis----descriptive-----frequency-----statistics

centraltendency、dispersion、distribution

作业:(1)用P60第2题求出无、Mo、Me、R、S值

(2)依据数据分布特点,选择适合本组数据分布趋势的指标值

本章小结:本章应重点掌握

(1)调查问卷设计及四种计量尺度的适用情况;

(2)常用统计方法及其应用

(3)常用数据集中趋势与离散趋势测量指标及其应用

(4)常用统计图应用情况及其制作。

23

第三章概率与概率分布

第一节概率论基础

-、概率的基本概念

1、随机现象

指在一定条件下可能发生也可能不发生的现象。

***思考

(1)调查问卷中的项目(标志)、样本统计量(1、S、P)属于随机变量

吗?

(2)问卷中的项目(标志)、样本统计量(亍、S、P)的取值是否属于随

机现象?

2、随机试验

指对随机现象取值规律进行观察的过程。

***思考

统计调查过程属于随机试验吗?它观察的是什么的取值规律?是对问卷中

的项目(标志)、样本统计量(无、S、P)的取值规律进行观察吗?

3、随机事件

指随机试验的每一个可能出现的结果。

***思考

调查问卷中品质型变量所设计的选择项(如性别:(1)男;(2)女)、数值型

变量调查时每份问卷所填写的值属于随机事件吗?

4、样本空间

指随机试验所有可能结果的集合。

***举例说明

5、统计概率(试验概率)

定义:P74o设在相同条件下重复试验n次,事件A发生的次数为m,则事件

A发生的频率为m/n,当n~>8时,m/n趋于一个定值p,则称p为事件A的概

率。

P(A)=p?«m/n

反概率q^l-p

***思考:

在家庭人口数频数分布表中,m、n、p各代表什么?事件A如何表示?

24

6、概率分布

指随机变量所有取值的概率所形成的分布数列或分布图。

例:P74表3.1,频数分布与概率分布的关系

**当!1玲8时,频数分布即为概率分布。

与频数分布相同,概率分布也相应划分为离散型概率分布、连续型概率分布。

二、概率论与推断统计的关系

推断统计是研究如何用样本统计量推断总体参数值,原则是在已知样本方、S、

P取值概率分布形式的基础上,在大概率条件下进行推断。

1、斤、S、P的概率分布形式

又称为抽样分布。经大量研究表明:

x----大样本下服从正态分布

小样本下服从t分布

S——单个样本的S2服从Xz分布,两个样本S//S2?服从F分布

P——大样本下近似服从正态分布

小样本下服从二项分布

2、大、小概率及临界值

(1)一般的,将概率值在95%以上为大概率事件,概率值小于5%的称为

小概率事件。

(2)临界值指发生小概率事件的临界点值。

第二节、常用随机变量的概率分布及其应用

一、离散型随机变量概率分布

(-)分布形式及特点

1、分布表示形式:

(1)表格式*P83表3.2等同于离散型频数分布表

(2)函数与累积分布函数式

函数式:

P(X=Xi)i=l,2,3,4,*P83

累积分布函数式:

F(X)=P(XWx)=2P(Xi)等同于离散型频数分布表中的频率的向下

累积

(3)图示式(形):*P83图3.5

25

2、性质

(1)P(Xi)20

(2)SP(Xi)=l

(二)二项分布

指只有两种可能取值结果的随机变量的概率分布,并将其中一个结果称为

“成功事件”,另一个称为“失败事件”

1、定义

P87

kknk

P(X=K)=Cnp(1-p)'

记为X~b(n,p)

例:人口调查结果表明,男性比率为50%,求在100份问卷中,男性问卷

出现10人的概率?

P(X=10)=CiooIOO.510(1-0.5)100-10

2、二项分布数学用表的使用

为累积概率分布表

二、连续型随机变量的概率分布

(一)概率密度函数与概率分布函数

统计数据在其频数分布基础上,形成直方图与折线图,当n-8时,折图变

为光滑曲线以及由曲线与X轴相围形成曲线下的面积,如果该光滑曲线可用方程

f(x)表示,则称其为概率密度函数;如果曲线下的面积可用方程F(x)表示,

则称其为概率分布函数。

**图示说明

1、概率密度函数

P83

设X为连续型随机变量X(-8,+8),a,b(a<b)为任意两个实数,如果存

在一个非负的可积分函数f(x),使得X在(a,b)区间上取值的概率为:

P(a<X<b)=/\f(x)dx

则称f(x)为X的概率密度函数。

**图示说明,在该区间上概率值实际上等于曲线与a—》b线段围成的面积值。

26

2、概率分布函数

P84

设X为连续型随机变量X(-8,+8),X为任意一个实数,f(x)为X的概

率密度函数,P(XWx)为X的向下累积概率,则称P(XWx)为X的概率分

布函数,记作F(x),则:

F(x)=P(X<x)=/.Jf(x)dx

**图示说明,概率分布函数实际上为曲线在-8一》x范围的面积方程。

(二)连续型概率分布函数的性质

(1)F(x)20,*曲线f(x)总位于X轴上方。

(2)F(x)=/」8f(x)dx=l*曲线f(x)与X轴间的总面积等于1。

bb

(3)P(a<X<b)=/af(x)dx=f.„f(x)dx-f.Jf(x)dx

(三)正态分布

1、定义:P91,公式3.27。分布图形见P91图3.7

记为X~N(U,o2)

如,成年男子身高X~N(L72,0.272)

2、性质P93图3.8

(1)曲线以X=u为对称轴左右对称,且在X=u处达到峰值。

正态分布为一个分布族,当口与。变化时,曲线变化。

(2)f(x)dx=0.6826

11+20

(3)fM.2af(x)dx=0.9545^0.95(或95%),

即大概率区间,用ba表示

*则左尾+右尾心0.05,即小概率区间,用a=0.05表示。

左尾=右尾=a/2=0.025

**图示说明大概率、左尾与右尾小概率。

(4)/一3。"+3设(x)dx=0.9973^0.99(或99%),即极大概率区间

*则左尾+右尾心0.01,即极小概率区间,用a=0.05表示。

左尾=右尾=a/2=0.005

**图示说明大概率、左尾与右尾小概率。

(四)标准正态分布

27

1、定义:P92o即均值为0,标准差为1的正态分布。

记为X~N(0,1)

标准正态分布为一个唯一的曲线。

2、一般正态分布的标准分布化

若X~N(U,。>则变量Z=(X-U)/。服从(0,1)分布。

例:身高X~N(1.72,0.27,),

则身高X的标准分数变量2=(X-1.72)/0.27为服从(0,1)分布。

(五)标准正态分布大、小概率临界值的确定

**再次图示说明大、小概率以及临界点。

1、标准正态分布表——附表1P434

x列为变量X的最小取值的第1位整数与小数;

横行表示变量X最小取值的第2位小数;

坐标点上的值表示从(-8,x)的累积概率值;

例:求X<=1.12的概率,0.868643

2、用标准正态分布表查临界值

a=0.05时,查坐标点P=0.975,知96

a=0.01时,查坐标点P=0.995,知Z0.oo5=2.58

应用例:已知成年男子身高X~N(1.72,0.272),某同学身高测量值为2.30,试在

a=0.05时判断其身高发生是否为小概率事件?

解:该同学身高标准值为

Z=(2.30-1.72)/0.27=2.14

由于a=0.05时,大小概率临界值为Zo.o25=l.96,该同学身高Z大于此值,

因此为小概率事件。

三、t分布、X。分布、F分布

(一)、t分布

1、分布曲线:图示说明。(了解)

记作:X-t(df)

2、用t分布表查临界值——P436,附表2o

左列:为不同的自由度

模行:不同的右尾a值,常用0.025、0.005两列。

28

坐标点值:为临界值

例:a=0.05,df=12时,to.025.12=2.1788

a=0.01,df=12时,to.nos.12=3.0545

**让学生查:

=

a=0.05)df16时,to.025.16=-

=

a=0.01,df16时,t<),cos.i6=?

应用例:已知在小样本下,成年男子身高服从t分布

(X-1.72)

t=------------------

027/SQR(n)

某班有学生28人,有〜同学身高测量值为1.68,试在a=0.05时判断其身高

发生是否为小概率事件?

解:该同学身高t值为

t=(1.68-1.72)/O.27/SQR(27)=-0.77

由于a=0.05时,大小概率临界值为L隔27=2.0518,即-M咻27=-2.0518该同学

身高t大于此值,因此为大概率事件。

(二)、X?分布

1、分布曲线:由海尔墨特(Hermert)和卡.皮尔逊(K.Pearson)Pl16,图示说

明。(了解)

记作:X~x2(df)

2、用一分布表查临界值——P437,附表3。

左列:为不同的自由度

模行:不同的右尾a值,常用0.05、0.01两列。

坐标点值:为临界值

例:a=0.05,df=12时,X),05.12=21.026

a=0.01,df=12时,to.oi,12=26.217

**让学生查:

2-Q

a=0.05,df=16时,X0.05,16一•

2_

a=0.01,df=16时,AY0.01.16~?•

应用例:已知男、女生爱好结构X服从(分布,某班有学生28人,男、女爱

好结构一值3.27,试在a=0.05,df=3时判断其值是否为小概率事件?

29

解:a=0.05,df=3时,大小概率临界值为X2°M3=7.815,该班x?值小于此

值,因此为大概率事件。

(三)、F分布

1、分布曲线:以统计学家R.A.Fisher姓氏的第一字母命名,P120,图示说明。

(了解)

记作:X〜F(dfl,df2)

2、用F分布表查临界值——P439,附表4。

左列:分母自由度

模行:分子自由度

坐标点值:不同a下的临界值,常用a=0.05区(P440)

例:a=0.05,dfl=12,df2=13时,x—⑵后2.67

**让学生查:

a=0.05,dfl=15时,df2=21,F0—=?

应用例:已知男、女生爱考试成绩方差之比服从F分布,某班有女生11人,

男生17人,女生与男生某课程方差之比F值为4.27,试在a=0.05,dfl=10,

df2=16时判断其值是否为小概率事件?

解:a=0.05,dfl=10,df2=16时,大小概率临界值为F。⑻。…=2.49,该班

F值大于此值,因此为小概率事件。

本章小结:本章应重点掌握

(1)推断统计与概率论的关系

(2)常见概率分布大、小临界值的确定方法(四种数学用表的查法)

30

第四章抽样分布

研究当把亍、S、P、X1-X2>S|2/s/、P1-P2这些来自于样本的统计量,重

新当成随机变量时,它们的概率分布属于哪种形式。

第一节抽样分布的基本概念及应用

一、抽样分布的概念

1、抽样分布:假设从一个总体中抽取容量相同的各种样本,则从这些样本

计算出的某统计量的所有可能取值的概率分布,称为该统计量的抽样分布。

**图示说明。P108-P110

抽样调查设计为m个小组,各组都调查15个,得到不同的均值,求其频数

分布:

X频率

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论