MRAF调查分析预测培训_第1页
MRAF调查分析预测培训_第2页
MRAF调查分析预测培训_第3页
MRAF调查分析预测培训_第4页
MRAF调查分析预测培训_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

調查分析預測

MRAF

10

章抽样估计与样本量确定1調查分析預測

MRAF七、抽样误差•

调查结果的准确性无疑是调查组织者十分

重视的问题。其准确性通常用抽样误差的

高低来反映,

在抽样方式和总体既定的前

提下,抽样误差的大小主要取决于抽样数

目的多少

对抽样误差的控制主要是通过

控制抽样数目来实现的。因此,

抽样误差

与抽样数目

的确定,是随机抽样市场调查

中两个重要的问题。2MRAF•(一)抽样误差的估算方法•1.抽样误差大小的影响因素•(1)总体各单位之间的差异程度。总体变量存在变异是客观的,差异程度愈大,其分布就愈分散,抽样误差就愈大;反之,愈小。这种差异程度,在统计上叫做标志变异度,通常用方差或标准差来表示。•(2)样本数目,即样本容量有多少。当样本容量达到与总体容量一样时,抽样调查就变成全面市场调查了,抽样误差随即消失。•(3)抽样方式。一般地说,等距随机抽样和分层随机抽样的抽样误差要小于简单随机抽样和分群随机抽样的误差。不重复抽样的误差要小于重复抽样的误差。因此,要根据不同的抽样方式分别估算抽样误差。調查分析預測3調查分析預測

MRAF4調查分析預測

MRAF5調查分析預測

MRAF6調查分析預測

MRAF样本量的确定•

(二)必要抽样数目的确定•

抽样数目过多,使得抽样调查所需成本费

用提高,从而带来不经济;抽样数目过少,

又会使调查结果存在较大误差,达不到要

求的精度。•

所谓

必要抽样数目,就是在事先给定的抽

样误差范围内所确定的、能够达到对调查

结果精确度要求的样本单位数。

7調查分析預測

MRAF样本量的确定•

1.

影响合理的必要抽样数目的因素•

1

)总体各单位之间的标志差异程度。

总体单位

之间的差异越小,一定数目的总体单位对总体的

代表性就越高。当总体单位的标志值都相等时,

一个总体单位的标志值就足以代表总体的平均水

平。•

2

)允许误差的大小。

一般来说,调查的准确度

要求高、调查力强、调查经费充足,允许误差就

可以定得小一些。•

3

)不同的抽样方式和方法。

一般情况下,简单

随机抽样和分群随机抽样比等距随机抽样和分层

随机抽样所需的样本单位数要多,重复抽样比不

重复抽样的样本单位数要多。

8調查分析預測

MRAF9調查分析預測

MRAF10調查分析預測

MRAF11調查分析預測

MRAF12調查分析預測

MRAF13調查分析預測

MRAF14調查分析預測

MRAF15調查分析預測

MRAF总体参数的点估计•

点估计就是用样本的估计量直接作为总体

参数的估计值

。例如,用样本均值直接作

为总体均值的估计,或者用两个样本均值

之差直接作为总体均值之差的估计。•

点估计是容易做到的,但是,点估计没有

给出估计值接近总体参数程度的信息。•

当样本均值与总体均值不完全相同时,样

本均值与实际总体均值就存在着差距,形

成抽样误差。16調查分析預測

MRAF总体参数的区间估计•

区间估计:在点估计的基础上,对总体参数的区

间或范围进行估计。•

区间估计不仅要说明区间大小,还要说明点估计

值在区间内的概率,即置信度。置信度是一个百

分比,用来说明结果正确的长期概率。被估计的

区间则被称为置信区间。•

根据样本统计量的抽样分布理论,总体参数的区

间范围是在一定的概率度下,由样本统计量加减

抽样误差而得到。17調查分析預測

MRAF训练题•

P237—238

)•

4.

假设某快餐馆想要为一个新的菜单项目估计平

均销售量,这个餐馆观察了一个类似地点的销量,

连续观测到如下结果:样本容量为

25

,样本标准

差为

100

,每日平均销售量为

500

。试估计这个餐

馆启用新菜单后每天在

95%

的时间内销售量的范

围。18調查分析預測

MRAF训练题•

5.

一家电器连锁商店正在进行空调的季节性降价促销。被抽取的

10

样本商店销售出的空调数量如下(单位:台):

82

113

2

41

71

83

99

52

84

30

。那么,根据这些数据能否说明这次促销

期间每家商店平均销售空调数量多于

50

台(

95%

)?19調查分析預測

MRAF训练题•

6.

假设你正计划对某市养狗的家庭进行抽样,

以确定他们每月购买的狗食的平均数量。

已经制定了下面的标准:

95%

的置信度,

小于

5

个单位的误差。以前的调研说明了标

准差应该是

6

个单位。那么,该项调查需要

多大的样本容量?20調查分析預測

MRAF训练题•

7.

在一项涉及

400

人的调查中,

60%

的人都对一个

问题持积极态度。试在

95%

的置信度下确定比例

的区间估计。•

8.

在一个全国性的调查中,调研人员期望总体中

30%

的人将会同意某个态度陈述,要求误差小

2

个百分点,并且具有

95%

的把握性,那么,需

要多大的样本容量?假设调查总体为

12000

人,

事先预计调查的回答率约为

55%

,那么,样本容

量又应该为多少?21調查分析預測

MRAF22調查分析預測

MRAF

开篇案例“

百脑汇

调研中的样本计划问题•

百脑汇

在中国华北几个省市经营连锁电脑超市,它希

望获得更多关于其现有客户特点方面的信息。接受调研委

托的李文博士指派班上的王洪同学为样本计划小组的负责

人。•

通过与

百脑汇

的市场部经理乔兰的初次会谈,王洪了

解到调研的一个主要目的是分别按人口和心理因素来估计

百脑汇

的客户构成和比例。此外,确认总体估计值不

超过实际值的

±5

0

%,可靠度为

95

%。•

为了达到这些要求,王洪和他的小组正努力寻找计算所需

样本容量的方法。

23調查分析預測

MRAF10

1

引言•

估计就是根据从样本中收集的信息对

总体未知量进行推断的过程。•

抽样估计涉及的重要问题:

一个样本单元的

设计权数

问题

抽样估计

包括总体总量、均值和比例以及抽

样误差的估计。

样本量的确定

构成抽样设计程序的重要步骤和

内容。同时,样本量的确定与样本估计值的精

度密不可分。24調查分析預測

MRAF10

2

加权及权数调整•

设计权数

设计权数是指每个样本单元所代表的调查总体的单元

数,它是由抽样设计所决定的,通常以

w

d

表示。确定

设计权数是估计的第一步。•

加权估计

设计权数其实就是样本单元的入样概率的倒数。假如

入样概率是

1/10

,那么每个入选样本代表总体中的

10

个单元,此时设计权数即为

10

不同样本单元的设计权数可能不同,这取决于抽样设

计。因此,加权估计应区分等概率抽样的加权和不等

概率抽样的加权。25調查分析預測

MRAF等概率抽样的加权•

当每个单元都有相同的入样概率时,所有样

本单元的设计权数都相同,这种抽样就是

加权设计

SRS

抽样和

SYS

抽样都属于自加权设计,比例分

层抽样也是自加权设计。

另外,

PPS

等也可以设计为一个自加权抽样。•

对于自加权抽样设计,如果无需对权数调整,

则在计算比例、均值等估计量时可将其忽略,

对总值估计也仅需将样本总值乘上某个倍数。

(

P215)26收入层次各层单位数样本数量设计权数高收入层200033.3wd,1=N1/n1=2000/33.3=60.1中收入层12000133.3wd,2=N2/n2=12000/133.3=90.0低收入层600033.3wd,3=N3/n3=6000/33.3=180.2調查分析預測

MRAF不等概率抽样的加权•

自加权设计并不总是可行的。如,在使用分层抽样进行

一个全国调查时,可能需要采用纽曼分层。•

当所采用的抽样设计不是等概率时,正确地使用设计权

数就显得尤为重要。•

[例10.2]

有关各层总体数和样本数资料见表10-1。对

于这项调查,被调查者的设计权数是多少呢?27調查分析預測

MRAF设计权数的调整•

上述等概率抽样的加权和不等概率抽样的

加权都是加权的基本形式。•

权数估计常会遇到更真实和复杂的情况:

考虑无回答的情况,然后对权数做出调整;

考虑来自其他渠道的、更具权威性的某些辅助

信息,将它们合并到权数中。28調查分析預測

MRAF对无回答的权数调整•

单元无回答

是指一个样本单元几乎所有的数据都缺失。

简单的处理办法是忽略它。然而,如果发现忽略单元

无回答是不适当的,则应该对权数进行调整。即,

设计权数×无回答调整因子=无回答的调整权数•

无回答调整因子

是原样本单元的权数和与给出回答的

单元的权数和的比值。对于自加权设计,该比值可用

原样本的单元数与给出回答的单元数的比值来表示。•

无回答权数调整应区分两种不同情况:

等概率抽样

不等概率抽样29調查分析預測

MRAF对无回答的权数调整

(SRS)•

[例10.3]

从一个

N=100人的总体中

抽取一个n=25人

的简单随机样本。

记回答单元的数量

为nr,结果显示只

有20个人提供了所

需的信息。那么,

此时无回答的调整

权数是多少?步骤

1

:计算设计权数。

入样概率p为:P=n/N=25/100=1/4

故,每个样本单元的设计权数为4。步骤

2

:计算无回答调整因子。

由于在n=25人中只有nr=20人提供了所需的信息,最终样本量应为20。假定回答单元不仅能代表回答单元且能代表无回答单元,计算无回答调整因子为:

n

/

nr

=

25/20

=

1.25步骤

3

:计算无回答的调整权数。

无回答的调整权数wnr等于设计权数与无回答调整因子的乘积:30层总体大小样本量回答者数量城市N=10001n=2001n=150r,1农村N=1002n=502n=40r,2調查分析預測

MRAF对无回答的权数调整

(STR)•

[例10.4]

对于一项公共交通表

10-2

公交系统调查的分层数据系统调查,总体由1100人组成,并按城乡分为两个层。分层及样本数据如表10-2所示。那么,回答者的权数是多少?

步骤

1

:各层的设计权数为:

城市层

wd,1

N1/n1==5

农村层

wd,2

N2/n2==2

步骤

2

:调整以弥补无回答。各层的无回答调整因子计算如下

城市层

n1

/

nr,1==200/150==1.33

农村层

n2

/

nr,2==50/40==1.25

步骤

3

:无回答的调整权数等于设计权数与无回答调整因子的乘积

城市层

农村层

:31調查分析預測

MRAF使用辅助信息调整权数•

为什么要使用辅助信息来调整权数呢?

首先,使调查的估计值与已知总体总值相匹配。例如,

使用最新的人口普查数据来调整估计值,以确保这些

估计值

(

如年龄、性别分布等

)

的一致性。

二是为了提高估计值的精度。将辅助信息与抽样设计

相结合,将有助于提高估计的精度。

要想在调查设计阶段使用辅助信息,抽样框中的所有单元都

必须具备这个辅助信息。否则,就只能在数据收集上来后,

在估计阶段利用辅助信息提高估计值的精度。32回答者数量男性女性总计吸烟人数25530总人数5545100(n)r调查的估计值男性女性总计吸烟人数19539234总人数429351780吸烟者的比例0.4550.1110.30事后分层估计值男性女性总计吸烟人数16447211总人数360420780吸烟者比例0.4550.1110.27133調查分析預測

MRAF使用辅助信息调整权数•

[例10.5]

为得到某公司职员是否

有吸烟习惯的信息,进行了一项调

查。从N=780人的名录中抽出了一

个n=100人的简单随机样本。•

在收集有关吸烟习惯信息时,收集

了每个回答者的年龄和性别情况,

且100人都做出了回答,由此得到

样本数据的分布如表10-3所示:

10-3

某公司吸烟习惯抽样调查数据表

10-4

根据某公司吸烟习惯抽样计算的估计值表

10-5

利用辅助信息对抽样调查估计值的调整調查分析預測

MRAF10

3

抽样分布与抽样误差•

抽样调查的目的是要对总体做出推断。•

了解统计推断的理论基础,首先注意区分三

种不同性质的分布:

总体分布

样本分布

抽样分布•

同时,特别注意总体分布与抽样分布的关系。34分布类型均值比例标准差总体分布样本分布抽样分布XPS調查分析預測

MRAF三种不同性质的分布•

总体分布

:总体各单位的观察值所形成的频数分布,总

体分布通常是未知的。•

样本分布

:一个样本中各个观察值所形成的频数分布就

叫做。当样本容量

n

逐渐增大时,样本分布逐渐接近总

体的分布。•

抽样分布

:样本统计量的抽样分布,是指在重复选取容

量为

n

的样本时,由该统计量的所有可能取值形成的相

对频数分布。抽样分布是一种理论分布。•

抽样分布提供了样本统计量长远而稳定的信息,是进行推断的理论基础。表10-6

各种分布的均值、比例和标准差的符号表示35調查分析預測

MRAF样本均值的抽样分布•

样本均值的抽样分布,是

指在重复选取容量为

n

样本时,由样本均值的所

有可能取值形成的相对频

数分布。•

[例10.6]

设一个总体,含

有4个元素,即总体单位数

N

=4。4个个体分别为

x

1

=1,

x

2

=2,

x

3

=3,

x

4

=4。

则总体分布如图

10-1

。•

现在从总体中有放回地抽

n

=2

的简单随机样本,

则样本均值的抽样分布如

10-2

。36調查分析預測

MRAF均值抽样分布的规律比较样本均值的分布与总体分布

,得出如下结论:

(1)

样本均值的数学期望

等于总体均值,即

E(

)=

μ

(2)

在重复抽样条件下,样本均值的方差等于总体方差的

1/n

,或者说,

样本均值的标准误

(3)

如果总体服从正态分布,即

x

N

(

μ

,

σ

2

)

,那么样本均值也服从正

态分布,即

N

(

μ

,

σ

2

/

n

)

(4)

如果总体不服从正态分布,那么当样本量足够大时,样本均值

也服从正态分布。中心极限定理

,概括为:

设从均值为

、方差为

2

的一个任意总体中随机抽取容量为

n

的样本,

n

足够大

(

n

30)

时,样本均值的抽样分布近似服从均值为

μ

、方差

σ

2

/

n

的正态分布。

37調查分析預測

MRAF样本比例的抽样分布•

样本比例的抽样分布

,是在重复抽取容量为

n

的样本时,

由样本比例的所有可能取值形成的相对频数分布。•

比较样本比例的分布与总体分布,得出如下结论:

当样本容量足够大时,样本比例的抽样分布近似地服从正态分布,

样本比例的数学期望等于总体比例,即

E(p)=π

;在重复抽样条件

下,样本比例的方差为总体方差的

1/n

,即样本比例的方差

:样本比例的标准误:•

样本比例的中心极限定理

设从比例为

π

、方差为

2

的一个任意总体中随机抽取容量为

n

的样

本,当

n

足够大

(

n

30)

时,样本比例的抽样分布近似服从比例为

π

、方差为

(1-

)

/

n

的正态分布。

38調查分析預測

MRAF正态分布及标准值

Z•

正态分布有以下几个重要特征:

正态曲线呈钟形,曲线下的面积等于

1

,表明它

包括了所有的调查结果。

在正态曲线下任意两个变量值之间的面积,等于

在这一范围内随机抽取一个观察对象的概率。例

如,任意抽取一个样本单元,

IQ

分数落在

55-145

之间的概率是

99.72%

,即图

10-3

中正态曲线下

55-145

之间的面积。

所有的正态分布在平均数

±1

个标准差之间的面积

相同,都占曲线下方面积的

68

26

%。这是正态

分布的比例性,为统计推断提供了基础。

一个正态分布的特殊性由其平均数和标准差决定。39調查分析預測

MRAF标准正态分布•

标准正态分布是一种平均值等于

0

、标准差

等于

1

的正态分布

(

如图

10-4)

。•

研究者可以将任何正态变量

X

转换为标准正

态变量值

(

标准值

)

Z

。计算方法就是,用将

要进行转换的值中减去均值,然后再除以标

准差。即

式中,

x

——

变量值;

μ——

平均数的假设或预期值;

σ——

变量的标准差。•

求出标准值

Z

之后,就可以查阅正态分布表

(

附录

B-2)

,得到

Z

值的标准正态分布曲线下

的面积

(

概率

)

。40調查分析預測

MRAF10

4

参数估计•

参数估计就是根据从样本中收集的信息对总体参数

进行推断的过程。•

样本估计量

(

如样本均值、比例等

)

都是随机变量,

在具有特定概率

(

抽样

)

分布的样本之间有所变化。

参数估计就是根据推断理论所阐明的抽样分布与总

体分布之间的关系,由样本统计量的具体值估计总

体参数

(

如总体均值、比例和方差等

)

。•

参数估计有两种估计方法:

点估计

区间估计41調查分析預測

MRAF总体参数的点估计•

点估计就是用样本的估计量直接作为总体参数的

估计值。例如,用样本均值直接作为总体均值的

估计,或者用两个样本均值之差直接作为总体均

值之差的估计。•

点估计是容易做到的,但是,点估计没有给出估

计值接近总体参数程度的信息。•

当样本均值与总体均值不完全相同时,样本均值

与实际总体均值就存在着差距,形成抽样误差。42調查分析預測

MRAF总体参数的区间估计•

区间估计:在点估计的基础上,对总体参数的

区间或范围进行估计。•

区间估计不仅要说明区间大小,还要说明点估

计值在区间内的概率,即置信度。置信度是一

个百分比,用来说明结果正确的长期概率。被

估计的区间则被称为置信区间。•

根据样本统计量的抽样分布理论,总体参数的

区间范围是在一定的概率度下,由样本统计量

加减抽样误差而得到。43調查分析預測

MRAF总体均值的区间估计•

SRS

抽样情况下,样本统计量

的抽样分布均服从正态分布。可

使用正态分布统计量

Z

来描述总

体均值的区间估计,将总体均值

区间估计表达为:μ=±在上式中,代表一定置信度下的

Z

值。

注意,

α

应除以

2

,以便确定均值的每一边所包含曲线下区域的百分比。

代表样本均值的标准误,

σ

未知,用

S

来估计

σ

,样本均值的标准误:

σ

已知,样本均值的标准误的估计公式

:44調查分析預測

MRAF总体均值的区间估计•

t-

分布

若调查从总体中随机抽取一个很小样本

(

n

<

30)

,则样

本均值的抽样分布服从自由度为

(n-1)

t-

分布

(

较正态

分布平坦和分散

)

。随着自由度增大,

t

分布也逐渐趋

于正态分布。在上述假设条件下,使用

t

分布统计量

(

附录

B-3)

来估计总体均值的置信区间。

t

分布条件下总体均值置信区间的估计方法与正态分布条件下非常类似,只是查

t

分布表需要考虑自由度为

(n-1)

。统计量总

体置信区

μ=~

t(n-1)

±45調查分析預測

MRAF总体均值的区间估计

例题•

[例10.7]

某银行收集到由

36信用卡用户组成的随机样

本,得到各用户年龄(周岁)

数据如下

23,35,39,27,36,44;36

,42,46,43,31,33,42,

53,45,54,47,24,34,28

,39,36,44,40,39,49,

38,34,48,50,34,39,45

,48,45,32。•

试建立信用卡用户年龄90%

的置信区间。已知

n

=36

1-

=

90%

Z

/2

=1.64

。根据样本数据计算得:

=39.5

s=7.77

则,信用卡用户总体平均年龄

在90%

置信水平下的置信区间为:

μ=

±

=39.5±1.64×

=39.5±2.12

=

37.38

41.62

)结论是:在

90%

的置信度下,信用卡用户的平均年龄为

37.38

41.62

岁。

46調查分析預測

MRAF总体比例的区间估计•

总体比例的区间估计假定总体服从二项分布。二项分布是

指重复进行

n

次试验,出现

成功

的次数的概率分布。

总体比例的抽样分布仍然可以由正态分布来近似,即适用

中心极限定理。使用正态分布统计量

Z

来描述总体比例的

区间估计,将总体比例区间估计表达如下:

π=

p

±在上式中,代表一定置信度下的

Z

值。

注意,

α

应除以

2

,以便确定比例的每一边所包含曲线下区域的百分比。

代表样本比例的标准误,

π

未知,样本比例的标准误

的估计式

π

已知,样本比例的标准误的估计式:47調查分析預測

MRAF总体比例的区间估计例题•

[例10.8]

某商业公

司想要估计经常光顾

其大型购物中心中女

性所占的比例,随机

地抽取了400名经常

性顾客,发现其中

260名为女性。•

试以95%的置信水平

估计经常光顾该大型

购物中心中女性比例

的置信区间。解:已知

n

=400

p

65%=0.65

1

-

=

95%

Z

/2

=1.96

则,总体比例

π

95%

置信水平下的置信区间为:

π=

p

±

=0.65±1.96×

=0.65±0.047

=

0.603

0.697

)结论:在

95%

的置信度下,经常光顾该大型购物中心中女性比例的置信区间为

60.3%

69.7%

。48調查分析預測

MRAF总体方差的区间估计•

在重复选取容量为

n

的样本时,由样本方

差的所有可能取值形成的相对频数分布,

构成样本方差的抽样分布。•

对于来自正态总体的简单随机样本,则

(n

-1)

倍的样本方差与总体方差的比值的抽样

分布服从自由度为

(

n

-1)

2

分布,即

2

(

n

-1)

2

分布的特性

总体方差的区间估计提供了理论依据。当总体服从正态

分布时,总体方差

2

的点估计量为

s

2

。借助

2

分布表

(

附录

B-4)

以查得

χ

21-α/2

χ

2α/2

分布曲线下的面积

(

概率

)

。然后,可以给出总体

方差在

1-

置信水平下的区间估计

:49調查分析預測

MRAF10

5

样本量的确定•

样本量的确定问题,首先涉及对总体参数估计值

的精度要求,同时也涉及与各种运作限制

(

如可

获得的预算、资源和时间

)

之间的平衡问题。•

理论上,总体参数估计的精度取决于抽样误差和

非抽样误差两类误差的大小。但是,确定样本量

是为控制抽样误差,而不是对非抽样误差进行控

制,进而提高对总体估计的精度。50調查分析預測

MRAF估计精度与样本量的关系•

总体参数的置信区间可以描述为:

总体参数

=

总体参数的估计值

±

抽样误差的范围•

显然,估计精度取决于抽样误差大小。假设用

E

来定义抽

样误差范围,则当简单随机选择一个容量足够大

(

n

30)

的样本时,样本均值的抽样误差范围可以表示为:

E

抽样误差的范围是估计量标准误的倍数,乘数因子取决于在调查

估计中所希望达到的置信水平。•

在放回

(

重复

)

SRS

抽样条件下,假设回答率为

100%

则样本均值的标准误公式可用来解释估计精度与样本量之

间的基本关系:51調查分析預測

MRAF估计精度与样本量•

无论是重复抽样还是不重复抽样,抽样误差的大

(

即估计精度

)

与样本量紧密相关:

随着样本量的增加,对应估计量的抽样标准差就会不

断减小,调查估计的精度则会不断提高。

同理,当要求不断提高调查估计值的精度要求时,所

需样本量也会不断增加。•

样本量要根据估计所要求的精度来计算和确定。

下面的讨论分为两部分:

对初始样本量的确定及考虑

复杂情况的考虑及对初始样本量的调整52調查分析預測

MRAF初始样本量的确定•

1

.给定总体均值估计精度下确定初始样本量

初始样本量基于以下假定:抽样采用放回的

SRS

抽样,

并且调查回答率为

100%

样本均值的标准误表示为

抽样误差范围表示为

E

从上式中解得样本量

n

从公式看出,样本容量

n

与置信系数和总体方差成正比,与边际误差成反比。

为确定样本量

n

,需要知道允许的抽样误差范围

E

、与给定置信水平相对应的

标准值

Z

、总体方差估计

σ

2

53調查分析預測

MRAF初始样本量的确定•

2

.给定比例估计精度下确定初始样本量

初始样本量基于以下假定:抽样采用放回的

SRS

抽样,

并且调查回答率为

100%

样本比例的标准误表示为

抽样误差范围表示为

E

从上式中解得样本量

n

从公式看出,样本容量

n

与置信系数和总体方差成正比,与边际误差成反比。

为确定样本量

n

,需要知道允许的抽样误差范围

E

、与给定置信水平相对应的

标准值

Z

、总体比例

π

54調查分析預測

MRAF对样本量基本公式的应用考虑•

在确定初始样本量的公式中,抽样误差范围假定

已知。但在实践中,如何确定调查估计的精度水

(

抽样误差范围

)

,却是一个值得思考的问题。

1

.多大的抽样误差对调研目标而言可以接受

常用

95

%的置信度、

±6

%的抽样误差范围对客户的调查目标

是否适宜,估计值是否需要更高或者更低的精度?

2

.是否需要对调查总体中的子总体

(

)

进行估计

例如,对一项全国性抽样调查而言,主办者可能要求对全国估

计的抽样误差范围为

±3

%;但是对于省级估计值,抽样误差范

围可能确定为

±5

%;而对于地市的估计值,

±10

%的抽样误差

范围就足够了。

55样本量抽样误差范围5010050010000.13860.09800.04380.0310調查分析預測

MRAF对样本量基本公式的应用考虑•

3

.相对于调查估计值的抽样误差应该多大为宜

例如,政府要决定是否执行为某种使用人数较少的语种提供服务

的新政策,假定做出决定的前提,是至少有

5%

的人群对这一语

种存在需求。在这里,

p

0

05

就是要确定的最小估计值。相对

于该估计值,必须规定更小的抽样误差范围,如

≤±0

01(

即,置

信区间为

0

05±0

01)

。•4

.精度要求的实际含义是什么

随着样本量的增加,估计值的精度也将提高。然而,精度的得益

并不与样本量的增加成正比。如表

10-10

中描述的例子。

表10-10

简单随机抽样估计比例P的样本量与抽样误差范围(当P=0.5)56調查分析預測

MRAF关于确定样本量的

现实复杂考虑•

在确定样本量基本公式之外,又有一些

现实因素影响调查估计量的精度,进而

影响样本量。这些因素主要包括

总体指标的变异程度

总体大小,

样本设计和所用的估计量

以及回答率57調查分析預測

MRAF关于确定样本量的现实复杂考虑•

1

.总体的变异程度

随着调查总体中所研究指标的实际变异程度的增加,

样本量也必须随之增大,以满足估计的精度要求。

为确保达到调查要求的精度,在计算样本量时,建议

对某一指标的总体变异程度采取保守估计,即假定研

究指标具有最大的变异程度。例如,对于二元变量,

应该假定总体中该变量的变异程度为

50

-50

%对半平

分,即假定

p=0

5

为确保样本量对所有的研究指标都足够大,应该根据

最大变异程度或被认为最重要的指标来确定样本量。58調查分析預測

MRAF关于确定样本量的现实复杂考虑•

2

.总体大小

在基本公式中,样本量的

确定似乎与总体大小没有

关系。因为当时假定在大

总体中进行有放回的重复

抽样,抽样总体的影响被

忽略掉了。然而,在调研

实践中,总体单元数量可

能是有限的,而且可能采

取非重复抽样,这时总体

大小对样本容量的影响就

应该被考虑进来了。在样本不放回的非重复抽样条件下样本均值的标准误表示为

:抽样误差范围表示为

E

=从上式中解得样本量

:在样本不放回的非重复抽样条件下样本比例的标准误

:抽样误差范围表示为

E

=从上式中解得样本量

:59調查分析預測

MRAF关于确定样本量的现实复杂考虑•

3

.样本设计和估计量

当使用复杂的样本设计时,估计值可能比

SRS

精确。当估计值更

精确时,称所采用的样本设计更为有效。因此,实际抽样时必须

考虑实际所用抽样设计的效率,并对初始样本量做出调整。即,

SRS

抽样的样本量计算公式基础上乘以一个

设计效应因子

设计效应

(Deff)

是指在给定抽样设计下估计值的抽样方差,与相

等样本量下的简单随机抽样的估计值的抽样方差之比。设某一抽样设计样本估计值的方差为,同等样本量的

SRS

设计的样本估计值的方差为,则抽样设计效应:

Deff

=显然,对于简单随机抽样设计,

Deff=1

;若

Deff

1

,表明实际使用的抽样设计的效率高于简单随机抽样;若

Deff

1

,表明实际使用的抽样设计的效率低于简单随机抽样。特定抽样设计所需的样本量(

n

1

)调整为:

n

1

=n

0

·Deff

60調查分析預測

MRAF关于确定样本量的现实复杂考虑•

4

.调查的回答率

调查回答率

是指调查回收的有效问卷数占计划访问的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论