抽样设计2社会经济问卷调查_第1页
抽样设计2社会经济问卷调查_第2页
抽样设计2社会经济问卷调查_第3页
抽样设计2社会经济问卷调查_第4页
抽样设计2社会经济问卷调查_第5页
已阅读5页,还剩90页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、打开几扇窗户看世界打开几扇窗户看世界 -如何做抽样设计如何做抽样设计12/11/20211 知识目录知识目录 抽样过程与选择抽样过程与选择 抽样方法抽样方法 抽样的基本条件抽样的基本条件* (选讲)(选讲) 抽样误差抽样误差 抽样容量抽样容量12/11/20212 目录目录 抽样过程与选择抽样过程与选择 抽样方法抽样方法 抽样条件抽样条件 抽样误差抽样误差 案例研究案例研究12/11/20213提问:生活中个人决策使用小样本例子?提问:生活中个人决策使用小样本例子?12/11/20214名词库:抽样的名词库:抽样的專有名詞概念專有名詞概念 母体:研究调查对象。 基本单位:母体中的个别单位。 样

2、本:母体的一部分。 参数:母体某一属性或变量数值。 统计量:根据样本数据求得,用以估计参数的数值 抽样框:可得之抽样单位名册。 抽样偏误:抽到特殊特征之单位。 抽样误差:减损样本代表性。12/11/20215Lapin 1978 (一)经济性(一)经济性 (二)时效性(二)时效性 (三)母体过大(三)母体过大 (四)母体中某些基本单位难以接触(四)母体中某些基本单位难以接触 (五)破坏性调查(五)破坏性调查 (六)正确性(六)正确性抽样的原因抽样的原因12/11/20216抽样的过程抽样的过程定义同质总体定义同质总体选择资料收集方法选择资料收集方法购置抽样框购置抽样框选择抽样方法选择抽样方法决

3、定样本量决定样本量建立和详细建立和详细选择样本的选择样本的可操作性计划可操作性计划执行可操作性执行可操作性的样本计划的样本计划评估抽样结果评估抽样结果12/11/20217 二、抽样框(二、抽样框(Yates 1953) (一)足夠 (二)完整 (三)不重複 (四)正確 (五)便利12/11/20218目目 录录 抽样概论抽样概论 抽样方法抽样方法 抽样条件抽样条件 抽样误差抽样误差 案例研讨案例研讨12/11/20219抽样方法抽样方法抽样方法(sample survey)非概率抽样(probability sampling)概率抽样方便抽样判断抽样配额抽样滚雪球抽样简单随机抽样系统抽样分层

4、抽样整群抽样多层抽样12/11/20211012/11/202111抽样方法抽样方法总论总论 随机抽样12/11/202112抽样方法抽样方法总论总论 非随机抽样12/11/202113抽样方法抽样方法分论分论一、简单随机抽样Simple random Sampling 实施方法 优缺点 适用情境(Boyed Jr ., Westfall , & Stasch 1985 ) 1. 成本高 2. 详细完备的最新抽样框 3. 统计效率低 4. 管理困难 (补)5。无法排除极具代表性的样本(Boyed Jr ., Westfall , & Stasch 1985 ) 1. 母体小 2

5、. 有适当的抽样框 3. 单位访问成本不受距离影响 4. 无其它有关母体的信息12/11/202114手把手教你手把手教你随机数表依机率抽取。随机数表依机率抽取。 假定由名调查对象,以随机数表随机抽取名样本,其抽样步骤如下: ()将名调查对象,由编至等个连续编号。 ()由随机数表,利用抽签方法选取号码开始点。例如选取为第十五行第四列。 ()由设定之起始点,选取号码,选取号码以调查对象之编号位数相同:即,有效号码样本以下。 ()若抽样单位与随机数表抽样号码条件相同即为样本,大于调查编号,跳过不取。 ()若逢重复号码,亦应跳过。 ()依上述方法,连续采用个号码,即为完成样本选用。 12/11/20

6、2115抽样方法抽样方法分论分论(二)机械抽样 实施方法 优缺点 适用情境 限制: 1. 抽样偏误 2. 随机偏误 适用情境: 抽样单位以随机次序编列12/11/202116抽样方法抽样方法分论分论(二)机械抽样 实施方法 优缺点 适用情境 限制: 1. 抽样偏误 2. 随机偏误 适用情境: 抽样单位以随机次序编列12/11/202117抽样方法抽样方法分论分论(三)分层抽样 实施方法 【圖示】:分層抽樣方法 母 體樣 本* * * * * * * *抽 樣第一層第二層第三層12/11/202118抽样方法抽样方法分论分论(三)分层抽样 优缺点優點: 1. 可靠性高 2. 利於比較12/11/

7、202119抽样方法抽样方法分论分论(三)分层抽样Stratified Sampling 关注要素1. 分层基础 2. 层级数目 不超过六层(Cochran 1963) 3. 等比例或不等比例样本 12/11/20212012/11/202121抽样方法抽样方法分论分论(四)整群抽样Cluster Sampling 实施方法(图示) * *抽 樣* *12/11/202122案例:案例:歌曲著作權使用費的分配歌曲著作權使用費的分配12/11/202123抽样方法抽样方法分论分论(四)整群抽样 优缺点(图示) 優點: 1. 經濟 2. 簡便 缺點:抽樣偏差12/11/202124 (五)多级抽样

8、12/11/202125非概率抽样非概率抽样 方便抽样(任意抽样) 任意抽样又称为便利抽样法。它是调查人员按工作的方便,随意抽选样本的一种抽样方法。运用任意抽样技术进行抽样,一般由调研人员从工作方便出发,在调研对象范围内随意抽选一定数量的样本进行调查。“街头拦人法”和“空间抽样法”是任意抽样的两种最常见的方法12/11/202126 任意抽样技术简便易行,可以及时取得所需的资料,节约时间和费用。这种方法适用于探测性调查,或调查前的准备工作。一般在调查总体中每一个体都是同质时,才能采用此类方法。但是,实践中并非所有总体中每一个体都是相同的,所以抽样结果偏差较大,可信程度较低,它的样本没有足够的代

9、表性。12/11/202127 判断抽样 判断抽样又称为目的抽样法。这是一种根据调查人员的经验或某些有见解的专家选定样本的抽样方法。12/11/202128 判断抽样法具有简便、易行、及时,符合调查目的和特殊需要,可以充分利用调查样本的已知资料,被调查者配合较好,资料回收率高等优点。但是,这种方法易发生主观判断产生的抽样误差,同时由于判断抽样中各个调查个体被抽取的概率不知道,因而无法计算抽样误差和可信程度。如果调查者的经验丰富,知识面广,判断能力强,抽取的样本代表性就大,反之则小。12/11/202129(三)配额抽样 配额抽样是按照一定标准,分配样本数额,然后在规定数额内由调查人员任意抽选样

10、本的一种抽样方法。 配额抽样是非概率抽样中最流行的一种。运用配额抽样技术进行抽样,要按照一定标准分配样本数额,并在规定数额内由调查人员任意抽选样本。12/11/202130案例分析案例分析 在某项调查中,确定样本总数为180个,可单独选择消费者收人、年龄、性别三个标准中的一个进行抽样。按独立控制配额抽样,其各个标准样本配额比例及配额数如表所示。年龄年龄人数人数18-294030-406041-557056以上以上30合计合计200性别性别人数人数男男100女女100合计合计200收入收入人数人数高高36中中74低低90合计合计20012/11/202131最终配额表格最终配额表格 高高中中低低

11、 合计合计男男女女男男女女男男女女18-2934789940(20%)30-40651111131460(30%)41-55661313161670(35%)56以上以上33657630(15%)小计小计181837374545 200合计合计36 (18% )74 (37%)90(45%)12/11/202132 相互控制配额抽样对每一个控制特性所需分配的样本数都做了具体规定,调查者必须按规定在总体中抽取调查个体,由于调查面较广,从而克服了独立控制配额抽样的缺点,提高了样本的代表性。七天连锁酒店七天连锁酒店12/11/202133 4、滚雪球抽样 滚雪球抽样的主要目标是分析调研总体的稀有特征

12、。 滚雪球技术的主要优点表现在,通过对调研总体设定期望的特征,从而增强了样本个体的相似性。因此,采用这种方法所产生的抽样误差比较小,成本比较低。 12/11/202134走向实践:央视收视率网的建设走向实践:央视收视率网的建设 1999年,央视索福瑞公司为建立一个收视率调查网(人员测量仪技术),需要调查一个有代表性的n=2000户的样本,采用了分层多级pps整群抽样技术。根据以往研究,知道非农业人口的比例是一个显著影响指标。 因此将电视观众分为三大区域: (1)城市域:行政区划中的所有地级市(只含非农业人口在50%的市辖区的家庭户) (2)中间域:行政区划中的所有地级市(只含非农业人口在30

13、近似正态近似正态(2) 的总体均数为的总体均数为, 标准差标准差 =/xxxxn12/11/202153正态分布与标准正态分布正态分布与标准正态分布12/11/202154正态分布的特点正态分布的特点 呈钟形且只有一个众数 关于平均值对称 一个正态分布的特殊性是由平均数和标注差决定的 正态曲线下方的面积等于1,表明它包括的所有的调查结果 正态分布下方在任意两个变量值之间的面积,等于在这个范围内随机抽取一个观察对象的概率。 所有的正态分布在平均数 个标准差之间的面积相等,都占曲线下方面积的68.26%,或者是占全部调查对象总体结果的68.26%。这称为正态分布的比例性。这是统计推断的基础。112

14、/11/202155XZX随机变量随机变量X XN N( , 2 2)标准正态分布标准正态分布N N(0 0,1 12 2)Z变换均数均数标准正态分布标准正态分布N N(0 0,1 12 2)XZn),(2nN1,nvSXnSXtXStudent Student t t分布分布自由度:自由度:n n-1-1t 分布分布(t-distribution)12/11/202156抽样推断抽样推断pSX、 总体均数的点估计(总体均数的点估计(point estimationpoint estimation)与区间估计()与区间估计(interval interval estimationestimat

15、ion)参数的估计参数的估计点估计点估计:由样本统计量:由样本统计量 直接估计直接估计 总体参数总体参数区间估计区间估计:在一定:在一定可信度可信度(Confidence level) 下下,同时考虑抽样误差,同时考虑抽样误差、 按预先给定的概率按预先给定的概率(1 ), 确定一个包含未知总体参数的范确定一个包含未知总体参数的范围。这一范围称为参数的可信区间或置信区间围。这一范围称为参数的可信区间或置信区间(confidence interval,CI)12/11/202157可信区间的定义可信区间的定义按一定的概率或可信度(1-)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区

16、间或者置信区间(confidence interval,CI),预先给定的概率(1-)称为可信度或者置信度(confidence level),常取95%或99%。 可信区间(CL, CU )是一开区间 CL、CU 称为可信限12/11/202158可信区间的两个要素可信区间的两个要素 可信度(Confidence):准确性,可靠性,即1-。 一般取90%,95,可人为控制 精确性(Precision):区间的大小,越小越好。 必须二者兼顾12/11/20215995%可信区间的含义可信区间的含义-2 -1 0 1 2 按这种方法构建的可信区间,理论上平均每100次,有95次可以估计到总体参数

17、。12/11/202160 当总体方差2已知时总体均值的区间估计 对于给定的显著性水平,可以构造均值的置信区间为:nZXnZX2/2/,12/11/202161 总体方差未知时(小样本)总体均值的区间估计 对于给定的显著性水平,总体均值的置信区间为:nStXnStX2/2/,12/11/202162走进实践走进实践 从某地区5000名消费者中随机拍出100名,对其生活费支出进行调查,抽样调查结果为平均生活费支出为200元,平均抽样误差为5元。要求在95.45%的概率保证下,推算出全部消费者的生活费支出总额。12/11/202163问题问题12/11/202164 目录目录 抽样概论抽样概论 抽

18、样方法抽样方法 抽样条件抽样条件 抽样误差抽样误差 样本容量的确定样本容量的确定 案例研讨案例研讨12/11/202165认识一组名词认识一组名词 精确度(Precision)与 准确度(Validity) 精确度乃用以衡量估计值精确可依赖的程度,如在物价统计中,经济家若认为物价如上升0.02将影向经济决策,则精确度即须订在0.02。 准确度乃衡量母全体特性与实际母全体特性间之差异。两者之差异愈小,代表准确度愈高。 抽样误差(Sampling error) 因为抽样时样本可能会偏离母群体,其间的差距称为抽样误差。抽样误差可用统计方法估计。 置信水平(Confidence level) 以样本估

19、计数推论母群体大小时,正确估计的概率有多少。信赖水准是,即正确估计概率为,调查者以此来表示其正确估计程度。 可允许误差(Tolerated erro) 在抽样调查时,调查者所要求的精确度不是百分之百,而是在设定母群体平均数上下各多少百分点作为误差容忍范围,称为容忍误差。12/11/202166抽样误差 由于随机抽样的偶然周素使样本各单位的结构对总体各单位结构的代表性差别,而引起的抽样指标和全及指标之间的绝对离差。如抽样平均数与总体平均数的绝对离差,抽样成数与总体成数的绝对离差等等。必须指出,抽样误差是抽样所特有的误差。凡进行抽样就一定会产生抽样误差,这种误差不可避免的,但可以控制,又称为可控制

20、误差。 抽样误差与另外两种误差不同。一种是调查误差,即在调查过程中,由于观察测量、登记、计算上的差错所引起的误差:另一种是系统偏误,即由于违反随机原则,有意地选择较好或较差单位进行调查,造成样本代表性不足所引起的误差。这两种误差是可防止和避免的。12/11/202167影响抽样误差大小的因素影响抽样误差大小的因素 总体单位的标志值的差异程度。 样本单位数的多少。 抽样方法。七天连锁酒店七天连锁酒店 抽样调查的组织形式。12/11/202168重复抽样重复抽样当总体为N,样本容量为n时,抽样平均误差公式为:非重复抽样非重复抽样抽样的平均误差抽样的平均误差成数的抽样平均成数的抽样平均误差误差12/

21、11/20216912/11/202170抽样极限误差 抽样平均误差说明某一抽样方案总的误差情况,但在实际进行抽样调查时,只抽取一个样本。那么这个样本的误差,可能大于或小于平均误差。对于该项抽样调查,一定会要求有一个允许误差的范围。这一允许误差的范围,就称作极限误差。抽样结果的抽样指标与总体指标之间的离差,可能是正或是负。因此允许误差的范围采取绝对值形式,用表示,即: 12/11/202171非抽样误差之避免非抽样误差之避免此种误差只有细心设计抽样过程及正确认真执行抽样工作,方可减为最低.、未能回受问卷或填答项目不完整,遗漏数据。 、测量不准:由测量方法及测量工具不良所导致。其主要原因之乃:

22、设计错误:对于问题的了解不够深入,导致观念及推理逻辑偏离主题,整个抽样设计错误,所测量对象并非母群体真正参数。 问题偏激或隐匿事实,易造成受访者不安或压力,不愿给予正面答案。 更换样本:抽样访问对象与原来计划不同。 访问员之错误,误解问题或加入自己意见。 方法影向答案。即访问者本身影向被访问者状况。 、数据处理错误:如程序设计错误,资料牏入错误。 12/11/202172a. 为弥补遗漏数据采用加权调整法加以弥补。至于问卷没有回收,问项答不完整。采用设算法加以弥补。 b. 利用手提微电脑进行实地访问;计算机辅助电话访问(CATI)。 c. 统计分析利用计算机处理;抽样调查的结果经由计算机通讯网

23、路直接传送结使用者。12/11/202173 目录目录 抽样概论抽样概论 抽样方法抽样方法 抽样条件抽样条件 抽样误差抽样误差 样本容量的确定样本容量的确定 案例研讨案例研讨12/11/202174走向实践:学校记者团的烦恼走向实践:学校记者团的烦恼 厦门理工学院是厦门市办大学,在校学生有1.5万人,分别住在拥有160万人口和40万人口的城区里。学校记者团正努力增加广告收入,广告人员希望运用宣传工具,是这座城市的商人们相信这所大学对这个城市有着经济上的影响。作为主要研究的一部分,需要调查一个学生样本以确定这些学生在这个学校中每个月的消费额,调查所得的结果,将用来估计全体学生的消费额。调研者面临

24、的任务是选取一个相当大的样本,使其能够对总体值提供一个比较精确的的估计,但是他们不愿意将调查资金浪费在一个太大而实际又没有必要的样本上。 那么要抽取多少个学生?50?200?1000?3000?12/11/202175样本容量的影响因素样本容量的影响因素_定性定性 定性因素12/11/202176样本容量的影响因素样本容量的影响因素定量定量 定量因素12/11/202177 定量因素12/11/202178确定样本容量的方法确定样本容量的方法 教条式的方法 约定式的方法 成本基础法 统计分析法 置信区间法 12/11/202179 教条式方法教条式方法以以“经验性经验性”为前提,认为样本容为前

25、提,认为样本容量应该是量应该是“为保证精确,样本至少应该是总体为保证精确,样本至少应该是总体的的5%”。但是,教条式方法忽略了抽样的精。但是,教条式方法忽略了抽样的精确度问题。而且,当被研究的总体很大时,这确度问题。而且,当被研究的总体很大时,这绝非时一种经济的方法。绝非时一种经济的方法。 约定式方法约定式方法认为某一个约定或者数量就是正确认为某一个约定或者数量就是正确的样容量。但是,约定式确定样本容量的方法的样容量。但是,约定式确定样本容量的方法忽略了与所要进行的研究相关的情况,而且采忽略了与所要进行的研究相关的情况,而且采用约定的样本容量进行研究所需的费用可能比用约定的样本容量进行研究所需

26、的费用可能比用正确的样本容量进行研究高许多。用正确的样本容量进行研究高许多。12/11/202180 成本基础法成本基础法将成本作为确定样本容量的基础。将成本作为确定样本容量的基础。 成本将不是确定样本容量的唯一考虑因素,但成本将不是确定样本容量的唯一考虑因素,但在确定样本容量时也应予必要的考虑。在确定样本容量时也应予必要的考虑。 统计分析统计分析用于分析样本中的各个子集。在对子用于分析样本中的各个子集。在对子集进行观察时有必要将每个子集视为一个单独集进行观察时有必要将每个子集视为一个单独的总体,并为每一个子集确定样本容量,同时的总体,并为每一个子集确定样本容量,同时运用恰当的方法以及其他特定

27、的方式以从子集运用恰当的方法以及其他特定的方式以从子集中获取信息。一旦完成了上述工作,就可以将中获取信息。一旦完成了上述工作,就可以将所有的子集合并起来组成一个大的集合,以获所有的子集合并起来组成一个大的集合,以获得对整个团体的描述。得对整个团体的描述。12/11/202181置信区间法置信区间法 置信区间法置信区间法:运用差异性置信区间、样本分布:运用差异性置信区间、样本分布以及平均数标准误差或百分率标准误差等概念以及平均数标准误差或百分率标准误差等概念来创建一个有效的样本。来创建一个有效的样本。12/11/202182复习:一组概念复习:一组概念 差异性 标准差 置信区间 抽样分布 平均数

28、或者百分率平均数或者百分率标准误差的概念标准误差的概念为样本容量。为样本标准差;为平均数标准误差;式中:nSSnSSxx为样本容量。);为(为样本中的百分率;为百分率标准差;式中:npqpsnqpSpp10012/11/202183样本容量的确定方法样本容量的确定方法为可接受误差。;为为总体的估计差异性;相关的标准误差;为与所选置信区间为样本容量;式中:epqpznepqzn10022接受误差。体的精确度或可为样本估计值相对于总可变性;的为由估计的标准差表明的标准误差来表明);联为置信区间(由与之关为样本容量;式中:esznezsn22212/11/202184确定样本大小时实际操作确定样本大

29、小时实际操作案例讲解案例讲解(一)如何估计总体的差异性一)如何估计总体的差异性 调研人员就必须考虑所有与差异性有关的信息,调研人员就必须考虑所有与差异性有关的信息,甚至还可能需要进行导向性研究,一在确定最终甚至还可能需要进行导向性研究,一在确定最终样本容量之前,对总体的性质有更好的理解。样本容量之前,对总体的性质有更好的理解。(二)如何确定期望精确度的值(二)如何确定期望精确度的值 营销项目主管的任务是选取营销决策人员允许误营销项目主管的任务是选取营销决策人员允许误差的可接受范围,以满足其决策所需。差的可接受范围,以满足其决策所需。来表示。通常调研精确度以%x12/11/202185(三)如何

30、计算期望置信度(三)如何计算期望置信度 通常的方法是运用通常的方法是运用99%或或95%的标准置信区间。的标准置信区间。换算成换算成z分别是分别是2.58和和1.96。(四)特殊的确定样本容量情况(四)特殊的确定样本容量情况 1、从小总体中抽样、从小总体中抽样 小总体情况是指在其样本超过总体总容量的小总体情况是指在其样本超过总体总容量的5% 如果是小总体,则样本容量的公式就需要用有限如果是小总体,则样本容量的公式就需要用有限乘数来进行调整。有限乘数是指近似于不包括样本乘数来进行调整。有限乘数是指近似于不包括样本的总体比率的平方根的一个调整因素的总体比率的平方根的一个调整因素。1NnN样本容量公式样本容量12/11/2021862、运用非概率抽样确定样本容量运用非概率抽样确定样本容量 运用非概率抽样确定样本容量的唯一合理方运用非概率抽样确定样本容量的唯一合理方法是,衡量从样本中所获取信息的利益或价值法是,衡量从样本中所获取信息的利益或价值与收集这些信息的成本。与收集这些信息的成本。12/11/202187实践中的抽样法实践中的抽样法 查表方式12/11/202188手把手教你:实际操作手把手教你:实际操作 根据调查研究的目的,确定研究的置信水平()和精度(或最大允许误差) 由和精度根据公式计算或查表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论