




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、抽样调查方法与技术复习要点1、我国统计调查方法体系改革的目标模式是什么?为什么?目标模式:建立以周期性普查为基础,以经常性抽样调查为主体,以必要的统计报表、重点调查、科学推算等 为补充的搜集和整理基本统计资料的统计调查方法体系。所以,抽样调查在我国统计调查方法体系中应该是使用最 广泛的一种调查方法,在调查方法体系中处于主体地位。为什么?解放前,我国统计工作相当薄弱,解放后,我国统计工作主要是照搬前苏联的体制,根据计划经济的特点和分 级管理的要求建立了定期统计报表制度,以全面统计为主。改革开放后,社会主义市场经济逐渐取代了计划经济, 统计调查的对象日趋庞杂,以全面统计报表为主的统计调查体系已完全
2、不能适应国家宏观决策与调控,以及部门、 企业、社会公众对统计信息的需要,另外全面统计调查方法不仅笨重,缺乏灵活性,而且财力、物力投入大,统计 调查效益差,基层负担重,中间环节多,容易受到行政干挠,统计信息质量很难得到保证。为了从根本上解决调查 对象复杂,调查方法单一的问题,对历史上形成的传统的统计调查方法体系进行了改革,于是抽样调查作为一种科学的非全面调查,越来越受到重视。2、抽样调查会被大数据的“全样本”分析所取代吗?不会。第一,抽样调查具有随机性,使得样本可以反映总体的情况。而大数据样本没有这样的随机性,不能很 好的代表总体。第二,大数据样本不能被当作“总体”,大数据技术本身远远没有达到“
3、普查”的水平,存在统计 偏差。3、大数据时代抽样调查面临哪些挑战与机遇?(熟读:王莹 万舒晨大数据时代抽样调查面临的挑战与机遇,统计与信息论坛,2016年06期)(一)大数据对抽样调查提出挑战第一,大数据时代强调“样本=总体”的观点存在争议,事实上不可能完全利用存在无效信息的全部大数 据进行分析,因此抽样调查仍然大有可为。第二,大数据是动态实时变化的,因而统计调查分析的目的可能也随之不断发生变动。在前期获得部分样本的 情况下,需要研究根据已知的样本逐步调整调查的项目,从而获取感兴趣的抽样对象,使得这些“热门”样本数据 能够适时入样。另外,在大数据时代不应拘泥于概率抽样,可以尝试引入非概率抽样。
4、第三,面对大数据动态变化的特点,传统抽样方法可能导致抽取样本的偏态。(二)大数据时代下的抽样调查充满机遇。第一,大数据拓宽了抽样调查数据采集的渠道,一些传统概念中无法获取数据的渠道在大数据时代均有可能进行 有效的数据提取。大数据为抽样调查数据采集提供了很大的便利,能够降低调查成本,缩短调查时间。第二,大数据为抽样框的及时更新维护提供了便利条件。大数据时代下抽样框的更新维护,实质就是将实时变 化的大数据信息进行有效地采集和整合,转化为抽样框更新维护时可以有效利用的数据信息的方法。第三,抽样调查可作为弥补大数据因果关系分析的有效手段。基于一些主客观条件,大数据仅重视相关关系而 忽略因果关系。第四,
5、抽样调查可作为大数据分析的对照基础与验证依据。对于从混杂大数据中得到的结论,抽样调查可作为 大数据分析结果的对照和验证工具。4、抽样调查中包含的哲学思想。(熟读:俞纯权抽样调查理论与方法的哲学诠释,统计与信息论坛2006年02期;王天营统计调查方法的哲学思考,中国统计2007年06期)1、抽样调查的理论和方法体现了辩证唯物主义的认识论1、抽样调查体现了实践在认识中的决定作用2、抽样调查是从感性认识到理性认识,再由理性认识到实践的认识活动3、抽样理论体现了科学的逻辑思维方法2、抽样调查的理论和方法体现了唯物辩证法的思想1、总体的定义体现了辩证观点2、样本的二重性理解体现了唯物辩证法的运动观3、抽
6、样方法、估计方法体现了唯物辩证法思想1、抽样调查可以最大限度地保证“个体与总体”、“局部与整体”辩证关系在抽样调查中的应用。由于选中的单位是个体,个体又是各种信息的基本载体,保证了所有个体的一般性、普遍性,也就使得收集到的所有信息中 蕴含有事物的一般规律性,因此可以更好地体现个体与总体、局部与整体的辩证关系。2、抽样调查可以体现体现事物质量互变的规律性。抽样调查是以相对较少的个体单位信息为基础,采用归纳推理的数学方法给出总体一般规律的认识。但是前提条件是构成样本的个体单位数必须足够地多,或者说必须满足数学极限原理才能达到由部分到整体的认识飞跃,其本质就是哲学中“事物量变到一定程度必然发生质变”
7、原理的体现。抽样调查中纵然不能调查无穷多个单位,但是足够多个单位就足以使人们能得到期待的结果。3、抽样调查可以更好地体现“相对与绝对”的辩证关系、“具体问题要具体分析”的哲学思想。通过抽样调查可以达到对特定客观事物总体的认识,但是这种认识是相对的、有误差的。误差的大小反映着对事物客观规律性认识的接近程度:误差越小表明对事物客观规律认识越接近。人们可以通过改变或重新设计,新的调查方法逐步改善对客观事物规律性认识的程度。4、抽样调查完美地体现了哲学中“偶然性与必然性”的辩证关系。因为抽样调查中随机性原则的使用,保证了在选取部分调查单位时每一个个体单位都有同等被选中的可能性。尽管在选出具体调查单位前
8、,哪一个个体能被选中与否是偶然的,但是每一个单位都有同等被选中的机会,而且必然有单位要被选中:同时只要随机地选出了样本,用样本信息就必然可以对总体作出具有一定可靠程度的推断。5、广义抽样调查的分类。广义的抽样调查(非全面调查)分为概率抽样与非概率抽样。其中:概率抽样(狭义抽样调查)分为等概率抽样与不等概率抽样;非概率抽样分为重点抽样、典型抽样、随意抽样等。6、概率抽样与非概率抽样优缺点比较。P3-4概率抽样:优点:可计算出每个单位的入样概率;可计算出每个估计值的抽样误差;能够保证样本的代表性。缺点:比较复杂,专业技术要求高;相对于非概率抽样,调查费用高、时间长。非概率抽样:优点:操作简单,不需
9、要抽样框,经济,快速。缺点:无法计算抽样误差,调查单位可能存在系统性误差。7、抽样调查的作用与不足。作用:1 . 能够解决全面调查所无法解决的现象的调查问题。2 .适用于对理论上可以作全面调查,而实际上又难以组织全面调查的现象进行调查。3 .对于时效性要求较高、同时又可以不作全面调查的现象的调查有着特殊的作用。4 .抽样调查的结论可被用来检验和修正全面调查结果。5 .抽样调查可对工业生产过程的稳定性进行监测,从而实现质量控制。6 .利用抽样调查方法还可以对总体的某些假设进行检验,以判断这些假设的真伪,为管理决策提供依据。不足:1 . 理论与技术比较复杂;2 .需要足够好的样本,需要具有代表性和
10、随即性,具有不稳定性,有所偏差,推断结果有差错;3 .抽样调查只提供对总体目标量的估计而较难提供划分过细的子总体,即小域的估计;而子总体难以推断,为满足各级管理需要,抽样单位数层层加码,抽样调查难免异化为全面调查。优点 :1 . 由于只从总体中抽取一部分样本进行调查,工作量小,所以比全面调查节省人力、物力、财力,比较经济;2 .可以及时取得调查资料,提高数据的时效性;3 .数据质量有保证,由于抽样调查一般是自上而下组织调查,直接派员深入实际抽取样本并推断总体,可以减少人为因素干扰,只要取样、推断方法科学,均有利于提高数据的质量;4 .调查方法灵活,如实际工作中使用较多的问卷调查、入户调查、电话
11、调查等,适应面广,特别适于对点多面广的总体作调查。抽样调查的特点1 . 按随机原则抽选样本,在总体中每一个单位被抽取的机会是均等的。2 .用样本资料推断总体数量特征。适合样本数量较多的情况下采用。(好处?抽样调查能在一定程度上起到全面调查的作用;全面调查是特殊的抽样调查)3 .速度快、周期短、精度高。4 .在抽样推断之前可以计算和控制抽样误差。可以用一定的概率来保证将误差控制在规定的范围之内。5 .抽样技术灵活多样。6 .抽样调查的应用十分广泛。7 .同其他调查方式相比,抽样调查的技术性更强。抽样调查的基本程序1.设计抽样方案。2.编制抽样框和设计调查表(问卷)。3.试抽样调查(通过、修改通过
12、、否定)。4.正式抽样调查。5.数据处理。6.推断分析。7.总结评估。8、抽样调查与普查如何结合?抽样调查与全面调查如何选择?(P5-6)抽样调查与普查如何结合?1 . 时间上结合。如人口调查。2 .空间上结合。对某些单位实施普查,对另外一些单位实施抽样调查。如规模以上工业企业与规模以下工业企业调查、人口普查中的长表与短表。3 .项目上结合。比如,在残疾人调查中,对残疾人的数量、收入、致残原因进行普查,对其婚育状况、家庭人口、就业、年龄分布等进行抽样调查。4 .用抽样调查的资料矫正普查的登记误差。抽样调查与全面调查如何选择?1. 费用;2 .时效;3 .总体大小;4 .小区域估计:普查调查所有
13、单元,所以它可以提供任何层次的估计,且没有抽样误差。5 .属性的多寡;6 .调查误差;7 .特殊要求:如果只有那些受过专门训练的人员或者使用昂贵的计量仪器才能收集到所需的数据,大规模的普查是不可能的。此时抽样调查是唯一可能的选择。8 .其他因素:进行普查还有一些其他原因,其中之一是为以后的抽样调查提供抽样框。9、在抽样调查发展的历史中,哪两篇文章(报告)的发布从理论和实践上充分肯定了抽样方法的科学性?鲍莱和詹森(丹麦、1925)在第16 届 ISI 上分别作了抽样精确度的测定、代表性方法的实践的报告,从理论和实践上充分肯定了抽样方法的科学性。10、调查单位与抽样单位二者的关系。注意二者有时一致
14、,有时不一致。(一)调查单位是调查项目的承担者,是我们通过调查想获取观察值的单位。在绝大多数情况下,调查单位是总体中最基本的单位。(二)抽样单位是调查总体中每次可能被抽中的单位。如省抽县,抽样总体中的每个县是抽样单位;县抽乡,调查总体中的每个乡是抽样单位。(三)二者关系1、抽样单位是调查总体与调查单位之间的联结单位。2、一般情况:调查单位是最后一级的抽样单位。住户调查,居民家庭既是调查单位,也是最后一级抽样单位。少数情况A :1 个抽样单位包含多个调查单位。如居民健康状况调查,调查单位是居民个人,抽样单位可以是每一户居民家庭、一栋楼房、一个居民社区。(通过抽查家庭调查居民)少数情况B: 1 个
15、调查单位可能对接于多个抽样单位。如家庭多名成员在同一企业上班,抽样单位是职工个人,调查单位是职工家庭(通过抽查职工调查家庭)。(四)抽样单位分级多阶段抽样中,抽样单位可以分级。如粮食产量调查中省抽县、县抽乡、乡抽村、村抽农户或地块。(五)调查单位与抽样单位的规模及形式规模:可以相同,可以不同;(整群抽样)形式:可以是自然单位,可以是人为单位。11、好的抽样框的标准。在抽样以前,必须把调查总体(抽样总体)转化为抽样框。抽样框,就是根据调查总体中的一个个单位所编制的名录,是调查总体的具体表现。抽样框一般最初来源于普查。一个好的抽样框应该具备四个标准:一是与目标总体保持一致;二是能够提供与调查目的有
16、关的尽量多的准确 的、完整的辅助信息,以便在抽样中容易找到调查单位;使用方便,编制与更新费用低廉。12、样本(样本总体)有人称为“代表团”。样本为什么能够代表总体?是从总体中随机抽出来的,不是挑选出来的;严格的概率抽样,抽选的样本在总体中的分布比较均匀(二者结构相似);它是一个“代表团”(样本单位数量足够多),不是个别单位。13、优良估计量的标准。无偏性:估计量的数学期望应等于总体指标。E(q) =q一致性(相合性):当样本容量趋近于总体容量时,估计值会趋近于总体指标。lnmP|qT:e =1有效性(Effectiveness):优良估计量的方差应较小,这样估计量的取值能集中在被估计的总体参数
17、的附近,对总体参数的估计和推断更可靠。设q1、q2为日的两个无偏估计量,若 d(b " < d(日2),则q1比q2有效。需要注意:在抽样中,应尽量选择同时满足无偏、一致和有效要求的估计量。然而,有时无偏性和有效性之间 可能有矛盾,即某个估计量虽然无偏但有效性较差,而另一个估计量虽然有偏但更有效。这时,我们一般会为了有 效性而放弃无偏性,即选择那个有偏但 更有效的估计量。充分性(Sufficiency):对于总体指标6 ,若其估计量 q提取了样本中包含的有关总体指标9的全部信息,则估计量q就称为是总体指标e的充分估计量。稳健性(Robustness):如果用来估计总体指标0的样
18、本估计量对样本数据的污染不敏感,即估计量的数值不受被污染数据的干扰或受其干扰不大,则该估计量就是总体指标9的一个稳健估计量。注:样本平均数的特性:由大数定律知,样本平均数是总体均值的一致估计。同时包含了关于总体均值的全部 信息(充分);还可以证明,样本均值在总体均值所有的无偏估计量中具有最小方差,样本均值是总体均值的一个无偏、有效、一致、充分性要求的估计量,但不是一个稳健性的估计量。中位数具有稳健性的特点,但是会损失定的有效性和充分性。可以考虑一个新估计量,即将样本均值和中位数折中,比如切尾均值。切尾均值,即将样本 数据按大小排序后,切掉两端部分数据再计算均值。实践中常用的切尾均值是中均值,亦
19、即将样本数据按大小排序 后两端各切掉25%的数据再计算均值。14、抽样分布定理。正态分布的再生定理若样本来自期望为 Y、方差为S2的正态分布总体,则不论样本容量大小,样本均值y都服从期望为Y、方差一 S2-为V(y)=一(重复抽样)或 V(y) =(1 f) nS2-"(不重复抽样)的正态分布。其中,nf =是抽样比。N中心极限定理2若样本来自任一期望为 Y、方差为S2的总体,则当样本容量足够大时(一般要求:n至30 ),样本均值也服从于S期望为丫、万差为V(y)=(重复抽样)或 nS2V (y) = (1 一 f)一(不重复抽样)的正态分布。 nt分布若样本来自方差未知的正态总体且
20、样本容量较小(n<30),或样本来自任一方差为S2的总体且样本容量较小(n <30 ),则样本均值 y服从于自由度为n-1的t分布。t分布与正态分布十分接近。(自由度愈大,t分布曲线愈接近正态分布曲线。-S2V(y)=(重复抽样) n通过三大定理得出一个结论,不管哪种情形,样本均值的方差用以下公式计算没有多大问题:-£ S2V(y)=(1_f)(不重复抽样)n15、均方误差、方差与偏倚(定义与关系)。21 .均方误差:MSE(q) = E(q_q)2.估计量的方差八八V(q)= E q_E(q)23 .偏倚(偏差):B(q)=E(q)-q关系:均方误差=方差+偏倚的平方M
21、SE(q) =E(q-q)2=E .|(q- E(q) +(E(q) q)jq- E(q) 2A2A AAE(q)-qj +2Eq-E(q)(E(q)q) 1A A 2- A2AA= Eq-E(q) E(q)-q =V(q) B2(q)16、抽样误差的表现形式:实际抽样误差:实际抽样误差(或称抽样实际误差)、抽样标准误、抽样极限误差。A1、抽样实际误差:实际抽样误差=抽样估计值-相应总体参数。即q-q (与偏倚不同)抽样实际误差能计算吗?2、抽样标准误:根据某一估计量公式计算的所有可能样本的估计值的标准差,是狭义的抽样误差(抽样标准误在AA统计学中又叫抽样平均误差),是衡量抽样误差大小的核心指
22、标。根据定义,抽样标准误SE(q) = ;V(q)。当估计AA量有偏但偏差不大时,则有:SE(ti) : MSE(u)抽样标准误较小,意味着根据所有样本计算的对总体某一参数的全部估计值之间的差异小,如果估计量无偏或 接近无偏,这些估计值比较集中在相应的真实的总体参数周围,即抽样实际误差较小;反之,抽样标准误较大,抽 样实际误差也较大。因此,完全可以用抽样标准误来说明抽样实际误差的大小。抽样误差可以在抽样前就可计算, 并可控制。3、抽样极限误差,也称为允许误差。是指用样本估计总体时在某种概率意义下所允许的最大误差范围,一般用表示。(教材:P25误差限d) 一般而言,绝对误差4 =|日的估计值-9
23、的真实值|相对误差|日的估计值一6的真实值|训真实值抽样极限误差是特定概率下允许的最大绝对误差。抽样极限误差不是实际误差。因为估计值的大小 与概率大小有关,但是其含义已经很清晰了。抽样极限误差般由调查的组织者给出;若调查者自己就是组织者,可以提出一个经验数字,也可以由试调查(预调查)计算的抽 样标准误与推断概率计算。抽样极限误差的影响因素:一个是抽样标准误SE(日),另一个是概率保证程度 1 -a = P = F (t)点估计给出了总体参数估计的一个定值,但这个定值的准确性和可靠性无法衡量。点估计的结果老百姓容易理 解。点估计的主要作用是为区间估计提供推断的基础。17、样本设计效果评价。Def
24、的应用。样本设计效果评价: 估计量方差与费用。设计效率优点一是 反映设计效果高低的相对指标,又叫设计效果系数、设计效应,是指两个抽样方案的抽样方 差之比。一般用 Def来表示。美国统计学家 kish提出了一个具体的计算方法:因为简单随机抽样是最基本的样本设计,若一种设计的估计量方差vd(e),比简单随机抽样的估计量方差Vsrs(还小,我们称其方案的设计效率比简单随机抽样高;反之则低。设计效率:Deff.、(复杂抽样时)Vsrs(q)(简单随机抽样时)设计效率优点二是还可用来计算复杂抽样(非简单随机抽样)的样本量。n = n deff n是复杂抽样的样本量n是简单随机抽样的样本 量deff可采用
25、历史资料或理论值的上限几种抽样方式设计效率 Deff比较,通常情况下有:简单随机抽样:Def =1(一定的)分层抽样:Def< 1(一般有:分层抽样的抽样误差最小。)整群抽样:Def >1机械抽样:Def < 1多阶段抽样:Def >118、非概率抽样的概念和适用场合。非概率抽样:抽样时不遵循随机原则,而是按照研究人员的主观经验或其他条件来抽取样本的一种抽样方法。(主观认识或方便)非概率抽样适用场合概率抽样的结果明显优于非概率抽样,然而实际中的调查没有一个能严格匹配于经典教科书的概率抽样方法。 同时,有些抽样只能采用非概率抽样。共同特点:不是随机原则入样,抽样时总体单位
26、的入样概率未知,入样与否与研究人员的经验和主观意志有很大关 系。因此,非概率抽样在应用时更需研究人员具备深厚的背景知识和相关经验。非概率抽样受到重视的原因:1、严格的概率抽样几乎无法进行。例如总体边界不清而无法制作抽样框。2、如果调查目的只是对问题作初步探索,或为了获得今后研究线索,或为了提出假设而不是推断总体,采用 概率抽样就不一定必须。3、调查对象不确定或根本无法确定。如对突发事件进行现场抽样调查。4、总体单位离散程度不大,而调查有关人员具有丰富的抽样调查经验。(结果不一定不准确)5、非概率抽样往往更简单(随意,或方便,凭经验)。19、几种具体的非概率抽样方法。就其本质只有四种:便利抽样、
27、判断抽样、配额抽样和(滚)雪球抽样。(一)便利抽样又称就近抽样、偶遇抽样、自然抽样、随意抽样、方便抽样等。它是根据调查者方便与否来抽 取样本的一种非概率抽样方法。如抓最靠近笼门的小白鼠做实验。优点:简便易行成本低。缺点:难以真正涵盖总体,样本偏差有时比较大。(二)判断抽样又称目的抽样、代表性抽样,接近于“解剖麻雀式典型调查”。它是根据调查者自己的知识经 验判断选择代表性或典型性单位进行调查。如选中等收入住户了解对某产品的购买意向。优点:充分发挥调查人员的主观能动性及对信息了解来选择样本单位。缺点:主观性强,没有客观标准。注意:目的抽样从主观上看很在乎寻找有代表性的单位(不很方便),因此区别于“
28、随意抽样”;教材P2把“目的抽样”与“判断抽样”割裂开来不妥。(先判断一判断抽样,再有意识去抓一目的抽样)(三)定额抽样又称配额抽样,接近于“划类选典式典型调查”。先对总体按一定标志分类,并按比例分配每 类应调查单位的定额,然后由抽样者在每类进行判断抽样。(先在每类中定额即定数量,再从每类中主观抽样)。 美国盖洛普公司(Gallup)首先发明使用,在于提高样本的代表性。在市场调查、民意测验中经常适用。优点:先分类再抽样,对总体代表性相对较高。缺点:从每类中获取样本单位时仍然是非概率抽样,主观性强。(和分层抽样有何区别?分层抽样是随机抽样,在每一层中随机抽样;而定额抽样时非随机抽样,在每一层中主
29、观抽样。)(四)滚雪球抽样 又称链式抽样。它是以“滚雪球”方式抽取样本,即通过一些“种子”样本点以获取更多样 本点的信息,样本逐渐庞大。其特点是便于有针对性地抽选样本而不致于“大海捞针”。(五)流动总体抽样 又称捕获-标记-再捕获。它是抽样者先从总体中获取部分单位,加以标记后放回总体,过 一段时间后再获取部分单位,然后根据再获取单位中有标记单位的比例推断总体的数量。有人认为,流动总体抽样 是介于概率抽样与非概率抽样的抽样技术;而有人认为它只是一种调查技术而非抽样技术。(六)志愿者抽样P2-3。被调查者是志愿者 (感兴趣而自愿的, 或受道德与舆论绑架而被迫的)。如医疗试验,读者意见调查。20、为
30、什么说简单随机抽样是等概率抽样?(从样本来看和抽样单元来看) 1、从样本来看是等概率抽样。1二C CN TI (N -n)!一 N!考虑顺序的重复抽样考虑顺序的不重复抽样每个可能样本被抽中的 概率:不考虑顺序的重复抽样不考虑顺序的不重复抽2、从抽样单元来看是等概率抽样。每个单元(单位、个体)的入样概率:n/N(1)按照随机原则取样,在取样时排除任何主观因素选择抽样单元,避免任何先入为主的倾向性,防止出现 系统误差。(2)每个抽样单元被抽中的概率都是已知或者事先确定的,或者事先可以计算出来的。(3)每个抽样单元抽中的概率都是相等的,即简单随机抽样属于一种等概率随机抽样。21、重复抽样与不重复抽样
31、比较。1、每次抽样时面对的总体结构是否相同2、样本量相同时信息量的差异3、样本量与总体大小有无直接关系在实践中,一般多采用不考虑顺序的不重复抽样,没有特别指明时,都是指这种。22、如何利用随机数字表抽样。随机数表是一张由0, 1, 2,,9这十个数字组成的,一般常用的是五位数的随机数字表,10个数字在表中出现的顺序是随机的,每个数字都有同样的机会被抽中。用随机数表抽选简单随机样本时,一般可根据总体大小 N的位数决定在随机数表中随机抽取几列, 比如N =768, 要从中抽取n=10的简单随机样本,则在随机数表中随机抽取相邻的3列,顺序往下(或往上),选出前 10个001到768之间的互不相同的数
32、,如果这 3列随机数字不够,可另选其他 3列继续,直到抽够 n个单位为止。用此种方法,当N的最高位数较小,比如小于 5,且n不小时,由于读到的随机数被舍弃不用的比例较大,抽 选效率较差。例如,N=247,若按常规方法,则大于 247的随机数(248999)以及000都没用到,此时可采用下 面的方法。在随机数表中随机抽取 3歹U,顺序往下,如果得到的随机数大于 247 (本应舍弃),则用这个数除以247, 得到的余数入1¥ (余数为 0即整除,第247号入样),显然这种方法效率要高得多。随机数表的起始页和起始点都应用随机数产生。如:540/247,余数为046。23、简单随机抽样的评价
33、。(一)优点最简单的抽样技术;抽样框不需要其他(辅助)信息(但要有联系方式);理论成熟。关于样本量的确定、总体参数估计都有现成的较简单的标准公式可以利用。(二)缺点估计的统计效率较其他利用辅助信息的样本设计低,比如分层抽样;(分层抽样的Def最小)样本在总体中的地理分布范围比较广,如果采用面访,费用较高;有可能抽到一个较差的随机样本;如果不用计算机,而用随机数字表抽一个大样本将十分单调劳神。24、什么是简单估计量与复杂估计量。简单估计量(直接估计量)直接用调查变量的样本指标来估计总体指标(不需要新的变量)。如样本均值作为总体均值的估计量。简单估计量是线性估计量,往往也是无偏估计量。复杂估计量(
34、间接估计量)在调查变量样本指标的基础上,再结合辅助变量来构造一个新的估计量。如比率估计量、回归估计量。它往往是有偏的、非线性的但更有效的。25、简单随机抽样下总体参数的简单估计(P41-42例3.5、课件例2与例3)、样本量的确定(P47例3.7、P49例3.8) 。必要样本量的概念,确定样本量时要考虑哪些因素?(要结合后面讲的确定样本量的程序)必要样本容量:一般是指在最大限度地满足规定精度要求以及尽可能节约调查费用的前提下,所应该抽取到的最少的样本容量。各种抽样组织方式所讨论的样本容量一般都指必要样本容量。影响因素:费用、估计精度、时间、调查人员的实力、调查的复杂程度等。1 .依调查费用来确
35、定必要样本容量CT=Co+cn 即:总费用=固定费用+变动费用Ct:调查总费用;Co:(总的)调查固定费用(管理人员工资、调查表的设计、必要的设备及组织、宣传等费用);c:每调查一个单位需要的平均变动费用,(变动费用:调查表的印制、调查人员的工资、差旅费、礼品费、 调查(测试)本身的费用等;n:必要样本容量2 .依规定精度来确定必要样本容量对于简单随机样本,样本量n与估计量的精度的关系,可由估计量的概率意义上的绝对允许误差与估计量的标准差(抽样标准误)或者相对允许误差与估计量的标准差(抽样标准误)之间的关系给出。绝对允许误差: =tsE(e)= tW(储相对允许误差:r =多=tSE=tcv
36、(0)00其中,变异系数 cv(6)=SE1V3 .估计总体均值和总体总值时必要样本容量的确定由抽样分布定理(特别是正态分布再生定理)有:s2V(y)1S2NV(y)(注意:V«)是样本均值方差,S2是(全及)总体方差)s2若令:no =(p4 6:3.4o)V(y)则有:n:_no(p 4 6:3. 41 )1 - noN如果N很大或无限总体,或者no<<N,则可取:n no若令: no =三二v ( y)则有: n = n °1no N其中no可由绝对允许误差、相对允许误差或变异系数形式给出onot2St2S 2t2S 2noV (y)=t2S2= .:22
37、22 2t V (y) t SE (y) tSE ( y)(3.44)22t2S2n。2/ 2r Yt222 Cv (y ) r(3.35)S2noCv2(y)Y2(3.46)1- nV(y)=1-fS2= N S2 n np值很小。对于此类稀有事件的比26、逆抽样法的使用条件和样本量的确定。现实中有这样一种情况,即总体中具有所考虑属性的单位数很少,也就是说例估计问题,利用前面给出的公式确定样本量有困难(P49不同的P的估计计算出来的样本量可相差十倍或数十倍。P过大或过小问题)。霍丹 1945年提出一种称为逆抽样的方法,专门用于此类小比例的抽样。假设准备确定的样本中含有 m个稀有事件的个数(m
38、>1),然后一个一个随机抽样,直到样本中确有m个稀有事件。假定全部稀有事彳数占总体的比例为P,则样本量n是一个随机变量,且 n的期望 E(n)=m (具体证明P八见P5o,容易理解至少有:P =。对于总体比例 P,可以证明其无偏估计量是:P =一二。证明过程P5o。这E(n)n-1样,只要给定P的变异系数Cv(P)(上限),即可求出 m。27、分层抽样的原则、优缺点。分层抽样的原则(层的划分原则)(一)层内单位具有相同性质。从划分标准看,将总体划分成不同的类型。(这样)便于对子总体估计。(二)层内单位差异小,层间差异大。从变量值看。便于提高估计精度。(A)(三)通常按行政管理机构设置分层
39、。便于组织实施。优缺点(一)优点1 .提高了效率。满足分层抽样的要求时,同样的样本量条件下可提高估计的精度,或在一定精度条件下可以减 少样本量而节约调查费用。(一般分层抽样Deff<1。)2 .方便对子总体进行估计。要估计的子总体叫“域”,最简便的方法就是让每个“域”作为一个层。(三种子 总体:事先能独立;事先不能独立但知道其单位数;事先不能独立且不知道其单位数)3 .通过分层可以避免得到一个很差的样本。4 .便于操作或管理上的方便,如按行政区划分层。(二)缺点1 .必须有良好的辅助信息(分层变量)。要求抽样框中的所有单元,必须有高质量的、能用于分层的辅助信息;2 .成本高;(由于需要辅
40、助信息,抽样框的创建比简单随机抽样、系统抽样复杂,需要费用更多。)3 .如果调查变量与分层变量不相关,统计效率有可能比简单随机抽样低;4 .估计值的计算比简单随机抽样和系统抽样复杂。28、分层抽样总体参数的简单估计与(课件例4.1与4.2,教材例4.1与4.2)、样本量的分配(课件例4.3,教材P73例4.6)、相关问题方差的估计,总样本量的确定(教材例4.7与例4.8)。29、分层抽样层数、费用与精度是什么关系。分层抽样为什么层数一般不超过6层?层数与费用、精度的关系简单来说,层数的增加使估计量方差下降,同时使费用上升。当费用给定时,层数增加必须减少样本量。层数增加的目的是提高估计精度,而样
41、本量减少却使估计精度下降,在一定程度上抵消了由于层数增加所获得的精度上的提高。层数的增加使设计和抽样的工作量增加。同时,层数大于 6层时,估计精度的提高已经很小了。一个重要经验性结论:根据研究,除非Y与X的相关系数大于0.95,层数一般以不超过 6为宜。 总费用与层样本量之关系:由于各层单位变动费用不一样,因此必须求各层样本量;比例分配、最优分配、尼曼分配时总费用之关系:根据定义,估计量方差一定,总费用最小是最优分配;尼曼分配是最优分配的特殊情形;按比例分配,是一种比较方便的分配形式。 30、分层界限的确定 一一累计平方根法。P86-88例4.11戴伦纽斯和霍捷斯分别于 1957年和1959年
42、提出快速近似法(累计平方根法)来确定分层抽样的各层界限,它是将分层频数的平方根进行累计再等分来获得最优分层界限的一种方法,直至目前,这种方法仍是确定分层界限最常见的方法。其分层的基本思想是:当层分得很细,层数L比较大时,层的间距 yh-yh-i将较小,在给定的层中可认为 y的分布频率f (y)近似于常数,即服从均匀分布。根据均匀分布的性质有:Wh =fh(yh - yh)(Wh是一个比重,比重之和 为1)(长*宽)02 =(yh - yh Jh 一 12根据尼曼分布,要使估计量方差最小,必须有 W WhSh最小。尼曼分配时_1 fL f 1 LVmin ystWhSh 一 R J WhSh2n
43、 hiN h、* 1 C:要使万差V最小,必须有一WhSh 最小,n VhiJL所以有W WhSh最小。 h=1LL12、WhSh = 12% h 1h 1fh (yh - yh j)(yh - yh)12L二、fh(yh _ yhi) h岂L.2=' (Zh -Zh)h 4其中:Zh= : f (t)dt y0这里y0是第一层的起点。可以证明,当Zh-Zh-i都相等时,W WhSh取最小值。因此,只要f(y)已知,就可按4,f (y) 的累计值来确定最优分层的分层界限。31、事后分层。适用条件。教材例 4.13,课件中的例子。事后分层方法是在抽样设计中 (事先)没有进行分层处理的前提
44、下,采用简单随机抽样获取数据,在数据处理阶段(事后,利用抽样框信息或者可靠的外部信息,对样本进行事后分层处理,以达到提高估计量精度的效果。最简单的事后分层:先抽取一个样本量为n的简单随机样本,然后将样本单位按某个特征进行分层,落到 h层L的单位数为nh ,则估计量ypst =£ h,Whyh来代替样本均值 y。当各层样本量不为 0时,各层样本可以看成是独 立地从各层中抽取的简单随机样本。所以,总体均值估计量的方差就是分层随机抽样的方差。ypst =v ystL z h 1L z h 122Wh2S;nhW;S;nh)=£ W;匕&S; 皿nhWh Nh nhN n
45、q2 Sh nhL工 WhSh2(P94 , 4.119 )h 1可以证明,只要 n充分大,事后分层估计量ypst是无偏的。其方差有如下性质:_1-'f,L_2 1"L_ 2EV ypst " WhSh2(1一四)年n 愕n 仁1 L=Vprop 2' (1一叫原 (P94, 4.118) n h 1上式表明,第一项就是按比例分配分层抽样估计量的方差,第二项是因事后分层引起的方差增加量。当n足够大,事后分层的精度与事先按比例分层的精度相差无几。32、比率估计与回归估计的作用与使用条件。P1021、总体比率R的估计。涉及总体中两个不同指标的总量或均值,比率(比
46、值)中的分子与分母都需要从样本 中估计。2、利用辅助变量提高估计精度。利用调查变量与辅助变量之间的相关关系,构造不同于简单估计的非线性的 比率估计量和回归估计量。使用理由:只要调查变量(调查指标)与辅助变量之间存在良好的线性相关关系,则比率估计的精度比简单估 计高;回归估计在大多情形(样本量较大时)又较比率估计的精度高。使用条件:存在与调查指标相关程度大的辅助变量,同时,辅助变量的总体总量或均值已知(或容易获取)。(已知辅助变量总体信息与样本信息、调查变量的样本信息)比率估计的使用条件:三个“二”:涉及两类变量(调查变量(Yi)与辅助变量(Xi),两类变量合成的参数(R),能够采用较之简单估计
47、量更有效的复杂估计量。若样本量(n)较大,同时调查变量与辅助变量之间存在良好的线性相关,则比率估计的精度比简单估计高(回归估计又较比率估计的精度高)。已知的信息:辅助变量总体信息与样本信息,调查变量的样本信息。注意:1.总体比率有不同的含义。它可能是总体均值,或总体比例,或一般的相对数。注意总体比率R和一般的总体比例P不一样,估计P是N已知,只涉及一个调查变量;估计 R时,涉及的两个变量都需调查。AA2 .总体总值、总体均值的比率估计量是R的线性组合。但是,是构成比率估计量的核心部分R,它本身并不属于线性估计量。所以说,总体总值、总体均值的比率估计量是线性估计量是错误的。3 .比率估计量是有偏
48、的,但当n增大时其偏差趋近于 0。33、比率估计时对辅助变量的要求。1、辅助变量必须是与调查变量(主要变量)高度相关的(如面积与产量);2、辅助变量与主要变量之间的相关关系整体上是相当稳定的;3、辅助变量的信息质量(更)好,帮忙而不添乱;4、辅助变量的总体总值必须是已知的,或更容易获得。总体比率有不同的含义。它可能是总体均值,或总体比例,或一般的相对数。34、简单随机抽样条件下总体参数的比率估计。课件例 1、例2。比率估计量优于简单估计量的条件(能证明)。 比率估计量优于简单估计量的条件(能证明)。对于简单随机抽样,简单估计量是无偏的,比率估计量是渐近无偏的。因此只有比较n较大时的情形。(比较
49、估计量的方差) 总体均值简单估计量的方差:1 _f 9V(y)二一S2 n 总体均值比率估计量的方差:1 - f _ 22 _ 2.V(yR)%(Sy +R2SX2 -2RSyX) n1 - f 22 2=(Sy +R2S: -2R PSxSy)n因此,比率估计量优于简单估计量的条件是:R2SX2 -2R :SxSy : 0整理后,得到当:-1 D Sx1 Y Sx1Y Sx1 C XR2 Sy2 X S y2S y X2C Y即p aLC时 2 C y则有:V(yR) <V(y)结论:比率估计量优于简单估计量的条件是:只有当调查变量与辅助变量有较高的正相关性时比率估计量才能使估计精度有
50、较大提高;若 Cx-Cy,则只需当总体相关系数 P >0.5时,比率估计量就比简单估计量精度高。(教材P113)从使用信息内容看,比率估计量除了使用调查变量样本信息外,还要使用辅助变量总体信息与样本信息,这类 估计量称为复杂估计量,由于比率估计量使用的信息比简单估计量多(多得多),因而有可能比简单估计量有更高 的精度。从估计量的形式看,比率估计量是非线性估计量,因而对其性质的研究比对简单估计量要复杂得多。35、简单随机抽样条件下总体参数的回归估计运用条件。简单估计量、比率估计量和差估计量是回归估计量的特例(为什么)。简单随机抽样条件下回归估计、比率估计及简单估计的估计效果的大样本比较。课
51、件例5.5。简单随机抽样条件下总体参数的回归估计运用条件。估计总体均值或总体总值采用比率估计量的前提条件是:调查变量与辅助变量高度正相关(大致正比)关系。即:Yi=kXi, k>0。从统计上看,Yi关于Xi的回归直线应通过原点,否则二者不呈正比例关系,使用比率估计效果稍差,应改为回归估计。简单估计量、比率估计量和差估计量是回归估计量的特例(为什么)P114。%"X _x) =y _ l(x X)回归估计:Yr二瓯(1) 3=0时,齐=y即为简单估计量;X = yRx 即为比率估计量;:=y=RYir =y+ 2 (X -x)=y + g X - y(2) x 时,xx(3) 3 =1时,ylr = y + X X即为差估计量简单随机抽样条件下回归估计、比率估计及简单估计的估计效果的大样本比较。P117-118简单估计量是无偏的,比率估计量、回归估计量是渐近无偏的,因此这里只比较n较大时的情形,观察谁的估计量方差更大(小)。1 - f
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 气排球在初中排球垫球教学中辅助效果的实验研究
- 复杂构件的CAD-CAE一体化建模及网格自动剖分算法研究
- 基于小样本的柑橘缺陷检测研究
- 昌吉吉盛新型建材有限公司45万吨年(二期12万吨年)新型硅材料项目环境影响报告书
- 医养结合养老机构人才培养与激励机制研究报告
- 严重事故下反应堆压力容器下封头温度场:基于IVR策略的深度剖析与研究
- 东北三省大学生健康素质的多维度剖析与精准培养策略研究
- 专利制度改革理论框架构建及在专利质量治理中的应用研究
- 火力发电站安全风险评估报告
- 2025年高压气筒行业市场调查报告
- 策划视频大赛策划方案
- 心衰的中西医结合治疗
- 《如何阅读文献》课件
- 公路技术状况检测与评定-公路技术状况评定
- 高中化学课本实验全(附答案)
- 酒店服务礼仪培训课件
- 乡村医生从业管理条例
- 圆锥体积公式的推导(动画演示)
- 北京第八十中学英语新初一分班试卷
- 酒店OTA学习三部曲(侧重携程)
- 潮汕方言语音的内部差异及其成因
评论
0/150
提交评论