版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章
抽样设计
第5章
抽样设计
1第一节基本概念一.抽样调查的概念
抽样调查是指从调研总体中抽选出一部分要素作为样本,对样本进行调查,并根据抽样所得的结果推断总体的一种专门性的调查活动。二.抽样调查的特点
⒈优点:①时间快,收效快。②质量高、可信程度好。③费用省、易推广、破坏性小。⒉抽样调查的不足第一节基本概念一.抽样调查的概念2三.与抽样调查相关的重要概念:1.总体及定义总体调查对象就是调查总体。定义总体要解决:总体的范围、性质和构成。2.样本与样本单位样本是有一定数量的样本单位所组成的集合。样本单位的多寡又称样本容量的大小。样本单位是按一定的抽样方法从总体中抽取出来。三.与抽样调查相关的重要概念:1.总体及定义总体33.抽样框架及抽样框架的选择抽样框架是包含所有样本单位的集合。所谓“最理想”的抽样框架应该具有这样一些特点:1)能够包容所有的样本单位。2)所有的样本单位出现在这一集合中的概率相等。
3)类似的抽样框架应该有几个。
类型:具体抽样框、抽象抽样框、阶段式抽样框
3.抽样框架及抽样框架的选择44.抽样误差
抽样误差是调研所得出的对总体某个特征的推断与总体该特征最终实际结果之间的差距。【思考】
抽样调查中是否一定存在抽样误差,能否控制?4.抽样误差5【分析提示】抽样误差是客观存在和不可避免的,但误差的大小是可以控制的。可通过选定不同的抽样方法及样本数目来控制误差;或加强对抽样调查的组织领导,也可提高抽样调查的工作质量。【分析提示】抽样误差是客观存在和不可避免的,但误差的大小是可6四、抽样调查的作用
1、对一些不可能或不必要进行全面调查的社会经济现象,可用抽样调查方式解决。2、在经费、人力、物力和时间有限的情况下,采用抽样调查方式,可节省开支,争取时效,用比较少的人力、物力和时间,达到满意的调查效果。3、可对同一现象在不同时间进行连续不断的调查,可随时了解现象发展变化状况。4、运用抽样调查对全面调查进行验证。四、抽样调查的作用1、对一些不可能或不必要进行全面调查的社7抽样与普查比较表五、普查与抽样调查的比较问题:普查与抽样调查哪个更准确?抽样与普查比较表五、普查与抽样调查8五、抽样调查过程的五个步骤:确定调查总体执行抽样过程确定样本容量选择抽样技术确定抽样框五、抽样调查过程的五个步骤:确定执行确定选择确9抽样设计的五个步骤案例:民意调查该调查由全国范围内1000名在校的年龄在8-17岁的年轻人组成。该样本代表了所有8-17岁正在上学的人口总体。研究内容包括他们的愿望和烦恼,他们的家庭和学校,以及他们对涉及范围很广的各种论题的观点。调查中采用了一个三阶段分层概率抽样技术来选择访谈地点。第一阶段:将国内所有县根据每个地理区域内的人口规模进行分层后,按照大体人口比例随机定出100个县。第二阶段:按照大体人口比例随机抽出样本县内的城市和城镇第三阶段:在城市或城镇内可以利用普查小区统计资料的地方,根据大体人口比例随机选择普查小区;在没有统计资料的地方,随机抽出农村的路段。在每个人口普查小区或农村路段内都要给访谈人员指定地点。抽样设计的五个步骤案例:民意调查10抽样设计的五个步骤定义目标总体(如上述案例中正在上学的年龄在8-17 岁的年轻人)确定抽样框架(例如上述案例中的所有县及县内的城市和城镇)选择一种抽样技术(如上述案例中的三阶段分层概率 抽样)4) 确定样本量(1000名)5) 执行抽样过程(步骤1、2、3和对调查员的指令)抽样设计的五个步骤11第二节抽样方法一、非概率抽样方法二、概率抽样方法第二节抽样方法一、非概率抽样方法12一、非概率抽样方法1、方便抽样调研人员根据“最便利”原则确定自己的调研样本。如:拦截式访问、邮寄访问优点:p117缺点一、非概率抽样方法1、方便抽样132、判断抽样
调研人员根据“最符合调研对象特征”原则来确定自己的调研样本。如:焦点小组访谈调研选择纳税大户作为中国富人的代表
判断抽样适用的情况:优点:缺点p1182、判断抽样调研人员根据“最符合调研对象特征”原则来143、配额随机抽样调研人员如果对调研总体的结构特征有较为详细的了解,在不具备采用随机抽样条件的情况下,可以尝试配额抽样方法。根据总体各类单位的所占比例(如性别、年龄、教育程度),确定在各类总体单位中抽取样本单位的具体数量。3、配额随机抽样调研人员如果对调研总体的结构特征有较为详细的15优点:成本低、样本结构和特征具有代表性
缺点:存在选择偏见,误差很难估算优点:成本低、16例:按人均年纯收入分类(元)总体各类户数比重(%)各类中样本单位数(户)500及以下500~10001000以上1075154030060合计100400例:按人均年纯收入分类(元)总体各类户数比重(%)各类中样本17【案例】对产业市场的客户的需求调研,将客户分为如下几类。产业市场需求调研的样本结构设计
客户类型各类客户比例各类客户中拟定的样本单位数大量购买者2513中等数量购买者4422少量购买者2010初次购买者115合计10050【案例】对产业市场的客户的需求调研,将客户分为如下几类。181948年美国大选时,盖洛普联合全美约100家独立报纸,采用配额抽样的方法对5万人次进行寻访,预测杜威(Dewey)将战胜杜鲁门,而结果是杜鲁门以52.8%的选票获胜,杜威的得票率为44.5%。
Why??配额抽样似乎保证了样本和选举总体在被认为对选举行为有影响的所有主要特征方面将会相似,但国民政治中政治见解的分布状况恰恰是调查机构所不知道而正努力尝试去发现的,并且在规定的定额内,访问人员可以自由选择他喜欢的任何人。这给人为选择留有过多的余地。而人为选择常易带偏好。1948年美国大选时,盖洛普联合全美约100家独立报纸,采用194、滚雪球抽样雪球抽样(snowballsampling)总体样本单位之间具有一定的联系,在不甚了解总体的情况下对总体或总体部分单位情况进行把握。特点:P121如:同性恋研究和小偷研究4、滚雪球抽样雪球抽样(snowballsampling)20
当我们无法了解总体情况时,可以从总体中少数成员入手,对他们进行调查,向他们询问还知道那些符合条件的人,再去找越来越多具有相同性质的群体成员.例如,要研究退休老人的生活,可以清晨到公园去结识几位散步老人,再通过他们结识其朋友,不用很久,你就可以交上一大批老年朋友。但是这种方法偏误也很大,那些不好活动、不爱去公园、不爱和别人交往、喜欢一个人在家里活动的老人,你就很难把雪球滚到他们那里去,而他们却代表着另外一种退休后的生活方式。当我们无法了解总体情况时,可以从总体中少数成员入手215、非概率抽样方法的比较P121——表5-35、非概率抽样方法的比较P121——表5-322非概率抽样技术总结:1、受客观条件限制,无法进行严格的随机抽样;2、为了快速获得调查结果;3、调查对象不确定,或无法确定的情况下采用,例如突发(偶然)事件进行现场调查等;4、总体各单位间离散程度不大,且调查员具有丰富的调查经验时;非概率抽样技术总结:23二、概率抽样方法1、简单随机抽样(1).定义:P122(2).使用对象:
调查总体中各单位之间差异较小的情况,或者调查对象不明,难以分组、分类的情况。(3)特点:按随机原则,从调查总体中不加任何分组、规划、排序等先行工作,直接地抽取调查样本;b、每个样本被抽中的概率相等,各个样本完全独立,彼此间无一定的关联性和排斥性,完全排除了抽样中主观因素的干扰二、概率抽样方法1、简单随机抽样24①抽签法
适用于总体单位数较少的情况。抽签方式在具体应用上有多种方法,如抽纸签法、纸牌法等。将调查总体的每个单位编上号码将号码均匀打乱任意从中抽选,抽到一个号码,就作为一个单位直到抽足预先规定的样本数目为止①抽签法将调查总体的每将号码均任意从中抽选,直到抽足预先规定25②乱数表法p294基本步骤:调查总体中的所有单位加以编号,根据编号的位数确定适用若干位数字查乱数表直到抽足预定样本数目为止②乱数表法p294基本步骤:调查总体中的根据编号的位查乱26【案例分析】要从一个包含800个个体的抽样框中抽出大小为10的样本,可以从乱数表的第一行第一列开始,考虑最右边的三个数字,从001-800依次选出10个数字:386、762、766、564、439、331、429、244、245、775若从第一行第三列最左边的三个数字呢?【案例分析】要从一个包含800个个体的抽样框中抽出大小为27【分析提示】在顺序抽取的过程中,遇到比编号大的数字,应该舍去。此例中的因大于,故舍去不用。【分析提示】在顺序抽取的过程中,遇到比编号大的数字,28一定的局限性1采用简单随机抽样2某些事物无法适用简单随机抽样,大量产品进行质量检验,就不能对全部产品进行编号抽样3当总体的标志变异程度(方差)较大时4由于抽出样本单位较为分散,所以调查人力、物力、费用消耗较大一定的局限性292、系统抽样按照一定的顺序,每隔若干个个体抽取一个体的方法。电子营销专业的学生,选一个随机起点,按照学号,隔N个个体选一个2、系统抽样按照一定的顺序,每隔若干个个体抽取一个体的方法。303、分层抽样(1)要点:①分层时各层之间要有明显的差异;②要知道各层中的单位数目和比例;③分层的数目不宜太多,每个层次内每个个体应保持一致性。3、分层抽样(1)要点:31(2).程序:
把总体各单位分成两个或两个以上的相互独立的完全的组(如男性和女性),而后从两个或两个以上的组中简单随机抽样,样本相互独立。
步骤:
首先,辨明突出的人口统计特征和分类特征,这些特征与所研究的行为相关。第二,确定在每个层次上总体的比例。最后,从每层中抽取独立简单随机样本(2).程序:把总体各单位分成两个或两个以上的相互独立的32(3).分层抽样具体形式有两种:①等比例分层抽样
等比例分层抽样即按各个层(或各类型)中的单位数量占总体单位数量的比例分配各层的样本数量。
(3).分层抽样具体形式有两种:①等比例分层抽样33【案例分析】某地共有居民20000户,按经济收入高低进行分类,其中高收入的居民为4000户,占总体的20%,中收入的居民为12000户,占总体的60%,低收入的居民为4000户,占总体的20%。要从中抽选户进行购买力调查,则各类型应抽取的样本单位数为?【案例分析】某地共有居民20000户,按经济收入高低进行34【分析提示】经济收入高的样本数目为:200*20%=40(户)经济收入中的样本数目为:200*60%=120(户)经济收入低的样本数目为:200*20%=40(户)样本单位数的抽取是按各种经济收入的单位数量占总体单位数量的比例进行样本的抽选。这种方法简便易行,分配合理,计算方便。适用于各类型之间差异不大的分类抽样调查,如果各类差异过大,则不宜采用而应采用分层最佳抽样法。【分析提示】经济收入高的样本数目为:200*20%=40(35②分层最佳抽样法定义:又称非比例抽样法,根据各层样本标准差的大小确定各层的样本数目的方法。计算公式为:ni=n*(NiSi/∑NiSi)式中:ni————各类型应抽选的样本单位数n————样本单位数Ni————各类型的调查单位数
Si————各类型调查单位数的样本标准差②分层最佳抽样法定义:又称非比例抽样法,根据各层样本标准差的36【案例分析】仍以上述居民收入与购买力之间关系为例。各层样本标准差高收入为300元,中收入为200元,低收入为100元,如:
调查单位数与样本标准差乘积计算表
各层次各层的调查单位数(户)Ni各层的样本标准差(元)Si乘积NiSi高中低400012000400030020010012000002400000400000∑NiSi200004000000【案例分析】仍以上述居民收入与购买力之间关系为例37【分析提示】高收入样本单位数目为:200*(1200000/4000000)=60中收入样本单位数目为:200*(2400000/4000000)=120低收入样本单位数目为:200*(400000/4000000)=20【分析提示】38【分析提示】2样本单位数是按各种经济收入下的样本标准差的大小进行调整的,按ni=n*(NiSi/∑NiSi)计算。通过上述计算可以看出,用非比例抽样法与比例抽样法,抽取的样本各层次之间不同,特别是高收入与低收入减少20户(20户—40户),中收入不变。由于购买力同家庭经济收入关系很大,因而要增加高收入的样本数,相应减少低收入层的样本数,这种使所抽取的样本更具有代表性。这种以调查单位数和样本标准差两个因素为依据进行的抽样是最佳抽样法。【分析提示】2样本单位数是按各种经济收入下的样本标准差的大小394、整群抽样(clustersampling)整群抽样在对居民收入情况进行调查时,若以居民小组为群,抽样时可先抽取居民小组,再调查每个被抽到的居民小组中的每一居民户。整群抽样的优点,是组织工作比较方便,确定一组就可以抽出许多单位进行观察。但是,正因为以群为单位进行抽选,抽选单位比较集中,明显地影响了样本分布的均匀性。4、整群抽样(clustersampling)整群抽样在对40练习例:某地区有百货商店1000个,其中大型百货商店100个,中型百货商店300个,小型百货商店600个。如果总样本数定为20个,则各层应抽取的样本数为多少?练习例:某地区有百货商店1000个,其中大型百货商店100个41在抽样单位数目相同的条件下抽样误差较大。因此,在大规模的市场调查中,当群内各单位间的差异较大,而各群之间差异较小时,才可考虑采取整群抽样方式。在抽样单位数目相同的条件下抽样误差较大。42Example:ClustersamplingSection4Section5Section3Section2Section1Example:ClustersamplingSecti435、整群抽样与分层抽样的比较特征整群抽样分层抽样样本来源一个或几个群所有层抽样目的不提高成本而提高抽样效率不提高成本而提高精度划分原则群中的个体异质,群间同质层中个体同质,层间异质5、整群抽样与分层抽样的比较特征整群抽样分层抽样样本来源一个446、多阶段抽样
复杂、大规模的市场调查中使用如住户调查先抽大单元,在大单元抽小单元,再在小单元中抽更小的单元城市街道家庭6、多阶段抽样45
例如,某市有23个区,共714万人,从中抽取1000人的样本,将区作为初级抽样单位,每区人数不等,把每区人数的号码范围列出,东区是1-120000号,西区是120001-270000号…..一直排到7140000号.从这些号码中用随机数字表确定10个号码,则这10个号码所落入的区即为调查区.如抽中340000号,它落在南区,则南区为调查区,从这10个调查区中,每区再随机抽取100人就构成最终样本.多阶段抽样特别适用于调查范围大,单位多,情况复杂的调查对象,但多阶段抽样由于在每一阶段抽样是都会产生误差,因此经多阶段抽样得到的样本的误差也相应增大.这是它的不足之处.例如,某市有23个区,共714万人,从中抽46小思考:概率抽样的特点有哪些?小思考:概率抽样的特点有哪些?47【分析提示】总结如下:抽样本时遵循随机原则;由样本从数量上去认识总体;抽样估计的准确度和可靠程度可以测定并控制。【分析提示】总结如下:48课堂练习:P149:20题P169:21题课堂练习:P149:20题49第三节抽样方法的选择第三节抽样方法的选择50一、选择抽样方法的标准因素非概率抽样概率抽样调研性质探索性描述性;因果性主要误差非抽样误差臭氧误差总体特点同质异质统计分析不适合适合一、选择抽样方法的标准因素非概率抽样概率抽样调研性质探索性描51案例:抽样方法的选择和应用案例:为了解普通居民对某种新产品的接受程度,在一个城市中抽选1000户居民开展市场调查
案例:抽样方法的选择和应用案例:52第四节抽样误差与样本容量一、抽样误差当总体指标未知时,往往要安排一次抽样调查,然后用抽样调查所获得的抽样指标的观察值作为总体指标的估计值,这种处理方法是存在一定误差的。第四节抽样误差与样本容量一、抽样误差53备注:全及指标和抽样指标
㈠总体指标:根据总体各单位标志值计算的、反映总体属性的指标。主要有:总体平均数上一页下一页返回本节首页总体方差总体(平方)标准差备注:全及指标和抽样指标㈠总体指标:根据总体各单位标志值计54㈡抽样指标:根据样本各单位标志值计算的、反映样本属性的指标。主要有:样本平均数上一页下一页返回本节首页样本方差样本标准差㈡抽样指标:根据样本各单位标志值计算的、反映样本属性的指标。55比如某年级100名同学的平均体重=55kg,现随机地抽取10名同学为样本,其平均体重=52kg。若用52kg估计55kg,则误差为52-55=-3kg,如果重新抽10名同学,若测得=57kg,则其误差为2kg。这种只抽取部分样本而产生的误差,都被称为抽样误差。
比如某年级100名同学的平均体重=55kg,现随机地抽取1056二、非抽样误差抽样误差不包括下面两类误差:一类是调查误差,即在调查过程中由于观察、测量、登记、计算上的差错而引起的误差;一类是系统性误差,即由于违反抽样调查的随机原则,有意抽选较好单位或较坏单位进行调查,这样造成样本的代表性不足所引起的误差。这两类称之为非抽样误差。二、非抽样误差抽样误差不包括下面两类误差:57非抽样误差覆盖不周观察偏误非观察偏误不在家无回答被访问者责任拒答故意错答误解而错答访问者责任访问员过失访问员作弊图5-1非抽样误差产生原因非抽样误差覆盖不周观察偏误非观察偏误不在家无回答被访问者责任58三、影响抽样误差的因素1.抽样单位数的多少。2.总体各单位标志值的差异程度。3.抽样方法。4.抽样的组织和监控。三、影响抽样误差的因素1.抽样单位数的多少。59四、抽样误差的作用:1.在于说明样本指标的代表性大小。
误差大,则样本指标代表性低; 误差小,则样本指标代表性高; 误差等于0,则样本指标和总体指标一样大。2.说明样本指标和总体指标相差的一般范围。四、抽样误差的作用:1.在于说明样本指标的代表性大小。2.60五、简单随机抽样的抽样平均误差
(一)平均数的抽样平均误差1.重复抽样五、简单随机抽样的抽样平均误差(一)平均数的抽样平均误差61取得σ的途径有:1.用过去全面调查或抽样调查的资料,若同时有n个σ的资料,应选用数值较大的那个;2.用样本标准差S代替全及标准差σ;3.在大规模调查前,先搞个小规模的试验性的调查来确定S,代替σ;4.用估计的方法。取得σ的途径有:1.用过去全面调查或抽样调查的资料,若同62
某灯泡厂从一天所生产的产品10,000个中抽取100个检查其寿命,得平均寿命为2000小时(一般为重复抽样),根据以往资料:σ=20小时,根据以往资料,产品质量不太稳定,若σ=200小时,例某灯泡厂从一天所生产的产品10,000个中抽取100个检63例:某年级学生中按简单随机重复抽样方式抽取50名学生,对“基础会计学”课的考试成绩进行检查,得知其平均分数为75.6,样本标准差10分。要求:计算抽样平均误差计算题练习:例:某年级学生中按简单随机重复抽样方式抽取50名学生,对“基642.不重复抽样:2.不重复抽样:65计算题练习:某工厂有2000个工人,用简单随机不重复方法抽取100个工人作为样本,计算出平均工资560元,标准差32.45元。要求:计算抽样平均误差计算题练习:某工厂有2000个工人,用简单随机不重复方法抽取66(二)成数的抽样平均误差已证明得:成数的方差为p(1-p)
(二)成数的抽样平均误差已证明得:成数的方差为p(1-p)67某玻璃器皿厂某日生产15000只印花玻璃杯,现按重复抽样方式从中抽取150只进行质量检验,结果有147只合格,其余3只为不合格品,试求这批印花玻璃杯合格率(成数)的抽样平均误差。例某玻璃器皿厂某日生产15000只印花玻璃杯,现按68第五节样本容量的确定
一、营销调研中常用的样本容量类型最小量典型范围市场潜力5001000-2500问题解决200300-500产品测试200300-500广告测试150200-500试销市场审计10个店10-20个店专题组6组10-15个组第五节样本容量的确定
一、营销调研中常用的样本容量类型69二、确定样本容量根据调查目的确定样本容量考虑总体性质和特点确定样本容量按市场调查条件确定样本容量二、确定样本容量根据调查目的确定样本容量70三、样本容量的计算公式法计算样本容量经验法确定样本容量三、样本容量的计算公式法计算样本容量71四、置信区间法含义:根据市场抽样调查中的置信度和置信区间,根据总体标准差的大小等因素,计算出确切的样本单位数。样本容量四、置信区间法含义:根据市场抽样调查中的置信度和置信区间,根72抽样案例:根据某公司的委托,调查人员以在最近30天内至少吃过一次快餐的顾客为总体,从中抽取了1000名容量为200的简单随机样本。调查的目的是要估计平均一个月内这些人吃快餐的平均次数。调查结果见下表:
抽样案例:根据某公司的委托,调查人员以在最近30天内至少吃过73第五章_抽样设计课件74如果公司管理层提出了以下要求:
i.
规定估计值不得超过实际值的0.10(1/10)。这个值(0.10)就是∆值
ii.
考虑全局,需要把实际总体平均值在区间以内的置信度定为95%,而若要置信度为95%,就必须是在2倍抽样平均误差范围内,(严格是1.96)。因此,以此值作为t值代入公式。
如果公司管理层提出了以下要求:75第五章_抽样设计课件76思考题某地区居民户数为10000户,其年消费水平标准差为200元。若采取抽样调查了解其年平均消费水平,并要求以95%的置信度推断总体,其样本指标与总体指标之间的允许误差范围是15元,则样本容量是多少?思考题某地区居民户数为10000户,其年消费水平标准差为2077五、经验法含义:根据抽样调查的经验,得出不同规模总体,样本单位数占总体的比重经验数,供抽样调查抽取样本时参考。五、经验法含义:根据抽样调查的经验,得出不同规模总体,样本单78经验确定样本容量的范围总体规模100以下100~10001000~50005000~1000010000~100000100000以上样本占总体比重%50以上50~2030~1015~35~11以下经验确定样本容量的范围总体规模100以下100~10001079六.抽样调查中的样本轮换问题所谓样本轮换就是在连续调查过程中,每隔一定时间轮换部分或全部的被调查户。为什么在连续调查过程中,每隔一定时间要进行样本轮换呢?六.抽样调查中的样本轮换问题80原因1、长期调查常会造成样本老化。2、长期调查会影响被调查者的合作。3、长期也有可能出现影响其经济活动和生活方式的问题,从未使被调查者的资料失去代表性。
原因81案例我国城市住户调查从1990年起实行抽样轮换制,以增强样本代表性,提高调查质量。我国城市住户调查的样本轮换是在一次性调查样本中采用对称等距方法抽选的。由于轮换组随着时间的推移,会产生老化,从而影响样本代表性,所以储存若干个轮换组,其储存和利用期不得超过三年。即在每三年进行一次的居民家庭基本情况的一次性调查中,原先备用的轮换组就必须全部更新。为了保持资料的连续性与可比性,常年连续进行的经常性调查可保留1/3,更新2/3。案例我国城市住户调查从1990年起实行抽样轮换制,以增强样本82回答层和无回答层事实,无回答层和回答层之间常有较明显的非随机性差异。例如,在对某单位职工兼职人数比重的调查中,不愿回答者的兼职比例要高于回答者的比例。因此,如果仅由回答层的调查结果来推断总体,就会使样本失去代表性。七.抽样调查中的无回答问题回答层和无回答层七.抽样调查中的无回答问题83第五章_抽样设计课件84第五章_抽样设计课件85八.抽样调查中的敏感性问题
被访问者随机抽一个问题回答。题目照常回答八.抽样调查中的敏感性问题被访问者随机抽一个问题回答。题目86第五章_抽样设计课件87案例:2001年全国电视观众抽样调查的抽样方案一、调查对象全国电视观众二、调查目的观众的节目选择倾向三、抽样方式利用全国城乡住户抽样网,采用多层多阶段随机抽样案例:2001年全国电视观众抽样调查的抽样方案一、调查对象88四、设计思想1.样本量的确定在置信度为95%,抽样误差为3%的条件下,样本量为1067所以,所抽到的省的样本量是1000个左右;对于没有抽到省和重庆市,调查100个样本作为补充调查,对6-12岁的儿童进行附带调查。2.样本分配方法考虑到经费的可行性,样本分配以国家统计局城乡队的调查网为基础,采用分层抽样的方法进行,分为农村层和城市层。农村又分为:平原、丘陵和山区;城市又分为:大型、中型和小型。为了减少误差,提高调查效率,达到反映观众的节目选择倾向的目的,使用牛曼分配公式,将按不同的经济地理特征分层,各层人口规模与其收入差异结合起来,确定样本在各层的分配数量。四、设计思想89五、操作步骤1.分层分配样本(1)城市层和农村层的样本分配
(2)城市子层的样本分配
(3)农村子层的样本分配(略)五、操作步骤902.抽选调查单位等距抽样,入户调查。例如,大城市要抽取的人数是180人,随机在此省抽取3个大城市,每个城市抽取60个人,在每个抽取的大城市间隔抽取3个居委会,每个居委会20人。按随机起点、等距抽样的方法,抽取所需要的若干个调查户。3.直辖市的样本分配对北京、上海、天津的调查分为:城区、近郊、远郊,样本分配见上述1和2的方法4.直辖市入户调查与省级调查方式类似2.抽选调查单位91六、补充调查对未抽取的省,每个省调查100个样本作为补充样本。七、抽样复调查为了控制调查质量,按3%的比例对各地的抽样情况进行调查。要求调查员将居委会、村的抽样资料、被调查人的详细地址及个人资料精心保存,以便复查使用。六、补充调查92练习题P150-22练习题P150-2293第5章
抽样设计
第5章
抽样设计
94第一节基本概念一.抽样调查的概念
抽样调查是指从调研总体中抽选出一部分要素作为样本,对样本进行调查,并根据抽样所得的结果推断总体的一种专门性的调查活动。二.抽样调查的特点
⒈优点:①时间快,收效快。②质量高、可信程度好。③费用省、易推广、破坏性小。⒉抽样调查的不足第一节基本概念一.抽样调查的概念95三.与抽样调查相关的重要概念:1.总体及定义总体调查对象就是调查总体。定义总体要解决:总体的范围、性质和构成。2.样本与样本单位样本是有一定数量的样本单位所组成的集合。样本单位的多寡又称样本容量的大小。样本单位是按一定的抽样方法从总体中抽取出来。三.与抽样调查相关的重要概念:1.总体及定义总体963.抽样框架及抽样框架的选择抽样框架是包含所有样本单位的集合。所谓“最理想”的抽样框架应该具有这样一些特点:1)能够包容所有的样本单位。2)所有的样本单位出现在这一集合中的概率相等。
3)类似的抽样框架应该有几个。
类型:具体抽样框、抽象抽样框、阶段式抽样框
3.抽样框架及抽样框架的选择974.抽样误差
抽样误差是调研所得出的对总体某个特征的推断与总体该特征最终实际结果之间的差距。【思考】
抽样调查中是否一定存在抽样误差,能否控制?4.抽样误差98【分析提示】抽样误差是客观存在和不可避免的,但误差的大小是可以控制的。可通过选定不同的抽样方法及样本数目来控制误差;或加强对抽样调查的组织领导,也可提高抽样调查的工作质量。【分析提示】抽样误差是客观存在和不可避免的,但误差的大小是可99四、抽样调查的作用
1、对一些不可能或不必要进行全面调查的社会经济现象,可用抽样调查方式解决。2、在经费、人力、物力和时间有限的情况下,采用抽样调查方式,可节省开支,争取时效,用比较少的人力、物力和时间,达到满意的调查效果。3、可对同一现象在不同时间进行连续不断的调查,可随时了解现象发展变化状况。4、运用抽样调查对全面调查进行验证。四、抽样调查的作用1、对一些不可能或不必要进行全面调查的社100抽样与普查比较表五、普查与抽样调查的比较问题:普查与抽样调查哪个更准确?抽样与普查比较表五、普查与抽样调查101五、抽样调查过程的五个步骤:确定调查总体执行抽样过程确定样本容量选择抽样技术确定抽样框五、抽样调查过程的五个步骤:确定执行确定选择确102抽样设计的五个步骤案例:民意调查该调查由全国范围内1000名在校的年龄在8-17岁的年轻人组成。该样本代表了所有8-17岁正在上学的人口总体。研究内容包括他们的愿望和烦恼,他们的家庭和学校,以及他们对涉及范围很广的各种论题的观点。调查中采用了一个三阶段分层概率抽样技术来选择访谈地点。第一阶段:将国内所有县根据每个地理区域内的人口规模进行分层后,按照大体人口比例随机定出100个县。第二阶段:按照大体人口比例随机抽出样本县内的城市和城镇第三阶段:在城市或城镇内可以利用普查小区统计资料的地方,根据大体人口比例随机选择普查小区;在没有统计资料的地方,随机抽出农村的路段。在每个人口普查小区或农村路段内都要给访谈人员指定地点。抽样设计的五个步骤案例:民意调查103抽样设计的五个步骤定义目标总体(如上述案例中正在上学的年龄在8-17 岁的年轻人)确定抽样框架(例如上述案例中的所有县及县内的城市和城镇)选择一种抽样技术(如上述案例中的三阶段分层概率 抽样)4) 确定样本量(1000名)5) 执行抽样过程(步骤1、2、3和对调查员的指令)抽样设计的五个步骤104第二节抽样方法一、非概率抽样方法二、概率抽样方法第二节抽样方法一、非概率抽样方法105一、非概率抽样方法1、方便抽样调研人员根据“最便利”原则确定自己的调研样本。如:拦截式访问、邮寄访问优点:p117缺点一、非概率抽样方法1、方便抽样1062、判断抽样
调研人员根据“最符合调研对象特征”原则来确定自己的调研样本。如:焦点小组访谈调研选择纳税大户作为中国富人的代表
判断抽样适用的情况:优点:缺点p1182、判断抽样调研人员根据“最符合调研对象特征”原则来1073、配额随机抽样调研人员如果对调研总体的结构特征有较为详细的了解,在不具备采用随机抽样条件的情况下,可以尝试配额抽样方法。根据总体各类单位的所占比例(如性别、年龄、教育程度),确定在各类总体单位中抽取样本单位的具体数量。3、配额随机抽样调研人员如果对调研总体的结构特征有较为详细的108优点:成本低、样本结构和特征具有代表性
缺点:存在选择偏见,误差很难估算优点:成本低、109例:按人均年纯收入分类(元)总体各类户数比重(%)各类中样本单位数(户)500及以下500~10001000以上1075154030060合计100400例:按人均年纯收入分类(元)总体各类户数比重(%)各类中样本110【案例】对产业市场的客户的需求调研,将客户分为如下几类。产业市场需求调研的样本结构设计
客户类型各类客户比例各类客户中拟定的样本单位数大量购买者2513中等数量购买者4422少量购买者2010初次购买者115合计10050【案例】对产业市场的客户的需求调研,将客户分为如下几类。1111948年美国大选时,盖洛普联合全美约100家独立报纸,采用配额抽样的方法对5万人次进行寻访,预测杜威(Dewey)将战胜杜鲁门,而结果是杜鲁门以52.8%的选票获胜,杜威的得票率为44.5%。
Why??配额抽样似乎保证了样本和选举总体在被认为对选举行为有影响的所有主要特征方面将会相似,但国民政治中政治见解的分布状况恰恰是调查机构所不知道而正努力尝试去发现的,并且在规定的定额内,访问人员可以自由选择他喜欢的任何人。这给人为选择留有过多的余地。而人为选择常易带偏好。1948年美国大选时,盖洛普联合全美约100家独立报纸,采用1124、滚雪球抽样雪球抽样(snowballsampling)总体样本单位之间具有一定的联系,在不甚了解总体的情况下对总体或总体部分单位情况进行把握。特点:P121如:同性恋研究和小偷研究4、滚雪球抽样雪球抽样(snowballsampling)113
当我们无法了解总体情况时,可以从总体中少数成员入手,对他们进行调查,向他们询问还知道那些符合条件的人,再去找越来越多具有相同性质的群体成员.例如,要研究退休老人的生活,可以清晨到公园去结识几位散步老人,再通过他们结识其朋友,不用很久,你就可以交上一大批老年朋友。但是这种方法偏误也很大,那些不好活动、不爱去公园、不爱和别人交往、喜欢一个人在家里活动的老人,你就很难把雪球滚到他们那里去,而他们却代表着另外一种退休后的生活方式。当我们无法了解总体情况时,可以从总体中少数成员入手1145、非概率抽样方法的比较P121——表5-35、非概率抽样方法的比较P121——表5-3115非概率抽样技术总结:1、受客观条件限制,无法进行严格的随机抽样;2、为了快速获得调查结果;3、调查对象不确定,或无法确定的情况下采用,例如突发(偶然)事件进行现场调查等;4、总体各单位间离散程度不大,且调查员具有丰富的调查经验时;非概率抽样技术总结:116二、概率抽样方法1、简单随机抽样(1).定义:P122(2).使用对象:
调查总体中各单位之间差异较小的情况,或者调查对象不明,难以分组、分类的情况。(3)特点:按随机原则,从调查总体中不加任何分组、规划、排序等先行工作,直接地抽取调查样本;b、每个样本被抽中的概率相等,各个样本完全独立,彼此间无一定的关联性和排斥性,完全排除了抽样中主观因素的干扰二、概率抽样方法1、简单随机抽样117①抽签法
适用于总体单位数较少的情况。抽签方式在具体应用上有多种方法,如抽纸签法、纸牌法等。将调查总体的每个单位编上号码将号码均匀打乱任意从中抽选,抽到一个号码,就作为一个单位直到抽足预先规定的样本数目为止①抽签法将调查总体的每将号码均任意从中抽选,直到抽足预先规定118②乱数表法p294基本步骤:调查总体中的所有单位加以编号,根据编号的位数确定适用若干位数字查乱数表直到抽足预定样本数目为止②乱数表法p294基本步骤:调查总体中的根据编号的位查乱119【案例分析】要从一个包含800个个体的抽样框中抽出大小为10的样本,可以从乱数表的第一行第一列开始,考虑最右边的三个数字,从001-800依次选出10个数字:386、762、766、564、439、331、429、244、245、775若从第一行第三列最左边的三个数字呢?【案例分析】要从一个包含800个个体的抽样框中抽出大小为120【分析提示】在顺序抽取的过程中,遇到比编号大的数字,应该舍去。此例中的因大于,故舍去不用。【分析提示】在顺序抽取的过程中,遇到比编号大的数字,121一定的局限性1采用简单随机抽样2某些事物无法适用简单随机抽样,大量产品进行质量检验,就不能对全部产品进行编号抽样3当总体的标志变异程度(方差)较大时4由于抽出样本单位较为分散,所以调查人力、物力、费用消耗较大一定的局限性1222、系统抽样按照一定的顺序,每隔若干个个体抽取一个体的方法。电子营销专业的学生,选一个随机起点,按照学号,隔N个个体选一个2、系统抽样按照一定的顺序,每隔若干个个体抽取一个体的方法。1233、分层抽样(1)要点:①分层时各层之间要有明显的差异;②要知道各层中的单位数目和比例;③分层的数目不宜太多,每个层次内每个个体应保持一致性。3、分层抽样(1)要点:124(2).程序:
把总体各单位分成两个或两个以上的相互独立的完全的组(如男性和女性),而后从两个或两个以上的组中简单随机抽样,样本相互独立。
步骤:
首先,辨明突出的人口统计特征和分类特征,这些特征与所研究的行为相关。第二,确定在每个层次上总体的比例。最后,从每层中抽取独立简单随机样本(2).程序:把总体各单位分成两个或两个以上的相互独立的125(3).分层抽样具体形式有两种:①等比例分层抽样
等比例分层抽样即按各个层(或各类型)中的单位数量占总体单位数量的比例分配各层的样本数量。
(3).分层抽样具体形式有两种:①等比例分层抽样126【案例分析】某地共有居民20000户,按经济收入高低进行分类,其中高收入的居民为4000户,占总体的20%,中收入的居民为12000户,占总体的60%,低收入的居民为4000户,占总体的20%。要从中抽选户进行购买力调查,则各类型应抽取的样本单位数为?【案例分析】某地共有居民20000户,按经济收入高低进行127【分析提示】经济收入高的样本数目为:200*20%=40(户)经济收入中的样本数目为:200*60%=120(户)经济收入低的样本数目为:200*20%=40(户)样本单位数的抽取是按各种经济收入的单位数量占总体单位数量的比例进行样本的抽选。这种方法简便易行,分配合理,计算方便。适用于各类型之间差异不大的分类抽样调查,如果各类差异过大,则不宜采用而应采用分层最佳抽样法。【分析提示】经济收入高的样本数目为:200*20%=40(128②分层最佳抽样法定义:又称非比例抽样法,根据各层样本标准差的大小确定各层的样本数目的方法。计算公式为:ni=n*(NiSi/∑NiSi)式中:ni————各类型应抽选的样本单位数n————样本单位数Ni————各类型的调查单位数
Si————各类型调查单位数的样本标准差②分层最佳抽样法定义:又称非比例抽样法,根据各层样本标准差的129【案例分析】仍以上述居民收入与购买力之间关系为例。各层样本标准差高收入为300元,中收入为200元,低收入为100元,如:
调查单位数与样本标准差乘积计算表
各层次各层的调查单位数(户)Ni各层的样本标准差(元)Si乘积NiSi高中低400012000400030020010012000002400000400000∑NiSi200004000000【案例分析】仍以上述居民收入与购买力之间关系为例130【分析提示】高收入样本单位数目为:200*(1200000/4000000)=60中收入样本单位数目为:200*(2400000/4000000)=120低收入样本单位数目为:200*(400000/4000000)=20【分析提示】131【分析提示】2样本单位数是按各种经济收入下的样本标准差的大小进行调整的,按ni=n*(NiSi/∑NiSi)计算。通过上述计算可以看出,用非比例抽样法与比例抽样法,抽取的样本各层次之间不同,特别是高收入与低收入减少20户(20户—40户),中收入不变。由于购买力同家庭经济收入关系很大,因而要增加高收入的样本数,相应减少低收入层的样本数,这种使所抽取的样本更具有代表性。这种以调查单位数和样本标准差两个因素为依据进行的抽样是最佳抽样法。【分析提示】2样本单位数是按各种经济收入下的样本标准差的大小1324、整群抽样(clustersampling)整群抽样在对居民收入情况进行调查时,若以居民小组为群,抽样时可先抽取居民小组,再调查每个被抽到的居民小组中的每一居民户。整群抽样的优点,是组织工作比较方便,确定一组就可以抽出许多单位进行观察。但是,正因为以群为单位进行抽选,抽选单位比较集中,明显地影响了样本分布的均匀性。4、整群抽样(clustersampling)整群抽样在对133练习例:某地区有百货商店1000个,其中大型百货商店100个,中型百货商店300个,小型百货商店600个。如果总样本数定为20个,则各层应抽取的样本数为多少?练习例:某地区有百货商店1000个,其中大型百货商店100个134在抽样单位数目相同的条件下抽样误差较大。因此,在大规模的市场调查中,当群内各单位间的差异较大,而各群之间差异较小时,才可考虑采取整群抽样方式。在抽样单位数目相同的条件下抽样误差较大。135Example:ClustersamplingSection4Section5Section3Section2Section1Example:ClustersamplingSecti1365、整群抽样与分层抽样的比较特征整群抽样分层抽样样本来源一个或几个群所有层抽样目的不提高成本而提高抽样效率不提高成本而提高精度划分原则群中的个体异质,群间同质层中个体同质,层间异质5、整群抽样与分层抽样的比较特征整群抽样分层抽样样本来源一个1376、多阶段抽样
复杂、大规模的市场调查中使用如住户调查先抽大单元,在大单元抽小单元,再在小单元中抽更小的单元城市街道家庭6、多阶段抽样138
例如,某市有23个区,共714万人,从中抽取1000人的样本,将区作为初级抽样单位,每区人数不等,把每区人数的号码范围列出,东区是1-120000号,西区是120001-270000号…..一直排到7140000号.从这些号码中用随机数字表确定10个号码,则这10个号码所落入的区即为调查区.如抽中340000号,它落在南区,则南区为调查区,从这10个调查区中,每区再随机抽取100人就构成最终样本.多阶段抽样特别适用于调查范围大,单位多,情况复杂的调查对象,但多阶段抽样由于在每一阶段抽样是都会产生误差,因此经多阶段抽样得到的样本的误差也相应增大.这是它的不足之处.例如,某市有23个区,共714万人,从中抽139小思考:概率抽样的特点有哪些?小思考:概率抽样的特点有哪些?140【分析提示】总结如下:抽样本时遵循随机原则;由样本从数量上去认识总体;抽样估计的准确度和可靠程度可以测定并控制。【分析提示】总结如下:141课堂练习:P149:20题P169:21题课堂练习:P149:20题142第三节抽样方法的选择第三节抽样方法的选择143一、选择抽样方法的标准因素非概率抽样概率抽样调研性质探索性描述性;因果性主要误差非抽样误差臭氧误差总体特点同质异质统计分析不适合适合一、选择抽样方法的标准因素非概率抽样概率抽样调研性质探索性描144案例:抽样方法的选择和应用案例:为了解普通居民对某种新产品的接受程度,在一个城市中抽选1000户居民开展市场调查
案例:抽样方法的选择和应用案例:145第四节抽样误差与样本容量一、抽样误差当总体指标未知时,往往要安排一次抽样调查,然后用抽样调查所获得的抽样指标的观察值作为总体指标的估计值,这种处理方法是存在一定误差的。第四节抽样误差与样本容量一、抽样误差146备注:全及指标和抽样指标
㈠总体指标:根据总体各单位标志值计算的、反映总体属性的指标。主要有:总体平均数上一页下一页返回本节首页总体方差总体(平方)标准差备注:全及指标和抽样指标㈠总体指标:根据总体各单位标志值计147㈡抽样指标:根据样本各单位标志值计算的、反映样本属性的指标。主要有:样本平均数上一页下一页返回本节首页样本方差样本标准差㈡抽样指标:根据样本各单位标志值计算的、反映样本属性的指标。148比如某年级100名同学的平均体重=55kg,现随机地抽取10名同学为样本,其平均体重=52kg。若用52kg估计55kg,则误差为52-55=-3kg,如果重新抽10名同学,若测得=57kg,则其误差为2kg。这种只抽取部分样本而产生的误差,都被称为抽样误差。
比如某年级100名同学的平均体重=55kg,现随机地抽取10149二、非抽样误差抽样误差不包括下面两类误差:一类是调查误差,即在调查过程中由于观察、测量、登记、计算上的差错而引起的误差;一类是系统性误差,即由于违反抽样调查的随机原则,有意抽选较好单位或较坏单位进行调查,这样造成样本的代表性不足所引起的误差。这两类称之为非抽样误差。二、非抽样误差抽样误差不包括下面两类误差:150非抽样误差覆盖不周观察偏误非观察偏误不在家无回答被访问者责任拒答故意错答误解而错答访问者责任访问员过失访问员作弊图5-1非抽样误差产生原因非抽样误差覆盖不周观察偏误非观察偏误不在家无回答被访问者责任151三、影响抽样误差的因素1.抽样单位数的多少。2.总体各单位标志值的差异程度。3.抽样方法。4.抽样的组织和监控。三、影响抽样误差的因素1.抽样单位数的多少。152四、抽样误差的作用:1.在于说明样本指标的代表性大小。
误差大,则样本指标代表性低; 误差小,则样本指标代表性高; 误差等于0,则样本指标和总体指标一样大。2.说明样本指标和总体指标相差的一般范围。四、抽样误差的作用:1.在于说明样本指标的代表性大小。2.153五、简单随机抽样的抽样平均误差
(一)平均数的抽样平均误差1.重复抽样五、简单随机抽样的抽样平均误差(一)平均数的抽样平均误差154取得σ的途径有:1.用过去全面调查或抽样调查的资料,若同时有n个σ的资料,应选用数值较大的那个;2.用样本标准差S代替全及标准差σ;3.在大规模调查前,先搞个小规模的试验性的调查来确定S,代替σ;4.用估计的方法。取得σ的途径有:1.用过去全面调查或抽样调查的资料,若同155
某灯泡厂从一天所生产的产品10,000个中抽取100个检查其寿命,得平均寿命为2000小时(一般为重复抽样),根据以往资料:σ=20小时,根据以往资料,产品质量不太稳定,若σ=200小时,例某灯泡厂从一天所生产的产品10,000个中抽取100个检156例:某年级学生中按简单随机重复抽样方式抽取50名学生,对“基础会计学”课的考试成绩进行检查,得知其平均分数为75.6,样本标准差10分。要求:计算抽样平均误差计算题练习:例:某年级学生中按简单随机重复抽样方式抽取50名学生,对“基1572.不重复抽样:2.不重复抽样:158计算题练习:某工厂有2000个工人,用简单随机不重复方法抽取100个工人作为样本,计算出平均工资560元,标准差32.45元。要求:计算抽样平均误差计算题练习:某工厂有2000个工人,用简单随机不重复方法抽取159(二)成数的抽样平均误差已证明得:成数的方差为p(1-p)
(二)成数的抽样平均误差已证明得:成数的方差为p(1-p)160某玻璃器皿厂某日生产15000只印花玻璃杯,现按重复抽样方式从中抽取150只进行质量检验,结果有147只合格,其余3只为不合格品,试求这批印花玻璃杯合格率(成数)的抽样平均误差。例某玻璃器皿厂某日生产15000只印花玻璃杯,现按161第五节样本容量的确定
一、营销调研中常用的样本容量类型最小量典型范围市场潜力5001000-2500问题解决200300-500产品测试200300-500广告测试150200-500试销市场审计10个店10-20个店专题组6组10-15个组第五节样本容量的确定
一、营销调研中常用的样本容量类型162二、确定样本容量根据调查目的确定样本容量考虑总体性质和特点确定样本容量按市场调查条件确定样本容量二、确
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025届河北省涞水县波峰中学数学高二上期末调研试题含解析
- 广东省江门市2025届生物高二上期末调研试题含解析
- 2025届安徽省屯溪第一中学高三数学第一学期期末复习检测模拟试题含解析
- 2025届湖南省浏阳一中数学高三上期末经典试题含解析
- 2025届辽宁省普通高中高一上数学期末统考试题含解析
- 甘肃省泾川县第三中学2025届高一上数学期末联考试题含解析
- 苏州高新区实验初级中学2025届生物高一上期末预测试题含解析
- 黄冈八模系列湖北省黄冈市2025届数学高二上期末检测模拟试题含解析
- 2025届安徽省六安市三校数学高二上期末综合测试试题含解析
- 2024年电梯修理(T)特种作业取证(江苏)考试复习题库(含答案)
- 免疫系统的组成和功能 教学设计
- 加强供电企业青年员工培养模式优化措施
- GB/T 2965-2007钛及钛合金棒材
- 中国脑出血诊治指南(2023年)-1
- 药品采购供应制度执行情况检查记录
- 机关事业单位工会换届程序
- 新教科版-高一信息技术-32-数据与结构(二课时)课件
- 二手叉车转让合同范本(3篇)
- 东正教对俄罗斯文化的影响
- 弦振动研究课件
- 行政事业单位资产管理信息系统(单位版操作型)课件
评论
0/150
提交评论