版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十一章抽样技术本章学习内容11.1有关的概念11.2制定抽样计划的步骤11.3概率抽样方法11.4非概率抽样方法11.5抽样中的误差课后习题本章学习目的能够科学地进行抽样熟练掌握各种抽样方法本章学习重点与难点如何定义总体、确定抽样框科学确定样本量恰当地选择抽样方法进行抽样11.1有关的概念1、总体(或全域)或同质总体,是指能提供所需信息的人的全体。2、抽样与普查普查这一概念用于描述获取同质总体中每个成员的信息。抽样指一个相对较小、但精心选择的样本能准确地反映出所抽签的总体的特征。一个样本是总体所有成员的一个子集。从总体中子集获得的有关信息,可以用来估测总体的特征。理想的状况是,子集能够代表总体的各个部分。案例:抽样的效果根据日本在公元1970年举办之国势调查,在正式调查报告未提出前,先以抽样1%及10%为样本,做为快报预先发表。事后将三项统计数字资料比较于下:人口总数男女全部统计83,199,63740,811,76042,387,87710%抽样83,200,00040,791,00042,409,0001%抽样83,110,00040,740,00042,370,00011.2制定抽样计划的步骤1.定义同质总体详细说明可提供信息或与所需信息有关的个体或实体所具有的特性。可从以下几方面进行描述:地域特征、人口统计学的特征、产品或服务使用情况、认知程度等。2、选择资料收集方法3、选择抽样框抽样框是指总体的数据目录或单位的名单,从中可以抽出样本单位。理想的完整和准确的名单通常是不存在的,因而需要依据能够产生具有希望特征的样本个体的程序来反映抽样框。11.2制定抽样计划的步骤4、选择抽样方法取决于研究目的、经济实力、时间限制、欲调查问题的性质。1)概率抽样概率抽样指在总体中的每个单位都有可能被抽中。概率抽样的优点:信息全面、能估算出抽样误差、调查结果可以用来推断总体。概率抽样的弊病:费用高、策划和实施时间长。2)非概率抽样非概率抽样指从总体中非随机地选择特定的要素(单位)。非概率抽样的弊病:不能估计出抽样误差、难以确定样本代表性的程度、难以推及总体。非概率抽样的固有优势:费用低、实施时间少、若合理运用也能产生极具代表性的合理的抽样结果。11.2制定抽样计划的步骤5、确定样本量考虑可得预算的重要性、各种各样的抽选规则、子集量的分析和传统的统计样本量的计算。对非概率抽样,通常依靠可得预算、抽选规则(凭经验确定)、子集量分析来决定样本量。对概率抽样,需要在允许误差的目标水平和置信水平下,计算样本量。确定样本量通常考虑这样一些因素:A个体差异大小:大则多些B调查项目多少:多则多些C控制质量情况:差则多些D抽样组织方式:不严密则多些11.2制定抽样计划的步骤
6、制定选择样本单位的操作程序示例:抽样的操作程序可以如下:以下指南是有关你在某个街区访问时应走的路径。在城市中,这可能是一个城市街区;在农村,街区可能是一块被道路包围的土地。1、如果在你的路线当中遇到死胡同,继续沿这条路或街道的另一面向反方向走。在可能的地方又拐,每隔两户住家访问一户。2、如果你沿街区走了一圈,又回到了出发点而没有完成列出的电话簿上家庭的四个访问,那么可以试着访问起点的那一家。3、如果你调查了整个街区,还是没有完成所要求的访问,则继续从街区(或乡间小路)对面附近的第一个住户开始。只要这个地址在你的纸上的一个“*”旁出现就把它当作你所在区域的接到中的另一个地址,并访问这一家。如果不是,就访问左边的一家。永远遵守右手法则……7、描样计划的实施实施之前,应先对抽样进行讨论研究,检查、确定是否要根据拟好的详细程序来实施计划。11.3概率抽样方法-简单随机抽样总体中每个单位在抽选时有相等的被抽中机会抽样概率公式为:抽样概率=样本单位数/总体单位数例如,如果总体单位数为10000,样本单位数为400,那么抽样概率为4%,计算过程为:0.04=400/10000为了满足随机性,抽样程序主要通过三种方式实现:1.抽签法——制作选签工作繁重,实践中较少采用2.随机数字表法3.计算机抽取——大量的模拟实验发现,计算机产生的随机数是伪随机数,其随机性并不理想。随机数字表的应用:如果一个抽样框是可以得到的,简单随机抽样方式步骤如下:(1)对总体的每个单位进行编号,总体单位数为10000的总体可编号为1~10000。(2)在随机数表中从任意的一个编号数开始向上数或向下数或跳跃数选编号,在00001和10000之间选出400个(样本单位数)。(3)在有明确总体单位的数字表中选出的数字将包括在样本中注意:使用随机数字表时,为了克服可能的个人习惯,增加随机性,起点也应随机产生。如随意翻开一页,闭上眼睛,将火柴随意扔到页面上,将火柴所指的数字作为页号,同样的方法产生起始行号和列号。例一:N=678,要抽取n=5的样本方法:随机确定一个起点和顺序,每次取出三个数字,选出头5个001~678之间的互不相同的数字,作为样本。例二:N=327,要抽取n=50的样本方法1:如果采用例一的方法效率较低(328~999及000都用不上),所以可以采用变通的方法,如果抽取的随机数在401~800之间,则减去400,减去400后的数字如果在001~327之间就选为样本。方法2:如果得到的随机数大于327,则用这个数字除以327,以余数入样。简单随机抽样的优缺点:优点:简单,并且满足概率抽样的一切必要的要求。缺点:编制完整的抽样框极其困难;访谈费用过高;可能会抽中一个很差的样本;没有利用辅助信息,效率低下。11.3概率抽样方法-等距抽样调查人员必须决定一个间隔,并在此间隔基础上从总体单位表中选择样本公式:样本距离=总体单位数/样本单位数抽样的步骤:1.确定间隔2.确定起点3.抽样
例一:N=54,n=6,用等距抽样抽选样本方法:确定样本距离(k=9),在1~9之间随机确定起点,最后确定样本。例二:N=53,n=6,用等距抽样抽选样本确定样本距离(k≈9),在1~9之间确定起点,如果起点在1~8则样本数为6个,如起点为8,则样本为8、17、26、35、44、53;如果起点为9点,则样本为9、18、27、36、45,只有5个。解决办法:圆形抽样法等距抽样的优缺点:相对于简单随机抽样方式其最主要的优势就是经济性:更为简单,花的时间更少,花费也少;样本分布比简单随机抽样好;最大的缺陷在于总体单位的排列上。一些总体单位数可能包含隐蔽的形态,调查者可能疏忽,把它们抽选为样本。11.3概率抽样方法—分层抽样程序:把总体各单位分成两个或两个以上的相互独立的完全的组(如男性和女性),而后从两个或两个以上的组中简单随机抽样,样本相互独立。分层抽样有三个步骤:首先,利用抽样框中的辅助信息进行分层。分组的标志一般与所关心的总体特征有关,例如调查吸烟状况,很明显男女的吸烟状况可能存在不同,因此可以用性别来进行分组。第二,确定在每个层次上总体的比例。等比例和不等比例的分配。等比例分配操作简单,容易理解;不等比例的分配可以提高效率,例如有的层规模太小等比例分配只能获得很少量的样本,有的层方差很大,多分配样本可以提高精度。最后,调查者必须从每层中抽取独立随机样本。分层抽样的最大的优点在于由于减少了误差的来源提高了调查的精度。例一:假设某产品的消费群体中有40%是男性,60%是女性,分层抽样可以将总体按性别分为两个层次,男性层抽取40%的样本,女性层抽60%的样本。可以想象简单随机抽样很难准确抽出这一比例。例二:某宿舍有6人,新生3人,老生3人。现欲抽取2个样本,估计该宿舍平均拥有数的数目。用简单随机抽样得到的均值范围是3~23。如果分层抽样,则均值范围是11~15。真实值是13本。编号老生拥有书编号新生拥有书A20D2B22E4C24F6合计66合计1211.3概率抽样方法-整群抽样样本是一组单位一组单位地抽取。步骤:同质总体被分为相互独立的完全的较小子集,而后随机抽选子集构成样本。采用整群抽样的原因主要在于:实施方便,节省时间和费用;缺乏总体单位的抽样框可以进行整群抽样,例如没有全市中学生的名录但是拥有学校的名录,就可以整群抽取。整群抽样的主要弱点在于,群内各单位之间存在相似性,差异比较小,而群与群之间的差别比较大,使得整群抽样的抽样误差比较大。本书中的整群抽样实际上包含多阶抽样。地理区域抽样是整群抽样的典型方式。示例:在一个州内的调查可以如下抽样:(1)选取这个州内的县以表明不同区域都有代表性,县也许是通过与县中家庭数成正比的方式抽出,家庭数目较多的县比家庭数目较少的县抽中的机会要大一点。(2)在样本县中抽住宅区域。(3)在中选住宅区域中抽家庭。11.4非概率抽样指任何不满足概率抽样要求的抽样。1、便利抽样依据便利原则抽取样本,典型的方式是“拦截式调查”2、判断抽样基于个人主观判断选择具有代表性的总体单位进行调查的非概率抽样方法。3、配额抽样配额抽样是根据一定标志对总体分层或分类后,从各层或各类中主观地选取一定比例的调查单位的方法。4、滚雪球抽样滚雪球抽样是指,通过使用初始被调查者的推荐来挑选另外的被调查者的抽样程序。5、自愿样本自愿样本不是经过抽取,而是由自愿接受调查的单位所组成的样本。特点是:组织方便,成本低廉,虽然样本结构与总体结构相距甚远,但是由于参与者大多是对调查内容关心的人,对于了解情况、分析问题、查找原因都是十分重要的信息。例如:饭店的餐桌中央优势会有调查表;报刊上的问卷等等。6、因特网抽样因特网抽样的发展与因特网的代表性密切相关,从目前来看,因特网依然存在代表性问题,网络用户的特征依然是年轻、受过教育的男性为主。此外由于不存在可以作为抽样框的包括所有e-mail的中心数据库,因特网抽样还是一种非概率抽样。从每人19个性伴侣看网络调查可信度.mht网络调查的评价:网络调查.doc网络调查的形式:/s/m/2006-05-11/10061078141.html网站的访问者因特网调查是对那些有意或碰巧访问某个组织的网站的自愿的应答者进行的。这些不受限制的样本显然是:便利样本——他们可能不具有代表性——偶然或选择偏差;对网站访问者进行抽样的一个更好的方法是随机选择抽样单位——“弹出式调查”软件——随机选择网站访问者。随机的问题:可能让某个网址的经常访问者有过多的代表性,而这样就代表了网站的访问量,而不是访问者。讨论小组样本一个已经建立的消费者讨论小组或其它事先招募的成员讨论小组,是一种创立因特网用户样本的流行的、科学的和有效的方法。通常,从一个讨论小组中进行抽样,会产生很高的回应率,因为,讨论小组的成员已经同意与调研机构的电子邮件或因特网调查进行合作。发现:有两个人口统计小组不能通过因特网抽样完全涉及:65岁及以上的人(一个正在迅速增长的群体);那些年收入在15000美元以下的人。相比之下,18-25岁——一个传统调研方法历史上很难覆盖到的群体,现在在因特网上却极其容易被覆盖。招募的特别样本在特别的基础上,可以创立一个电子邮件地址的抽样框架。调研者可以通过“蜗牛式的传统信件”或者电话来联系应答者,寻求他们的电子邮件地址,并且获得准许进行因特网调查。使用离线技术,如随机数字拨号以及简短的电话筛选访问来招募应答者,可能获得具有代表性的因特网调查样本。客户关系库里包含电子邮件地址(通过要求顾客在产品登记卡上、在电话互动中,在网上登记等),可以为样本招募提供有用的数据库。决定参与的名单在将某个人的电子邮件地址加入公司数据库之前,应确认并且再次确认每个人对交流某个主题的兴趣。不要向应答者发送未经授权的电子邮件,这是很重要的。如果个人没有决定接收某个特定组织的电子邮件,他们可能认为这种主动提供的调查请求是一种垃圾邮件。调研人员不能从这些没有同意调查的人里面期待很高的回应率。有经验的因特网用户是不能容忍垃圾邮件的,他们可能带来不好的结果,产生大量的问题。11.5抽样中的误差一、误差的描述1.估计量方差2.偏差3.均方误差二、抽样误差抽样误差是由于抽样的随机性造成的误差。可以用估计量的方差和标准差来度量。影响抽样误差的因素有:总体方差、样本量、抽样方式、估计方式。三、非抽样误差除抽样因素以外,由其他原因引起的样本统计量与真值之间的差异。引起非抽样误差的原因主要有:抽样框误差、调研对象范围误差、访谈员误差、拒访误差、回答偏差等。失败案例:看起来并不随机的随机次序篮球运动员——高潮、低潮;心理学家访问费城76人队的队员,运动员估计,他们在刚投中一个球之后再接着投中,要比失球之后再投中的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 摆摊卡片设计方案
- 摄影基础概念插画课程设计
- 课程设计电子时钟讲解稿
- 搭建光伏支架课程设计
- 搏击力量训练课程设计
- 炉管焊接热处理方案
- 插画创意美术课程设计
- 插座修复施工方案
- 轻轨安全课程设计
- 推拉帐篷施工方案
- 乳腺癌PPT演示文稿课件
- 小学科学教科版四年级上册.6《运动的小车》教学PPT课件
- 接力跑“下压式”交接棒教学设计
- 标杆地产集团---工程管理---项目复盘及反思-课件
- 变电站电气工程质量监理旁站点及旁站监理记录
- 中国结之红绳手链的编结大全
- 国家开放大学《金融基础知识》形成性考核1-4参考答案
- 初中趣味语文荟萃(课堂PPT)
- (美国)标准公司章程范本(共18页)
- PE聚乙烯给水管道安装手册(精)
- 院士专家工作站管理办法
评论
0/150
提交评论