




已阅读5页,还剩75页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Chapter2简单随机抽样 SimpleRandomSampling 简单随机抽样的定义与抽选方法简单估计量及其性质比率估计量及其性质回归估计量及其性质样本量的确定原则若干问题的补充 1简单随机抽样的定义与抽选方法 一 定义从大小为N的总体抽取样本量为n的样本 若全部可能的样本被抽中的概率都相等 则称这样的抽样为简单随机抽样 根据抽样单位是否放回可分为放回简单随机抽样和不放回简单随机抽样 放回简单随机抽样 每个样本抽中的概率不放回简单随机抽样 每个样本抽中的概率 二 实施方法简单随机样本的抽选 首先要将总体从1到N编号 每个单位对应一个号 然后从所编的号中抽号 如果抽到某个号 则对应的那个单位入样 直到抽够n个单位为止 抽签法 随机数法 抽签法 简单随机抽样就是从盛有N张票子的盒子里随机无放回地摸取n N 张票 它可以有两种取法 1 从盒子中一次性摸取n张票2 从盒子中随机地摸取一张票 相应的单元入样后 票不放回盒子 从余下的N 1张票中再随机地摸取一张票 相应的单元也入样且票也不放回盒子 依次实施 直到第n个样本入样 两种抽取的方法是等价的 每个样本的被抽中的概率都是 随机数法当总体较大时 抽签法实施起来比较困难 这时可以利用随机数表 随机数骰子 摇奖机 计算机产生的伪随机数进行抽样 1 利用随机数表进行抽选 随机数表是一张由0 1 2 9这十个数字组成的 一般常用的是五位数的随机数字表 10个数字在表中出现的顺序是随机的 每个数字都有同样的机会被抽中 2 利用随机数骰子进行抽选 3 利用摇奖机进行抽选 4 利用计算机产生的伪随机数进行抽选 通常产生的伪随机数有循环周期 Excel SPSS等都有随机数发生器等 简单随机抽样在抽样理论中的地位 缺点 要求每一个单元都有一个号码 这意味着必须有一个包含所有单元的完整抽样框 而当N很大时 这点常常是不具备的 由此得到的样本很分散 不利于调查 例如 对全国进行人口调查 总体单元超过12亿 要对全国每个人都编上号 编制一个完整的抽样框实际上是不可能的 即使可能 当抽到一个人也很难找到 优点 简单随机抽样在抽样理论中占有重要地位 它是其它抽样方法的基础 其理论也最为成熟 其它许多方法都是建立在简单随机抽样的基础上 相关符号 有关指标与符号 引理 引理1 从大小为N的总体中抽取一个样本容量为n的简单随机样本 则总体中每个特定的单元入样的概率为n N 两个特定单元入样的概率为n n 1 N N 1 一个特定单元入样的概率 两个特定单元入样的概率 引理2 从大小为N的总体中抽取一个样本容量为n的简单随机样本 若令 简单估计量的定义简单估计量的性质放回简单随机抽样的简单估计设计效应影响估计量精度的因素 2 2简单估计量及其性质 一 简单估计量的定义 对于简单随机抽样 在没有其它信息的条件下 最简单的估计是利用样本均值作为总体均值的估计 即总体均值的简单估计量为 也就是说 样本均值是总体均值的简单估计量 例2 1 一个N 6的总体中抽取n 3的样本 设这6个单元的值分别为Y1 21 Y2 12 Y3 15 Y4 24 Y5 6 Y6 18 则总共可能有个样本 每个样本所包含的单元号及其数值见表2 1总体均值 总体方差 发现 样本均值的均值 总体均值样本方差的均值 总体方差这并不是偶然的 是其重要的性质 证明 方法一 对称性证法 证明 方法二 引入示性变量 证明 方法一 引入示性变量 证明 方法二 对称性证法 根据对称性论证法 有 回顾 简单随机抽样的定义与抽选方法简单随机抽样的实施方法两个引理简单估计量的定义样本均值是总体均值的无偏估计 Q1 估计量的精度与抽样比的关系大吗 A1 当N很大时 抽样精度基本取决于样本量n 而与抽样比几乎无关 Q2 进行人口抽样调查 如果需要各个省的数据 要达到相同的精度 大省和小省所需要的样本量几乎相同还是相差很大 A2 几乎相同 虽然此时抽样比相差很大 但如果抽样比相同 必然会导致小省精度不够 大省抽样过多而浪费 一点解释 1 f 1 f fpc finitepopulationcorrection 有限总体校正系数总体未入样率从一无限总体中抽取一个样本容量为n的随机样本 一般而言 当抽样比小于5 时 fpc可以忽略不计算 这样的话估计量的标准差就估计的稍微高一些 简单估计量方差的无偏估计 证明 说明样本方差是总体方差的无偏估计即可 根据对称性论证法和方差性质 简单估计量的性质小结 具体例子 例 从一个容量为100的总体中抽出样本容量为10的简单随机样本 要估计总体平均水平 并给出置信度为95 的置信区间 95 的置信区间为 5 1 96 1 3115 5 1 96 1 3115 2 43 7 57 例 从一个容量为100的总体中抽出样本容量为10的简单随机样本 续上 若问 2 估计总体的总量以及95 的置信区间 95 的置信区间为N 5 1 96 1 3115 5 1 96 1 3115 100 2 43 7 57 243 757 3 总体均值估计的绝对误差和相对误差 三 放回简单随机抽样的简单估计量 有放回抽样的精度低于不放回抽样的精度 百分数的估计及其误差 在问卷调查中对某个问题的回答为 是 或 否 的情况 若某个问题的答案只有两个 是 或 否 则选择 是 或 否 的比例即是需要估计的总体比例多项选择题 某个问题有5种可选答案A B C D E 每人可任意选择一项 那么对答案A而言 每个人的选择可以是 A 或 非A 由此 选择A的比例 即是需要估计的总体比例 同理 选择B C D及E的比例都是我们需要估计的总体比例 总体比例常用百分数来表示 有时也俗称为成数 如果我们只关心总体中某些特定类型的集合占整个总体的比例 那么我们的盒子模型中的票子分为两类 我们感兴趣的全标为1 其余全标为0 于是盒子成为 1 0 0 1盒子模型 具有该种属性的比例为 1 具有某种属性单位的个数N1的估计就是对总体总值估计 2 对总体比例的估计就是对总体均值的估计 方差用比例表示 总体方差样本方差 估计量的定义和性质 估计量的性质 1 当N n N n都比较大时 a 样本中1的个数 近似服从正态分布 2 当N很大 但n不是很大时 a近似服从二项分布 二项分布是个离散分布 而正态分布是个连续分布 因此可将其进行连续性修正 P经修正后的近似置信区间为 应用举例 例 某超市开张一段时间之后 为改进销售服务环境 欲调查附近几个小区居民到该超市购物的满意度 于是在总体中抽取了一个样本容量为200人的样本 调查发现对该超市的购物环境表示满意和基本满意的居民有130位 请估计对超市购物满意的居民的比例 并在置信度为95 下 给出估计的绝对误差 相对误差和变异系数coefficientofvariation和置信区间 置信区间为 0 65 0 0663 0 65 0 0663 即 58 37 71 63 样本量的确定 2 5 1 确定样本量的主要考虑因素 样本量与精度的关系估计量的精度要求高 意味着抽样误差小 样本量大 样本量与实际调查运作的限制调查的经费能支持多大的样本 允许调查持续的时间有多长 需要多少调查人员 由于大部分限制条件难以量化 确定样本量的计算公式时往往只在抽样精度与调查费用两者之间权衡 确定样本量的原则 最优设计 在总费用一定的条件下使精度最高 在满足一定精度要求的条件下使费用最小 其他影响样本量的因素 问题的重要性所研究问题的目标量个数参照同类调查调查表的回收率有效样本 样本量与精度 精度的衡量 估计量的标准误 一定概率保证下的绝对误差d及相对误差r变异系数cv等 考虑精度决定样本量 通常先计算出n的近似值n0 实际n比n0小 当n0 N 两者之比小于0 05时 则可取n n0 否则进行修正 1 绝对误差上限d决定样本量 举例 例 一批电子元件有1600只 为估计元件的平均寿命 先根据抽样计算出样本平均寿命为8400小时 标准差为760小时 如果要求估计的绝对误差限为168小时 可靠程度在95 以上 问至少应抽取多少只元件 具体例子 从一个容量为100的总体中抽出样本容量为10的简单随机样本 要估计总体平均水平 并给出置信度为95 的置信区间 95 的置信区间为 5 1 96 1 3115 5 1 96 1 3115 2 43 7 57 上例中 如果现在要求以95 的把握保证相对误差不超过10 样本量至少是多少 注意 不要忘了修正样本量 练习 欲估计一个农村的每月平均副业收入 已知该村共有1000户农户 月副业收入的标准差不超过300元 1 现要求置信度为95 估计每户月副业收入的误差不超过50元 应抽取多少户作为样本 2 若每户调查费用为15元 调查管理费用为800元 该项调查预计费用是多少 3 要估计全村1000户一月的副业总收入 允许总量的误差为40000 置信度为95 应抽取多少样本 小结 简单抽样的公式一览表 习题 1 为调查某地区1960个村新棉收购情况 以简单不重复抽样方式随机抽取49个村进行调查 求得试以95 的可靠程度估计该地区平均每村收购多少斤 2 从5620个中学中抽出一个含有300个学校的简单随机样本 其中有187个学校赞成一项提案 试估计赞成该提案的比例及总的学校数 3 对某问题进行调查 在总体中抽取容量为200的简单随机样本 若赞成 反对及不表态的人数分别为132 51 17 试给出赞成 反对及不回答比例的90 的近似置信区间 实践题 取一本厚的英汉字典 以一页作为一个抽样单元 从中抽取一个数量为 页的简单随机样本 用随机数表 计算每一样本单元的收词数 用此样本 1 估计全字典的单词收词总数 并计算此估计的方差的估计值 2 若要求相对误差不超过10 应抽取多大的样本量 回顾 1 具有某种属性单位的个数N1的估计就是对总体总和的估计 2 对总体比例的估计就是对总体均值的估计 通常先计算出n的近似值n0 实际n比n0小 当n0 N 两者之比小于0 05时 则可取n n0 否进行修正 练习 欲估计一个农村的每月平均副业收入 已知该村共有1000户农户 月副业收入的标准差不超过300元 1 现要求置信度为95 估计每户月副业收入的误差不超过50元 应抽取多少户作为样本 2 要估计全村1000户一月的副业总收入 允许总量的误差为40000 置信度为95 应抽取多少样本 估计总体比例时样本量的确定 通常先计算出n的近似值n0 实际n比n0小 当n0 N 两者之比小于0 05时 则可取n n0 否则进行修正 1 实际中P值通常是通过历史数据或试调查的数据得到 由于n0与PQ成正比 除了P或Q很接近0或1 PQ值的变化都比较小 当P 0 5时即PQ 0 25时PQ取到最大值 当P不太大或不太小时 可以取p0 q0 0 5作为n0的一个保守估计 当估计P0 5 则选取较小的P 如若估计P为 0 6 0 8 则选取P为0 6若对P一无所知 则取P 0 5 此时用保守估计当P值很小 即事件为稀有事件 需要用其他方法来估计 霍丹 Haldane 1945年提出一种称为逆抽样的方法 专门用于小比例事件 稀有事件 的抽样 例 在人口变动情况调查中 出生率P是一个重要指标 根据以前调查数据 出生率P的估计可取为18 问在95 的置信度下 实际调查估计P的绝对误差限为0 5 和相对误差限5 各需要多大的样本量 2 r 0 05 由于上述数字均比实际人口小很多 故不考虑修正 注意不要忘了修正 首先要判断是否需要修正哦 例 某销售公司希望了解全部3000家客户对公司的满意度 决定用电话调查一个简单随机样本 这时销售公司希望以95 的把握保证客户满意度比例P在样本比例 p 10 p 10 范围内 但对总体比例P无法给出一个大致范围 这时调查多少个客户 才能保证满足要求 分析 总体的容量N 3000 绝对误差限d 0 1置信度为0 95 P的大致范围没有给出 最保守的估计是假设P 0 5 于是 由于97 3000 0 032 0 05 所以可以忽略 练习 从一份共有3042人的人名录中随机抽取200人调查 发现38人的地址有变动 1 估计这份人名录中有多少人的地址需要修正 2 给出置信度为95 的置信区间 3 若要求估计的相对误差不超过10 还需再抽查多少人 所以还需要再抽查1065 200 865人 若干问题的补充 一 总体参数的预先估计 预调查 小型的试点调查 一般说来 大型调查通常要预调查 原因如下 可以了解具体实施过程中会出现哪些问题 问卷设计是否合理 得到对总体均值 总体方差或者总体比例的估计 从精度考虑 预调查的样本量m通常比较小 当样本量m达到精度要求时 那么调查完成 若没有达到精度要求 必须增添样本 利用以前调查的结果或经验 现要对某问题进行简单随机抽样 要求置信度为1 a 且要求估计的相对误差为r 请估计样本容量 千万不要浪费有用的信息是我们抽样调查的宗旨 通常做法 利用公式可近似计算本次所需要的样本量 在多于一个调查项目的情况下的样本容量 先具体确定调查中最重要的一些项目的误差界限 对每个重要的项目分别估计并确定样本容量 每个确定的n都很接近 而且最大的样本量n在预算许可的范围内 那么就选那个最大的n 每个确定的n相差非常大 通常不选最大的n 主要是处于预算考虑 或总的精度大大高于原先标准 这种情况下 某些项目的精确度可以降低 取稍小点的n值 设计效应 看一个抽样方案的效果究竟如何 一个比较好的办法是将它与不放回简单随机抽样在相同的样本容量之下对精度作比较 基什 Kish 在1965年提出的设计效应 designeffect 简记为deff 设计效应 指一个特定的抽样设计估计量的方差对相同样本量下不放回简单随机抽样的估计量的方差之比 若deff 1 表明所考虑的抽样设计的效率不如简单随机抽样 若deff 1 表明该抽样设计的效率比简单随机抽样高 deff的功效1 为了比较不同抽样方案的效率或效果 deff的功效2 确定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 培训计划内容方案
- 小学信息技术第三册 第15课初学绘图命令教学设计 北京版
- 健身中心场地租赁合同2025年
- 食品购销合同样本
- 合作合同合作协议
- 合作伙伴协议书模板2025
- 中外合资公司合同大全
- 培训师竞聘述职
- 2024年04月福建龙岩市永定区事业单位公开招聘工作人员编内73人笔试历年专业考点(难、易错点)附带答案详解
- 硅冶炼与资源替代策略考核试卷
- YS-T 5226-2016水质分析规程
- 国开2024年秋《生产与运作管理》形成性考核1-4答案
- 国家病案质控死亡病例自查表
- 2024年江苏省无锡市天一实验学校中考英语押题试卷含答案
- DB3305-T 57-2018幸福邻里中心建设与服务管理规范
- AIGC基础与应用全套教学课件
- 9.1.3二项分布(解析版)
- 神经生长因子在神经退行性疾病中的作用
- 国有企业采购管理规范 T/CFLP 0027-2020
- 《灾害风险管理》 课件 第6、7章 灾害风险分析与评估、灾害发生前的风险管理
- 2024年内蒙古中考地理生物试卷
评论
0/150
提交评论