抽样与参数估计_第1页
抽样与参数估计_第2页
抽样与参数估计_第3页
抽样与参数估计_第4页
抽样与参数估计_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一节第一节 抽样与抽样分布抽样与抽样分布 第二节第二节 参数估计基本方法参数估计基本方法第三节第三节 总体均值和总体比例的区间估计总体均值和总体比例的区间估计1.了解抽样和抽样分布的基本概念;了解抽样和抽样分布的基本概念;2.理解抽样分布与总体分布的关系;理解抽样分布与总体分布的关系;3.掌握总体均值、总体比例和总体方差的区掌握总体均值、总体比例和总体方差的区间估计;间估计;1.抽样的意义与历程抽样的意义与历程2.抽样方法:随机抽样、非随机抽样抽样方法:随机抽样、非随机抽样3.抽样分布:抽样分布:二项抽样分布;二项抽样分布;样本均值的分布;样本均值的分布;样本方差的分布(了解);样本方差的分

2、布(了解);T统计量的分布。统计量的分布。l抽样的意义:抽样的意义:社会学研究关心的是总体情况,而非样本情况社会学研究关心的是总体情况,而非样本情况;样 本总 体统计值参数值l界定总体界定总体(越清楚越好)(越清楚越好)l确定抽样框确定抽样框:搜集一份全部个案的名单搜集一份全部个案的名单l决定样本的大小决定样本的大小:考虑的因素:抽样误差与研究代价考虑的因素:抽样误差与研究代价准则:根据所能付出的研究代价,最大限度的抽取样本;准则:根据所能付出的研究代价,最大限度的抽取样本;l设计抽样方法设计抽样方法,从抽样框中选取所需的个案数目;,从抽样框中选取所需的个案数目;l评估样本之正误评估样本之正误

3、:根据:在总体和样本中都容易找到的资料。根据:在总体和样本中都容易找到的资料。l非随机抽样非随机抽样立意(判断)抽样法(立意(判断)抽样法(Purposive Sampling):根据研究):根据研究人员的主观见解和判断选取典型的个案;人员的主观见解和判断选取典型的个案;偶遇抽样法(偶遇抽样法(Accidental Sampling):选取一些偶然遇见):选取一些偶然遇见的个案作为样本;的个案作为样本;定额(配额)抽样法(定额(配额)抽样法(Quota Sampling);根据某些标);根据某些标准将总体分组,然后用立意或偶遇抽样法由每组中选取准将总体分组,然后用立意或偶遇抽样法由每组中选取样

4、本个案;样本个案;雪球(网络)抽样雪球(网络)抽样(Snownball Sampling):根据已有研究:根据已有研究对象的介绍,不断辨识和找出其他研究对象。对象的介绍,不断辨识和找出其他研究对象。l非随机抽样常用于探讨或试验性研究,其缺点在于非随机抽样常用于探讨或试验性研究,其缺点在于不能用统计方法推断总体情况。不能用统计方法推断总体情况。l随机抽样随机抽样随机原则的特征:随机原则的特征:l等概论:即排除任何事先设定的模式,使每个对象被选等概论:即排除任何事先设定的模式,使每个对象被选中的概率都相等;中的概率都相等;l独立性:即对象之间相互独立,任何一个对象是否入选独立性:即对象之间相互独立

5、,任何一个对象是否入选样本与其他对象无关。样本与其他对象无关。随机抽样指总体中每个元素都有一定的非零概率随机抽样指总体中每个元素都有一定的非零概率被抽中,每个元素被抽中的概论可相等,也可不被抽中,每个元素被抽中的概论可相等,也可不等。即根据已知的几率(如抽样比)抽取个案;等。即根据已知的几率(如抽样比)抽取个案;方法:方法:l1.简单随机抽样;简单随机抽样;2.系统随机抽样;系统随机抽样;3.分层随机抽样;分层随机抽样;4.集体(整群)抽样法;集体(整群)抽样法;5.多段抽样;多段抽样;6.多期抽样;多期抽样;抽样分布是根据机率的原则而成立的理论抽样分布是根据机率的原则而成立的理论性分布,显示

6、由同一总体中反复不断抽取性分布,显示由同一总体中反复不断抽取样本时,各个可能出现的样本统计值的分样本时,各个可能出现的样本统计值的分布情况。布情况。1.所有样本指标(如均值、比例、方差等)所所有样本指标(如均值、比例、方差等)所形成的分布称为形成的分布称为抽样分布抽样分布2.是一种理论概率分布是一种理论概率分布3.随机变量是随机变量是 样本统计量样本统计量l样本均值样本均值, 样本比例等样本比例等4.结果来自结果来自容量相同容量相同的的所有所有可能样本可能样本3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第二个观察值

7、第一个第一个观察值观察值所有可能的所有可能的n = 2 的样本(共的样本(共16个)个)3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第二个观察值第一个第一个观察值观察值16个样本的均值(个样本的均值(x)1.如果样本相当大(如果样本相当大(n大于大于30),则抽样),则抽样分布接近正态分布;分布接近正态分布;2.抽样分布的均值就是总体均值;抽样分布的均值就是总体均值;3.抽样分布的标准差称为标准误(差),抽样分布的标准差称为标准误(差),是总体方差除以样本大小(是总体方差除以样本大小(n)的平方)的平方根;根;4.

8、任合两值之间的样本均值次数所占的比任合两值之间的样本均值次数所占的比例是可知的。例是可知的。l二项抽样分布二项抽样分布二项,即所研究的变量只有两个值,如二项,即所研究的变量只有两个值,如“成成”与与“败败”。l样本比例的分布情况样本比例的分布情况样本中样本中“成成”的几率为的几率为:p(r) = n! Pr Qn - r / r! (n - r)!公式表示样本获得公式表示样本获得 r 次成功的机率。其中,次成功的机率。其中,n为样本为样本数,数,r为为“成功成功”数,数,P为每次成功的机会,即总体为每次成功的机会,即总体中成功的比例,中成功的比例,Q为每次失败的机会。为每次失败的机会。实例实例

9、(成功数与样本数的关系表成功数与样本数的关系表):P132-134l当样本量较大(当样本量较大(最好最好n=100)时,可将二项分布近)时,可将二项分布近似为正态分布似为正态分布主要适用于样本量较小时的均值分布,正主要适用于样本量较小时的均值分布,正态分布可看作是态分布可看作是t分布的特殊形态。分布的特殊形态。l只要采用随机抽样法,就可根据抽样分布,以只要采用随机抽样法,就可根据抽样分布,以样本统计值来推测总体情况。样本统计值来推测总体情况。l即根据一个随机样本的统计值来估计总体参数即根据一个随机样本的统计值来估计总体参数是多少。是多少。 参数估计方法:参数估计方法:1.点估计:以一个最适当的

10、样本统计值来代表总体的点估计:以一个最适当的样本统计值来代表总体的参数值;参数值;2.区间估计:以一个区间去估计总体参数值区间估计:以一个区间去估计总体参数值;从总体中抽取一个样本,根据该样本的统计从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计,量对总体的未知参数作出一个数值点的估计,用于估计总体某一参数的随机变量;用于估计总体某一参数的随机变量;例如: 用样本均值作为总体未知均值的估计值就是一 个点估计l点估计没给出估计值接近总体未知参数程度点估计没给出估计值接近总体未知参数程度的信息;的信息;理论基础是抽样分布;理论基础是抽样分布;l无偏性:无偏性:估计量的数

11、学期望等于被估计的总体参数。估计量的数学期望等于被估计的总体参数。l一致性:一致性:随着样本容量的增大,估计量越来越接近被估计随着样本容量的增大,估计量越来越接近被估计的总体参数值。的总体参数值。1.根据一个样本的观察值给出总体参数的估计范围根据一个样本的观察值给出总体参数的估计范围2.给出总体参数落在这一区间的概率给出总体参数落在这一区间的概率3.例如例如: 总体均值落在总体均值落在5070之间,置信度为之间,置信度为 95%1.总体未知参数落在区间内的概率总体未知参数落在区间内的概率2.表示为表示为 (1 - 为显著性水平,是总体参数为显著性水平,是总体参数未在未在区间内的概率区间内的概率

12、 3.常用的可信度有常用的可信度有99%, 95%, 90%;显著性水平;显著性水平值有(值有(相应的相应的 为)为)0.010.01,0.050.05,0.100.10。4.影响区间宽度的因素:影响区间宽度的因素:数据的离散程度,用来测度;样本容量;置信水平 (1 - ),影响 Z 的大小;第三节第三节 总体均值和总体比例的区间总体均值和总体比例的区间估计估计1.总体均值的区间估计总体均值的区间估计2.总体比例的区间估计总体比例的区间估计3.样本容量的确定样本容量的确定总体均值的区间估计总体均值的区间估计l可信度为95的总体均值的区间估计为:X1.96SE,X+1.96SE;SE2=S2/n

13、;l可信度为99的总体均值的区间估计为:X2.58SE,X+2.58SE;SE2=S2/n;总体比例的区间估计总体比例的区间估计l可信度为95的总体均值的区间估计为:X1.96SE,X+1.96SE;lSE2=P(1-P)/n;l可信度为99的总体均值的区间估计为:X2.58SE,X+2.58SE;lSE2=P(1-P)/n;总体积矩相关系数的估计总体积矩相关系数的估计l规模相等的所有样本规模相等的所有样本r值的抽样分布不是值的抽样分布不是正态分布,需要转化为正态分布,需要转化为Z(服从正态分(服从正态分布):布):Z=1.151log(1+r)/(1-r);lZ值抽样分布(正态)的标准误为值

14、抽样分布(正态)的标准误为SE,SE21/(n-3);l查查Z值与值与r值的对照表,进而确定总体值的对照表,进而确定总体r值的区间估计。值的区间估计。决定样本的大小决定样本的大小l决定样本大小的准则是:在能够付出的决定样本大小的准则是:在能够付出的研究代价的限度内,选取最大的样本。研究代价的限度内,选取最大的样本。l参考准则参考准则:1)愿意容忍的误差是多少?)愿意容忍的误差是多少?2)个案之间的差距有多大)个案之间的差距有多大?l若我们能容忍的误差越小,而个案之间若我们能容忍的误差越小,而个案之间的差距越大,则样本就要越大。的差距越大,则样本就要越大。l某地区经调查得知成年男人脚长服从正某地

15、区经调查得知成年男人脚长服从正态分布,其平均长度为态分布,其平均长度为24.5,标准差为,标准差为2。某鞋厂计划生产成年男鞋。某鞋厂计划生产成年男鞋5万双,万双,大小分大小分8个号,每号相差个号,每号相差1(即(即21-28,特大号除外)。特大号除外)。l要求计算各号应生产多少双?要求计算各号应生产多少双?l随机抽取随机抽取324名工人的平均年龄为名工人的平均年龄为36.24岁,岁,标准差为标准差为10.32岁,分别求当可信度为岁,分别求当可信度为95%和和99时工人平均年龄的可信间距,时工人平均年龄的可信间距,并对结果加以比较。并对结果加以比较。95%(35.12,37.36)99(34.76,37.72)l甲、乙两工厂工人婚姻状况的资料如下:甲、乙两工厂工人婚姻状况的资料如下:在甲工厂在甲工厂390名职工中,已婚者为名职工中,已婚者为285名;名;乙工厂乙工厂500名职工中,已婚者为名职工中,已婚者为325名。名。分别求当可信度为分别求当可信度为99时两厂工人已婚时两厂工人已婚者的百分比的可信区间,并对结果进行者的百分比的可信区间,并对结果进行比较。比较。甲(67.28,78.87)乙(62.65,67.35)l计划研究某社区男性青年的结婚年龄,计划研究某社区男性青年的结婚年龄,容许样本平均结婚年龄与总体平均年龄容许样本平均结婚年龄与总

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论