社会统计学第六章._第1页
社会统计学第六章._第2页
社会统计学第六章._第3页
社会统计学第六章._第4页
社会统计学第六章._第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章 参数统计第一节 统计推论 一、定义:统计推论是根据局部资料(样本资料)对总体的特征进行推断。 二、特点 (一)局部资料的特性某种程度上能反映总体的特性; (二)一次抽样的结果不能恰好就等于总体的结果 三、内容 (一)通过样本对总体的未知参数进行估计,即参数估计。 (二)通过样本对总体的某种假设进行检验,即假设检验。第二节 名词解释 一、总体即研究对象的全体。 二、样本与简单随机样本 样本:从总体中按一定的方式抽出的那一部分。 样本大小或样本容量:样本中包含的个体数目n。 简单随机样本:被抽样的数据不但是随机变量,而且相互独立,遵从同一分布(即同总体所遵从的分布)。 三、统计量 从总体中

2、抽取容量为n的样本,可以看做n个独立同总体的分布的随机变量,1,2,.,n。那么,随机变量1,2,.,n的任何函数f(1,2,.,n)也是随机变量。我们把函数f(1,2,.,n)叫做统计量。 根据随机变量1,2,.,n的观测值x1、x2,.,xn计算得到的一切统计数字特征(如均值、方差)可以看做是相应的统计量的观测值。 如样本均值niniiinxnx1111的观测值是统计量第三节 参数的点估计 参数估计,根据抽样结果来合理地、科学地猜一猜总体的参数大概是什么?或者在什么范围? 其一,点估计。即用样本计算出来的一个数来估计未知参数。 其二,区间估计。通过样本计算出一个范围来对未知参数进行估计。作

3、为总体成数估计值。:我们用样本成数次。类共出现次观测中,表示在样本当的点估计值。,这可作为总体标准差:准差的平方根,称作样本标样本方差值。作为总体方差的点估计)(用样本方差值作为总体方差的点估计样本均值类当观测值为所研究的其他niiniiAiniiniinmXnmAnmXXSSSSXXnSXnX11102212211PP111 例1:从某城市的贫困人口中随机抽取的234人,计算出平均年龄 岁,年龄分布的标准差S=12.3岁。求该城市贫困人口总体的平均年龄和年龄分布的标准差。 解:根据点估计值的定义,可以认为该城市贫困人口的平均年龄=47.2岁,年龄分布的标准差为=12.3岁。 例2:某省人口数

4、为3813万人,从中随机抽取了70405人,其中残疾人4028人。求该省残疾人的总数。 解:样本中残疾人的频率 可以认为总体残疾人的频率=0.0572 因此,该省残疾人的总数为: N=0.05723813=218.1(万人) 即该省残疾人总数为218.1万残疾人。2 .47x0572. 0704054028P第四节 抽样分布 抽样分布:从一个已知的总体中,独立随机的抽取含量为n的样本,研究所得的样本的各种统计量的概率分布。 一、样本均值的分布 1、总体标准差已知时,样本均值的分布服从分布(正态分布) 从均值为,标准差为的正态总体中,独立随机地抽取含量为n的样本, 则 由此可知,样本均值是一服从

5、正态分布的随机变量,记为 将均值标准化,则 ,其中标准化的分母为均值的标准误。nxx,)(服从nN2,Xnx- 2、总体标准差未知,样本均值的分布服从t分布 未知时,可用样本标准差s代替,标准化变量并不服从正态分布,而服从具有n-1自由度的t分布 ,其分母为样本标准误差。 自由度:独立观测值的个数。在这里因为计算s时,所使用的n个观测值,受到平均数x的约束,这就等于有一个观测值不能独立取值,因此自由度df=n-1。nsxt- 二、样本方差 的分布 分布 从方差为 的正态总体中,随机抽取含量为n的样本,可计算出样本方差 。在讨论样本方差 的分布时,通常并不直接谈 的分布,而是将它标准化,得到一个

6、不带任何单位的纯数。该纯数服从n-1自由度的卡方分布。 2s222s2s2s221Sn)(12n第五节 总体特征值的区间估计 原因:用样本观察值计算的点估计值与总体特征值的距离有多大不知道,同时,点估计值与总体特征值完全相同的概率极小,用点估计值来估计总体特征值几乎必然犯错误。因此,我们希望估计出一个范围,并且希望知道这个范围包含总体特征值的可能性有多大。 区间估计就是以一定的概率保证估计包含总体参数的一个值域,即根据样本指标和抽样平均误差推断总体指标的可能范围。 包括两部分内容:一是这一可能范围的大小;二是总体指标落在这个可能范围内的概率。 公式: 设总体的未知参数为Q,由样本观察值计算的点

7、估计值为 对于给定的(01),满足Q。水平之和为显然,置信度与显著性概率。置信区间估计不可靠的为显著性水平。表示用可靠性。表示用置信区间估计的或置信系数。称作置信概率、置信度的置信区间。为由,则称)(1111QQQQQP 一、正态总体均值的区间估计 如果总体分布满足N(, )。的区间估计,根据 是否为已知,分为以下两种统计量进行讨论: (一) 为已知 公式为222 例1: 例:包糖机某日开工包了12包糖,称得质量(单位:克)分别为506,500,495,488,504,486,505,513,521,520,512,485.假设重量服从正态分布,且标准差为=10.试求糖包的平均质量的1-置信区

8、间(分别取值=0.10和=0.05)。 解:=10,n=12, 计算得 (1)当=0.10时,1-/2=0.95, 查表得Z/2=Z0.05=1.645 即的置信度为90%的置信区间为(498.17,507.67)。92.50212485512520521513505486504488495500506x,67.507645. 1121092.50217.498645. 1121092.50222ZxnZx (2)当=0.05时,1-/2=0.975 查表得 Z/2=Z0.025=1.96 即的的置信度为95%的置信区间为(497.26,508.58)。 从上例可以看出:当置信度1-较大时,置

9、信区间也较大;当置信度1-较小时,置信区间也较小。,58.50896. 1121092.50226.49796. 1121092.50222ZxnZx (二) 为未知 公式:2 例:有一大批糖果,现从中随机抽取16袋,称得重量(克)如下: 506 508 499 502 504 510 497 512 514 505 493 496 506 502 509 496 设袋装糖果的重量服从正态分布,试求总体均值的置信度为0.95的置信区间。 解:=0.05,k=n-1=15 查t(n-1)分布表可知:t0.025(15)=2.1315, 计算得 得的置信度为95%的置信区间2022. 6,75.5

10、03sx。这个估计值的可信度为克之间,克与量的均值在就是说估计袋装糖果重),即(%951 .5074 .5001 .5074 .5001315. 2162022. 675.503 二、总体频率的区间估计 设为总体频率,P为样本频率,n为样本容量。 总体频率的置信区间为: 例:某工科院校从今年的新生中随机抽取了100人,其中女生34人。求今年女生人数比例的95%置信区间。 解:已知n=100,m=34,1-=0.95。 p=34/100=0.34 查表得z/2=z0.025=1.96。 将上述条件代入: 可得置信区间: 因此,女生人数比例的95%置信区间为0.247,0.433)1 (P)1 (

11、P22nPPznPPz,)1(P)1(P22nPPznPPz,10066. 034. 096. 134. 010066. 034. 096. 134. 0, 三、正态总体方差的区间估计 公式:1) 1() 1(22122222SnSnP第六节 大样本区间估计 大样本一般指样本容量n30,而在社会科学中可取n50. 一、大样本总体均值的区间估计 公式: 例:为了了解居民用于服装的支出情况,随机抽取90户居民组成一个简单随机样本,计算得样本均值为810元,样本标准差为85元,试建立该地区每户居民平均用于服装消费支出的95%的置信区间。 解:设用随机变量X表示居民的服装支出。根据题意, 元,S=85

12、元,n=90,与置信度95%相对应的=0.05,查标准正态分布表,得Z0.05/2=1.96. 于是,我们有95%的把握认为,该地区每户居民平均用于服装消费的支出大约介于792.44元到827.56元之间。810X),(56.82744.79256 18102nSZX 二、总体成数(二项总体参数p)的估计 (一)总体成数p的点估计 如果在样本容量为n的简单随机抽样中,对于所要研究的A共出现m次,则样本成数 为总体中A成数p的点估计值。 的方差 为: q=1-p PnmP P)(PDnpqPD)( (二)大样本总体成数p的区间估计 样本成数 可以看做是n个满足二点分布(

13、0,1)i的均值: 根据中心极限定理,在大样本情况下(np5和n(1-p)5), 的分布可近似地看做正态分布,因此大样本总体成数p的区间估计公式有: 或置信度为1-的区间估计为: 其中, 为总体成数p的点估计值 1-为置信度。 当p未知情况下,可用 代替:pPnPnii1P1)(22PPZPpZPPPpZPZP22,Pnppp)1 (PP 例:某厂对一批产品的质量进行抽样检验,采用重复抽样抽取样品200只,样本优质率为85%,试计算当把握程度为95%时优质品率的区间范围。 解:由题意可知: n=200, ; 1-=0.95,=0.05,Z/2=Z0.025=1.96 所以,总优质品率p的置信度

14、为95%的置信区间为 80.05%p89.95%85. 0 p15. 01pq8995. 020015. 085. 096. 185. 08005. 020015. 085. 06.91-85. 0 三、大样本二总体均值差的区间估计 大样本二总体均值差1-2的区间估计公式为: 或置信度为1-的区间估计为: 其中 为二总体均值差 的点估计值。 1-为置信度1)()()(22121)(2212121XXXXZXXZXXP)()()(221)(2212121XXXXZXXZXX,)(21XX 21-222221212221222122212121SSSSnnxx;代替:和方差未知情况下,可用样本和当

15、例:甲、乙两地月收入调查如下:甲: s1=20 n1=800乙: s2=10 n2=1000求=0.05 两地平均收入差的区间估计。解:根据题意可知: 因为=0.05,所以Z/2=1.96根据公式:得:(20-10)-1.96X0.7746;(20-10)+1.96X0.7746即:两地平均收入差的区间估计为8.48,10.77 15001x10002x)()()(221)(2212121XXXXZXXZXX,7746.0100010800202222212121nnxx 课后作业: 从某城市的工人中随机抽出男性工人50人,女性工人35人。男性工人的平均工资为1540元,标准差为200元;女性工人的平均工资为1350元,标准差为180元。求男女工人的工资差的置信区间。(1-=0.95) 四、大样本二总体成数差的区间估计 设第一个总体的成数为P1 第二个总体的成数为P2 现从两总体中独立的各抽取一个随机样本: 第一总体的样本容量为n1,样本成数为 第二总体的样本容量为n2,样本成数为 于是样本成数差为: 可以作为总体间成数差p1-p2的点估计值。 样本成数差 也是随机变量,当样本分别满足n1p15; n1(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论