管理统计学课件真的齐了2014autumn7参数统计推断_第1页
管理统计学课件真的齐了2014autumn7参数统计推断_第2页
管理统计学课件真的齐了2014autumn7参数统计推断_第3页
管理统计学课件真的齐了2014autumn7参数统计推断_第4页
管理统计学课件真的齐了2014autumn7参数统计推断_第5页
免费预览已结束,剩余99页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、曹平Email: 管理统计学参数统计推断课程大纲什么是统计推断总体均值的估计总体百分比(数)和两总体百分比(数)差的估计中位数的区间估计单总体参数的假设检验两类错误数理统计学(推断统计学)以概率论为基础对随机抽样得到的数据进行分析处理统计调查方式:随机抽样调查省时、省力更为科学和理性化:可靠性得到保证,误差可以有效控制课程大纲什么是统计推断总体均值的区间估计总体百分比(数)和两总体百分比(数)差的估计中位数的区间估计单总体参数的假设检验两类错误统计推断的两类问题根据样本做出结论(统计上称为统计推断)大体分为估计和假设检验两大类问题例1:从产品中抽取100件产品,其中有5件是次品,估计问题:次品

2、率多大?(点估计)对给定的置信度(如95%),次品率会在什么范围内变化?(或者说,次品率有95%的概率会在什么范围内变化?区间估计)检验问题:能否说该批产品次品率6%?例2由下表的调查数据,能否判断吸烟与肺癌有关联?吸烟不吸烟患癌症15318健康258533875982260034006000统计推断统计推断问题:由总体抽取的一个样本(样本量为n)来推知总体的某一性质样本是总体的一部分,抽到什么样本有随机性问题统计推断结论有多大的把握:置信度问题由部分推断总体的某个性质总会有误差,因此我们的统计推断结论有可能是错误的置信度和精度的关系问题:在区间估计中,置信度依赖于区间的长度:区间越长,置信度

3、越高,但精度越低得到的结论是否有实际意义统计推断结论的正确与否:与我们对总体的了解有关影响统计推断的基本因素样本是如何得到的(采样方式、方法)样本量n总体的波动规律分布我们希望的可靠度(统计上称为置信水平)(confidence level)课程大纲什么是统计推断总体均值的估计总体百分比(数)和两总体百分比(数)差的估计中位数的区间估计单总体参数的假设检验两类错误总体统计总体,研究对象某个指标取值的全体统计总体是一个分布,常用随机变量X的分布表示总体一个重要的问题是如何由样本估计总体均值 和方差统计量:能很好地反映总体均值或总体方差,或者其他一些我们感兴趣的总体参数完全取决于样本的取值,一般记

4、为f(X1,X2,Xn)统计推断用统计量来估计或检验总体中的一些参数(总体分布已知),称为参数统计推断用统计量对总体的分布本身进行统计推断(总体分布未知),称为非参数统计推断例子EAI公司的人事部经理需要为公司2500名管理人员制定一份简报,内容包括管理人员的平均年薪和已完成公司管理培训人员的管理人员所占的比率总体均值:=51800总体 方差:2=40002完成培训人员所占比率:p=1500/2500=0.6如果用样本,如何获得对这些总体参数的估计呢?点估计样本均值 样本方差样本均值 和样本方差 用来估计总体均值 和总体方差 ,称为 和 的点估计点估计量是随机变量,与未知参数无关:取值依赖于样

5、本在一定条件下,上述估计是最好估计求点估计量的方法矩估计法用样本矩替代相应的总体矩极大似然法建立在最大似然原理(概率最大的事件最可能出现)基础上在观测到样本值之后,选取使得似然函数最大的变量值作为未知总体参数的估计值好的点估计量应具有的性质无偏性:期望值等于所估计的总体参数值有效性:方差越小越有效当从正态总体中抽样时,中位数的标准差大约比均值的标准差大将近25%最小均方误差估计最小方差无偏估计一致性:随着样本量的增大,点估计量的值与总体参数值越来越接近例子(续)EAI公司的人事部经理需要为公司2500名管理人员制定一份简报,内容包括管理人员的平均年薪和已完成公司管理培训人员的管理人员所占的比率

6、总体均值:=51800总体 方差:2=40002完成培训人员所占比率:p=1500/2500=0.6点估计量依赖于样本,能否给出一个区间,使得总体均值等参数有很大的概率在此区间内?区间估计的定义一般用一个数估计总体的一个参数,可能不准,也不知道与被估参数的误差有多少区间估计:根据样本构造一个区间,把参数估计在这个区间中置信度(可靠度) 1-, 一般取0.05,0.01等寻找两个统计量 ,满足 ,使得称 为参数的 的区间估计或置信区间区间估计的形式总体均值:对于正态分布总体,此形式的区间估计在给定置信水平下精度最高能提供基于样本得出的点估计值与总体参数值的接近程度的信息总体方差:显著性水平: ,

7、通常取些标准值,如0.05,0.025,0.01置信水平(置信系数):1- 希望区间 满足d越小,精度越高,但可靠度越低正态总体均值的区间估计总体方差已知已知在一些应用中,在抽样前可以根据大量有关的历史数据或者其他信息获得总体标准差的一个好的近似设样本 抽自正态总体取最小值 置信区间是若总体分布非正态或分布形态未知,n充分大(通常指n30), 可以用中心极限定理例1调查某大学教师家庭每月水电、煤气和电话费的支出情况,随机抽取100户,发现每月平均账单是253元,设账单上的付款数 (元),求平均付款额的置信水平为95%的区间估计的置信水平为95%的区间估计为例2从自动包糖机生产线上随机抽取12包

8、糖,测得样本均值 (kg),设每包糖的重量服从正态分布N(,0.04),试求的95%置信区间的置信水平为95%的区间估计为正态总体均值的区间估计:总体方差未知设 方差未知时,用样本标准差S代替方差附表列出各种自由度的t分布上分位点t分布自由度为v的t分布:著名的统计三大分布之一t分布与N(0,1)很接近钟形密度曲线,关于y轴对称当自由度趋于无穷大时,t分布的极限分布是标准正态分布总体均值的置信水平为(1-) 100%的区间估计是2分布设一组相互独立的随机变量Xi都服从标准正态分布,则 服从自由度为k的2分布,记为2k或者2(k)t分布概率密度曲线例1由调查知16家公司自用汽车每年维修费用的样本

9、均值(万元)为 ,设维修费用服从正态分布,求置信水平是99%的平均维修费用的区间估计总体分布非正态或未知(大样本)若总体分布非正态或未知,且总体方差亦未知,由中心极限定理,当n充分大时(n30),近似有的(1-) 100%的区间估计(近似)公式是如果总体分布是严重偏斜或者包含异常点,样本量n应大于等于50如果总体分布不是正态分布但是大致对称,n 15即可例2某超市抽查80人,调查他们每月在酱菜上的平均花费。调查得平均值为 ,样本标准差求到该超市人群每月在酱菜上的平均花费 的置信度为95%的区间估计求置信度为90%的区间估计设调查人数是100人,其他数据不变,置信区间的精度又如何变化?例2(续)

10、由题意知, ,故区间是取水平=0.1, ,则区间是置信度越高,精度越低(置信区间越大)n=100时置信区间分别为 和样本量越多,相同置信度下精度越高(置信区间越小)例3检测200件产品的寿命,得样本平均值 ,样本标准差s=8,设=0.05和0.01,求期望寿命的置信水平为(1-) 100%的置信区间例4调查某小区180户居民每月水电费支出,数据如下,求总体均值的95%置信区间居民每月水电费支出(元)频数组中值0.05时考虑修正因子课程大纲什么是统计推断总体均值的估计总体百分比(数)和两总体百分比(数)差的估计中位数的区间估计单总体参数的假设检验两类错误总体百分比的估计一个二项分布随机变量XB(

11、n,p),当n充分大(n30,np5,n(1-p) 5)时,可以用正态分布近似百分比的估计 的分布也可以用正态分布 来近似,其中n是样本量,r是n次试验中事件发生的次数总体百分比p的(1-) 100%近似区间估计为总体百分数的估计总体百分数=100p近似服从总体百分数的(1-) 100%近似区间估计为由此可以解出的两个近似值用 代替根号里的:例1一稽查员调查某公司财务情况,发现100张发票中有12张不正确,求“错”发票百分数的90%置信区间估计故区间估计是例2在住房设施调查中,发现300户中有250户有固定热水洗澡设备,求该地区有固定热水洗澡设备家庭百分数的95%和99%置信区间估计百分数95

12、%置信区间估计是百分数99%置信区间估计是例3按简单随机抽样的方式抽取某市500户家庭进行调查,结果有380户拥有电冰箱。求该市居民户电冰箱普及率的95%区间估计该市电冰箱拥有量的95%区间估计(已知该市共有220万户居民)电冰箱普及率p的95%置信区间是拥有量的95%置信区间是样本量的确定对已知误差,已知置信水平(1-) 100%,问要多大的n才能达到要求?但是: 或 值未知用以前相同或类似样本的样本比率代替利用实验性的研究,选取一个初始样本,以该样本的样本比率代替使用判断或“最优猜测”如果上述方法均不适用,取 =50或p=0.5例子调查吸烟率,要求误差不超过5 ,问要调查多少人才能达到这一

13、要求( =0.05)不知道的值:注意到 用=50代替取 即可满足要求(比较保守)如果知道的初步信息可以少做不少调查先抽取少部分人,对(p)作一保守估计两总体百分比(数)差的区间估计当n130,n230时,由正态逼近定理,1-2的(1-)100%区间估计当n130,n230时,由正态逼近定理,p1-p2的(1-)100%区间估计例1对两地区住房中有热水洗澡设备的调查如下:A地区:n1=300户中234户有热水洗澡设备;B地区:n2=150户中135户有热水洗澡设备求两个地区有热水洗澡设备百分数差的95%置信区间 1-2的95%置信区间是例2A,B两城市电冰箱抽样调查的结果是:A城市中500户家庭

14、中有380户拥有电冰箱, B城市中300户家庭中有260户拥有电冰箱,试求A,B两城市电冰箱普及率之差p1-p2的95%区间估计p1-p2的95%置信区间是单侧置信区间(置信限)在实际生产和生活中,有一类“单侧置信区间”问题例子:设为产品中某种服务中的平均顾客不满意度,通常人们通常希望它不要太高,下限不做要求找到统计量 ,使得称 为的一个1-单侧置信上限同理,满足 的统计量 称为的一个1-单侧置信下限求单侧置信限方法正态总体,方差2已知时:将分位点/2改成,得到置信上限,下限分别为正态总体,方差2未知时:置信上限,下限分别为例子已知某种灯泡的寿命服从正态分布N(, 2),在某星期所生产的该种灯

15、泡中随机抽取10只,测得其寿命(单位:小时)分别为1067,919,1196,785,1126,936,918,1156,920,948试据此求灯泡平均寿命的95%置信下限故灯泡平均寿命的95%置信下限为课程大纲什么是统计推断总体均值的估计总体百分比(数)和两总体百分比(数)差的估计中位数的区间估计单总体参数的假设检验两类错误中位数的区间估计设X1,Xn为连续分布总体中抽取的一个样本,如果以T表示比中位数小的样本个数,则T服从二项分布B(n,1/2)由中心极限定理,当n30时,可用正态分布近似T估计步骤:由数据 构造次序统计量对给定的置信度(1- ) 100%,估计中位数所在区间的上下限在n个

16、数据中的次序:上限值u和下限值l中位数(1- ) 100%置信区间定义为例子调查30个人上周在超市中消费情况(单位:元),数据如下:15,18,20,25,29,33,36,45,60,81,102.5,112,136,157,170,184,210,233,234,240,251,270,281,295,320,335,338,380,412,456,求中位数的置信度为95%的区间估计故区间估计是课程大纲什么是统计推断总体均值的估计总体百分比(数)和两总体百分比(数)差的估计中位数的区间估计单总体参数的假设检验两类错误假设检验根据以往的经验(数据)提出一种假设,用数据来检验所提假设是正确的还

17、是错误的例子:1-3参数假设检验,4-5非参数假设检验次品率是否6%袋袋食盐是否为500克?股市波动率是否不超过0.04?吸烟与患肺癌是否有关?数据是否从一个正态总体中抽取出来?统计假设设从总体中抽取了一个样本x1,x2,xn,是否等于某个已知数0?是否大于某个已知数0?是否小于某个已知数0?这一类提法称为统计假设统计假设是指对一个或多个总体的概率分布或其中的参数所作的假定统计假设例子:由调查获得一批数据,问它们是否来自正态总体N(,2)或二项分布总体B(n,p)?如果知道总体是正态分布,但是, 2未知,问是否等于某个已知数原假设(零假设):提出一种想法,希望检验这种想法是否正确。记为H0一般

18、零假设是经过长期检验被认为是正确的,不应轻易被否定对立假设(备择假设),记为H1,是当H0被否定后可以作为备用选择的假设,一般把希望得到的结果放在H1原假设和独立假设在单侧假设检验问题中,把什么放在原假设,什么放在对立假设,很重要根据原假设和对立假设不对等以及保护原假设的原则,我们可以根据如下两条之一来决定检验中的原假设和对立假设问题:把经过长期检验认为是正确的放在H0把你希望得到的结果放在H1理由:接受H0是被动的没有充分论据否定它,而一旦否定H0接受H1是有充分证据的对应假设作为研究假设试图搜集证据支持研究中的假设:把研究者希望支持的结论放在对立假设中例子:某汽车在城市中行驶时目前的燃油效

19、率是每加仑24英里,某产品研究小组设计了一种新型燃油喷射系统,想通过统计做出结论:新型燃油喷射系统使得每加仑行驶的英里数超过目前使用的系统H0: = 24 ( 24 ) H1: 24在接纳一项新事物时,把研究中的假设作为备选假设例子:认为一种新型教学方法优于目前的方法,那么对立假设是新方法更好原假设作为被怀疑的假定原假设表述了对总体参数值的信念或者假定例子:某种瓶装饮料的标签注明,每瓶为67.6盎司。除非有其他理由,我们通常假设标签上的标注是正确的。但可以对制造商的说明提出质疑从政府监督部门角度H0: = 67.6 ( 67.6 ) H1: 0H0: =0 H1: 0H0: = 0 H1: 0

20、 当 时接受H0,否则拒绝H0H0: = 0 H1: 0 当 时接受H0,否则拒绝H0单侧检验检验规则在2,3中把原假设 H0: = 0 分别换成H0: 0 和H0: 0 后,临界值d不变在原假设是H0: 0 时,用等号进行检验,当拒绝H0: = 0 ,接受H1: 0来说, H0: = 0 ,是最接近H1: 0检验2:H0: 0 H1: 0从侧面说明:接受一个原假设的风险是明显的检验1结论检验2结论结论一致性 0 0 0一致例1某商店经理认为顾客每周花在面包上的费用为1.5元,随机抽查80人,计算得 元,已知=0.15(元)。问在=0.05显著性水平上,商店经理的观点是否正确?(设消费额服从正

21、态分布)构造原假设和对立假设:H0: = 1.50 H1: 1.50本题中拒绝原假设H0例1(续)若取=0.01,则拒绝原假设H0若n=10, =0.01,则接受原假设H0接受H0是因为样本大小n太小,没有足够的证据说明H0不对有的书上此时不说“接受H0”,而是说“无法拒绝H0”例2一家食品加工厂的质量管理部门规定,某种包装食品每包净重不得少于50千克。经验表明,重量服从标准差为3千克的正态分布。假定从一个由20包食品构成的随机样本中得到的食品平均重量是48千克,问有无充分证据说明这些包装食品的平均重量减少了?( =0.05)构造原假设和对立假设为H0: 50 H1: 50当 时接受H0 ,否

22、则拒绝H0拒绝原假设例3历史数据表明,某城市每个晚间长途电话的平均通话时间是15.2分钟,现随机抽查了35个晚间长途的通话时间,样本均值是14.3分钟,若该城市晚间长途的通话时间服从正态分布N(,25),试根据样本数据判断,该城市的晚间长途电话的平均通话时间是否发生了明显的变化? ( =0.05)构造原假设和对立假设:H0: = 15.2 H1: 15.2无法拒绝原假设正态总体均值的检验:总体方差2未知, 的假设检验检验统计量 的分布是自由度为n-1的t分布三类假设的检验如下H0: = 0 H1: 0 检验:当 时接受H0 ,否则拒绝H0H0: 0 H1: 0 检验:当 时接受H0 ,否则拒绝

23、H0例1某汽车轮胎厂声称该厂生产的汽车轮胎平均行驶的里程大于26000公里。现对一个由25个轮胎组成的随机样本做试验,得到的平均值是28000公里,标准差是4500公里,假定轮胎的行驶里程数服从正态分布,选择=0.05的显著性水平,你能否从这些数据中得出结论:该厂的产品同该厂所说的标准相符合?构造原假设和对立假设为: H0: 26000 H1: 26000当 时接受H0,否则拒绝H0拒绝原假设H0例2有人估计,平均而言,一个有丈夫和两个孩子的家庭主妇每周做家务的时间不会超过55小时,现随机抽取8名这样的家庭主妇,了解到其一周做家务的时间分别为58,52,64,63,59,62,62,55(单位

24、:小时)。设每人做家务的时间服从正态分布,试据此考察前述的估计是否合理(=0.05)构造原假设和对立假设为: H0: 55 H1: 55当 时接受H0,否则拒绝H0拒绝原假设H0总体分布未知或不服从正态分布由中心极限定理,当n30时, 近似服从进而 近似服从N(0,1)检验规则H0: = 0 H1: 0 当 时接受H0,否则拒绝H0双侧检验H0: = 0 H1: 0 当 时接受H0,否则拒绝H0H0: = 0 H1: 299当 时接受H0,否则拒绝H0计算得拒绝H0,电池平均寿命增加了例5产品说明书称钓鱼绳平均折断强度不小于15kg/cm2。随机抽50根检查得 kg/cm2,s=0.5kg/cm2,在=0.05和0.01水平下分别检验产品是否与说明书相同?构造原假设和对立假设: H0: 15 H1: p 0 检验:当 时接受H0 ,否则拒绝H0H0: p p 0 H1: p 0.25当 时接受H0,否则拒绝H0计算得 无法拒绝H0:不能断定该剧

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论