定量分析研究方法课件_第1页
定量分析研究方法课件_第2页
定量分析研究方法课件_第3页
定量分析研究方法课件_第4页
定量分析研究方法课件_第5页
已阅读5页,还剩1136页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1MPA定量分析方法

2引言1.为什么学定量分析方法?(1)实践的需要; 社会科学领域,环境生态与水资源问题,能源问题,信息网络与用户,农业问题,交通运输问题,科技教育与工程项目管理(2)理论研究的需要。32.学什么?(1)统计学①社会经济统计学:综合指标,动态数列,统计指数,②数理统计学:基本概念(样本,总体etc),参数估计,如估计一批产品合格率假设检验。如从一批产品中抽取200件,有次品两件,则产品合格率的估计值是99%。现在规定一批产品的合格率若低于95%,则这批产品就不合格。提出假设合格率≥95%,那么如何判定这个假设正确,有多大把握,这即为假设检验问题!4回归分析:确定变量的相互关系和相关程度,建立相关模型,检验变量间的相关程度并应用相关模型进行预测etc函数关系(特殊相关关系)。线性相关与非线性相关。如:年龄与体重,销售额与广告费用etc都具有一定的相关关系。方差分析影响产品质量的因素很多:操作不当,设备磨损,潮湿etc。分析哪些因素对产品质量起显著作用,并了解什么时候最起作用,方差分析就是解决这一个问题的一种有效方法。5其他:多元统计分析,时间序列法,正交实验法etc。

主成分分析:在实际问题中,常遇到多指标问题,不同指标之间具有一定的相关性,增加了分析问题的难度。设法将原有指标重新组合成一组相互独立的少数几个综合指标来代替原有指标,并且反映指标的主要信息。将多指标化为少数独立的综合指标的统计方法即为主成分分析法!

6(2)决策学概论(3)经济预测数量方法①时间序列法;②回归分析法;③马尔可夫法;④灰色模型法7(4)系统评价方法①模糊综合评价法;②层次分析法(5)效用理论及应用(6)基本决策方法贝叶斯决策法8(7)多目标决策目标规划法、主成分法、因子分析法(8)博弈论初步及其应用3.怎样学?(1)了解基本思想(2)必要的数学基础94.参考书(1)决策理论与方法岳超源,科学出版社,1987年9月第1版(2)决策分析陈珽,科学出版社(3)商务决策数量方法李一智,徐选华,经济科学出版社(4)决策分析张家琦,首都师范大学出版社10(5)管理科学定量分析引论侯定丕,中国科学技术大学出版社(6)灰色系统理论及其应用刘思峰等,科学出版社(7)多元统计分析于秀林等,中国统计出版社(8)数理经济学方法——线性和非线性规划、不动点理论.富兰克林著,俞建等译,198511(9)工商业和经济学中应用的统计方法〔美〕罗伯特·D·梅森著人大出版社(10)管理研究应用统计学欧阳文安etc译北京科学技术出版社(11)应用统计学袁卫etc编著人大出版社12(12)应用数理统计孙荣恒编著科学出版社(13)实用多元统计分析方开泰编著华东师范大学出版社(14)多元统计数据分析——理论·方法·实例任若恩、王惠文著国防工业出版社13第一章数据的整理与抽样14一、统计学中的基本概念(一)统计资料1.统计资料的定义、分类与性质可以推导出某项论断的事实或数字都称为统计资料。统计资料是统计分析、统计推断和预测的基础。统计资料分为原始(初级)资料(未加工)与次级资料(加工过)如:统计年鉴etc。统计数据可分:度量数据(如销量等)和品质数据(性别、民族etc)152.统计资料收集的方法间接引用或直接收集3.统计资料收集的途径直接观察、访问、问卷调查4.统计资料收集的组织方式可分:专门调查(普查,重点调查,抽样调查,典型调查)和统计报表(自上而下地逐级提供统计资料的一种调查方法)16

(二)总体与个体1.定义凡是客观存在的、具有统一性质的若干个别事物的集合体,就称为统计总体。构成总体的个别事物称为个体(总体单位)考察一批10000件产品的质量情况,10000件产品=总体,每一件产品=一个个体。172.总体和个体的必备条件(1)客观性总体和个体必须是客观存在的具体事物。如:工业企业是总体(客观存在),自然数(集合体)但非总体,因1,2,3,……是抽象的

“产品”,“粮食”非总体(2)大量性总体的个体须是大量的(足够多)因为统计的目的是反映大量现象的规律和特点。18(3)同质性总体的个体在性质上须相同,因为统计研究的目的是反映总体的特性。例如,将机械零件与书本放在一起,就不会得出整个总体的任何结论。(4)差异性如10000件产品虽属同一种产品,但在质量、颜色、尺寸等方面不尽相同。若所有个体都完全相同的话,就无必要进行统计研究了。如:同一种邮票800枚(同时出版)要研究这种邮票的面值、版面设计、图案花纹etc,只需任取一枚邮票进行鉴赏,就能通晓800枚邮票。这种研究方法不是统计方法。193.总体的分类按其包含的个体数目可分:有限总体与无限总体。按其个体的时间分:空间总体(个体处于同一时间的不同空间),如人口普查,全国总人口即为空间总体,时间总体(个体处于同一空间的不同时间),如某商店一年的销售情况,即是时间总体。总体与个体的概念是相对的!20(三)样本1.定义样本,是从总体中抽取出来进行调查并据以推断总体的那部分个体。样本中包含的个体数目称为样本容量,用n表示,n>30,大样本,反之,小样本。样本容量n与总体容量N的比,n/N称为抽样比,用f表示。212.样本的类型(1)代表性样本样本单位频数是某种特征的样本占总样本数的比例。总体的频数是某种特征的个体占总体的比例若样本单位频数与总体的频数成正比,则这种样本称之为代表性样本。22(2)有偏样本人为因素的影响,这种情况下的样本称为有偏样本,是产生抽样偏差的来源。(3)随机样本按随机原则抽取的样本。23(4)分层样本(类型样本)①将总体按某一标志分成若干组。②再从各组中随机抽样。考察全国工商企业时,先按行业分组,再抽样,以避免所选出的样本集中在某一行业。代表性高。24(5)整群样本按群抽样的样本。如:考察某市小学生身体发育情况,随机抽取若干小学,对抽中小学的全体学生逐一考察。(省力省时)(6)系统抽样按某种规律(如固定的间隔)在总体中抽取样本的方法。如:按身份证的编号抽取尾数,为了进行居民收入状况调查。但当总体呈现某种系统规律时(周期律)则不能采用,否则有系统误差。25(四)标志标志是一种名称,不是具体数字,是对个体某一特征质的规定。标志在个体的不同取值叫标志值。其具体表现是文字值或数值。学习成绩分别为80,98,91,86等成绩=标志分数是标志值26

标志可分为:数量标志:表明个体数量方面的特征(如成绩)品质标志:个体属性方面的特征(性别)不变标志(性别)可变标志(成绩)27二、抽样方法1.简单随机抽样(样本同分布,抽样相互独立)每个个体被抽中的可能性相等。如:抽签。2.分层随机抽样先分组,在分别从各组中简单随机抽样,可增大样本代表性,推断结果准确性高,层内差异小,层间差异大。283.整群抽样将总体分成若干群,在随机抽一部分群体做样本,并对这些群体的所有个体全面调查,随机抽组法与组内普查法的结合。4.系统随机抽样法(等距抽样或机械抽样)基本思想:对于容量为N的总体,将个体编号从1到N。若要抽取容量为n的样本,则应先从编号为1到K(K=[N/n])的K个个体中,随机抽取一个,然后,按照一定的规律,抽取个体,顺次得到容量为n的样本。举例(略)29三、数据的整理与图形表示。(一)分组按一定的变异标志,将总体分成若干部分,统计分组是分组整理的基础。可划分社会经济现象的类型,研究现象的内部结构及分析现象之间的依存关系。统计分组的要求和基本原则(略)。(二)数据的图形表示饼图、直方图、寻形图、柱状图etc表示统计数据,显直观。30四、数据的描述性指标(一)集中趋势

1.均值,是算术平均数,是数据集中趋势的最重要测度值。(1)原始数据:

31(2)分组后的数据:xi表示第i组的组中值,fi表示第i组数据的个数均值反映了数据的数量集中的特征,是数据偶然性、随机性特征相互抵消后的稳定数值,反映了一些数据必然的特点。

32(3)几何平均数G=ai为第i期发展速度或各个比率。332.中位数(中数)中位数是将数据按大小顺序排队后,位置处在最中间的那个数。不受极端值(大、小)的影响。如数据个数为偶数,则最中间两数的平均数为中位数。343.上四分位数(设为xi),则i=[]xi

表示约有1/4的数据比xi

大,3/4的数据比xi小4.下是分位数(设为x)其中j=[]

表示约有3/4的数据比xj

大,1/4的数据比xj小。355、众数,出现次数最多的数值(可能有多个),均值是计算的测度值,其它从位置考虑。例:某班30MBA学生的年龄按上升顺序排序为:24、24、25、25、25、25、26、26、26、26、27、27、27、27、27、28、28、28、28、28、29、29、30、30、30、30、31、31、31、32

众数为27和28(5次),中数==27.5

平均数为27.67,上四分位数为x23=30,下四分位数x8=26,36(二)离散趋势,1.极差(全距)R=max(Xi)-min(Xi)只利用了数据两端的信息。372、方差和标准差:

标准差=σ2大反映均值的代表性差,反之,强。383.四分位差即上四分位数与下四分位数的差39五、统计量的分布(一)统计量的定义设X1、X2、……、Xn是来自总体X的一个样本,g(X1、X2、……、Xn)是X1、X2、……、Xn的函数,若g是连续函数,且不含任何未知参数,则g(X1、X2、……、Xn)是一个统计量。40(二)常用统计量设X1、X2、……、Xn是来自总体X的一个样本,x1、x2、……、xn是这一样本的观测值,则1.样本平均值:2.样本方差:413.样本标准差:4.样本k阶(原点)矩:,k=1,2,……5.样本k阶中心矩:,k=1,2,……用xi代替Xi,相应得到观察值,s2,s,ak,bk(名称不变)42(三)几种常用的分布1.χ2分布设x1,x2,……,xn是来自总体

N(0,1)的样本,则称随机变量=x12+x22+……+xn243

服从自由度为n的χ2分布,记为χ2~χ2(n),χ2(n)分布的概率密度为:

44χ2分布的性质:

(1)可加性:设χ12

~χ2(n1),χ22

~χ2(n2),且χ12

与χ22相互独立,则有:

χ12+χ22~χ2(n1+n2)

(2)若χ2~χ2(n),则有:

E(χ2)=n,D(χ2)=2n45(3)对于给定的正数,0<<1,若则为χ2(n)分布的上分布点46如查表知χ0.012(10)=2.558当n充分大时,有其中是标准正态分布的上分位点。

47附:若Z~N(0,1),则Z为标准正态变量,其密度函数为:

48(1)若对,有,则为N(0,1)分布的上点

49(2)若对,有,则为N(0,1)的双侧分位点50(3)上点的求法∵,又∴φ()=1-,反查表,得512.t分布设χ~N(0,1),Y~χ2(n),且χ,Y相互独立,则称随机变量

服从自由度为n的t-分布,记为t~t(n)52其密度函数为:53对给定,若则点为t(n)分布的上分位点54显然(n)=-(n)(WHY)t0.95(8)=-t0.05(8)=-1.8595当n充分大的时候,有(n)=553、F分布设U~2(n1),V~2(n2),且U,V相互独立,则称随机变量服从自由度为(n1,n2)的F分布,记为F~F(n1,n2).56其密度函数为:显然,若F~F(n1,n2),则~F(n2,n1)(定义知)57对于结果0<α<1,若则称F(n1,n2)为F(n1,n2)分布的上分位点。

58显然有(n1,n2)=(定义知)F0.9(5,10)==0.3030594.正态总体的样本均值和样本方差的分布(1)设总体X的均值为μ,方差为σ2,x1,x2,……,xn是X的一个样本,则有,(2)设x1,x2,……,xn为来自总体X~N(μ,σ2)的一个样本,则,60(3)设x1,x2,……,xn为来自总体X~N(μ,σ2)的一个样本,则有①②与S2相互独立

61(4)x1,x2,……,xn为来自总体X~N(μ,σ2)的一个样本,与S2分别是样本均值和样本方差,则有:

62(5)设x1,x2,……,xn1与Y1,Y2,……,Yn2分别是具有相同方差的两个正态总体N(μ1,σ2),N(μ2,σ2)的样本,且这两个样本相互独立。设,,分别是这两个样本的均值

63

,分别是这两个样本的方差,则有其中64(6)(独立同分布的)中心极限定理设随机变量x1,x2,……,xn相互独立,服从同一分布,且具有数学期望和方差:,,k=1,2,……,n)则(样本均值)65将其标准化:66设Zn分布函数为Fn(x),则有即Yn极限分布为标准正态分布。推论:不论总体是什么分布,只要μ和σ2存在,则样本容量为n的样本均值近似~(n足够大时)。67

第3章

参数估计§3.1参数估计概述

参数估计是统计推断的基本方法之一。我们把刻划总体X的某些特征的常数称为参数,最常用的参数是总体X的数学期望和方差。假如总体X~N(),则X的分布是由参数μ和σ2确定的,其中,μ=E(X),σ2=D(X)。

在实际问题中,总体X的参数是未知的,例如纱厂细纱机上的断头次数X~P(λ),如果求每只纱绽在某一时间间隔内断头的次数为K的概率,就需要先确定参数λ,才能求出所求的概率。又如,灯泡厂生产的灯泡,由经验知其寿命X~N(),但是由于生产过程中各种随机因素的影响,生产出来的灯泡的寿命是不一致的,为了保证灯泡的质量,必须进行抽样检查,根据样本所提供的信息,对总体X的分布做出估计,也即对参数μ,σ2做出估计。这类问题称为参数估计问题。

参数估计问题,就是要从样本出发构造一些统计量作为总体某些参数的估计量,当取得一个样本值时,就以相应的统计量的值作为总体参数的估计值。例如,常以统计量作为总体数学期望的估计量。当要估计某批灯泡的平均寿命时,就从该批灯泡中随机地抽取若干个,分别测出其寿命,以这些测量数据的平均值作为该批灯泡的平均寿命的估计值。

设总体X的分布函数的类型已知,但是其中有一个或多个参数未知,设X1,X2,X3,……,Xn为总体X的容量为n的样本。参数估计就是讨论如何由样本X1,X2,X3,……,Xn提供的信息对未知参数作出估计,以及讨论如何建立一些准则对所作出的估计进行评价。一般是建立适当的统计量(X1,X2,X3,……,Xn),当样本观察值为x1,x2,x3,……,xn时,如果以(x1,x2,x3,……,xn)作为总体分布中未知参数的估计值,这样的估计方法叫做点估计,如果总体分布函数中有t个未知参数,则要建立t个估计量作为t个未知参数的估计量。

参数估计的形式分为两类:点估计和区间估计。由估计量的观察值作为未知参数的估计值,这种作法称为点估计或定值估计。而有时并不要求对参数作定值估计,只要求估计出未知参数的一个所在范围,并指出参数被包含在该范围的概率,这种方法称为区间估计,进行参数估计并不一定要预先知道总体的分布类型。有时,虽然未知总体的分布类型,但仍可对总体的某些数字特征作出估计。

§3.2参数的点估计

点估计方法很多,本节介绍最常见的矩估计法和极大似然法。一、矩估计法

由大数定律可知,样本分布函数依概率收敛于总体分布函数,样本均值依概率收敛于总体均值,我们自然会想到,是否能用有关的样本矩来估计总体分布的相应矩呢?统计实践表明,这个方法是可取的,这种用样本矩来估计总体分布参数的方法称为矩估计法,通常,用样本均值来估计总体的均值,用样本方差S2来估计总体的方差。

【例3.1】试用矩估计法对总体X~N()的参数μ,σ2作出估计。

解:因E(X)=μ,D(X)=σ2设X1,X2,……,Xn为X的一个样本,其样本均值为,样本方差为S2。令E(X)=,D(X)=S2,即得的估计量为,。

【例5.2】设X1,X2,……,Xn是取自总体X的样本,已知X的概率密度为:

试用矩估计法估计总体参数。解:

由于

样本均值为,令E(X)=,得:,

从而总体参数的矩估计为,其

中。

【例5.3】X1,X2,……,Xn为总体X~B(N,P)的样本,其中N,P为未知参数,试用矩估计法估计参数N及P。

解:∵

E(X)=NPD(X)=NP(1-P)样本均值与方差分别为,S2。令

E(X)=D(X)=S2

解得N、P的矩估计量为

,其中,。

二、极大似然估计法

先考察两个简单的例子。

【例3.4】某同学与一位男猎人一起外出打猎,只见一只野鸡在前方窜过,只听一声枪响,野鸡被他们两人中某一位一枪命中,试推测这一发命中的子弹是谁打的,答案是简单的,既然只发一枪且命中,而男猎人的命中的概率一般大于这位同学命中的概率,因此可以认为这一枪是男猎人射中的。

【例3.5】假定在一个箱子里放着黑、白两种球共4只,且知道这两种球的数目之比为1∶3,但不知道究竟哪一种颜色的球多。

设黑球所占的比例为P,由上述假定推知P仅可能取1/4和3/4这两个值,现在采用有放回抽样的方法,从箱子中随机地抽取三个球,观察到球的颜色为黑、白、黑,你会对箱子中的黑球数作出什么推断呢?即你认为P的值是1/4,还是3/4?直观上觉得P=3/4(即箱子中黑球数为3)更可信,因为当P=1/4时抽到这样一个具体样本的概率为1/4

3/4

1/4=3/64,当P=3/4时,抽到这样一个具体样本的概率为3/4

1/4

3/4=9/64,由于9/64>3/64,因此在观察到上述样本中的三个球的颜色之后,觉得P=3/4更可信,即你倾向于认为箱子中放有三个黑球,这里体现了极大似然法的基本思想。

现在我们来阐明极大似然法的基本原理。

设总体X的概率密度为,它只含一个未知参数(若X是离散型,表示概率),X1,X2,X3,……,Xn是取自X的样本,x1,x2,x3,……,xn为样本观察值。X1,X2,X3,……,Xn的联合密度等于,显然,对于样本的一组观察值x1,x2,x3,……,xn,它是的函数,记作

并称为似然函数

当已知时,似然函数描述了样本取得样本观察值x1,x2,x3,……,xn的可能性。同样,当一组样本观察值取定时(即抽样完成时),要问它最大可能取自什么样的总体(即总体的参数应等于什么时的可能性最大),也要从似然函数的极大化中求出相应的值来,这个值就是的一个估计值。于是,我们可以给出极大似然估计的定义。

定义3.1设总体的概率密度为,其中是未知参数,x1,x2,…,xn为X的一组样本观察值。若能求得观察值的某个函数,使得似然函数取极大值,即,则称为的一个极大似然估计值,其相应的统计量,称为参数的极大似然估计量。

由定义3.1可知,求总体参数的极大似然估计值的问题,就是求似然函数L()的极大值问题。在L()可微时,要使L()取极大值必须满足(3.1)从上式可解得的极大似然估计值。

由于lnL()与L()有相同的极值点,而且,求lnL()的极值点更为容易,所以常用下式

(3.2)来代替(3.1)式。方程(3.1)或(3.2)都称为似然方程。

当似然函数包含多个参数时,即:

若L关于各参数的偏导数存在,则j的极大似然估计

一般可由方程组:或解得。上面方程组称为似然方程组。

[注意]上面的讨论中,我们没有提到似函数取极大值的充分条件,对于具体的函数可作验证。

【例3.6】设总体X服从参数为的泊松分布,求参数的极大似然估计量。

设X1,X2,X3,……,Xn是来自X的样本,则

的极大似然估计量为。其中

为样本均值。

【例3.7】设总体X~N,其中及是未知参数,如果取得样本观测值为x1,x2,…,xn,求参数及的极大似然估计值。

解:

似然函数为:∴

对及求偏导数,并让它们等于零,得:

解此方程组,即得及的极大似然估计值为:

【例3.8】设总体X服从均匀分布,求参数与的极大似然估计量

设X1,X2,…,Xn是X的样本,则

∴从而有

显然由此方程组解不出

1与

2,现利用定义求

1与

2的极大似然估计量,因为:

,即∴

的极大似然估计量分别为。三、估计量的优良标准

在对总体参数做出估计时并非所有的估计量都是优良的,从而产生了评价估计量是否优良的标准。对于点估计量来说,一个好的估计量有如下三个标准:

1.无偏性如果样本统计量的期望值等于该统计量所估计的总体参数,则这个估计量叫做无偏估计量。这是一个好的估计量的一个重要条件。用样本平均数作为总体平均数的点估计量,就符合这一要求。无偏性也就是没有系统的偏差,它是从平均意义讲的,即如果这种估计方法重复进行,则从估计量所获得的平均数等于总体参数。显然,如果说一个估计量是无偏的,并不是保证用于单独一次估计中没有随机性误差,只是没有系统性的偏差而已。若以代表被估计的总体参数,代表的无偏估计量,则用数学式表示为:

我们知道,总体参数中最重要的一个参数是总体平均数,样本平均数是它的一个无偏估计量,即。另外,样本方差也是总体方差的无偏估计量。

2.一致性当样本容量n增大时,如果估计量越来越接近总体参数的真值时,就称这个估计量为一致估计量。估计量的一致性是从极限意义上讲的,它适用于大样本的情况。如果一个估计量是一致估计量,那么,采用大样本就更加可靠。当然,在样本容量n增大时,估计量的一致性会增强,但调查所需的人力、物力也相应增加。

3.有效性有效性的概念是指估计量的离散程度。如果两个估计量都是无偏的,其中方差较小的(对给定的样本容量而言)就可认为相对来说是更有效的。严格地说,如果和是的两个无偏估计量,它们的相对有效性按下述比率决定:其中,是较小的方差。

以上这三个标准并不是孤立的,而应该联系起来看。如果一个估计量满足这三个标准,这个估计量就是一个好的估计量。数理统计已证明,用样本平均数来估计总体平均数和用样本比率来估计总体比率时,它们是无偏的,一致的和有效的。§3.3参数的区间估计一、区间估计的概念

对未知参数来说,我们除了关心它的点估计外,往往还希望估计出它的一个范围,以及这个范围覆盖参数真值的可靠程度,这种范围通常用区间的形式给出,这种区间就叫参数的置信区间。

定义3.2设总体分布含有一个未知参数

,若由样本确定的两个统计量

(X1,X2,X3,…,Xn)与(X1,X2,X3,…,Xn),对于给定数值,满足

(3.3)

则称随机区间为

的一个双侧置信区间,称为双侧置信下(上)限,1-称为置信水平或置信度。

(3.3)式表示置信区间包含未知参数

真值的概率是1-,若反复抽样多次(每次样本容量相等),每组样本观察值确定一个区间,每个这样的区间或者包含

的真值,或者不包含

的真值,按贝努利定理,在所有这些区间中,包含

真值的约占,不包含

真值的仅占左右。

当和时,称为置信区间观察值,也称为置信区间。

在有些问题中,我们关心的是未知参数至少有多大(如设备元件使用的寿命),或不超过多大(如产品的次品率),因此下面给出单侧置信区间的概念。定义3.4在定义3.3中,如果将(3.3)式改成

则称或为单侧置信区间,和分别称为单侧置信下限与单侧置信上限。

评价一个置信区间的好与坏有两个标准,一是精度,即越小精度越高,也就越好。另一个是置信度,即越大越好。我们当然希望尽可能地小,同时希望尽可能地大,但是当样本容量n固定时,精度与置信度不可能同时提高。

因为当精度提高时即变小时,()覆盖真值

的可能性也变小,从而降低了置信度,相反,当置信度增大时,必然也增大,从而降低了精度,在实际问题中,一般是根据实际问题的需要,先选定置信度为1-,然后再通过增加样本容量n提高精度。

二、区间估计的步骤

(1)构造一个随机变量g(

)(含待估计的未知参数,分布已知);

(2)给定置信水平,使;

(3)从不等式

中解出即

得的置信区间;(4)将xi代替中的xi,即得观察区间。

§3.4单正态总值均值与方差的区间估计

假设总体X~N(),构造与的置信区间有重要的实用意义,而且有关结果是完满的。

一、均值的置信区间

从总体X中取样本(X1,X2,…,Xn),设样本值为(x1,x2,x3,…,xn)由于

随机变量很明显,统计量Z的分布函数不依赖于未知参数μ。

设已给定对μ的区间估计置信度为1-令

为Z的双侧点)解不等式(关于μ):

得从而所求的100(1-)%置信区间为将样本平均值取其观察值,则100(1-)%的置信区间为

【例3.9】某厂质量管理部门的负责人希望估计移交给接受部门的5500包原材料的平均重量,一个由250包原材料组成的随机样本所给出的平均值=65千克。总体标准差

=15千克。试构造总体未知的平均值的μ置信区间,假定95%的置信区间已能令人满意,并假定总体为正态分布

解:(1)样本平均值=65千克

(2)由1-

=0.95,/2=0.025,查标准正态分布表得

(3)写出置信区间==

=(63.14,66.86)于是,我们有95%的把握说总体平均值μ介于63.14和66.86千克之间。

[注意]在很多情况下,我们遇到的总体为非正态分布,但中心极限定理告诉我们,当样本容量n足够大,无论总体服从什么分布,的柚样分布将近似地服从正态分布,因此当样本取自总体方差已知的非正态分布时,我们仍可以用

公式来近似求出总体平均值μ的置信区间。

2.未知时,求μ的置信区间

稍微留意上述求得的μ的置信区间,不难发现只有在已知时方法才可行。如果未知,则可用样本方差S2代替总体方差,从而根据统计量:

对给定的置信水平1-,令可解得μ的1-置信区间为将、S2分别取其观察值则μ的1-置信区间为例3.10为了估计一分钟一次广告的平均费用,抽出了15电视台的随机样本。样本的平均值=2000元,其中标准差S=1000元。假定所有被抽样的这类电视台服从正态分布,试构造总体平均值μ的95%的置信区间。解:(1)样本均值与方差分别为=2000元,S=1000元

(2)由1-

=0.95,得/2=0.025,n-1=14,查t分布表,得

(3)写出置信区间:显然我们有95%的把握说明,总体平均数处在1447.5元和2552.5元之间。

=(1447.5,2552.5)[注意]当

未知但样本容量n>30,即大样本时,可用标准正态分布近似地当作t分布。因此,在实际工作中,只有在小样本的情况下,即样本容量n<30时,才应用t分布,而对于大样本,则通常采用正态分布来构造总体平均数的置信区间。另外,根据中心极限定理,从非正态总体中抽样时,只要能够抽取大样本,那么,样本平均数的抽样分布就会服从正态分布。这时,我们也就能够用来构造置信区间,但由于

是未知的,因此,只能用来构造置信区间。

二、方差

2的置信区间设X1,X2,X3,…,Xn是总体X~N(

,

2)的一个样本,其观察值为x1,x2,x3,…,xn。因为在一般情况下,总体的均值是未知的,所以我们只讨论均值

未知时,对

2的区间估计。要对

2进行区间估计,须考虑样本方差S2,由分布理论知随机变量对于给定的置信水平1-,有

由此得

2的置信水平为1-的置信区间为而

标准差的置信水平为1-的置信区间是例3.11某制造厂的一名生产管理人员需要知道完成某件工作所需的时间。为此他进行了一项研究,得出一个适于分析的31个观察值组成的随机样本,从样本数据算出的方差为0.3小时,试问:(1)构造方差

2的95%的置信区间(2)构造

的95%的置信区间(3)构造置信区间时作了何种假定?解:(1)S2=0.3,自由度=n-1=31-1=30查分布表得:从而求得0.1916<

2

<0.5360因此,我们有95%的把握说

2落在0.1916和0.5360之间的范围内。(2)其总体标准差的置信区间为:0.4377<

<0.7321(3)被抽样的总体服从或近似服从正态分布是置信区间估计的假定条件。上面我们讨论了正态总体的两个参数

2的双侧置信区间,至于单侧置信区间的求法完全类同,只是所用的百分位点不同,举例说明如下。例3.12从某一批灯泡中随机地抽取5只作寿命试验,测得寿命(以小时计)如下:10501100112012501280设寿命X~N(

,

2),

2未知,求寿命X的均值

的置信水平为95%的单侧置信下限和单侧置信区间。155解:∵X~N(

,

2),

2未知∴随机变量其中,S分别为总体X的样本均值与样本方差。对于给定的置信水平1-,有由不等式,可解得

的1-单侧置信下限与单侧置信区间分别为:

根据本题所给数据,具体计算(1050+1100+1120+1250+1=1160查t分布表得

故所求单侧置信下限是

单侧置信区间为(1065,+∞)。

§3.5两个正态总体均值差与方差比的区间估计

在实际应用中常有这样的问题,如已知某种产品的质量指标X服从正态分布,但由于设备改善,工艺改革或原料改变等因素,使得总体X的均值和方差有所改变,对于这种情况,就需要知道均值和方差的改变情况,因此,需要考虑二正态均值差和方差比的区间估计问题。

一、二正态总体均值差的置信区间

设和S12

是总体X~N(

1,

12

)的容量为n1的样均值和样本方差;和S22是总体Y~N(

2,

22

)的容量为n2的样本均值和样本方差,并设这两个总体相互独立。现在考虑二正态总体均值差的区间估计。因为分别是的点估计量,故服从正态分布,而且

所以

1.已知

12,

22时,求的

1-2置信区间

由于随机变量

所以对于给定的置信水平1-,有

从不等式中解出

1-

2,即得

1-

2的置信水平为1-的置信区间为将取其观察值,得置信区间为2.

12,

22都未知时,求

1-2的置信区间当样本容量n1,n2都很大时(>30),可用S12,S22、分别代替

12、

22,于是可用区间作为

1-

2的近似的1-置信区间。

3.未知时,求

1-

2的置信区间,则t分布理论知其中

在给定的置信水平1-的条件下,有由此可得

1-

2的置信水平为1-的置信区间当及Sw取样本观察值时,置信区间为

【例3.13】某银行负责人想知道存户存入两家银行的钱数,他从每一家银行各抽选了一个由25个存户组成的随机样本。样本平均值如下:银行A:=450元;银行B:

=325元。两个总体均服从方差分别为

A2=750和

B2=850的正态分布。试构造

A-

B的95%的置信区间。

由于两个总体均服从正态分布,因此也服从正态分布,从而计算总体均值之差的置信区间可用:

这个公式。

已知

12=750,

22=850,=450,=325,所以所求的置信区间为:这意味着有95%的把握认为总体均值之差在109.32元和140.68元之间。:

【例3.14】某工厂中有两台生产金属棒的机器。一个随机样本由机器A生产的11根金属棒组成,另一个随机样本由机器B生产的21根金属棒组成。两个样本分别给出两台机器所生产金属棒的长度数据如下: =6.10英寸,=5.95英寸,SA2=0.018,SB2=0.020。假定两个总体近似服从正态分布,且总体方差相等,试构造

A-

B的95%的置信区间。解

1-=95%,=0.05,查t分布表得t/2=t0.025(30)=2.042所以所求置信区间为:

=(0.05,0.25)4.两个总体均不服从正态分布且方差未知对于一般不服从正态分布的两个总体,我们往往根据中心极限定理采用大样本抽样方法。如果两个总体方差未知,就用S1和S2分别作为

1和

2的估计值,当n1和n2足够大时,

1-

2的置信水平为1-的近似置信区间为:

【例3.15】东大和西大两所大学某学期期末英语考试采用同一试题,东大认为该校学生英语考试成绩能比西大高出10分,为了证实这一说法,主管部门从两校各抽取一个随机样本并得到如下数据:n东=75人,n西=80人,东=78.6分,

西=73.8分,S东=8.2分,S西=7.4分。试在95%的置信度下确定两校平均分数之差的置信区间。

解:

分1-=0.95,=0.025,查标准正态分布表得,从而其置信区间为:(78.6–73.8±1.96×1.26)=(2.3,7.3)

因此,我们有95%的把握说东大、西大两校英语考试成绩之差在2.3分和7.3分之间。这一结果说明东大的平均成绩确实高于西大,但并未高出10分。二、二正态总体方差比的置信区间

在实际工作中还常常需要比较两个总体的方差。例如,在选择产品时,我们通常需要方差较小的产品,因为方差较小的产品的质量比较均匀。比较两个总体方差的大小,可以将两个方差相比,当两个方差相等时其比值为1。但两个总体方差

12和

22都是未知的,所以需要通过两个样本方差来加以比较推断。设二正态总体X~N(

1,

12)与Y~N(

2,

22),其中的参数均未知,它们相互独立的两个样本的容量分别为n1,n2,样本方差为S12与S22,现在求其方差比

12/

22的置信区间由分布理论知

从而

于是,对给定的置信水平为1-,有:

所以

12/

22的置信水平为1-的置信区间为:

(此处利用了公式:)

【例3.16】为了比较用两种不同方法生产的某种产品的寿命,进行一项试验。试验中抽选了由方法1生产的16个产品组成一个随机样本,其方差为1200小时。又抽选了用方法2生产的21个产品组成另一个随机样本,得出的方差为800小时。试以95%的置信度估计

12/

22的置信区间解:由于S12=1200,S22=800,S12>S22从而所求的置信区间为:即:0.58<

12/

22<4014

也就是(0.58,4.14)§3.6关于比例的区间估计一、一个总体比例的区间估计

我们在实际工作中时常会碰到对总体比例的估计问题。例如,企业领导想知道本企业生产中合格品率是多少?商店经理想了解对他们服务满意的顾客在全部顾客中所占的比率等等。我们知道样本比例的抽样分布,当nP和n(1-P)两者皆大于5时(P为总体比例),的分布近似服从平均值为P,标准差

p为的正态分布。但是,在实际工作中P往往是未知的,我们所要估计的也正是这个总体比例P,所以,就需要用样本比例来代替P。这样,我们就得到了标准差的估计值:因此,可对总体比例的区间估计作表述如下:如果nP和n(1-P)两者皆大于5,并且n相对总体容量来说很小,则P的近似100(1-)%的置信区间由下式给出:如果我们研究的总体是有限的,尤其是抽样比重较大时,即n/N>0.05,就要采用有限总体修正系数,从而P的区间估计公式为:【例3.17】某一大公司的人事处长希望知道本公司内专业不对口的职员究竟占多大比例。于是,他从2000名具有大专以上学历的职员中随机抽取了一个由150人组成的样本进行研究,结果表明,其中有45人说他们从事的工作与所学专业不对口。试在95.5%的置信度下构造出专业不对口人员所占真正比例的置信区间。解:由于样本容量很大,n=150,

=45/150=0.3,和都大于5,故可用正态分布逼近。但又由于抽样比重,故需用有限总体修正系数计算Sp,则

=(0.228,0.372)

计算结果表明,我们有95.5%的把握说,该公司具有大专以上学历的人员中,有22.8%~37.2%的

人专业不对口。

二、两个总体比例之差的区间估计

为了估计两个总体比例之差P1-P2,我们可从每一个总体中各抽一个随机样本,并利用两个样本比例之差。这样就可以按通常的方式构造出一个区间的估计值。我们知道,当n1和n2都很大,即大样本,而且总体比例不太接近0或1时,两个独立样本的抽样分布近似服从正态分布,其平均值为P1-P2,标准差为:

因为P1和P2皆未知,所以标准差应通过下式来估计:于是上述条件下P1-P2的100(1-)%的置信区间由下式给出:

【例3.18】某企业有两个车间,分别用A和B表示。为了降低废品率,该企业对车间B的工人首先进行业务培训。3个月后,该企业负责人对两个车间的产品质量进行了检验。从车间A抽取了200件产品,从车间B抽取了220件产品。查得废品率A车间为,B车间为,试在95%的把握程度下,构造两个废品率之间的置信区间。解:

Z

/2=Z0.025=1.96,从而其区间估计为:(0.15-0.03±1.96×0.0277)=(0.066,0.174)

根据这一结果,我们有95%的把握说,车间A和车间B的废品率之差为6.6%~17.4%。这说明,车间B人员的业务培训收到了效果。§3.7样本容量的确定

以上所举的例子中,都假定样本容量已定。在实际设计抽样方案中有一个重要的问题,就是在特定的情况下,应该用多大的样本?如果使用一个比需要大的样本,就会浪费资料;如果样本太小,就不能达到分析的目的。

事实上,决定样本大小的因素有以下三点:(1)受总体方差

2数值大小的影响。总体方差大,抽样误差大,则应多抽一些样本容量,反之,则可少抽一些。当然,当总体方差为0时,那么只需抽出其中一个就能代表总体。问题是实际工作中我们往往不知道总体方差,因而必须作试验性调查,或以过去的历史资料作参考。

(2)可靠性程度的高低。要求可靠性越高,所必需的样本容量就越大,也就是说,为获得所需精度而指定的概率越大,所需要的样本容量就越大。

(3)允许误差的大小。这主要由研究目的而定。若要求推断比较精确,允许误差应该低一些,随之抽取的样本容量也要求多一些。反之,若允许误差可以大一些,样本容量也可以少一些。

一、估计总体平均数样本容量的确定

在重复抽样的条件下,我们用△表示允许误差,用

表示总体标准差,用1-表示可靠性,用Z/2表示相应的概率度,那么,允许误差的公式可表述如下:

这就是在重复抽样条件下确定样本容量的计算公式。当我们采用不重复抽样时,就要采用有限总体修正系数。这时∴

这就是不重复抽样条件下确定样本容量的计算公式。

【例3.19】某批产品的平均重量=70千克,总体标准差

=5千克。现准备对这批产品采用重复抽样方式进行简单随机抽样检验,要求可靠程度达到95%,允许误差不超过0.9千克。试问需要抽多少样本容量?解:

=5,Z/2=1.96,(件)即应抽取样本容量119件。在实际工作中,总体标准可能是未知的,因此必须通过某种途径来估计

,主要有:(1)当以前有过类似的抽样,并且总体变动又不太大时,便可用以往的资料来估计,总体标准差

。(2)在正式抽样研究之前,先抽出一个实验样本,算出其标准差S,并用它来代替

。(3)当总体近似服从正态分布时,便可根据全距来估计标准差S。二、估计总体比例时样本容量的确定估计总体比例时,其样本容量的确定类似Z于估计总体平均数时样本容量的确定。在重复抽样时,由于

在不重复抽样时,由于∴

上述两个公式的计算都需要知道总体比例P,但一般情况下P是未知的。因此,要想确定其样本容量,必须首先寻找P的估计值,一般有以下几种方式:(1)用以往的资料估计P。(2)在正式抽样之前,先抽一个实验样本,用此样本比例来代替P。(3)当研究者对某一总体比例有很大把握时,则可用它作为P的估计值。(4)如果什么资料也没有,那么可以令P=0.5,因为此时,P(1-P)最大,从而所需的样本也比较多,推断也就比较可靠。【例3.20】一家市场调查公司希望估计某地区有25英寸彩色电视机的家庭所占的比例。该公司希望对P的估计误差不超过0.07,置信度为95.5%,但没有可利用的P的估计值。试问应抽取多大容量的样本?解:

由于没有较好的P的估计值可供利用,因此只能取P=0.5,从而即应抽取容量为204的样本。215第四章假设检验216§4.1假设检验的基本概念

对总体的概率分布或分布参数作出某种“假设”,根据抽样得到的样本观测值,运用数理统计的分析方法,检验这种“假设”是否正确,从而决定接受或拒绝“假设”,这就是本章要讨论的假设检验问题。2171、小概率原理小概率原理是假设检验的基本依据,即认为小概率事件在一次试验中几乎是不可能发生的。当进行假设检验时,先假设H0正确,在此假设下,若小概率事件A出现的概率很小,例如P(A)=0.01,经过取样试验后,A出现了,则违反了上述原理,我们认为这是一个不合理的结果。218

这时,我们只能怀疑作为小概率事件A的前提假设H0的正确性,于是否定H0。反之,如果试验中A没有出现,我们就没有理由否定假设H0,从而做出接受H0的结论。下面我们通过实例来说明假设检验的基本思想及推理方法。2192、假设检验的基本思想及推理方法例1某车间为了提高零件的强度进行了技改,已知零件强度X(单位:kg/mm)服从正态分布N(52.8,0.8),其中μ0=52.8kg/mm是零件强度,现进行了技改后,抽取n=16的样本,测得强度为:(kg/mm)

51.953.452.954.353.852.453.754.052.452.553.551.354.952.854.552.9

假设=0.8不变,试问技改后零件强度是否发生了实质性变化?2

2

2

2

2

2

220

我们的问题就是:已知总体X~N(),且要求检验下面的假设:(4-1)通常把H0称为原假设或零假设,把H1称为备择假设或对立假设。从取样结果看,样本均值与总体均值之间存在差异,这种差异是因为抽样的随机性导致的不可避免的误差,还是因为技改而导致的实质性差异?

221

为了回答这个问题,首先给定一个小概率,称为显著性水平,通常取较小的值,如0.05,0.01。在本例中,我们选取。选取统计量,它包含待检验参数,当H0为真时,它的分布是已知的,本例中,选取(4-2)于是有

222

其中,为临界值,查表得。

|μ|的拒绝域为:()将抽样值代入4-1式得:

落入拒绝域中,即小概率事件竟然出现,于是否定假设H0,认为技改后零件强度发生了变化。223

应当注意的是,上面例1的结论是在显著性水平的情况下得出的,如果,则,代入观察值,则会得出,技改后零件强度无实质变化的相反结论。可见,原假设取舍与否与的取值直接相关,当我们倾向于不要轻易否H0时,可取小一些,反之,取大一些。2243、单边检验在上面例中,我们关心的是总体均值μ是否比μ0大,我们要确定是接受假设,还是接受另一假设,即技改后,零件的强度是否得到了提高。这样,问题就是要检验下面的假设:

这一假设检验称为右边检验,同样存在左边检验,统称单边检验。

225

例2在例1中,是否可以认为技改后,零件的强度有明显的提高?()解:依题意假设:

选择统计量查表得拒绝域为()将抽样值代入得226

落入拒绝域中,拒绝H0,接受H1,认为零件的强度技改后有明显的提高。根据实际问题可以进行不同形式的假设,归纳如下:右边检验,假设形式为:左边检验,假设形式为:

2274、两类错误小概率原理是假设检验的基本依据,然而,对于小概率事件,无论其概率多么小,还是可能发生的,所以,利用小概率原理为基础的假设检验方法进行检验,可能会做出错误的判断,主要有以下两种形式228(1)原假设H0实际是正确的,但却错误地拒绝了H0,这样就犯了“弃真”的错误,通常称为第一类错误。由于仅当所考虑的小概率事件A发生时才拒绝H0,所以犯第一类错误的概率就是条件概率。229

(2)原假设A0实际是不正确的,但是却错误地接受了H0,这样就犯了“取伪”的错误,通常称为第二类错误。犯第二类错误的概率记为。我们自然希望犯这两类错误的概率越小越好。但当样本容量n确定后,犯这两类错误的概率不可能同时被控制,通常在我们根据历史经验选取恰当的显著性水平后,通过扩大样本容量n的方式来使第二类错误的概率减小。2305、假设检验的基本步骤(1)根据实际问题提出基本假设H0和备择假设H1。(2)选取适当的显著性水平,通常等。(3)根据H0选取适当的统计量,当H0为真时,该统计量的分布应为已知。(4)求出此检验的拒绝域,记作w。(5)根据样本观察值,计算统计量的观察值。(6)作出判断,若0落在拒绝域内,则拒绝H0,接受H1,否则接受H0。。231§4.2单个正态总体均值和方差的检验

我们首先讨论单个正态总体中参数的假设检验问题。设从总体抽取样本容量为n的样本,其中2321、已知,关于的检验(z检验)在上一节例1中,已讨论过正态总体,当已知时,关于=0的检验问题。在这些问题中,我们都是利用H0为真时服从N(0,1)分布的统计量来确定拒绝域的,这种检验法常称为z检验法。2

2

233

下面我们再来简单介绍其步骤:已知=0,假设

易知统计量对于给定的显著性水平,

234

查正态分布表得拒绝域将样本观察值代入,如果,

则否定H0,接受H1,否则接受H1。其单边检验参照有关内容,在此不再叙述。

235

2、未知,关于的检验(t检验)设总体,其中未知,是来自总体x的样本。因为已知,不能用统计量进行检验,当H0成立时,我们可以使用此统计量来进行在未知的情况下的检验。2

2

236

具体检验过程如下: 未知,假设

选取统计量(4-3)对于给定的,查表得临界值确定拒绝域

237

代入样本观察值,如果则否定H0,接受H1,否则,接受H0。其单边检验过程如下:右边检验:假设

拒绝域:

238

例3某种电子元件寿命x(以小时计)服从正态分布,,未知,现抽取9只元件测得寿命如下:

10599971009698103104107

问:是否可以认为元件的寿命大于100小时?解:依题意假设:

选取统计量n=9。

2

239

对于给定的,查表得临界值,拒绝域为(1.753,)计算代入(4-3)式

t没有落入拒绝域,故接受H0,认为元件的寿命不超过100小时。

2403、未知,检验关于的假设(检验法)设总体,其中未知,是来自等于总体x的样本。假设,,0为已知常数当H0成立时,统计量

241对于给定的显著性水平,查表得:拒绝域为242

其单边检验情况如下:右边检验:假设

拒绝域:

243

左边检验:假设

拒绝域:

计算s代入得,如果落入拒绝域,则否定H0,否则接受H0。244例4假设钢板重量总体近似服从正态分布,按照规定,这种钢板的方差不得超过0.016kg,现随机抽取n=25的钢板样本,测得其样本,试问:是否可以认为这批钢板不合规格?2

245

解:依题意,假设选取统计量对于给定的显著性水平,查表得将样本值代入得:

落入拒绝域中,拒绝假设H0,即钢板的方差不合格。

246§4.2两个正态总体均值与方差的检验

1、关于两个正态总体均值的检验(t检验)设总体,,与分别是来自总体x与Y的样本,且两样本独立。均未知,但要注意在这里,假设两总体的方差是相等的。247

检验假设

当H0成立时,统计量

其中

248

对于给定的显著性水平,查表得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论