统计基础1教材_第1页
统计基础1教材_第2页
统计基础1教材_第3页
统计基础1教材_第4页
统计基础1教材_第5页
已阅读5页,还剩97页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计建模统计方法描述统计推断统计参数估计假设检验#统计方法一般地说,统计学的研究对象是客观事物的数量特征和数量关系,以便找到客观事物中所蕴含的客观规律性。数量特征:数量水平、数量规模数量关系:比例、平均数、速度等#描述统计统计学研究如何收集、整理、分析和解释数据,以便从中作出正确推断的认识方法论科学.1.数据搜集:取得数据2数据整理:分类与汇总3.数据分析:分析数据4数据解释:结果的说明内容搜集数据整理数据展示数据描述性分析

目的描述数据特征找出数据的基本规律02550Q1Q2Q3Q4¥x=30s2=105量:是事物属性的重要方面,事物的量和事物的质密切联系.是客观存在的.我们要了解事物的质,就要了解事物的量的特征、量的界限、量的关系等。数:量的特征、量的界限、量的关系等需要数来反映。如,自然数、相对数、平均数等

#量指标:是说明总体的综合数量特征的概念和数值。一个完整的统计指标包括指标名称和指标数值两个部分。#指标例:

2002年中国国内生产总值预计达到102000多亿元。时间空间经济概念数量计量单位指标名称指标的取值举例说明统计指标的概念数量指标(总量指标)指标分类质量指标相对指标平均指标统计指标的分类统计指标的分类(1)数量指标:反映现象总规模、总水平和工作总量的统计指标。如:人口总数、企业总数、工资总额等。一般用绝对数表示。统计指标按其所反映的总体内容的不同,可分为数量指标与质量指标质量指标:反映现象相对水平和工作质量好坏的统计指标。如:平均成绩、劳动生产率、出生率等。一般用平均数或相对数表示。相对指标有:结构相对指标、比例相对指标、比较相对指标、强度相对指标、计划完成程度相对指标平均指标:算数平均数、调和平均数、几何平均数另外还有反映数据特征的指标有离散指标分布的偏度和峰度指标#数据的显示分类数据的显示—频数分布表

(例题分析)【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。右边就是记录的原始数据绿色健康饮品分类数据的图示—条形图用宽度相同的条形的高度或长短来表示各类别数据的图形有单式条形图、复式条形图等形式主要用于反映分类数据的频数分布绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图分类数据的图示—条形图分类数据的显示—饼图

也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的分类数据的图示—饼图顺序数据的频数分布表

【例】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?

1.非常不满意;2.不满意;3.一般;4.满意;5.非常满意。

甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.0————顺序数据的频数分布表

(例题分析)乙城市家庭对住房状况评价的频数分布回答类别乙城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合计300100.0————顺序数据的图示—累计频数分布图243001322252700100200300400

非常不满意

不满意

一般

满意

非常满意累积户数(户)(a)向上累积27616830300750100200300400

非常不满意

不满意

一般

满意

非常满意累积户数(户)(b)向上累积甲城市家庭对住房状况评价的累积频数分布环形图

环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环环形图可用于结构比较研究

环形图主要用于展示分类和顺序数据环形图

8%36%31%15%7%33%26%21%13%10%

非常不满意

不满意

一般

满意

非常满意

甲乙两城市家庭对住房状况的评价图表的作用

1.真实、准确地展示和反映数据

2.直观、高效地表达复杂的数据和观点

3.启发思考数据的本质、分析数据揭示的规律,以较小的空间承载较多的信息

Apictureisworthathousandwords.

表格适于呈现较多的精确数值或无明显规律的复杂分类数据和平行、对比、相关关系的描述。表格的基本结构序号、标题项目栏表体脚注顶线、栏目线、底线(三线表)(一般没有竖线)图的种类线形图:二个变量之间的定量关系(趋势、连续变化)条形图:自变量为分类数据直方图:自变量为定序数据饼形图:比例怎样正确地使用图表怎样正确地使用图表1.确定主题-你想表达什么观点?2.图表还是文字更有效?3.那种图表最适合你的目的?4.是否真实、有效地展示了数据?5.是否启发读者思考数据的本质和规律?6.是否表达了你的观点?选用哪种图表?表:侧重数字、描述。适用于很多数据,但缺乏趋势图:侧重表现关联、趋势、因果关系等#推断统计内容参数估计假设检验目的对总体特征作出推断样本总体描述统计与推断统计的关系反映客观现象的数据总体内在的数量规律性推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)概率论(包括分布理论、大数定律和中心极限定理等)描述统计(统计数据的搜集、整理、显示和分析等)总体数据样本数据参数估计什么是参数估计?参数是刻画总体某方面的概率特性的数量.当这个数量是未知的时候,从总体抽出一个样本,用某种方法对这个未知参数进行估计就是参数估计.例如,X~N(,2).

点估计区间估计若,2未知,通过构造样本的函数,给出它们的估计值或取值范围就是参数估计的内容.参数估计的类型点估计——估计未知参数的值;区间估计——估计未知参数的取值范围,使得这个范围包含未知参数真值的概率为给定的值.点估计——估计未知参数的值§6.1点估计点估计的思想方法设总体X的分布函数的形式已知,但它含有一个或多个未知参数:

1,

2,,

k.设X1,X2,…,Xn为总体的一个样本构造k个统计量:随机变量.当测得一组样本值(x1,x2,…,xn)时,代入上述统计量,即可得到

k个数:数值称数为未知参数的估计值,问题如何构造统计量?如何评价估计量的好坏?对应的统计量为未知参数的估计量.

矩法

用样本的

k

阶矩作为总体的

k

阶矩的估计量,建立含有待估计参数的方程,从而可解出待估计参数.一般地,不论总体服从什么分布,总体期望

与方差

2存在,则它们的矩估计量分别为:两种常用的点估计方法(矩法和极大似然法)

事实上,按矩法原理,令设待估计的参数为设总体的r

阶矩存在,记为设X1,X2,…,Xn为一样本,样本的

r阶矩为令——含未知参数

1,

2,,

k的方程组.解方程组,得

k

个统计量:——未知参数

1,

2,,

k

的矩估计量.——未知参数

1,

2,,

k

的矩估计值.代入一组样本值得k个数:解例1解方程组得到a,b的矩估计量分别为区间估计——估计未知参数的取值范围,使得这个范围包含未知参数真值的概率为给定的值.引例已知X~N(

,1),不同样本算得的

的估计值不同,因此除了给出

的点估计外,还希望根据所给的样本确定一个随机区间,使其包含参数真值的概率达到指定的要求.

的无偏、有效点估计为随机变量常数如引例中,要找一个区间,使其包含

的真值的概率为0.95.(设n=5)取查表得这说明即称随机区间为未知参数

的置信度为0.95的置信区间.反复抽取容量为5的样本,都可得一个区间,此区间不一定包含未知参数

的真值,而包含真值的区间占95%.置信区间的意义若测得一组样本值,它可能包含也可能不包含

的真值,反复则得一区间(1.86–0.877,1.86+0.877)抽样得到的区间中有95%包含

的真值.算得当置信区间为时区间的长度为——达到最短取

=0.05设

为待估参数,

是一给定的数,(0<<1).

若能找到统计量,使则称为

的置信水平为1-

的置信区间或区间估计.置信下限置信上限

置信区间的定义

反映了估计的可靠度,

越小,越可靠.置信区间的长度反映了估计精度

越小,1-越大,估计的可靠度越高,但

确定后,置信区间的选取方法不唯一,

常选最小的一个.几点说明越小,估计精度越高.这时,往往增大,因而估计精度降低.求参数置信区间保证可靠性先提高精度再处理“可靠性与精度关系”的原则寻找一个样本的函数它含有待估参数,不含其它未知参数,它的分布已知,且分布不依赖于待估参数(常由

的点估计出发考虑

).例如求置信区间的步骤—称为统计量取统计量给定置信度1

,定出常数a,b,使得(引例中由解出得置信区间

引例中

(一)一个正态总体X~N(

2)的情形置信区间常用公式(1)方差

2已知,

的置信区间推导由选取统计量由确定解得

的置信度为的置信区间为(2)方差

2未知,

的置信区间

由确定故

的置信区间为推导

选取统计量(3)

已知时,方差

2的置信区间取统计量,得

2

的置信度为置信区间为

由概率(4)

未知时,方差

2的置信区间选取得

2的置信区间为

••则由为取自总体

N(

1

12)的样本,为取自总体N(

2

22)

的样本,置信度为1

分别表示两样本的均值与方差(二)两个正态总体的情形相互独立,的置信区间为(1)已知,的置信区间(2)未知(但)的置信区间的置信区间为相互独立,(3)未知,n,m>50,

的置信区间的置信区间为因此(3)未知,n,m>50,

的置信区间令

Zi

=Xi

-Yi,i=1,2,…,n,可以将它们看成来自正态总体Z~N(

1

2,

12+

22)的样本仿单个正态总体公式(2)的置信区间为(4)未知,但n=m,的置信区间取统计量(5)方差比的置信区间(

1,

2未知)因此,方差比的置信区间为取统计量(6)方差比的置信区间(

1,

2已知)因此,方差比的置信区间为例2

某厂利用两条自动化流水线罐装番茄酱.现分别从两条流水线上抽取了容量分别为13与17的两个相互独立的样本与已知假设两条流水线上罐装的番茄酱的重量都服从正态分布,其均值分别为

1与

2(1)若它们的方差相同,求均值若不知它们的方差是否相同,求它们的方差比的置信度为0.95的置信区间的置信度为0.95的置信区间;差解查表得由公式(6)的置信区间为(1)取统计量量(2)统计量为查表得由公式(9)得方差比的置信区间为假设检验假设检验的基本思想一、假设检验问题的提出

二、假设检验的基本思想

三、假设检验中两类错误

统计推断的另一个重要问题是假设检验问题。在总体的分布函数未知或只知其形式,但不知其参数的情况下,为了推断总体的某些性质,提出某些关于总体的假设。例如,提出总体服从泊松分布的假设,又如,对于正态总体提出数学期望μ0的假设等。这里,先结合例子来说明假设检验的基本思想和做法。假设检验就是根据样本对所提出的假设作出判断:是接受,还是拒绝。一、假设检验问题的提出

例3

已知某炼铁厂的铁水含碳量X在某种工艺条件下服从正态分布N(4.55,0.1082)。现改变了工艺条件,又测了五炉铁水,其含碳量分别为:

4.28,4.40,4.42,4.35,4.37。根据以往的经验,总体的方差

2=0.1082一般不会改变。试问工艺改变后,铁水含碳量的均值有无改变?

显然,这里需要解决的问题是,如何根据样本判断现在冶炼的铁水的含碳量是服从

≠4.55的正态分布呢?还是与过去一样仍然服从=4.55的正态分布呢?若是前者,可以认为新工艺对铁水的含碳量有显著的影响;若是后者,则认为新工艺对铁水的含碳量没有显著影响。通常,选择其中之一作为假设后,再利用样本检验假设的真伪。

例4

某自动车床生产了一批铁钉,现从该批铁钉中随机抽取了11根,测得长度(单位:mm)数据为:

10.41,10.32,10.62,40.18,10.77,10.64,

10.82,10.49,10.38,10.59,10.54。试问铁钉的长度X是否服从正态分布?而在本例中,我们关心的问题是总体X是否服从正态分布。如同例1那样,选择是或否作为假设,然后利用样本对假设的真伪作出判断。

上例是科技领域中常见的假设检验问题。我们把问题中涉及到的假设称为原假设或称待检假设,一般用H0表示。而把与原假设对立的断言称为备择假设,记为H1。如例1,若原假设为H0:

=

0=4.55,则备择假设为H1:

≠4.55。若例2的原假设为H0:X服从正态分布,则备择假设为H1:X不服从正态分布。(一)两类问题1、参数假设检验总体分布已知,参数未知,

未知,由观测值x1,…,xn检验假设H0:

=0;H1:≠02、非参数假设检验总体分布未知,由观测值x1,…,xn检验假设H0:F(x)=F0(x;);H1:F(x)≠F0(x;)

接下来我们要做的事是:给出一个合理的法则,根据这一法则,利用巳知样本做出判断是接受假设H0,还是拒绝假设H0。假设检验的一般提法是:在给定备择假设H1下,利用样本对原假设H0作出判断,若拒绝原假设H0,那就意味着接受备择假设H1,否则,就接受原假设H0。换句话说,假设检验就是要在原假设H0和备择假设H1中作出拒绝哪一个和接受哪一个的判断。究竟如何作出判断呢?对一个统计假设进行检验的依据是所谓小概率原理,即概率很小的事件在一次试验中是几乎不可能发生

二、假设检验的基本思想

(一)参数假设检验例如,在100件产品中,有一件次品,随机地从中取出一个产品是次品的事件就是小概率事件。因为此事件发生的概率

=0.01很小,因此,从中任意抽一件产品恰好是次品的事件可认为几乎不可能发生的,如果确实出现了次品,我们就有理由怀疑这“100件产品中只有一件次品”的真实性。那么

取值多少才算是小概率呢?这就要视实际问题的需要而定,一般

取0.1,0.05,0.01等。

以例3为例:首先建立假设:H0:

=

0=4.55,H1:

≠4.55。

其次,从总体中作一随机抽样得到一样本观察值(x1,x2,…,xn)。

注意到是的无偏估计量。因此,若H0正确,则与

0的偏差一般不应太大,即不应太大,若过分大,我们有理由怀疑H0的正确性而拒绝H0。由于,因此,考察的大小等价于考察的大小,哪么如何判断是否偏大呢?

具体设想是,对给定的小正数

,由于事件是概率为的小概率事件,即因此,当用样本值代入统计量具体计算得到其观察值时,若,即说明在一次抽样中,小概率事件居然发生了。因此依据小概率原理,有理由拒绝H0,接受H1;若,则没有理由拒绝H0,只能接受H0。

将上述检验思想归纳起来,可得参数的假设检验的一般步骤:

(1)根据所讨论的实际问题建立原假设H0及备择假设H1;

(2)选择合适的检验统计量Z,并明确其分布;

(3)对预先给定的小概率

>0,由确定临界值;

(4)由样本值具体计算统计量Z的观察值z,并作出判断,若|z|≥z/2

,则拒绝H0,接受H1;若|z|<z/2

,则接受H0。

统计量称为检验统计量。当检验统计量取某个区域C中的值时,就拒绝H0,则称C为H0的拒绝域,拒绝域的边界点称为临界值。如例1中拒绝域为,临界值为和

现在,我们来解决例3提出的问题:

(1)假设H0:

=

0=4.55,H1:

≠4.55;

(2)选择检验用统计量;

(3)对于给定小正数,如

=0.05,查标准正态分表得到临界值z

/2=z0.025=1.96;

因为|

z|=3.9>1.96,所以拒绝H0,接受H1,即认为新工艺改变了铁水的平均含碳量。(4)具体计算:这里n=5,,,故Z的观察值

二、假设检验的基本思想

(二)非参数假设检验总体分布未知,由观测值x1,…,xn检验假设H0:F(x)=F0(x;);H1:F(x)≠F0(x;)

所用的方法适用于任何分布或者仅有微弱假定分布,实质上是不依赖于分布的.在数理统计学中不依赖于分布的统计方法统称为非参数统计方法.这里所讨论的问题就是非参数假设检验问题.这里所研究的检验是如何用子样去似全母体分布,所以又称为分布拟合扰度检验,一般有两种:一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论