中国矿业数理统计课件_第1页
中国矿业数理统计课件_第2页
中国矿业数理统计课件_第3页
中国矿业数理统计课件_第4页
中国矿业数理统计课件_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章数理统计的基本概念§2.1

引言§2.2总体、样本与统计模型§2.3统计量和抽样分布§2.4

χ2分布、t分布和F分布§2.5

次序统计量§2.6

描述性统计分析—总体特征的识别§2.1引言数理统计问题可以分为两大类:■如何科学地安排试验,以获取有效的随机数据。——描述统计学。如:试验设计、抽样方法。■研究如何分析所获得的随机数据,对所研究的问题进行科学的、合理的估计和推断,尽可能地为采取一定的决策提供依据,作出精确而可靠的结论.——推断统计学。如:参数估计、假设检验等。§2.1引言应用数理统计方法解决实际问题的基本步骤:(1)确定研究对象、研究目的;(2)数据收集与整理;(3)数据分析;(4)应用数据分析结果解决实际问题。§2.2总体、样本与统计模型1.总体研究对象的某项数量指标值的全体称为总体。总体中每个研究对象(元素)称为样本。例如:◆咱们班男生的身高;

◆人的体温;

◆徐州地区下个月的气温;

◆徐州地区下个月的降雨量;

………………总体有限总体无限总体总体可以用一个随机变量X

及其分布来描述。此总体就可以用随机变量X或其分布函数例如,研究某批灯泡的寿命时,这批灯泡中每个灯泡的寿命是我们所关心的指标.表示.2.样本样本:在总体中抽取的部分个体。样本容量:样本中所含个体的数目n。定义为了准确地进行判断,对抽样有所要求:①代表性:样本的每个分量与总体X有相同的分布函数;②独立性:为相互独立的随机变量,满足以上条件的样本称为来自总体X的容量为n的一个简单随机样本(简称样本)。样本的一次具体实现称为样本值。联合分布函数为联合概率密度为§2.3

统计量和抽样分布定义1设

是来自总体X的一个样本,为一实值连续函数,其不包含任何未知参数,则称为一个统计量。为的观测值。注:仍为随机变量。是一个数。例如总体是一个样本,则均为统计量。当未知时,均不是统计量。当已知时,均为统计量。几个常用的统计量1.样本均值2.样本方差设是来自总体X的一个样本,3.样本标准差4.样本k

阶原点矩5.样本k

阶中心矩它们的观察值分别为:其样本为例2

设总体X服从参数为λ的泊松分布,X的样本为求例1

设总体X的数学期望和方差分别为是来自总体例3设的一样本,总体的阶矩存在,证明(1)(2)证

独立且与同分布独立且与同分布由辛钦大数定律,知§2.4

几个常用的分布记为定义

设相互独立,都服从正态分布N(0,1),则称随机变量所服从的分布为自由度为

n

的分布.分布1.分布的概率密度为其中伽玛函数定理1证明

当x>0时,依定义有作球坐标变换其中该变换的Jacobi行列式为其中是的函数,与r无关其中由得显然,当x<0时,所以ξ的概率密度为相互独立,都服从标准正态证明例1

设分布证明因为所以又X1,X2,…,Xn相互独立,也相互独立。由的定义可知且X1,X2相这个性质叫分布的可加性。(1)

设互独立,则分布的性质E(X)=n,D(X)=2n(2)

若证明则所以则c

2分布的分位点称满足条件分位点.为分布的上的点对于给定的正数记作T~t(n)。所服从的分布为自由度为n的t分布.设X~N(0,1),Y~则称变量,且X与Y相互独立,2.t分布t分布的概率密度为(1)设T~t(n),则(2)t分布的概率密度关于x=0对称t分布的性质E(T)=0,D(T)=n/(n-2),n>2当n充分大时,其图形类似于标准正态分布概率密度的图形。但对于较小的n,t分布与N(0,1)分布相差很大。(3)

t

分布的分位点对于给定的正数,称满足条件分位点。为分布的上的点设X与Y相互独立,则称服从自由度为3.F

分布n1及n2的F分布,记作F~F(n1,n2)。(2)若X~F(n1,n2),则

n2>2(1)

由定义可知,~F(n2,n1)性质n2>4(3)F

分布的分位点对于给定的正数称满足条件分位点.分布的上的点为证明:

设由定义又因为故例1

设总体X,Y

相互独立其样本为试求统计量服从什么分布?解

由已知得所以例2

设总体X服从正态分布,其样本为解

由已知得所以故例3

已知总体X

服从自由度为n的t

分布,求证:解

由已知得其中故所以还能得§2.5

正态总体的统计量的分布1.单个正态总体的统计量的分布定理1设X1,X2,…,Xn是取自正态总体的样本,分别为样本均值和样本方差,则有⑴⑵⑶相互独立定理2

设总体X

服从正态分布是X的样本,分别为样本均值和样本方差,则有⑴⑵证明

因为是样本的线性组合,故,标准化后可得又因为相互独立,所以也相互独立,则由t分布的定义得2.两个正态总体的统计量的分布定理3设X1,X2,…,Xn1与Y1,Y2,…,Yn2分别是来自正态总体的样本,并且这两个样本相互独立,记则有⑴⑵当时其中例4

设总体X服从正态分布,其样本为解

由已知得,得例5

设总体X服从正态分布,其样本为解

由已知得查表例6

设总体X服从正态分布,其样本为解

因为例7

设总体X服从正态分布,其样本为解

由已知得所以标准化得又因为故例8

设总体X,Y

相互独立其样本为试求以下概率解

由已知得则所以例9一个样本,求设是来自正态总体的(1)(2)由定理2知解

例9一个样本,求设是来自正态总体的(1)(2)查表可得2.5次序统计量称为样本的次序统计量.特别地,注称为极差说明:定理1

设独立同分布,

为其次序统计量,则

若F(x)具有概率密度f(x),则X(k)的概率密度为例解样本的分布1)样本的频数分布将n个样本值按从小到大排列,把相同的数合并,并指出其频数(样本中各数出现的次数)

x频数频率2)样本的经验分布函数样本值

样本值小于或等于x的个数,作---样本的经验分布函数给出了在n次独立重复试验中,事件出现的频率,具有分布函数的一切性质。如:非降,右连续;由频数分布知若样本为n维r.v,那么对于每一样本值就可作一个经验分布函数,故是随机变量---n次独立重复试验中,事件发生的频率。由伯努利大数定律,这就是我们可以由样本推断总体的基本理论依据.格列汶科进一步证明了:当n→∞时,Fn(x)以概率1关于x一致收敛于F(x),即这就是著名的格列汶科定理.定理告诉我们,当样本容量n足够大时,对所有的x,

Fn(x)与F(x)之差的绝对值都很小,这件事发生的概率为1.2.6描述性统计分析—总体特征的识别2.6.1描述统计量1、中心位置的描述2、变异性的描述3、样本偏度系数和峰度系数■所谓描述性统计分析,就是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所代表的总体的特征。■描述性统计分析的项目很多,常用的如平均数、标准差、中位数、极差、偏态程度等等。这些分析是复杂统计分析的基础。数据分布的特征集中趋势

(位置)偏态和峰态(形状)离中趋势

(分散程度)数据分布特征的测度数据特征的测度分布的形状集中趋势离散程度众数中位数均值离散系数方差和标准差峰态四分位差异众比率偏态1.中心位置的描述(1)分类数据:众数(2)顺序数据:中位数和分位数(3)数值型数据:均值(4)众数、中位数和均值的比较(1)众数(mode)■出现次数最多的变量值■不受极端值的影响■一组数据可能没有众数或有几个众数■主要用于分类数据,也可用于顺序数据和数值型数据众数(不唯一性)■无众数

原始数据:10591268■一个众数

原始数据:659855■多于一个众数

原始数据:252828

364242(2)中位数(median)■排序后处于中间位置上的值Me50%50%■不受极端值的影响■主要用于顺序数据,也可用数值型数据,但不能用于分类数据■各变量值与中位数的离差绝对值之和最小,即样本中位数定义其观测值为(3)数值型数据的中位数

(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排

序:75078085096010801250150016302000位置:123456789中位数

1080

(4)数值型数据的中位数(10个数据的算例)【例】:10个家庭的人均月收入数据排

序:

660

75078085096010801250150016302000位置:12345678910

(5)四分位数(quartile)排序后处于25%和75%位置上的值不受极端值的影响主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QLQMQU25%25%25%25%数值型数据的四分位数(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:

15007507801080850960200012501630排

序:

75078085096010801250150016302000位置:123456789

数值型数据的四分位数(10个数据的算例)【例】:10个家庭的人均月收入数据排

序:

660

75078085096010801250150016302000位置:1234

5678910

均值(mean)集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据,不能用于分类数据和顺序数据简单均值与加权均值设一组数据为:x1,x2,…,xn各组的组中值为:M1,M2,…,Mk

相应的频数为:f1,f2,…,fk简单均值加权均值已改至此!!某电脑公司销售量数据分组表按销售量分组组中值(Mi)频数(fi)Mi

fi

140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计—12022200加权均值

(例题分析)加权均值(权数对均值的影响)

甲乙两组各有10名学生,他们的考试成绩及其分布数据如下

甲组:

考试成绩(x): 020100

人数分布(f):118

乙组:考试成绩(x): 020100

人数分布(f):811均值

(数学性质)1. 各变量值与均值的离差之和等于零

2.各变量值与均值的离差平方和最小2、变异性的描述数据分布的另一个重要特征反映各变量值远离其中心值的程度(离散程度)从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值四分位差

(quartiledeviation)对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差

QD

=QU–QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性极差(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布7891078910

R

=max(xi)-min(xi)计算公式为方差和标准差

(varianceandstandarddeviation)数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4681012

x=8.3样本方差和标准差

(simplevarianceandstandarddeviation)方差的计算公式标准差的计算公式3、样本偏度系数和峰度系数偏度系数定义为

峰度系数定义为峰度系数主要用来反映分布的偏倚性.对于所有3阶矩存在的对称分布,偏度系数为0.

偏度系数和峰度系数常用来衡量分布与正态分布的差异.正态分布的峰度系数都是0.样本偏度系数和峰度系数分别定义为偏度(skewness)统计学家Pearson于1895年首次提出数据分布偏斜程度的测度

偏度系数=0为对称分布

偏度系数>0为右偏分布偏度系数<0为左偏分布偏态与峰态

(从直方图上观察)按销售量分组(台)结论:1.为右偏分布

2.峰态适中140150210某电脑公司销售量分布的直方图190200180160170频数(天)25201510530220230240峰度(kurtosis)统计学家Pearson于1905年首次提出数据分布扁平程度的测度峰度系数=0扁平峰度适中峰度系数<0为扁平分布峰度系数>0为尖峰分布扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布比较!2.6.2总体特征的样本表现1、总体分布的常见形态2、直方图3、茎叶图4、箱线图众数、中位数和均值的关系左偏分布均值

中位数

众数对称分布

均值=中位数=

众数右偏分布众数

中位数均值1、总体分布的常见形态2、直方图(histogram)

直方图是利用观测样本对一元总体(即单个变量)的常用描述方法。当样本比较大时,我们可以把变量的取值范围划分成若干个区间,计算观测值中落入每个区间的频率列成表格并画出直方图,用来推测总体分布的形。具体步骤参见书本例2.6.3。用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布。在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。直方图下的总面积等于1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论