版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
刘文/p>
应用概率统计
课程内容(针对教材)概率论基础回顾与R统计软件【熟悉】数理统计基本概念与抽样分布【掌握】参数估计【掌握*】假设检验【掌握*】含6.1非参数检验回归分析【掌握*】7.
方差分析与正交试验【掌握*】8.
多元统计分析【了解】课程目标1.掌握数理统计的基本理论和具体方法2.结合R统计软件应用各种统计方法
3.提供一种解决实际问题的思路参考文献1.教材:《应用统计方法》,梁飞豹等编著,北京大学出版社2.高惠璇,统计计算,应用多元统计分析,北京大学出版社3.薛毅,陈立萍,统计建模与R软件,清华大学出版社4.吴喜之,复杂数据统计方法—基于R的应用,中国人民大学出版社引例:生活中的问题1.彩票中奖能预测吗?2.如果一对夫妻第一胎是女孩可再生一个小孩,但不能生育第三个小孩,这样的政策是否会影响下一代男女比例?3.抽签某饮料,其容量是否明显不合格?4.收入与学历是否有关?近视与性别是否有关?5.能否预测今年第一次强冷空气出现日期?6.红楼梦后40回是否是高鹗续写的?第一章概率论基础及R软件使用1、随机事件及其概率2、一维随机变量及分布3、多维随机变量及分布4、数字特征5、大数定律及中心极限定理6、R软件使用第一章概率论基础布莱士·帕斯卡(1623-1662)雅各布·伯努利(1654-1705)泊松(1781—1840)棣莫弗(1667-1754)拉普拉斯(1749-1827)高斯(1777-1855)第一章概率论基础安德列·柯尔莫哥洛夫(1903-1987)1.1随机事件及其概率样本空间与随机事件事件的概率条件概率与乘法公式事件的独立性1.2随机变量及其分布随机变量及分布函数所谓随机变量及其分布随机变量函数的分布名称概率分布数学期望方差两点分布二项分布泊松分布正态分布均匀分布指数分布1.3随机变量的数字特征数学期望方差协方差与相关系数多维随机变量的数字特征多维随机变量的数字特征多维随机变量的数字特征1.4极限定理初步随机变量序列的收敛性多维随机变量的数字特征中心极限定理设X是n次独立试验中事件A发生的次数,p是事件A在每次试验中发生的概率,则对任给的ε>0,■伯努利大数定律1654-17051.4大数定律■切比雪夫大数定律设{Xn}是两两不相关的随机变量序列,它们的期望、方差均存在并且D(Xi)≤C,i=1,2,…,则对任意的ε>0,有1.4大数定律1821—18941.4大数定律设{Xn}为独立同分布随机变量序列,若每个Xi的数学期望存在,即E(Xi)=μ,i=1,2,…,则{Xn}服从大数定律,即对任意的ε>0,有■辛钦大数定律(苏)1894~19591.4中心极限定理设X1,X2,…是独立同分布的随机序列,且E(Xi)=,D(Xi)=,i=1,2,…,令■林德伯格-列维(独立同分布)中心极限定理)则Yn的分布函数收敛到标准正态分布函数,即当n充分大时,n个具有期望和方差的独立同分布的随机变量之和近似服从正态分布.■棣莫弗-拉普拉斯(二项分布)中心极限定理设随机变量 ,令则Yn的分布函数收敛到标准正态分布函数,即棣莫弗1667-17541.4中心极限定理定理表明,当n很大,0<p<1是一个定值时,服从二项分布的变量X近似服从正态分布N(np,np(1-p)).1.5R统计软件
S语言(AT&TBell)RS-PlusRobertGentlemanRossIhaka奥克兰大学MathSoft公司开源免费…基本语法向量矩阵列表数据框与分布相关的函数数据的图形表示1.5R统计软件基本语法1.变量使用即定义:变量名区分大小写,也可用中文命名变量赋值可采用4种形式:=,<-,->,assign()变量类型自动由变量赋值确定。a=10;b<-20;30->c;assign(“d”,40)中国=“中华人民共和国”#生成字符串变量2.注释符号# 语句连接符;1.5R统计软件3.查看帮助help(round)?abs向量向量的赋值(一维数组,下标从1开始)a=c(d1,d2,d3,…)间隔为1的等差序列:a:b指定间隔的等差序列:seq(from,to,by)重复序列:rep(vec,times)
rep(vec,times,len,each)
a=c(3,5,8,10);b=1:10;c=seq(1,10,2);d=seq(-pi,pi,0.2)e=rep(a,3);f=rep(a,2,each=3)随机向量rnorm(10)#10个服从标准正态分布的随机数1.5R统计软件a=1:5a[2] #取出a中第二个元素a[c(2,4)]=c(4,8) #修改a中第2、4个元素分别为4、8a[-5] #扣除第5个元素取出来a=a[-c(1,3,5)]#去掉第1、3、5元素.a<3 #判断a中元素是否小于3[1]TRUETRUEFALSEFALSEFALSEa[a<3] #取出a中小于3的元素2.向量的下标运算1.5R统计软件matrix(data=NA,nrow=1,ncol=1,byrow=FALSE)
A=matrix(1:10,2,5)B=matrix(1:10,2,5,byrow=TRUE)#按行放置元素注意:默认是按列放置元素[,1][,2][,3][,4][,5][1,]12345[2,]678910[,1][,2][,3][,4][,5][1,]13579[2,]246810
矩阵(二维数组)
1.5R统计软件x=matrix(rnorm(24),4,6)#第2行第三列的元素x[2,4]#第1和第3列x[,c(1,3)]#除去第1、3列的数据
x[,-c(1,3)]
1.矩阵的元素访问1.5R统计软件2.矩阵的维数问题 dim(A)#获得维数,返回向量 nrow(A),ncol(A)#获得行数和列数
rownames(A),colnames(A)#访问各维名称1.5R统计软件3.矩阵运算+,-,*,/分别是矩阵内部元素的四则运算向量矩阵间:向量按列匹配与矩阵运算例如:A=matrix(1:6,nrow=3);B=matrix(10:15,nrow=3)C=c(100,200)则:A+BA*BA+C1117105210120413192270202105152136901032061.5R统计软件A%*%B#乘法t(mat) #转置det(mat) #行列式
solve(mat) #逆矩阵eigen(mat) #求特征值与特征向量cbind(A,B)#矩阵列拼合rbind(A,B)#矩阵行拼合
1.5R统计软件列表列表是一种特殊的对象集合,各元素类型任意生成:list(name1=value1,…,namen=valuen)访问/修改:对象名[[下标]]或对象名$nameistu=list(age=10,name=“Tom”,interests=c(“swimming”,”drawing”))stu[[2]]stu$namestu$name=“john”
names(stu)#得到所有的对象名1.5R统计软件数据框是R的一种数据结构,以矩阵形式保存数据各列类型可以不同,每列为一变量,每行为样品各列长度相等data.frame()stu=data.frame(name=c('Tom','Rose'),age=c(30,32))
names(stu)#得到所有的变量名colnames(stu) #列名rownames(stu)#得到行名x=as.data.frame(matrix(1:6,nrow=2))#矩阵转化为数据框1.5R统计软件数据框#从文件中获取数据D1=read.table(“e:\\test1.txt”,header=TRUE)#从剪贴板中获得文本数据D2=read.table(“clipboard”)#取出前两行数据x[1:2,]#第一列的数据x[,1];#或x[[1]]1.5R统计软件dnorm(x,mean=0,sd=1)#计算正态分布的密度函数pnorm(p,mean=0,sd=1)#计算正态分布的分布函数qnorm(q,mean=0,sd=1)#计算正态分布的分位数rnorm(n,mean=0,sd=1)#计算n个正态分布的随机数其它分布的关键词:unif,exp, chisq,t,f,binom, pois#得到参数为1的指数分布在2的密度函数值dexp(2,1)#产生5个均匀分布U(0,10)的随机数runif(5,0,10)与分布相关的函数1.5R统计软件数据的图形表示1.5R统计软件x=seq(-10,10,2);y=rnorm(11);plot(x,y)
plot(x,y,main="散点图",xlab="横坐标x",ylab="纵坐标y")plot(x,y,type="o",col="red",pch=2,lty=3)1.散点图plot(x,y,…)type=“p”#散点图,默认type=“l’#绘实线type=“o”#实线通过所有的点type=“n”#不画点参数lty表示线的类型0=blank,1=solid(default),2=dashed,3=dotted,4=dotdash,5=longdash,6=twodash
1.5R统计软件低水平作图函数有points(x=,y=) #增加点(x,y)lines(x=,y=)#增加(x,y)连成的线abline(a=,b=)#增加线y=a+bxtext(x=,y=,labels=)#增加文本legend(x,y=,legend,col)#增加标注1.5R统计软件1.5R统计软件大数定律模拟mb=rep(0,400)for(iin1:400){x=rexp(50*i,0.5)mb[i]=mean(x)}plot(50*(1:400),mb,xlab="随机数个数",ylab="平均值",col=rainbow(400))abline(h=2);1.5R统计软件二项分布与正态分布的比较compare=function(N,p){plot(0:N,dbinom(0:N,N,p))x=seq(0,N,by=0.2);lines(x,dnorm(x,N*p,sqrt(N*p*(1-p))),col="red")}compare(30,0.2)第二章数理统计的基本概念与抽样分布§2.1数理统计的基本概念§2.2经验分布函数与直方图§2.3统计中三个常见分布§2.4抽样分布一个统计问题总有它明确的研究对象.■总体与样本…研究某批灯泡的寿命研究对象的全体称为总体,总体中每个成员称为个体.总体2.1数理统计的基本概念为推断总体分布及各种特征,随机地从总体中抽取若干个体进行观察试验,这一抽取过程称为“抽样”,所抽取的部分个体称为样本.样本中所包含的个体数目称为样本容量.一旦取定一组样本,得到的是n个数(x1,x2,…,xn),称为样本的一次观察值,简称样本观测值.容量为n的样本可以看作n维随机变量(X1,X2,…,Xn)2.1数理统计的基本概念设X1,X2,…,Xn为总体X的一个容量为n的样本。若它满足独立性,即X1,X2,…,Xn相互独立;同分布性,即每个Xi都与总体X服从相同的分布.则称这样的样本为简单随机样本,简称为样本。简单随机样本2.1数理统计的基本概念总体、样本、样本值的关系总体(理论分布)?样本样本值统计是从手中已有的资料--样本值,去推断总体的情况---总体分布F(x)的性质.2.1数理统计的基本概念统计量设X1,X2,…,Xn是总体X的样本,g(X1,X2,…,Xn)是样本的实值函数,且不包含任何未知参数,则称g(X1,X2,…,Xn)为统计量。2.1数理统计的基本概念样本均值样本方差常用统计量样本k阶原点矩样本k阶中心矩2.1数理统计的基本概念
2.1数理统计的基本概念样本极差样本中位数顺序统计量将样本按照其观测值从小到大依次排序形成的有序变量称为顺序统计量。最小顺序统计量 最大顺序统计量R软件中统计量的计算
mean(x) #样本均值var(x);sd(x) #样本方差和标准median(x)#样本中位数range(x),min(x),max(x)#极差,最小,最大sort(x)#排序样本
设X1,X2,…,Xn是取自总体X的样本,对应的次序统计量为X(1)
X(2)…X(n),当给定次序统计量的观测值x(1)
x(2)…x(n)时,对任意实数x,称下面函数为总体X的经验分布函数。经验分布函数2.2经验分布函数与直方图
例1:从总体X中抽取容量为8的样本,其观测值为33,45,25,33,35,65,30,27。试求X的经验分布函数。
解:将样本观测值由小到大排序得25<27<30<33=33<35<45<652.2经验分布函数与直方图2.2经验分布函数与直方图定理(Glivenko(格列文科)1933):设总体X的分布函数为F(x),经验分布函数为Fn(x),则有
经验分布函数图形绘制n=c(20,50,100,500);x=seq(-4,4,0.2);op=par(mfrow=c(2,2));for(iin1:4){plot(x,pnorm(x),type='l',col='red',main=paste('n=',n[i]))xr=rnorm(n[i]);lines(ecdf(xr),verticals=T,do.points=FALSE)#画经验分布函数折线}par(op)2.2经验分布函数与直方图
直方图某地区30名2000年某专业毕业实习生实习期满后的月薪数据如下:9091091967123210961164108610711572950808971112010818257751224950999113091412031044866132013369921025871738频数直方图绘制:hist(X)2.2经验分布函数与直方图
2.2经验分布函数与直方图
hist(X,breaks=seq(700,1600,150))#改进频数直方图,修改区间hist(Y,breaks=seq(700,1600,150),freq=F)#画组距比例直方图2.3统计中三个常见分布记为定义:设相互独立,都服从正态分布N(0,1),则称随机变量:
所服从的分布为自由度为n
的分布的密度函数为来定义.其中伽玛函数通过积分2.3统计中三个常见分布2.3统计中三个常见分布性质1:独立可加性性质2:期望为n,方差为2n性质3:n充分大时,近似服从正态分布N(n,2n)例1.设X1,X2,…,
Xn是来自总体N(μ,σ2)的简单随机样本,求随机变量2.3统计中三个常见分布2.3统计中三个常见分布T的密度函数为:记为T~t(n).
定义:设X~N(0,1),Y~,且X与Y相互独立,则称变量所服从的分布为自由度为n的t分布.2.t分布2.3统计中三个常见分布2.3统计中三个常见分布例2.设X1,X2,…,Xn是来自正态总体N(0,4)
的样本,试问c=()统计量服从t分布?2.3统计中三个常见分布3.F分布服从自由度为n1及n2的F分布,n1称为第一自由度,n2称为第二自由度,记作F~F(n1,n2).定义:设X与Y相互独立,则称统计量2.3统计中三个常见分布2.3统计中三个常见分布F分布性质1
若X~F(m,n),则1/X~F(n,m)F分布性质2若X
~t(n),则X2~F(1,n)2.3统计中三个常见分布
例3.设X1,X2,…,Xn是来自正态总体N(0,1)
的样本,试问c=()统计量服从F分布?■概率分布的分位点设随机变量X的分布函数为F(x),α为给定的常数,且0<α
<1.若存在xα,使2.3统计中三个常见分布则称xα为随机变量X关于α的上侧分位点。常见分布的分位点标准正态分布卡方分布t(n)分布F(m,n)分布2.3统计中三个常见分布
分位点的性质(1)(2)(3)2.3统计中三个常见分布R软件中分位点的计算qnorm(p,mean,sd)qchisq(p,df)qt(p,df)qf(p,df1,df2)2.4抽样分布定理1:设X1,X2,…,Xn是来自正态总体N(μ,σ2)的样本,则定理2:设总体 且X与Y独立,X1,X2,…,Xm是取自X的样本,Y1,Y2,…,Yn是取自Y的样本,则有2.4抽样分布2.4抽样分布非正态总体下,也有很多应用广泛的抽样定理(1)来自指数分布的独立随机样本,则有(2)对于二项分布,有近似的抽样定理(3)利用中心极限定理,可以推出与上述类似的抽样定理1、生成100个正态分布N(2,4)随机数x,计算平均值、样本方差、中位数以及x和x3的相关系数。2.在同一图中绘制参数为3的t分布和标准正态分布的密度函数图形,请分别以不同颜色显示.作业3.若总体为参数为0.5的指数分布,多次抽样,每次样本量均为10,绘制统计量
的直方图,观察形态,是否像正态分布,若样本量均为300呢?第三章参数估计§3.1点估计§3.2估计量的评价标准§3.3区间估计§3.4正态总体参数的区间估计§3.5非正态总体参数的区间估计§3.6单侧置信区间设总体X的分布函数为F(x;Ө),其中Ө为未知参数(Ө可以是向量).现从该总体抽样,得到样本X1,X2,…,Xn,从样本出发构造适当的统计量作为参数Ө的估计量,即点估计。将x1,…,xn
代入估计量,得到Ө的估计值3.1点估计矩估计样本k阶原点矩总体k阶原点矩矩估计基本思想:用样本矩估计总体矩.大数定律:K.皮尔逊3.1点估计设总体的分布函数中含有k个未知参数(1)它的前k阶原点矩都是这k个参数的函数,记为:(2)用样本i阶原点矩替换总体i阶原点矩3.1点估计(3)解方程组,得
θi=hi(X1,X2,…,Xn)(i=1,2,…,k);3.1点估计则称hi(X1,X2,…,Xn)为θi的矩法估计量,记而称hi(x1,x2,…,xn)为θi的矩法估计值。总体期望、方差的矩估计量分别是样本均值和样本二阶中心矩。例1.设总体X的数学期望和方差分别是μ,σ2
,求μ,σ2的矩估计量。3.1点估计例2:设电话总机在某段时间内接到呼唤的次数服从参数λ未知的泊松分布,现在收集了如下42个数据:接到呼唤次数012345出现的频数71012832求未知参数λ的矩估计。3.1点估计(3)若样本值为2.5、1、11、5.5,计算θ的矩估计值。例3.设X1,X2,…,Xn是来自总体的样本,求(1)参数θ的矩估计量;
(2)若样本值为2.5、7、11、5.5,计算θ的矩估计值。3.1点估计极大似然估计法引例:设甲、乙两人投篮命中率分别为0.9和0.3,现两人在一起轮流投篮,若某次球恰好投进,请推测谁投进了这个球.R.A.Fisher(1890~1962)3.1点估计例1.设总体X服从参数为λ的泊松分布.x1,x2,…,xn是来自该总体的样本,请估计参数λ.若总体分布中有未知参数,当已知一组样本值,选取适当的参数,使样本值出现的概率最大,这种估计参数的方法就是极大似然估计法。3.1点估计◆似然函数设总体X的概率分布中有未知参数,X1,X2,…,Xn是来自总体X的样本,则称样本的联合概率函数为样本的似然函数,简记为.若X为离散型;若X为连续型,概率密度为3.1点估计对于固定的样本观测值x1,x2,…,xn。如果有(Θ是θ的取值范围),使得◆极大似然估计量(MaximumLikelihoodEstimation)则称为θ的极大似然估计值,而称相应的统计量为极大似然估计量.3.1点估计例1:设总体X服从参数为λ的泊松分布.x1,x2,…,xn是来自该总体的样本值,求λ的极大似然估计值.3.1点估计解:令上式等于零,解得3.1点估计例2.
设总体X的概率密度为其中
>0是未知参数.设X1,X2,…Xn是来自总体X的样本,求的极大似然估计量.3.1点估计解:令上式等于零,解得3.1点估计附:矩估计解得令3.1点估计◆求极大似然估计量的一般步骤:(1)写出似然函数(2)对似然函数取对数(3)求导数,令其为零(4)求解方程,若方程有解3.1点估计例3.设总体X~N(μ,σ2),其中μ,σ2是
未知参数。求μ,σ2的极大似然估计。3.1点估计3.1点估计例4.设X1,X2,…,Xn为取自总体U[0,θ]的样本,求θ的极大似然估计量。3.1点估计引例:设X1,X2,…,Xn是来自总体U[0,θ]的样本,如何比较参数θ以下几个估计量的优良性。3.2点估计量的评价标准评价一个估计量的好坏,不能仅仅依据一次试验的结果,而必须由多次试验结果来衡量.即确定估计量好坏必须在大量观察的基础上从统计的意义来评价。常用的几条标准是:1.无偏性2.有效性3.一致性3.2点估计量的评价标准一、无偏性则称为的无偏估计.设是未知参数的估计量,若3.2点估计量的评价标准则称较有效.都是参数
的无偏估计量,若有设和二、有效性3.2点估计量的评价标准例1:设X1,X2,X3是来自某总体X的样本,且E(X)=μ,讨论μ的以下估计量的无偏性和一致性。3.2点估计量的评价标准例2:设X1,X2,…,Xn是来自某总体X的样本,且,判断的矩估计量是否是无偏估计。3.2点估计量的评价标准三、一致性(相合性)是参数
的估计量,若有设则称是参数
的一致估计量.3.2点估计量的评价标准则称区间是θ
的置信度为
的置信区间.分别称为置信下限和置信上限.满足设θ
是一个待估参数,给定若由样本X1,X2,…Xn确定的两个统计量3.3区间估计例1:随机地从一批服从正态分布N(μ,0.022)的零件16个,分别测得其长度为:2.14 2.10 2.13 2.15 2.13 2.12 2.13 2.102.15 2.12 2.14 2.10 2.13 2.11 2.14 2.11估计该批零件的平均长度μ,并求μ的置信区间(α=0.05)3.3区间估计求置信区间的步骤(1)构造仅与待估参数θ
有关,但分布已知的函数U;(2)给定置信度1-α,得常数a,b,使
P{a<U<b}=1-α;(3)将a<U<b变形,使得:(4)结论3.3区间估计3.4正态总体参数的区间估计期望的区间估计
σ2已知时μ的置信区间
σ2未知时μ的置信区间2.求方差的区间估计
μ已知时σ2的置信区间
μ未知时σ2的置信区间单正态总体四种类型的区间估计例1:随机从一批服从的零件中抽取9件,分别测得长度(单位:cm)为:2.14,2.10,2.13,2.15,2.13,2.12,2.13,2.15,2.11试估计这批零件的平均长度,并求置信区间解:通常采用样本均值估计总体均值,即由得故区间估计为3.4正态总体参数的区间估计3.4区间估计-单正态总体区间估计例2:随机从一批服从的零件中抽取9件,分别测得长度(单位:cm)为:2.14,2.10,2.13,2.15,2.13,2.12,2.13,2.15,2.11试估计这批零件的平均长度,并求置信区间例3:科学上的很多重大发现往往由年轻人提出,下表是16世纪中到20世纪的12项重大科学突破的情况:科学发现科学家时间年龄日心说哥白尼154340望远镜、天文学基本定律伽利略160043动力学、万有引力牛顿166523电的本质富兰克林174640燃烧即氧化拉瓦锡177431地球的演变莱尔1830333.4正态总体参数的区间估计进化论达尔文185849光的电磁特性麦克斯韦186433放射性居里夫人189831量子力学普朗克190143狭义相对论爱因斯坦190526概率量子力学—波动力学
薛定谔192639假定年龄服从正态分布,问什么年龄段科学家们将可能做出重要的工作?3.4正态总体参数的区间估计3.4单正态总体区间估计——R软件#问题1:已知方差,求期望的区间估计x=c(2.14,2.10,2.13,2.15,2.13,2.12,2.13,2.15,2.11)n=length(x);level=0.05;xigma=0.02mx=mean(x)u_half=qnorm(1-level/2)left=mx-xigma*u_half/sqrt(n)right=mx+xigma*u_half/sqrt(n)data.frame(left=left,right=right)#问题2,方差未知,求期望的区间估计,
t.test(x)u_half=qt(1-level/2,n-1);xigma=sd(x)left=mx-xigma*u_half/sqrt(n)right=mx+xigma*u_half/sqrt(n)data.frame(left=left,right=right)#问题3,求方差的区间估计u_half1=qchisq(level/2,n-1);u_half2=qchisq(1-level/2,n-1)left=xigma^2*(n-1)/u_half2right=xigma^2*(n-1)/u_half1data.frame(left=left,right=right)双总体设总体X~N(μ1,σ12),总体Y~N(μ2,σ22),X1,X2,…,Xm来自X,Y1,Y2,…,Yn来自Y,且两样本相互独立。均值差μ1-μ2的区间估计方差比σ12/σ22的区间估计3.4正态总体参数的区间估计3.4正态总体参数的区间估计例1:今抽样甲乙两地区18~25岁女青年身高的数据如下:甲地区抽取50名,样本均值为163cm,样本标准差为4cm;乙地区抽取50名,样本均值为159cm,样本标准差为3cm。假设身高均服从正态分布(1)假设两个总体具有公共方差,求的置信水平为90%的置信区间;(2)求两总体方差比σ12/σ22的区间估计.3.4双正态总体区间估计——R软件x=c(86,87,56,93,84,93,75,79);
y=c(80,89,58,91,81,92,74,76)sxy=sd(x-y);n=length(x);
mx=mean(x);
my=mean(y)sx=var(x);sy=var(y);t_half=qt(1-level/2,2*n-2)sw=sqrt(((n-1)*sx+(n-1)*sy)/(2*n-2))data.frame(left=mx-my-t_half*sw*sqrt(2/n),right=mx-my+t_half*sw*sqrt(2/n))#方差相等改写成R内置的函数:t.test(x-y)#t.test(x,y,paired=TRUE)配对t.test(x,y,var.equal=TRUE)#方差相等的3.4区间估计-双正态总体区间估计R计算程序f_half1=qf(level/2,n-1,n-1)f_half2=qf(1-level/2,n-1,n-1)data.frame(left=sx/sy/f_half2,right=sx/sy/f_half1)R内置函数var.test(x,y,conf.level=0.95)3.5非正态总体参数的区间估计(1)指数分布R计算程序n=length(x);mx=mean(x);base=2*n*mx;x_half1=qchisq(level/2,2*n)x_half2=qchisq(1-level/2,2*n)data.frame(left=x_half1/base,right=x_half2/base)3.5非正态总体参数的区间估计(2)0-1分布例:从某场生产的一批产品中抽查了100件,发现其中次品10件,求这批产品一级品率的置信度为95%的置信区间。3.5非正态总体参数的区间估计3.5非正态总体参数的区间估计第四章假设检验基本概念单正态总体假设检验双正态总体假设检验非正态总体假设检验非参数-分布函数拟合检验非参数-独立性检验4.1假设检验的基本概念假设检验参数假设检验非参数假设检验总体分布已知,检验关于未知参数的某个假设总体分布未知时的假设检验问题假设检验:根据样本的信息检验关于总体的某个假设是否正确.生产流水线上罐装可乐不断地封装,然后装箱外运.怎么知道这批罐装可乐的容量是否合格呢?例1:罐装可乐的标准容量是250毫升通常的办法是每隔一段时间进行抽样检查.4.1假设检验的基本概念以上实际例子的解决都需要我们根据问题本身提出假设,然后根据样本的信息对假设进行检验,并作出判断。H0:检验是否为真的假设称为原假设/零假设;H1:与H0对立的假设称为备选假设。4.1假设检验的基本概念小概率事件原理:概率很小的事件在一次试验中几乎不可能发生。需预先指定一个很小的数,一般地,取α=0.05或0.01,称为检验的显著性水平。4.1假设检验的基本概念1.提出假设2.3.设现在生产的容量X~ ,抽取了4罐,其容量分别为248,246,252,242,问能否依然认为?4.1假设检验的基本概念检验统计量:接受域:拒绝域:4.1假设检验的基本概念假设检验中的两类错误以真为假(弃真)以假为真(取伪)H0为真实际情况决定拒绝H0接受H0H0不真第一类错误正确正确第二类错误4.1假设检验的基本概念提出假设H0作出决策建立检验统计量确定拒绝域显著性水平样本值代入计算统计量的值显著性检验4.1假设检验的基本概念双侧检验:4.1假设检验的基本概念左侧检验:设现在生产的容量X~ ,抽取了4罐,其容量分别为248,246,252,242,问是否明显小于250?(α=0.05)4.1假设检验的基本概念右侧检验:设现在生产的容量X~ ,抽取了4罐,其容量分别为254,249,252,248,问是否明显大于250?(α=0.05)4.1假设检验的基本概念双侧检验:左侧检验:右侧检验:4.1假设检验的基本概念拒绝域:拒绝域:4.2单正态总体假设检验(1)关于正态总体均值的假设检验(方差已知)(2)关于正态总体均值的假设检验(方差未知)(3)关于正态总体方差的假设检验(均值未知)(4)关于正态总体方差的假设检验(均值已知)(实际上很少用)(1)(3)(2)(4)4.2单正态总体假设检验例2:某部门对当前市场的价格情况进行调查。以鸡蛋为例,所抽查的全省15个集市上,售价分别为(单位:元/500克)5.055.315.345.825.305.846.105.905.184.885.225.345.625.285.305.525.545.30已知往年的平均售价一直稳定在5.25元/500克左右,能否认为全省当前的鸡蛋售价明显高于往年?(显著水平α=0.05)?mean(D)[1]5.435556>sd(D)[1]0.31651084.2单正态总体假设检验——R软件t.test(x,alternative=c("two.sided","less","greater"),mu=0)#函数中的mu指定均值,alternative指定类型(双侧,左侧,右侧)回顾:用传统工艺加工的某种水果罐头中,每瓶的平均维生素C的含量为19(mg).现改变了加工工艺,抽查了16瓶,测得维C含量的平均值为20.2,标准差为1.617.假定水果罐头中维C含量服从正态分布。问使用新工艺后维C的含量是否有显著改变(显著水平α=0.05)?4.2单正态总体假设检验4.3双正态总体假设检验问题:(1)均值差的假设检验(方差已知)(2)均值差的假设检验(方差未知,但相等)(3)均值差的假设检验(方差未知,不相等)(4)均值差的假设检验(方差未知,不相等,样本容量较大)(5)方差比的假设检验(均值未知)(1)(2)(5)4.3双正态总体假设检验例3:某连队两个班进行快速打靶训练,假定命中环数服从正态分布,现测得两个班的成绩如下:A:9,8,9.5,10,8.5,7,8.5,9,9.5,9,8.2,7.5,8,8.7,8.6B:8.8,9.2,7.8,6.8,7,8,9,10,9.5,8.5,7.8,8.1(1)两个班的打靶成绩的波动是否有显著差异?(2)若两班波动率一致,A班成绩是否显著高于B班的成绩?例4.现要比较甲乙两种橡胶制成的轮胎的耐磨性,从两种轮胎中各随机抽取8个,各取一个组成一对,再随机选取八架飞机,将八对轮胎随机地搭配给八架飞机,做耐磨性试验,经过了一定时间的起落后,测的轮胎磨损量数据如下,试问两种轮胎的耐磨性又无显著性的差异?序号12345678甲49005220550060206340766086504870乙49304900514057006110688079305010Z: -30 320 360 320 230780720-1404.3双正态总体假设检验4.3双正态总体假设检验4.3双正态总体假设检验——R软件#均值差检验t.test(x,y=NULL,alternative=c(“two.sided”,“less”,“greater”),mu=0,paired=FALSE,var.equal=FALSE)#方差检验var.test(x,y,ratio=1,alternative=c(“two.sided”,“less”,“greater”))4.4非正态总体假设检验0-1分布4.4非正态总体假设检验例2:工商部分随机抽查某工厂生产的一批产品,按规定次品率不大于3%才能出厂。现从这批产品中随机抽查100件,发现5件次品,问:这批产品能否依然出厂(显著性水平0.05)?若6件呢?4.5非参数假设检验在不假定总体分布的前提下,从数据本身出发获取可靠的结论,隶属非参数统计推断(Nonparametricstatisticalinference)范畴。在这种情况下,非参数方法优于参数方法,更符合实际情况;但在总体分布已知的前提下,参数方法就更为精确和有效。例1:在一小时内用户对电话中心的呼叫次数按每分钟统计如下所示,问:每分钟电话呼叫次数是否服从泊松分布?(显著性水平=0.05)次数0123456>=7频数81617106210(注:[次数1,频数16]表示有16个分钟,每分钟只接到1个电话)4.5.1非参数假设检验-分布函数检验某地区30名2000年某专业毕业实习生实习期满后的月薪数据如下:909109196712321096116410861071157295080897111201081825775122495099911309141203104486613369921025871738试问月薪是否服从正态分布?4.5.1非参数假设检验-分布函数检验再如,某工厂制造一批骰子,声称它是均匀的.骰子是否均匀?4.5.1非参数假设检验-分布函数检验K.皮尔逊4.5.1非参数假设检验-分布函数检验将总体X的取值范围分成m个互不重迭的小区间,(ai-1,ai],i=1,…,m把落入第i个小区间的样本值的个数记作ni,称为观察频数.1.抽取样本2.作直方图4.5.1非参数假设检验-分布函数检验根据所假设的理论分布,可以算出总体X的值落入第i个区间[ai-1,ai
)的概率pi=F0(ai)-F0
(ai-1)于是npi就是样本落入第i个区间的理论频数.3.计算理论频数标志着经验分布与理论分布之间的差异的大小.皮尔逊引进如下统计量表示经验分布与理论分布之间的差异:观察频数理论频数4.5.1非参数假设检验-分布函数检验皮尔逊定理4.5.1非参数假设检验-分布函数检验例1:指一颗骰子60次,结果如下:点数频数ni172831241159613npi1010101010104.5.1非参数假设检验-分布函数检验4.5.1分布检验-Pearson卡方检验例2:在一小时内用户对电话中心的呼叫次数按每分钟统计如下所示,问:每分钟电话呼叫次数是否服从泊松分布?(显著性水平=0.05)次数0123456>=7频数81617106210(注:[次数1,频数16]表示有16个分钟,每分钟只接到1个电话)注:离散型分布的拟合检验。4.5.1分布检验-Pearson卡方检验次数0123456>=7频数81617106210Pi0.1350.2710.2720.1800.0900.0360.0120.003n=60,m=8,k=1结论:接受原假设,认为数据分从泊松分布。4.5.1分布检验-Pearson卡方检验R检验过程:x=c(0,1,2,3,4,5,6,7);ni=c(8,16,17,10,6,2,1,0)n=sum(ni);k=1;m=8;level=0.05;mx=sum(x*ni)/n;#估计参数pi=dpois(x,mx);pi[m]=1-sum(pi[1:(m-1)])#计算piY=sum(ni^2/(n*pi))-n#计算卡方统计量值w=qchisq(1-level,m-k-1);#计算检验临界值if(Y<w)print('接受原假设')elseprint('拒绝原假设')#或者使用chisq.test函数chisq.test(ni,p=pi)Chi-squaredtestforgivenprobabilitiesdata:niX-squared=0.5595,df=7,p-value=0.99924.5.1分布检验-Pearson卡方检验例3:检验下面数据是否服从正态分布?(a=0.05)(176,172,170,175,167,167,172,180,178,172,173,170,168,175,171,166,170,175,176,176,176,177,165,172,172,168,167,165,160,165,173,163,160,162,168,178,172,170,169,175,165,168)4.5.1分布检验-Pearson卡方检验x=c(176,172,170,175,167,167,172,180,178,172,173,170,168,175,171,166,170,175,176,176,176,177,165,172,172,168,167,165,160,165,173,163,160,162,168,178,172,170,169,175,165,168)n=length(x);m=5;#区间个数a=c(150,160,165,170,175,185);ni=table(cut(x,br=a))qi=pnorm(a[-1],mean(x),sd(x));pi=qi;pi[2:(m-1)]=qi[2:(m-1)]-qi[1:(m-2)]pi[m]=1-qi[m-1]Y=sum(ni^2/(n*pi))-n#计算卡方统计量值p=1-pchisq(Y,m-3);#计算检验临界值4.5.1分布检验--k-s检验K-S检验(Kolmogorov-Smirnov检验):是利用经验分布与假设分布偏差的上确界构建统计量,并对假设分布进行检验的一种方法,适合于连续型随机变量。注:该方法构造了一个经验分布与假设分布的偏差上确界统计量D.若两个分布接近或相同,则D值应较小,若D值太大则可否认分布相等的原假设。
4.5.1分布检验--k-s检验用法:ks.test(x,F,p1,p2)x样本,待检验分布函数F,分布参数pi如正态性检验:ks.test(x,pnorm,mu,xigma)以例3数据为例:ks.test(x,pnorm,mean(x),sd(x))正态分布的检验还有如下方法shapiro.test(x)4.5.1分布检验–QQ图Q-Q图专门用来处理正态性检验的一种直观图形方法。基本原理:经验分布函数近似分布函数(频率近似概率)4.5.1分布检验–QQ图直观判断:如果绘制的散点几乎位于一条直线上,则可认定数据服从正态分布。上图的数据点两端偏离直线较远,中间数据较接近直线,基本上认定服从“正态分布”。qqnorm(x)#plot(qnorm(ecdf(x)(x)),x)qqline(x)
4.5.2独立性检验–列联表检验问题背景:两个随机变量X,Y(都是离散定性取值),及其样本频数观测值,研究这两个变量是否有关系?(没关系就是独立),比如:吸烟与肺癌有关系吗?学生课程通过与否与学生性别有关系吗?学生课程通过与否与教师性别有关系吗?4.5.2独立性检验–列联表检验考试通过未通过教师性别男女11247171498660年龄层儿童中青年老年疗效显著一般较差5537313043442318144.5.2独立性检验–列联表检验列联表独立性检验,数据形如Y∑12…sX1n11n12…n1sn1.2n21n22…n2sn2.………………rnr1nr2…nrsnr.∑n.1n.2…n.sn4.5.2独立性检验–列联表检验分析:若X,Y独立则的偏差应该较小,于是构造:4.5.2独立性检验–列联表检验显然该统计量值若太大则原假设不成立,即拒绝域为:例1:某治疗感冒的药在三个年龄层的临床试验如下,试分析疗效与年龄层是否有关?年龄层儿童中青年老年疗效显著一般较差5537313043442318144.5.2独立性检验–列联表检验年龄层合计儿童中青年老年疗效显著一般较差55373112330434411723181455合计10898892954.5.2独立性检验–列联表检验输出结果:
Pearson'sChi-squaredtestdata:xX-squared=10.8241,df=4,p-value=0.02861因为p值较小,所以拒绝原假设,认为疗效与年龄层有关系。#列联表检验程序:x=matrix(c(55,30,23,37,43,18,31,44,14),3,3)chisq.test(x)4.5.2独立性检验–列联表检验考试通过未通过教师性别男女11247171498660例1:学生课程通过与否与教师性别有关系吗?考试合计通过未通过教师性别男女1124717184114986602158合计262213773999若r=2,s=2时,检验统计量可简化为第五章回归分析相关分析线性回归模型最小二乘估计及其性质回归方程和回归系数的检验因变量的预测自变量的选择非线性回归5.1相关分析设(xi,yi)(i=1,2,…,n)为一组样本,则简单相关系数(Pearson积矩相关系数)定义为随机变量之间的相关系数:5.1相关分析相关系数r[1]1[1]-1[1]0.8270126[1]-0.5595056[1]0.1831816[1]0.1984835n=50;x=rnorm(n);y1=2*x+1;y2=-2*x+1;y3=2*x^3+rnorm(n,0,3);y4=-2*x+rnorm(n,0,3);y5=rnorm(n,0,4);y6=x^2;5.1相关分析直观上看相关系数绝对值越接近1,则变量之间的线性关系越强,相关系数绝对值越接近0,则变量之间的线性相关性越弱。由于样本的随机性,即使理论上相关系数为a,实际计算出来的相关系数b也不一定等于a。比如a=0,但是b不等于0是否就意味着变量之间相关呢?5.1相关分析一般对相关系数检验的提法是构造统计量:拒绝域cor.test(x,y5)5.2相关分析——R软件R软件中通过cor.test(x,y)软件会给出检验p值Pearson'sproduct-momentcorrelationdata:xandy5t=1.291,df=48,p-value=0.2029alternativehypothesis:truecorrelationisnotequalto095percentconfidenceinterval:-0.10027920.4391385sampleestimates:cor0.1831816Pearson'sproduct-momentcorrelationdata:xandy4t=-4.6769,df=48,p-value=2.4e-05alternativehypothesis:truecorrelationisnotequalto095percentconfidenceinterval:-0.7249515-0.3330218sampleestimates:cor-0.5595056cor.test(x,y4)5.2线性回归模型例:为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,…,8岁,每个层抽10个男孩,共抽60个男孩。资料如下:年龄3岁4岁5岁6岁7岁8岁身高92.596.5106.0115.5125.5121.597.0101.0104.0115.5117.5128.596.0105.5107.0111.5118.0124.096.5102.0109.5110.0117.0125.597.0105.0111.0114.5122.0122.592.099.5107.5112.5119.0123.596.5102.0107.0116.5119.0120.591.0100.0111.5110.0125.5123.096.0106.5103.0114.5120.5124.099.0100.0109.0110.0122.0126.5平均身高95.4101.8107.6113.1120.6124.05.2线性回归模型一元线性回归模型随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响x对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。5.2线性回归模型5.2线性回归模型多元线性回归模型5.2线性回归模型高斯-马尔可夫Gauss-Markov线性回归模型定义5.3最小二乘法估计5.3最小二乘法估计经验回归方程:5.3最小二乘法估计例1:一元线性回归5.3最小二乘法估计例2:某气象站收集了15年关于年初的最高温度出现日期X(从1月11日算起,连续三天气温高于20度)与秋季第一次强冷空气出现日期Y(从9月11日算起,连续三天气温低于20度)的数据,数据123456789101112131415x2517303132282930211181828614y22152630342527347111920199145.3最小二乘法估计回归拟合值拟合向量残差值残差向量H,I-H均为对称幂等矩阵,且X’(I-H)=0,(I-H)X=05.3最小二乘法估计5.3最小二乘法估计5.3最小二乘法估计——性质例1(组合称重法)在天平的两个秤盘上分别放上这四个物体中的几个,并在其中的一个秤盘上加上砝码使之达到平衡。则有线性回归模型其中y为使天平达到平衡所需的砝码重量。约定,如果砝码在左边秤盘上则y为负值。xi的值为0,1或-1,0表示第i个物体没有被称,1和-1分别表示该物体放在左边和右边秤盘上。回归系数就是相应物体的重量,我们总共称了4次,如下:yx1x2x3x420.28.09.71.911111-11-111-1-11-1-115.3最小二乘法估计——性质回顾.求下面模型中参数a,b的最小二乘估计已知5.3最小二乘法估计——性质lm(y~x)#y为向量,x可为向量与矩阵lm(y~x+0)#回归方程没有常数项lm(y~x1+x2+I(x1^2))#自变量有三项x1,x2,x1^2lm(y~x1+x2,data=X)#X为数据框,y,x1,x2为其中变量名lm(y~.,data=X)#自变量为其它所有变量lm(y~.-x2,data=X)#自变量为除x2的其它所有变量5.3最小二乘法估计——R软件lm() #建立线性回归模型例1:某气象站收集了15年关于年初的最高温度出现日期X(从1月11日算起,连续三天气温高于20度)与秋季第一次强冷空气出现日期Y(从9月11日算起,连续三天气温低于20度)的数据,数据123456789101112131415x2517303132282930211181828614y22152630342527347111920199145.3最小二乘法估计flm=lm(y~x)summary(flm)plot(x,y,main="一元回归图")abline(flm)points(x,flm$fitted,col="red",pch=3)例2:民航客运量数据和身高等调查数据5.3最小二乘法估计——性质例3:一元线性回归及性质x取值越分散,系数波动越小5.3最小二乘法估计——性质TotalSumofSquaresRegressionSumofSquaresErrorsumofsquares= +5.4回归方程和回归系数的检验STSRSE复相关系数与决定系数决定系数R25.4回归方程和回归系数的检验回归模型的检验5.4回归方程和回归系数的检验方差来源平方和自由度F值回归误差总计pn-p-1n-15.4回归方程和回归系数的检验回归系数的检验5.4回归方程和回归系数的检验5.4回归分析——R软件#水泥放热试验分析X=read.table('clipboard',header=TRUE)l=lm(y~.,data=X)summary(l)Residuals:Min1QMedian3QMax-3.1750-1.67090.25081.37833.9254Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)62.405470.07100.8910.3991x11.55110.74482.0830.0708.x20.51020.72380.7050.5009x30.10190.75470.1350.8959x4-0.14410.7091-0.2030.8441Residualstandarderror:2.446on8degreesoffreedomMultipleR-squared:0.9824,AdjustedR-squared:0.9736
F-statistic:111.5on4and8DF,p-value:4.756e-07点预测5.5因变量的预测区间预测5.5因变量的预测例:一元预测x0离平均值越近,预测区间长度越短5.5因变量的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年中国酶退浆剂数据监测研究报告
- 2024年造纸检测仪器项目评价分析报告
- 2024至2030年中国腌制食用菌数据监测研究报告
- 2024至2030年中国磨瓦楞机辊砂轮行业投资前景及策略咨询研究报告
- 2024至2030年中国生物识别指纹考勤机行业投资前景及策略咨询研究报告
- 2024至2030年中国滚筒式检测线数据监测研究报告
- 2024至2030年中国气球插花行业投资前景及策略咨询研究报告
- 2024至2030年中国插头桐木床行业投资前景及策略咨询研究报告
- 2024至2030年中国定焦盘拉板式信号灯座行业投资前景及策略咨询研究报告
- 2024至2030年中国双面豪华期刊架行业投资前景及策略咨询研究报告
- 海南省海口市2023-2024学年九年级上学期期末语文试题B卷(解析版)
- 2024年度生产设备操作安全协议
- 城市公共交通条例
- 第5课用发展的观点看问题2023-2024学年中职高教版2023哲学与人生
- 2021大学生个人职业生涯规划书6篇
- 《心灵的色彩》课件-2024-2025学年人美版(2024)初中美术七年级上册
- 2020年江苏徐州中考满分作文《当你需要时有我》4
- 设备技术员年终工作总结
- 2023电化学储能电站消防安全标准铅炭电池(铅酸电池)
- 2024年比特币投资项目发展计划
- 农业行业:农业众筹模式推广方案
评论
0/150
提交评论