《统计学-基于R》第4章-随机变量的概率分布(R3)_第1页
《统计学-基于R》第4章-随机变量的概率分布(R3)_第2页
《统计学-基于R》第4章-随机变量的概率分布(R3)_第3页
《统计学-基于R》第4章-随机变量的概率分布(R3)_第4页
《统计学-基于R》第4章-随机变量的概率分布(R3)_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析

(方法与案例)

作者贾俊平版权所有违者必究StatisticswithR统计学R语言第4

章随机变量的概率分布4.1度量事件发生的可能性3.2随机变量概率分布3.3由正态分布导出的几个重要分布3.4样本统计量的概率分布robabilityP4.1什么是概率概率是什么?怎样获得概率?怎样理解概率?第4章随机变量的概率分布2018-9-25什么是概率?

(probability)对事件发生的可能性大小的度量明天降水的概率是80%。这里的80%就是对降水这一事件发生的可能性大小的一种数值度量购买一只股票明天上涨的可能性是30%,这也是一个概率一个介于0和1之间的一个值事件A的概率记为P(A)2018-9-25怎样获得概率?重复试验获得概率当试验的次数很多时,概率P(A)可以由所观察到的事件A发生次数(频数)的比例来逼近在相同条件下,重复进行n次试验,事件A发生了m次,则事件A发生的概率可以写为

用类似的比例来逼近一家餐馆将生存5年的概率,可以用已经生存了5年的类似餐馆所占的比例作为所求概率一个近似值主观概率

4.2随机变量的概率分布

4.2.1随机变量及其概括性度量

4.2.2随机变量的概率分布

4.2.3其他几个重要的统计分布

第4章随机变量的概率分布4.2.1随机变量及其概括性度量4.2随机变量的概率分布2018-9-25什么是随机变量?

(randomvariables)事先不知道会出现什么结果投掷两枚硬币出现正面的数量一座写字楼,每平方米的出租价格一个消费者对某一特定品牌饮料的偏好一般用X,Y,Z来表示根据取值情况的不同分为离散型随机变量和连续型随机变量2018-9-25离散型随机变量

(discreterandomvariables)随机变量X

取有限个值或所有取值都可以逐个列举出来x1,x2,…以确定的概率取这些不同的值离散型随机变量的一些例子试验随机变量可能的取值抽查100个产品一家餐馆营业一天电脑公司一个月的销售销售一辆汽车取到次品的个数顾客数销售量顾客性别0,1,2,…,1000,1,2,…0,1,2,…男性为0,女性为12018-9-25连续型随机变量

(continuousrandomvariables)可以取一个或多个区间中任何值所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点连续型随机变量的一些例子试验随机变量可能的取值抽查一批电子元件新建一座住宅楼测量一个产品的长度使用寿命(小时)半年后完工的百分比测量误差(cm)X

00X100X

02018-9-25离散型随机变量的期望值

(expectedvalue)描述离散型随机变量取值的集中程度离散型随机变量X的所有可能取值xi与其取相对应的概率pi乘积之和记为

或E(X),计算公式为

2018-9-25离散型随机变量的方差

(variance)

2018-9-25离散型数学期望和方差

(例题分析)

【例4—1】一家手机制造商声称,它们所生产的手机100个中拥有次品的个数及相应的概率如下表所示。求该手机次品数的期望值和标准差次品数X=xi0123概率P(X=xi)

pi0.750.120.080.052018-9-25用R计算期望值和方差#计算期望值#计算方差计算标准差

load("C:/example/ch4/example4_1.RData")mymean<-sum(example4_1$次品数*example4_1$概率)mymean

myvar<-sum((example4_1$次品数-mymean)^2*example4_1$概率)myvarsqrt(myvar)2018-9-25连续型随机变量的期望和方差连续型随机变量的期望值方差

4.2.2随机变量的概率分布4.2随机变量的概率分布2018-9-25离散型随机变量的概率分布列出离散型随机变量X的所有可能取值列出随机变量取这些值的概率通常用下面的表格来表示X=xix1,x2,…

,xnP(X=xi)=pip1,p2,…

,pn

P(X=xi)=pi称为离散型随机变量的概率函数pi0;常用的有二项分布、泊松分布、超几何分布等2018-9-25二项试验

(Bernoulli试验)

二项分布建立在Bernoulli试验基础上贝努里试验满足下列条件一次试验只有两个可能结果,即“成功”和“失败”“成功”是指我们感兴趣的某种特征一次试验“成功”的概率为p,失败的概率为q=1-p,且概率p对每次试验都是相同的

试验是相互独立的,并可以重复进行n次

在n次试验中,“成功”的次数对应一个离散型随机变量X

2018-9-25二项分布

(Binomialdistribution)重复进行

n

次试验,出现“成功”次数的概率分布,记为X~B(n,p)设X为n次重复试验中出现成功的次数,X取x

的概率为期望值:

=E(X)=np;方差:

2

=D(X)=npq

2018-9-25用R模拟二项分布#二项分布Binomial(5,b)图

k=seq(.1,.9,.1)par(mfrow=c(3,3),mai=c(.6,.5,.2,.1))for(iin1:9)

barplot(dbinom(0:5,5,k[i]),xlab="x",ylab="p",ylim=c(0,.6),main=substitute(B(5,b),list(b=k[i])),col="red")2018-9-25用R计算二项分布的概率#计算二项分布的概率没有次品的概率

恰好有1个次品的概率3个及3个以下次品的概率【例4-2】已知一批产品的次品率为6%,从中任意有放回地抽取5个。求5个产品中(1)没有次品的概率是多少?(2)恰好有1个次品的概率是多少?(3)有3个及以下次品的概率是多少?dbinom(0,5,0.06)dbinom(1,5,0.06)pbinom(3,5,0.06)2018-9-25连续型随机变量的概率分布连续型随机变量可以取某一区间或整个实数轴上的任意一个值它取任何一个特定的值的概率都等于0不能列出每一个值及其相应的概率通常研究它取某一区间值的概率用概率密度函数的形式和分布函数的形式来描述2018-9-25正态分布

(normaldistribution)由C.F.高斯(CarlFriedrichGauss,1777—1855)作为描述误差相对频数分布的模型而提出描述连续型随机变量的最重要的分布许多现象都可以由正态分布来描述可用于近似离散型随机变量的分布例如:二项分布经典统计推断的基础2018-9-25概率密度函数f(x)=随机变量X的频数

=正态随机变量X的均值

=正态随机变量X的方差

=3.1415926;e=2.71828x=随机变量的取值(-

<x<+

)

2018-9-25正态分布函数的性质图形是关于x=

对称钟形曲线,且峰值在x=

处均值

和标准差

一旦确定,分布形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”均值

可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。

越大,正态曲线扁平;

越小,正态曲线越高陡峭X的取值向横轴左右两个方向无限延伸,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1

2018-9-25用R模拟正态分布

(绘制平均数不同、方差相同的正态曲线)par(mai=c(0.75,0.75,0.1,0.1),cex=0.9)curve(dnorm(x,-2,1),from=-6,to=2,xlim=c(-6,6),ylab="f(x)",lty=1,lwd=3,col="red")abline(h=0);mtext(expression(mu^2+sigma^2))segments(-2,0,-2,0.4,lwd=2,col="red")curve(dnorm(x,2,1),from=-2,to=6,add=TRUE,lty=2,col="blue",lwd=3)abline(h=0)segments(2,0,2,0.4,col="blue",lty=2,lwd=2)legend(x="topright",legend=c("N(-2,1)","N(2,1)"),lty=1:2,inset=0.02,col=c("black","blue"))2018-9-25用R模拟正态分布

(绘制平均数相同、方差不同的正态曲线)par(mai=c(0.75,0.75,0.1,0.1),cex=0.9)curve(dnorm(x,0,sqrt(1/2)),from=-3,to=3,xlim=c(-4,4),ylab="f(x)",lty=1,col=2,lwd=3)abline(h=0)segments(0,0,0,0.56,col="blue",lty=2,lwd=1.5)curve(dnorm(x,0,1),from=-4,to=4,add=TRUE,lty=2,lwd=3)curve(dnorm(x,0,sqrt(2)),from=-4,to=4,add=TRUE,lty=3,col=4,lwd=3)legend(x="topright",legend=c("N(0,0.5)","N(0,1)","N(0,2)"),lty=1:3,inset=0.02,col=c(2,"black",4))2018-9-25标准正态分布的概率2018-9-25常用区间的正态概率2018-9-25标准正态分布

(standardizenormaldistribution)随机变量具有均值为0,标准差为1的正态分布任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布标准正态分布的概率密度函数

2018-9-25正态分布

(例题分析)【例4-3】计算以下概率

(1)

X~N(50,102),求和

(2)

Z~N(0,1),求和

(3)正态分布概率为0.05时,求标准正态累积分布函数的反函数值z

#计算正态分布的概率和分位数(1)pnorm(40,mean=50,sd=10)pnorm(40,mean=50,sd=10)-pnorm(30,mean=50,sd=10)(2)pnorm(2.5,mean=0,sd=1)pnorm(2,mean=0,sd=1)-pnorm(-1.5,mean=0,sd=1)(3)qnorm(0.025,mean=0,sd=1)4.2.3其他几个重要的统计分布4.2随机变量的概率分布2018-9-25

c2-分布

(

2-distribution)2018-9-25分布的变量值始终为正分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称期望为:E(

2)=n,方差为:D(

2)=2n(n为自由度)可加性:若U和V为两个独立的

2分布随机变量,U~

2(n1),V~

2(n2),则U+V这一随机变量服从自由度为n1+n2的

2分布c2-分布

(性质和特点)2018-9-25模拟不同自由度的c2分布直方图#不同自由度的c2分布(df=5)par(mfrow=c(2,3),mai=c(.6,.6,.2,.1))n=5000df=c(2,5,10,15,20,30)for(iin1:6){x<-rchisq(n,df[i])hist(x,xlim=c(0,60),prob=T,col='lightblue',xlab=expression(chi^2),ylab="Density",main=paste("df=",df[i]))curve(dchisq(x,df[i]),lwd=1.5,col=2,add=T)}2018-9-25用R计算c2分布的概率#计算c2分布的概率和分位数

pchisq(10,df=15)1-pchisq(20,df=15)qchisq(0.95,df=15)2018-9-25t-分布

(t-distribution)

2018-9-25不同自由度的t分布与标准正态分布的比较par(mai=c(0.75,0.75,0.1,0.1),cex=0.9)curve(dnorm(x,0,1),from=-3,to=3,xlim=c(-4,4),ylab="f(x)",lty=1,lwd=2,col=1)abline(h=0)segments(0,0,0,0.4,col="blue",lty=2,lwd=1.5)curve(dt(x,5),from=-4,to=4,add=TRUE,lty=2,col=2,lwd=2)curve(dt(x,2),from=-4,to=4,add=TRUE,lty=3,col=4,lwd=2)legend(x="topright",legend=c("N(0,1)","t(5)","t(2)"),lty=1:3,inset=0.02,col=c(1,2,4))2018-9-25用R计算t分布的概率#计算t分布的概率和分位数【例4—5】计算:(1)自由度为10,t值小于-2的概率;(2)自由度为10,t值大于3的概率;(3)自由度为10,t分布双尾概率为0.05时的t值pt(-2,df=10)1-pt(3,df=15)qt(0.975,df=25)2018-9-25

F-分布

(F

distribution)2018-9-25用R模拟F分布曲线#不同自由度的F分布par(mai=c(0.75,0.75,0.1,0.1),cex=0.9)curve(df(x,10,20),from=0,to=5,xlim=c(0,5),xlab="F",ylab="f(x)",lty=1,lwd=3,col=1)curve(df(x,5,10),from=0,to=5,add=TRUE,lty=2,lwd=3,col=2)curve(df(x,3,5),from=0,to=5,add=TRUE,lty=3,lwd=3,col=4)abline(h=0);abline(v=0)legend(x="topright",legend=c("F(10,20)","F(5,10)","F(3,5)"),lty=1:3,inset=0.02,col=c(1,2,4))2018-9-25用R计算F分布的概率#计算F分布的概率和分位数【例4—6】计算:(1)分子自由度为10,分母自由度为8,F值小于3的概率;(2)分子自由度为18,分母自由度为15,F值大于2.5的概率;(3)分子自由度为25,分母自由度为20,F分布累积概率为0.95时的F值pf(3,df1=10,df2=8)1-pf(2.5,df1=10,df2=8)qf(0.95,df1=10,df2=8)4.3样本统计量的概率分布

4.3.1统计量及其分布

4.3.2样本均值的分布

4.3.3其他统计量的分布

4.3.4统计量的标准误第4章随机变量的概率分布4.3.1统计量及其分布4.3样本统计量的概率分布2018-9-25参数和统计量参数(parameter)描述总体特征的概括性数字度量一个总体的参数:总体均值(

)、标准差(

)、总体比例(

);两个总体参数:(

1-2)、(

1-2)、(

1/2)总体参数通常用希腊字母表示统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数一个总体参数推断时的统计量:样本均值(

x)、样本标准差(s)、样本比例(p)等两个总体参数推断时的统计量:(

x1-

x2)、(p1-p2)、(s1/s2)样本统计量通常用小写英文字母来表示2018-9-25样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供样本统计量长远而稳定的信息,是进行推断的理论基础抽样分布

(samplingdistribution)4.3.2样本均值的分布4.3样本统计量的概率分布2018-9-25在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值

的理论基础 ·样本均值的分布2018-9-25样本均值的分布

(例题分析)

样本序号样本元素1样本元素2样本均值12222243326442855210664237444846594861041071162412645…………2018-9-25样本均值的分布与总体分布的比较load("C:/example/ch4/example4_7.RData")xx<-c(2,4,6,8,10)par(mfrow=c(1,2),mai=c(0.8,0.8,0.1,0.1))barplot(table(xx),xlab="总体分布",ylab="频率",cex.axis=0.7,cex.lab=0.7,col="pink")hist(example4_7$样本均值,breaks=rep(1.5:10.5,by=2),ylab="频率",xlab="样本均值的分布",freq=FALSE,col="lightblue",cex.axis=0.7,cex.lab=0.7,main="")curve(dnorm(x,mean(example4_7$样本均值),sd(example4_7$样本均值)),add=T,col="red",lwd=2)2018-9-25中心极限定理

(centrallimittheorem)当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值

x也服从正态分布,

x

的期望值为μ,方差为σ2/n。即

x~N(μ,σ2/n)中心极限定理从均值为

,方差为

2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布2018-9-25样本均值的分布与中心极限定理模拟#中心极限定理模拟U=均匀分布E=指数分布2018-9-25抽样分布与总体分布的关系2018-9-25样本均值的分布样本均值的期望值和方差样本均值的分布

(期望值与方差)

4.3.3其他统计量的分布4.3样本统计量的概率分布2018-9-25总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为

样本比例的分布

(proportion)2018-9-25在重复选取容量为n的样本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论