经济应用数学第4章数理统计基础_第1页
经济应用数学第4章数理统计基础_第2页
经济应用数学第4章数理统计基础_第3页
经济应用数学第4章数理统计基础_第4页
经济应用数学第4章数理统计基础_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

4.1随机变量引言4.1.1随机变量4.1.2随机变量的分布4.1.3随机变量的数字特征1自然界如日出日落,潮涨潮落,花开花谢等是必然发生的现象称为必然现象.

抛硬币猜正面向上还是反面向上,掷一枚均匀骰子几点向上等这类事先不能确定的现象称为随机现象.对随机现象进行试验称为随机试验,试验结果称为随机事件.对随机现象可能的结果取值进行量化并赋以变量,研究其变化规律,就是本节讨论的随机变量.24.1.1随机变量引例【种子发芽】

设一袋玉米种子,其发芽率为0.9,从袋中取出一粒种子,播种后可能出现的结果有两种“出苗”、“不出苗”。试讨论这种现象。【讨论】

用一个变量来描述这种情形,可能取0(不发芽),可能取1(发芽),究竟取哪个值取决于观测(试验)结果。象这类随试验结果而变化的量称为随机变量。3【乘客候车】

开往经济开发区的118路公共汽车每隔8分钟发一辆车,一位不知内情的乘客乘该路车,那么他候车的时间是多少?【讨论】

由于乘客到车站的时间是不定的,用表示其等车时间,则可以取[0,8]上的任何一个值,究竟取哪一个值,取决于试验结果,这也是一个随机变量。

引例4

一般地,我们把由随机试验的结果来确定的某一个数值表示的变量,称为随机变量,常用希腊字母等表示。

引例【种子发芽】中随机变量的取值能够一一列出(有限个或无限个),象这样随机试验可能的结果可以取可数个值的随机变量,称为离散型随机变量。

引例【乘客候车】中随机变量的取值不能一一列出,而是充满某一实数区间,这类可以在某个区间内连续取任何实数值的随机变量,称为连续型随机变量。54.1.2随机变量的分布一、概率分布列二、基本分布密度6一、概率分布列1、定义

一般地,若离散型随机变量所取的数值用表示,对应的概率为(主要讨论为有限的情形),则称等式或表格为的分布列(或的概率分布)。72、性质离散型随机变量的分布列满足以下特性:

(1)对所有的,都有(2)83、案例【出门带伞】

如果按天气预报决定是否带伞预报有雨则带伞,预报无雨则不带伞,而天气预报并非百分之百准确,预报无雨时却下雨的概率为0.2,试求5天天气预报无雨,不带伞而被雨淋的概率分布列。解设为淋雨的天数,它是一个离散型随机变量,取值范围为如果记五天中每天被雨淋事件为,没被雨淋事件为则所以9这类分布称为二项分布,记为经计算,因5天天气预报无雨而不带伞却被雨淋的概率分布列为

0.000320.00640.05120.20480.40960.32768543210

一般地,如果一个随机变量具有分布其中,则称随机变量服从参数为的二项分布,记为10二、基本分布密度

1、概念

很多情形下,需要求随机变量在某个范围内的概率,如对离散型随机变量,有.而如果存在一个非负函数,对连续型随机变量,有,则称为的概率分布密度(或分布密度),记为.112、性质

对分布密度,具有性质。可以推证,对连续型随机变量,有。这样,就有即计算连续型随机变量在某一区间的概率,可以不考虑区间是开的、闭的、还是半开半闭的.123、案例若随机变量的分布密度为,求的值.解

根据分布密度的性质则即这时,也称随机变量在区间上服从均匀分布,记为13案例【购物乘车】

从某市的轮渡码头开往中国日用品商品城的巴士,从上午5:30起,每15分钟有一班车经过,即5:30,5:45,6:00,6:15,

6:30等时刻有汽车从该站出发.如果乘客在7:00--7:30之间等可能地到达此站,试求:(1)他候车的时间不到5分钟的概率;(2)候车时间超过5分钟的概率.14(1)要候车时间不到5分钟就必须在7:10--7:15之间或者在7:2--7:30之间到达车站。因此,所求的概率为(2)要候车时间超过5分钟,乘客必须在7:00--7:10之间或

7:15--7:25之间到达车站。因此概率为解

设乘客在7:00点过分钟到达车站,则的分布密度为

154.1.3随机变量的数字特征一、随机变量的数学期望二、随机变量的函数的数学期望三、方差和标准差四、常用分布的期望与方差表16、随机变量的数学期望引例

某经济开发区造一座大型塑料模具工厂,在施工过程中欲对一大批钢筋的平均抗拉力进行测试。为此,从中随机地抽取10根测试,测得它们的抗拉强度指标为120和130各有2根,125的3根,110,135,140的各有1根,求这10根钢筋的平均抗拉强度指标值。17解

设平均抗拉强度值为则平均抗拉强度指标并不是这10根钢筋所取到的6个值的简单平均,而是取这些值的次数与试验总次数的比值(频率)为权重的加权平均数.推广结论:18案例【产品均价】

某私营水龙头生产企业对一批将要出售的水龙头进行估价,由产品检验知,其中有一、二、三等品、等外品及废品5种,相应的概率分别为0.7、0.1、0.1、0.06及0.04,若它们对应的产值分别为6元、5.4元、5元、4元及-0.5元。求产品的平均出厂价值。0.040.060.10.10.7-0.5455.46Px19解

设产品值为,则是一个离散型随机变量,由它的分布列可得如果连续型随机变量,则的数学期望由确定,即(要求收敛).20案例【设备平均荷载】

由于电力资源紧张,某汽车零件加工企业欲购置发电机,为此,先对本厂的电气负荷进行测试.

设某电气设备在某时段最大负荷的时间(单位min)是一个随机变量,其分布密度为

试求最大负荷的平均时间.解

最大负荷的平均时间,即为的数学期望21数学期望的特性(1)(2)(3)两个随机变量和的数学期望等于这两个随机变量数学期望的和,即本结论可推广到任意有限个随机变量的情况,即对于个随机变量有22二、随机变量函数的数学期望1、概念设是的函数,也是随机变量,其数学期望可以按下列公式计算:如果为离散型随机变量,其分布列为则的数学期望为如果为连续型随机变量,其分布密度为,则的数学期望为232、案例设的分布列如表所示0.1250.250.3750.25210-1Px求:

24三、方差和标准差引例

某大型建筑工地对刚进工场的两批钢筋的抗拉强度进行抽检,从中每批各取10根,它们的抗拉强度指标如下第一批110120120125125125130130135140第二批9010012012513013013514014514525如果是离散型随机变量,并且,则如果是连续型随机变量,有概率密度则1.离差称为随机变量的离差.不论为正还是负,同样都是离散程度,为了消除离差的符号影响,用随机变量离差平方来衡量对的偏差.2.方差随机变量离差平方的数学期望,称为随机变量的方差.记为或,即

.而称为的标准差,记为.26方差的特性(1)

(2)

(4)两个随机变量相互独立指的是一个随机变量的取值不影响另一个随机变量取某些值的概率.(3)两个相互独立的随机变量,则(可推广到有限个相互独立的随机变量的和)27例的分布列如表所示:0.1250.250.3750.25210-1Px求:

28常用分布的期望与方差表29例解

例已知,求由二项分布的期望与方差得得解30

4.2数理统计的基本概念引例

某钢筋厂日产某型号的钢筋10000根,为获得该批钢筋的强度资料,质量检查员每天只抽查50根的强度,我们至少可以提出如下问题:(1)如何从抽取的50根钢筋的强度数据去估计整批10000根钢筋的强度平均值?又如何估计整批钢筋强度偏离平均值的离散程度?(2)若规定了这种型号钢筋的标准强度,从抽查得的50个强度数据如何判断整批钢筋的平均强度与规定标准有无差异?(3)如果钢筋强度与某种原料成分的含量有关,那么从抽查50根得到的强度与该成分含量的50根对应的数据,如何去表达整批钢筋的强度与该成分含量之间的关系?31问题(1)要从50个强度数据出发去估计整批钢筋强度分布的某些数字特征,这里要估计数学期望与方差,在数理统计中解决这类问题的方法称为参数估计.问题(2)是要根据抽查得的数据,去检查强度分布的某一数字特征与规定标准的差异,这里是检验数学期望,数理统计中解决这类问题的方法是先作一个假设(如假设与规定标准无差异),然后检验这一假设是否成立,这种方法称为假设检验.

问题(3)是要根据观测数据研究变量间的关系,这里研究强度与成份含量两个(或两个以上)变量间的关系,这种研究方法称为回归分析.324.2.1总体与样本

1.引例2.总体3.样本4.简单随机样本5.样本观察值

33

要考察当天生产的灯泡的合格率,不可能每只都测试过去,因为一旦全部测试,结果是这批灯泡也全报废了。所以,一般情况下,只能从这5万个灯泡中选取一些灯泡做寿命测试并记录结果,然后根据这些结果来推断整批灯泡的合格率情况.

某节日灯泡厂,一天生产5万个20W的某型号的节能灯,按规定使用寿命不足1000小时的为次品,考察当天生产的灯泡的合格率.引例34

在统计中,我们将研究对象的全体所构成的集合称为总体,(一般总体是指总体的某个指标)记为

等。如“一天生产的灯泡的寿命”,从概率角度看,总体也是随机变量。

总体中的各个研究对象称为个体,记为.如“每只灯泡的寿命”.

按照一定的规则,由总体中取出若干个个体所构成的集合称为总体的一个样本,记为样本中个体的个数称为样本容量,记为概念35必须是随机的,即总体中每个个体都有同等机会被选入样本.抽样如果总体单位数无限,不重复抽样与重复抽样没有什么区别.将可重复或可看成重复的抽样称为简单随机样本.它的特点是样本中的个体相互独立,分布相同.抽样方法样本的选取不重复抽样:每次抽取一个不放回去,再抽取第二个,连续抽取n次;重复抽样:每次抽取一个进行观察后放回去,再抽取第二个,连续抽取n次。Notes:36

对于来自总体的容量为的一个样本进行一次观测,所得的一组数据称为样本的观测值,其中为第个分量.374.2.2样本平均值、方差与标准差

案例【发放贷款】

某开发区中国建设银行储蓄所,2005年上半年各月发放的工业贷款如下表所示(单位:千元),求平均每月工业贷款的发放款额是多少?月份1月2月3月4月5月6月贷款额612456431268560642313588074832解设每月工业贷款平均额为,根据题意得即平均每月工业贷款的发放款为61510千元.38样本平均值、方差与标准差概念

一般情形,若在总体

中,抽取一个容量为的样本,则称为样本均值,记为.即

称为样本方差,记为,即而称为样本标准差.

39案例【红细胞检测】

在血球计数器的400个方格的一次抽样检验中,清点每个方格中的红细胞数如表所示:试计算样本均值,方差解404.2.3统计量及分布统计量

样本均值、样本方差的共同特点是只与样本的观测值有关,不含任何未知参数.

这种由样本构成的一个不含任何参数的函数称统计量.

41一、样本平均值的分布:U分布

假设总体,为来自总体的一个样本,为样本均值,则称为U统计量.可以验证

对于U统计量,如果给定概率则把满足的点称为标准正态分布的上侧临界值.记.可以通过查正态分布表得到.

称满足条件的点为标准正态分布的双侧临界值

42例

给定概率,在标准正态分布下,求的上侧临界值和双侧临界值.解查附表得,即为上侧临界值.查表得,即为双侧临界值.

43二、统计量及分布

假设总体为来自总体的样本,是自由度为的统计量.为服从参数为的分布,记它的密度函数的基本图象如下图:1.统计量442.分布的重要结论3.临界值对2c统计量,如果给定概率)10(<<aa,满足>2(cP=a

的点l称为2c分布的a临界值,记为)(2nacl=,其值可查2c分布得到.如下图所示的阴影部分的面积

454.案例解即则查表得又则查表得46三、分布

473.临界值由上图可得484.3参数估计4.3.1点估计(矩估计法)1、引例已知从一批数据中,抽测其200个,经分组后整理如下试求这批样本数据的均值和方差2S49

人们常用这200个数据得到的样本均值和方差作为整体的样本的均值和方差的估计值.解这组样本数据的数学期望和方差为502.矩估计法的概念513.案例【零件长度测试】52解=25.4534、案例解分布函数只有一个参数,可以用总体的期望表示之.得

由题设得

所以得

54554.3.2期望的区间估计1.引入矩估计的不足:

样本的随机性(即使真正相等,由于参数值本身未知,也无从肯定这种相等)估计量的值不一定恰是参数真值562.引例【钢水含碳量】573.置信区间概念584.区间估计59案例【灯泡寿命】解=1147查正态分布临界值表得

即灯泡平均寿命的95%置信区间为(1145.25,1148.75).6061案例【婴儿体重】解

假定新生婴儿(男孩)的体重服从正态分布,随机抽取12名新生婴儿,测得其体重为3600,3020,3500,3500,4100,3660,4060,3820,3380,3100,3900,3040

试以95%的置信度估计新生男婴儿的平均体重(单位:g).62即新生男婴儿的平均体重95%的置信区间为(3318,3795).634.4假设检验4.4.1假设检验的基本思想4.4.2数学期望的双侧检验4.4.3方差的假设检验644.4.1假设检验的基本思想1.小概率事件原理实践证明,小概率事件在一次试验中几乎不可能发生,我们把它称为实际不可能发生原则。这个原则是假设检验的依据.652.引例【摸球】

设想某人拿着装有1000个球的袋子,并说“袋中的球999个是白色的而只有1个是黑色的.”如果从袋中任摸一个球竟然是黑的,我们依然会觉得这个人的说法不可信.判断思考过程是这样的:如果这1000个球中确实只有1个黑球,则从中任取一球是黑球的可能性很小,概率为1/1000,因此,当这个的说法是正确的时候,从袋中任取一球正好是黑球几乎是不可能的.现在这一事件竟然发生了,这就不能不令人怀疑这个人的说法.这其实就是一个简单的假设检验问题,所要检验的假设是“1000个球中只有一个黑球”,亦即概率是1/1000.663.案例【奶粉包装】

某私营包装厂,接得一批包装奶粉业务,要求额定标准为每袋净重454g.根据长期经验知道,所装奶粉的净重服从正态分布,标准差是12g,某日开工后,对某台包装机进行抽检,抽测了9袋,重量如下(单位g):452,459,470,475,443,464,463,467,465.问此包装机工作是否正常?解67又所以则684.假设检验步骤69704.4.2数学期望的双侧检验一、方差已知时的均值检验(U检验法)案例【钢索强度】71解72案例【罐头防腐剂】73解74案例【脉搏测试】54,67,68,78,70,66,67,70,65,6975解764.4.3方差的假设检验77案例【导线电阻检验】78解79案例【电池使用时数】80解814.5一元线性回归分析1.概念4.5.1一元线性回归方程的建立量的关系

有相关关系的变量虽然不存在确定的函数关系,但可以由一个或一组变量的大量观测值来估计或预测某一个随机变量的观察值,找出变量之间的近似关系式,这关系式称为回归方程,这样所建立的数学模型及所作的统计分析称为回归分析,如果这个模型变量间是线性关系的就称为线性回归分析.82案例【成本与产量】

飞跃机械制造公司为了研究生产某种齿轮的成本费用和产量的关系,查出近10年的成本数据,试建立适当的数学模型求成本关于产量的关系.83

编号

年份

产量ix

成本费用iy元

1

2

3

4

5

6

7

8

9

10

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

855

1701

793

1411

903

424

405

361

510

997

186762

298847

120023

257140

168894

83656

84426

71629

162074

221710

数据84散点图85

分析从散点图看到,这些点的位置大致接近某一直线.86最小二乘法(由于平方又叫乘方,因此把这种使偏离平方和最小的方法称为最小二乘法.)87回归系数推导

88则有记89求案例的回归方程则回归方程为90建立一元线性回归方程数学模型的具体步骤91案例【产值与利润】92解934.5.2回归效果的检验相关分析相关系数相关系数与回归直线的偏离相关性对相关系数的假设检验94相关分析95相关系数称整理可得96相关系数与回归直线的偏离相关性97对相关系数的假设检验98案例【成本与产量】

飞跃机械制造公司为了研究生产某种齿轮的成本费用和产量的关系,查出近10年的成本数据,试推断成本费用和产量这两个变量之间的线性相关性的强弱.99

编号

年份

产量ix

成本费用iy元

1

2

3

4

5

6

7

8

9

10

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

855

1701

793

1411

903

424

405

361

510

997

186762

298847

120023

257140

168894

83656

84426

71629

162074

221710

数据100解101案例【广告费与销售额】

以下数据是某合资公司上半年6个月中每月广告费用

x(单位:万元)和销售额y(单位:万元).

销售额广告费用654321259206153(1)试估计y与x之间的线性回归方程及意义;102解(1)估计y与x之间的线性回归方程及意义103

如果线性方程成立,则广告费用每增加10000元,销售额就增加30300元;没有广告投入,销售额仅为24000元.104即在5%显著水平下不能得出销售额与广告费用之间的关系显著的结论.1054.5.3回归方程的应用:预测

案例【预测生产总值】某区1996年--2004年国内生产总值(GDP)的资料如下表:要求建立直线趋势预测模型,预测该区2006年国内生产总值.106解设年份编号为变量为x,国内生产总值为y.即若经济发展按如此势头发展,则可以预测2006年国内生产总值.107区间估计

上例中,直接用预测模型推算的预测值代表未来实际值的预测方法是一种点预测.点预测的优点是推算简捷、结果明了,但却存在两个缺点(1)它没有给出实际值所在可能的范围;(2)它没有告诉我们预测值的可信程度.为此,需要用区间预测来克服点预测的不足.108区间估计统计量

109案例【预测生产总值】某区1996年--2004年国内生产总值(GDP)的资料如下表:预测2006年的国内生产总值的取值区间.110解此即为2006年该区国内生产总值在0.10显著水平下的预测区间.1114.6MATLAB概率统计计算4.6.1随机变量的概率计算4.6.2随机变量的数字特征的计算4.6.3参数的区间估计的计算4.6.4假设检验的计算4.6.5线性回归1124.6.1随机变量的概率计算MATLAB语句格式:(1)pdf(‘name’k,A)或pdf(‘name’k,A,B)

其中‘name’为分布的函数名,A,B为分布列中的有关参数(2)cdf(‘name’k,A)或cdf(‘name’k,A,B)

其中‘name’为分布的函数名,A、B为分布列或分布密度中的有关参数113常用分布的name函数

分布name函数分布name函数超几何分布hyge指数分布exp二项分布bino正态分布norm泊松分布poiss均匀分布unif114案例【抛硬币】115例1164.6.2随机变量数字特征的计算MATLAB语句格式mean(X)var(X)std(X)sum(X.*P)int(x*fx,a,b)%X为一向量,计算X的平均值.%计算X的方差%计算X的标准差117例解X=[70,63,58,89,45,90];Y=mean(X)Y=69.1667.Y1=var(X)Y1=314.9667118例解X=[-1,2,4,8];P=[0.125,0.25,0.375,0.25];Ex=sum(X.*P)Ex=3.8750%数学期望Ex2=sum(X.^2.*P)Ex2=23.1250Dx=Ex2-Ex^2Dx=8.1094%方差119例解symsxfx=3/5+6/5*x^2;Ex=int(x*fx,0,1)Ex=3/5%数学期望Ex2=int(x^2*fx,0,1)Ex2=11/25Dx=Ex2-Ex^2Dx=2/25%方差1204.6.2参数的区间估计MATLAB语句:[muhat,sigmahat,muci,sigmaci]=normfit(X,Alpha)121例

生成一组均值为15,方差为2.5的正态分布的随机数据,然后对这组数据进行置信度为95%的参数估计计算.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论