数理统计模型课件_第1页
数理统计模型课件_第2页
数理统计模型课件_第3页
数理统计模型课件_第4页
数理统计模型课件_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数理统计模型数理统计模型数理统计模型主要内容数理统计模型概述描述性统计推论性统计模型统计模型中常见的错误统计模型建立程式举例书籍能培养我们的道德情操,给我们巨大的精神力量,鼓舞我们前进数理统计模型数理统计模型数理统计模型主要内容数理统计模型概述1主要内容数理统计模型概述描述性统计推论性统计模型统计模型中常见的错误统计模型建立程式举例主要内容数理统计模型概述2第一节数理统计模型概述一、统计分析概述

统计分析通过计算研究对象的特征的样本平均值、方差,或者所占百分比,研究样本特征值与母体特征值的关系,研究变量之间的关系,特别是因果关系,从而发现被研究对象的发展规律,或者验证有关假想、结论是否成立,验证有关理论在新的时空中是否成立。进而可以针对深层原因,引出改变客观世界的策略。第一节数理统计模型概述一、统计分析概述3二、统计的两种功能描述与推理描述性统计(descriptivestatistics)描述性统计是概括所取得数据的共有性质。推论性统计(inferentialstatistics)。推论性统计帮助研究人员对数据做出判断。二、统计的两种功能描述与推理4三、管理研究中统计分析的功能统计分析的方法可以为管理研究提供一种清晰精确的形式化语言;统计分析是进行科学预测、探索未来的重要方法;统计分析技术是处理调查研究资料的必要工具。三、管理研究中统计分析的功能5第二节描述性统计模型一、集中趋势分析(一)含义:集中量数也称集中趋势量数,是用一个数值去代表一组数据的一般水平。常用的集中量数有平均数、中位数和众数。平均数是所有测量数据的算术平均值,中位数是将测量数据按大小顺序一分为二的变量属性值,即位于排列顺序中间位置的数值,众数是测量数据中出现频率最高的数值。第二节描述性统计模型一、集中趋势分析6例有一组数据是9位工人本月的产量:96、96、97、99、100、101、102、104、155。则:平均数为105.5,中位数为100,众数为96。例有一组数据是9位工人本月的产量:96、96、97、99、17(二)集中趋势分析的作用集中量数说明某一管理现象在一定条件下,其数量的一般水平。集中量数可以对于在不同空间的同类现象进行比较。集中量数可以对一定管理现象在不同时间中的变化进行比较,以说明这些现象的发展趋势和规律。集中量数可以用来分析某些管理现象之间的依存关系。(二)集中趋势分析的作用8二、离散趋势分析(一)含义离散趋势分析是反映测量数据的分散程度,其常用指标有:极差(range)与标准差(standarddeviation)。极差是测量数据中的最大值与最小值之间的差异,由两个极端值来决定,只适用于定距与定比数据。标准差综合反映所有数据的分散程度,与平均数配套使用,适用于定距于定比数据,其计算式为:其中,

为标准差,x为样本值,X为平均数,N为样本总数。二、离散趋势分析(一)含义9三、频数与频率分析为直观地反映一组测量数据的分布状况,经常用频数与频率分析。频数分布描述测量值中各属性值出现的次数,频率分布则是用比率的形式来表示,各属性值除以样本总数即可得到该属性值的频率。三、频数与频率分析为直观地反映一组测量数10频数分布也可转化为可视化的表达方式,如长条图、直方图、饼图。在SPSS统计软件中,具体操作是:在统计菜单(statiatics)中单击摘要(summarize)、频数(frequencies),并在频数对话框中选择所要的图表(charts),即可获得这些图表。频数分布也可转化为可视化的表达方式,如长条图、直方图、饼图。11第三节推论性统计模型统计推断的功能

从随机样本中推断总体参数特征、以统计为基础验证假设。第三节推论性统计模型统计推断的功能12一、双变量的回归分析与相关分析回归分析模型收入——X居民储蓄量——Y一、双变量的回归分析与相关分析回归分析模型收入——X13(一)回归模型XY(一)回归模型XY141、回归模型的概念强的正相关弱的正相关中间程度的正相关|r

|=0.936|r

|=0.560|r

|=0.3390

强的负相关弱的负相关中间程度的负相关

1、回归模型的概念强的正相关弱的正相关中间程度的正相关|r15确立X与Y的关联性回归…寻找“Y”与“X”关系的方法什么是回归?描述“Y”与“X”关系的数学方法-创建过程的“模型”。回归分析相关是告诉关系的程度,回归分析是找出Y=F(X)的函数关系式回归…寻找“Y”与“X”关系的方法回归分析相关是告诉关系的16单纯线性回归回归分析的阶段此章的因子为一个,因子和输出值(Y)的关系为直线关系的单纯线性回归(SimpleLinearRegression)Data收集用散点图确认关系用最小二乘法推断总体进行方差分析画直线(LineFitting)分析残差单纯线性回归回归分析的阶段此章的因子为一个,因子和输出值(Y17通过样本推测的直线未知的真实直线Yi=

+xi+

i

(i=1,.…,n)

i

是相互独立的遵守N(0,

2)的概率变量单纯线性回归模型εiei(xi,yi)xy在这里,εi~iidN(0,σ2)Model

定义

一个独立变量(x)与

一个从属变量(Y)间的关系方程式化后显示的方法通过样本推测的直线未知的真实直线Yi=+xi+18将误差平方和最小化的推断方法,找出将残差平方最小化的直线.

420410400390380370360350340330320350400450独立变量从属变量最小平方和的单纯回归单纯回归直线与回归直线的差异直线是以“最小平方和推断法(leastsquareestimation)”的原则画出的.从资料的点到直线的距离的平方和最小化.将误差平方和最小化的推断方法,找出将残差平方最小化的直线.19ebScatterPlotYvs.XwithFittedLineY=a+bX直线的方程式是

Y=a+bXa是常数,b是斜率.“拟合线”是包括实际点和直线的平方差的和最小化后形成的直线.实际资料的点和直线的差异称为残差(residuals(e)).拟合线,回归方程式构造ebScatterPlotYvs.XwithFit201.回归模型的参数确定y=a+bx由历史数据得一组x、y值,可求出参数a、b由最小二乘法得:1.回归模型的参数确定y=a+bx21例某企业年投入资本(十万元)x与销售量(万台)y的历史数据如下:yx101.920.912.440.46.451.27.060.37.078例某企业年投入资本(十万元)x与销售量(万台)y的历史数据如22例yxx2xy101.93.61020.912.4153.711.140.46.440.962.5651.27.0498.460.37.0492.1

2.834.7296.3324.2平均0.566.9459.264.843.88648.16例yxx2xy101.93.61020.912.4153.723计算结果某企业年投入资本(十万元)x与销售量(万台)y的历史数据如下:计算结果某企业年投入资本(十万元)x与销售量(万台)y的历史242、用软件进行回归分析的运算(1)一元回归模型的软件运算a.图象分析b.回归运算2、用软件进行回归分析的运算(1)一元回归模型的软件运算25二、二元回归模型的软件运算

运算步骤二、二元回归模型的软件运算运算步骤261、统计值说明各统计值在计算机参数输出中的位置:mnmn-1…m2m1bSenSen-1…Se2Se1Sebr2SeyFdfSSregSSresid1、统计值说明各统计值在计算机参数输出中的位置:mnmn-1271、统计值说明(1)解释变量、被解释变量:y=m1x1+m2x2+b(2)系数m1,m2,...,mn——系数是解释变量对预测值的贡献解释变量被解释变量1、统计值说明(1)解释变量、被解释变量:解释变量被解释变量281、统计值说明(3)系数的标准误差值Se1,Se2,...,Sen——系数m1,m2,...,mn的标准误差值。sqrt(∑(Y-Y’)^2/(N-2))/sqrt(∑(X-x)^2)其中,X为自变量,Y为因变量观测值,Y‘为线形拟合值,X平均值计为x

——真值在系数估值正负1倍的标准差区间概率是2/3Seb——常数项b的标准误差值1、统计值说明(3)系数的标准误差值291、统计值说明(4)判定系数——r2——Y的估计值与实际值之比范围在0到1之间。如果为1,则样本有很好的相关性,Y的估计值与实际值之间没有差别。而在另一方面,如果判定系数为0,则回归方程不能用来预测Y值。1、统计值说明(4)判定系数——r2301、统计值说明(5)Y估计值的标准误差——Sey——真值在Y估值正负1的标准差区间概率是2/3(6)F统计值或F观察值——F使用F统计可以判断因变量和自变量之间是否偶尔发生过观察到的关系。(7)置信度——df用于在统计表上查找F临界值。所查得的值和函数LINEST返回的F统计值的比值可用来判断模型的置信度。1、统计值说明(5)Y估计值的标准误差——Sey311、统计值说明(8)回归平方和SSreg(9)残差平方和SSresid1、统计值说明(8)回归平方和SSreg32作业4某企业的资金投入X与销售收入Y如下表:试用一元回归方法求出回归线,说明两者的相关关系并对X=57万元企业销售额进行预测。X(万元)Y(万元)110130218180323200435250542310作业4某企业的资金投入X与销售收入Y如下表:试用一元回归方法33例2某市国内生产总值y与固定资产投入X1、劳动力投入X2的历史数据如下表,试用线性回归方法确定其参数值。序号yX1X2153911264191438221154923417512043196160562071807229例2某市国内生产总值y与固定资产投入X1、劳动力投34例2-2.087972.65182248.34758Y=2.65X1-2.09X2+48.35预测:x1=82,X2=35y=?Y=192.71例2-2.0879735作业2000年某企业产品销售量Y与企业销售投入量X1、销售点增加量X2历史数据如下表,试用回归方法求其参数值。说明两者的相关关系并对(X1=140,X2=41)的Y值进行预测。作业2000年某企业产品销售量Y与企业销售投入量X1、销售点36作业序号YX1X2142205262237383509480701259977156120891871609920819011030923012031作业序号YX1X214220526223738350948037三、参数估计(一)含义参数估计是从样本的统计值来估计总体的参数值,其逻辑程序是先有样本分布,再推测总体。当样本对总体参数进行估计时,有两种估计方法:点估计(poimestimation)与区间估计(intervalestimation)。1、点估计点估计是将样本中某统计量的值作为相应总体参数值的单一估计。

三、参数估计(一)含义38例:想了解某种新产品在各省会城市的销售量,我们可抽去一些省会城市调查其销售量,然后求其平均值,即为平均销售量估计。当然,如果另外抽取几个城市,就会发现其平均销售量不完全一致,这说明点估计值本身就是一个随机变量。例:想了解某种新产品在各省会城市的销售量392、区间估计

区间估计不是采用通常度量准确性的方法,如允许估计值与真实值有百分之几的误差,而要判断真实值有多大可能落在样本统计值分布的某一范围、(置馈区间)之内。这一范围越大,估计值的准确性就越低。统计值落在允许偏差的范围的概率越大,故计值的可靠性就越高。一般来说,在管理研究中,置信水平选择95%或99%,即O.95或0.99的概率,真实值落在偏差范围之内,允许不超过0.05或O.01的概率超出此范围。2、区间估计区间估计不是采用通常度量准40四、假设检验(一)含义

假设检验是先对总体参数作出假设,然后从样本统计值去检验它是否与假设参数值一致。四、假设检验(一)含义41(二)假设检验中两类错误在假设检验中存在两类错误:样本是随机抽取的,但也有意外,例如样本没有反映典型特征。当我们错误地将偶然发生的事件当作非偶然发生的,进而错误地将虚无假设否定,则就犯了第一类错误;如果将原本错误的事件认为是正确的,没有否定本该否定的虚无假设,则就犯了第二类错误。(二)假设检验中两类错误在假设检验中存在两类错误:样本是随机42(三)t检验(t-test)是检验定距或定类变量的相关性,即在定距或定类尺度上,两群体之间是否存在差异。T检验是未知正态总体X的方差,对数学期望μ作假设检验;检验是未知正态总体X的数学期望μ,对方差作假设检验。

(三)t检验(t-test)是检验定距或定类变量的相关性,即43例:

有MBA资格的人员是否比企业管理专业的本科毕业生表现要好?男性与女性对激励的反映是否相同?此类问题可通过t检验来分析研究变量中不同群体的平均数是否有显著差异,亦即针对具有两个子类别的定类变量(男性与女性、MBA与本科生)进行检验,看这两个群体在定距或定比尺度上(反映程度、表现程度等)的平均数是否存在显著差异。例:有MBA资格的人员是否比企业管理专业的本44T检验方法选择分析平均值比较独立样本t检验选择分组变量选择置信水平选择置信水平输出结果T检验方法选择分析平均值比较独立样本t检验选择分组变量选择置45(四)方差分析1、含义:方差分析(ANOVA)是检验因变量是定距或定比尺度时,两个以上群体之间的平均的显著差异。(四)方差分析1、含义:46例:4组促销人员之间是否存在显著差异:一组被送到学校系统学习营销课程;一组通过实地考察在职训练,一组由经验丰富的销售经理进行指导,一组没有接受上述训练。利用方差分析来确定不同群体之间是否存在显著差异可通过F统计量获得。例:4组促销人员之间是否存在显著差异:一472、具体方法选择分析平均值比较单因素方差分析选择两变量输出结果2、具体方法选择分析平均值比较单因素方差分析选择两变量输出结48(五)χ2检验1、含义

χ2检验(chi:squaretest)是用于检验两个定类变量发生频次之间是否存在差异。(五)χ2检验1、含义49例:在超市随机选择90位顾客征求他们对三种饮料的偏好,如果40位选择甲,30位选择乙,20位选择丙,即观测频次为(40,30,20),如果虚无假设(三种饮料的顾客偏好不存在差异)成立,其期望频次应为(30,30,30),x检验就是要判断观测频次(40,30,20)与期望频次(30,30,30)之间的差异是否显著。例:在超市随机选择90位顾客征求他们对三种饮502、方法选择分析描述统计建立交叉表统计选择χ2输出结果2、方法选择分析描述统计建立交叉表统计选择χ2输出结果51第四节统计分析中的常见错误一、样本平均值当作母体平均值对待

样本平均值当作母体平均值对待,不做显著性检验,是常见错误之一第四节统计分析中的常见错误一、样本平均值当作母体平均值对待52例:在营销研究中针对某产品设计了两种邮购广告,分别用随机抽样的方法对居民邮寄广告,甲广告寄出200份,有44位居民订购了相应的产品,乙广告寄出400,有1oo位居民订购了该产品。此时很容易算出,甲广告的订购率为22%,己广告的订购率是25%。我们是否可以依此就得出结论:乙广告设计比甲广告设计的好(乙广告的订购率高于甲广告)?

常见的错误就是直接依据两组样本的比例值(甲广告的订购率为22%,乙广告的订购率是25%)来做结论,认为乙广告优于甲广告(乙广告的订购率高于甲厂告)。例:在营销研究中针对某产品设计了两种邮购53结论:事实上,乙广告未必优于甲广告,因为两个比例值是分别基于200个样本和400个样本得出的。如果继续扩大样本容量,甲乙两个广告的订购率就可能发生变化。我们要做的事情,就是依据这两组样本数据(甲组200个,乙组400个)来推断甲乙两种广告设计的优劣。这是显著性的检验的问题。显著性检验的结果是,不能认为两者具有显著性差异。结论:事实上,乙广告未必优于甲广告,因为54二、做相关分析时不做显著性检验做相关分析时不做显著性检验,用简单相关分析替代偏相关分析,是又一常见错误。偏相关表示在消除其他变量的影响之后,自变量与因变量之间的关联程度。二、做相关分析时不做显著性检验做相关分析时不做显著性检验,55例:分析工人的劳动生产率与文化水平之间的关联时,要受到年龄因素的影响。偏相关分析首先用一元回归分析年龄与文化水平之间的关系,回归方程的残差(多项说明不能由文化水平来解释年龄的偏差;然后求劳动生产率与年龄之间的回归方程及残差,反映不能由年龄来解释劳动生产率的偏差;最后第三个回归方程来分析第一、第二个回归方程残差之间的关联,它表示消除年龄对其他两个变量的影响后文化水平与劳动生产率之间的关联,由此算出相关系数即为偏相关系数。同样,偏相关系数的计算公式无需记忆,多数统计软件都可以输出该系数值。例:分析工人的劳动生产率与文化水平之间56结论:偏相关系数与简单相关系数在意义上是不同的,简单相关系数将其他因素作为剩余因素,任其变化而忽略不计。偏相关系数是在其他变量的关系保持不变的情况下,分析与另一变量之间的关系。值得注意的是,偏相关系数可以表示两变量之间的关联强度,但不能反映二者之间变化的定量关系结论:偏相关系数与简单相关系数在意义上是不57三、在获得数据之后,没有能力与知识、运用恰当的统计方法,引出科学的结论(一)引出科学结论的基本方法:(1)对对象系所处状况的统计,如收入的均值、方差,各种态度的百分比,某个特征量的分布等;(2)两组人群的某特征量的均值的比较,检验有无显著性差异,如培训前后业务水平、两种激励政策的效果差异、两种管理方法的效果有无显著差异。进一步检验两个随机变量构分布是否相同。三、在获得数据之后,没有能力与知识、运用恰当的统计方法,引出58

(3)方差分析,用以解决多组的平均值有无显著性差异,找出哪些因素有交叉作用;还可以从多个因素中(每个因素有多个水平),找出对效果有显著作用的因素,俗称找出关键原因。(4)相关研究用于研究变量之间是否存在相关关系,包括简单相关关系、等级相关关系、品质相关关系(如抽烟与癌症的相关关系、包装偏爱与文化程度的相关关系等),及偏相关关系(即两个变量之间的“纯”相关关系)。(3)方差分析,用以解决多组的平均值有无显著性差59回归模型是用统计分析方法建立的最常用的一类模型数学建模的基本方法机理分析测试分析通过对数据的统计分析,找出与数据拟合最好的模型不涉及回归分析的数学原理和方法通过实例讨论如何选择不同类型的模型对软件得到的结果进行分析,对模型进行改进由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。回归模型是用统计分析方法建立的最常用的一类模型数学建模的基6010.1牙膏的销售量

问题建立牙膏销售量与价格、广告投入之间的模型预测在不同价格和广告费用下的牙膏销售量收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价9.260.556.804.253.70307.930.055.803.853.8029

8.510.256.754.003.7527.38-0.055.503.803.851销售量(百万支)价格差(元)广告费用(百万元)其它厂家价格(元)本公司价格(元)销售周期10.1牙膏的销售量问题建立牙膏销售量与价格、广告投入61基本模型y~公司牙膏销售量x1~其它厂家与本公司价格差x2~公司广告费用x2yx1yx1,x2~解释变量(回归变量,自变量)y~被解释变量(因变量)

0,1

,2,3~回归系数

~随机误差(均值为零的正态分布随机变量)基本模型y~公司牙膏销售量x1~其它厂家与本公司价格差x262MATLAB统计工具箱

模型求解[b,bint,r,rint,stats]=regress(y,x,alpha)

输入

x=~n

4数据矩阵,第1列为全1向量alpha(置信水平,0.05)

b~

的估计值bint~b的置信区间r~残差向量y-xb

rint~r的置信区间Stats~检验统计量

R2,F,p

y~n维数据向量输出

由数据y,x1,x2估计

参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.0000

0

1

2

3MATLAB统计工具箱模型求解[b,bint,r,rin63结果分析y的90.54%可由模型确定参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.0000

0

1

2

3F远超过F检验的临界值p远小于

=0.05

2的置信区间包含零点(右端点距零点很近)x2对因变量y的影响不太显著x22项显著可将x2保留在模型中模型从整体上看成立结果分析y的90.54%可由模型确定参数参数估计值置信区间64销售量预测价格差x1=其它厂家价格x3-本公司价格x4估计x3调整x4控制价格差x1=0.2元,投入广告费x2=650万元销售量预测区间为[7.8230,8.7636](置信度95%)上限用作库存管理的目标值下限用来把握公司的现金流若估计x3=3.9,设定x4=3.7,则可以95%的把握知道销售额在7.8320

3.7

29(百万元)以上控制x1通过x1,x2预测y(百万支)销售量预测价格差x1=其它厂家价格x3-本公司价格x4估计65模型改进x1和x2对y的影响独立

参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.0000

0

1

2

3参数参数估计值置信区间29.1133[13.701344.5252]11.1342[1.977820.2906]-7.6080[-12.6932-2.5228]0.6712[0.25381.0887]-1.4777[-2.8518-0.1037]R2=0.9209F=72.7771p=0.0000

3

0

1

2

4x1和x2对y的影响有交互作用模型改进x1和x2对y的影响独立参数参数估计值置信区间1766两模型销售量预测比较(百万支)区间[7.8230,8.7636]区间[7.8953,8.7592](百万支)控制价格差x1=0.2元,投入广告费x2=6.5百万元预测区间长度更短略有增加两模型销售量预测比较(百万支)区间[7.8230,8.7667x2=6.5x1=0.2x1x1x2x2两模型与x1,x2关系的比较x2=6.5x1=0.2x1x1x2x2两模型与x168交互作用影响的讨论价格差x1=0.1价格差x1=0.3加大广告投入使销售量增加(x2大于6百万元)价格差较小时增加的速率更大x2价格优势会使销售量增加价格差较小时更需要靠广告来吸引顾客的眼球交互作用影响的讨论价格差x1=0.1价格差x1=0.369完全二次多项式模型MATLAB中有命令rstool直接求解x1x2从输出Export可得完全二次多项式模型MATLAB中有命令rstool直接求解7010.2软件开发人员的薪金资历~从事专业工作的年数;管理~1=管理人员,0=非管理人员;教育~

1=中学,2=大学,3=更高程度建立模型研究薪金与资历、管理责任、教育程度的关系分析人事策略的合理性,作为新聘用人员薪金的参考

编号薪金资历管理教育0113876111021160810303187011130411283102

编号薪金资历管理教育422783716124318838160244174831601451920717024619346200146名软件开发人员的档案资料

10.2软件开发人员的薪金资历~从事专业工作的年数71分析与假设y~薪金,x1~资历(年)x2=

1~管理人员,x2=

0~非管理人员1=中学2=大学3=更高资历每加一年薪金的增长是常数;管理、教育、资历之间无交互作用

教育线性回归模型a0,a1,…,a4是待估计的回归系数,

是随机误差中学:x3=1,x4=0;大学:x3=0,x4=1;更高:x3=0,x4=0分析与假设y~薪金,x1~资历(年)x2=1~管72模型求解参数参数估计值置信区间a011032[1025811807]a1546[484608]a26883[62487517]a3-2994[-3826-2162]a4148[-636931]R2=0.957F=226p=0.000R2,F,p

模型整体上可用资历增加1年薪金增长546管理人员薪金多6883中学程度薪金比更高的少2994大学程度薪金比更高的多148a4置信区间包含零点,解释不可靠!中学:x3=1,x4=0;大学:x3=0,x4=1;更高:x3=0,x4=0.x2=

1~管理,x2=

0~非管理x1~资历(年)模型求解参数参数估计值置信区间a011032[1025873残差分析方法

结果分析残差e与资历x1的关系

e与管理—教育组合的关系

残差全为正,或全为负,管理—教育组合处理不当

残差大概分成3个水平,6种管理—教育组合混在一起,未正确反映。应在模型中增加管理x2与教育x3,x4的交互项

组合123456管理010101教育112233管理与教育的组合残差分析方法结果分析残差e与资历x1的关系e与管理—教74进一步的模型增加管理x2与教育x3,x4的交互项参数参数估计值置信区间a011204[1104411363]a1497[486508]a27048[68417255]a3-1727[-1939-1514]a4-348[-545–152]a5-3071[-3372-2769]a61836[15712101]R2=0.999F=554p=0.000R2,F有改进,所有回归系数置信区间都不含零点,模型完全可用

消除了不正常现象

异常数据(33号)应去掉

e~x1

e~组合进一步的模型增加管理x2与教育x3,x4的交互项参数参数估75去掉异常数据后的结果参数参数估计值置信区间a011200[1113911261]a1498[494503]a27041[69627120]a3-1737[-1818-1656]a4-356[-431–281]a5-3056[-3171–2942]a61997[18942100]R2=0.9998F=36701p=0.0000e~x1

e~组合R2:0.957

0.999

0.9998F:226

554

36701置信区间长度更短残差图十分正常最终模型的结果可以应用去掉异常数据后的结果参数参数估计值置信区间a011200[176模型应用

制订6种管理—教育组合人员的“基础”薪金(资历为0)组合管理教育系数“基础”薪金101a0+a39463211a0+a2+a3+a513448302a0+a410844412a0+a2+a4+a619882503a011200613a0+a218241中学:x3=1,x4=0;大学:x3=0,x4=1;更高:x3=0,x4=0x1=

0;x2=

1~管理,x2=

0~非管理大学程度管理人员比更高程度管理人员的薪金高

大学程度非管理人员比更高程度非管理人员的薪金略低

模型应用制订6种管理—教育组合人员的“基础”薪金(资历为077对定性因素(如管理、教育),可以引入0-1变量处理,0-1变量的个数应比定性因素的水平少1软件开发人员的薪金残差分析方法可以发现模型的缺陷,引入交互作用项常常能够改善模型

剔除异常数据,有助于得到更好的结果注:可以直接对6种管理—教育组合引入5个0-1变量

对定性因素(如管理、教育),可以引入0-1变量处理,0-1变7810.3酶促反应

问题研究酶促反应(酶催化反应)中嘌呤霉素对反应速度与底物(反应物)浓度之间关系的影响

建立数学模型,反映该酶促反应的速度与底物浓度以及经嘌呤霉素处理与否之间的关系

设计了两个实验:酶经过嘌呤霉素处理;酶未经嘌呤霉素处理。实验数据见下表:

方案底物浓度(ppm)0.020.060.110.220.561.10反应速度处理764797107123139159152191201207200未处理6751848698115131124144158160/10.3酶促反应问题研究酶促反应(酶催化反应)中嘌呤霉79线性化模型

经嘌呤霉素处理后实验数据的估计结果

参数参数估计值(×10-3)置信区间(×10-3)

15.107[3.5396.676]

20.247[0.1760.319]R2=0.8557F=59.2975p=0.0000对

1

,2非线性

1,

2线性

线性化模型经嘌呤霉素处理后实验数据的估计结果参数参数估计80线性化模型结果分析

x较大时,y有较大偏差1/x较小时有很好的线性趋势,1/x较大时出现很大的起落

参数估计时,x较小(1/x很大)的数据控制了回归参数的确定

1/y1/xxy线性化模型结果分析x较大时,y有较大偏差1/x较小时有81[beta,R,J]=nlinfit(x,y,’model’,beta0)beta的置信区间MATLAB统计工具箱

输入

x~自变量数据矩阵y~因变量数据向量beta~参数的估计值R~残差,J~估计预测误差的Jacobi矩阵

model~模型的函数M文件名beta0~给定的参数初值

输出

betaci=nlparci(beta,R,J)非线性模型参数估计functiony=f1(beta,x)y=beta(1)*x./(beta(2)+x);x=;y=;beta0=[195.80270.04841];[beta,R,J]=nlinfit(x,y,’f1’,beta0);betaci=nlparci(beta,R,J);beta,betacibeta0~线性化模型估计结果[beta,R,J]=nlinfit(x,y,’mod82非线性模型结果分析参数参数估计值置信区间

1212.6819[197.2029228.1609]

20.0641[0.04570.0826]画面左下方的Export输出其它统计结果。拖动画面的十字线,得y的预测值和预测区间剩余标准差s=10.9337最终反应速度为半速度点(达到最终速度一半时的x值)为其它输出命令nlintool给出交互画面o~原始数据+~拟合结果

非线性模型结果分析参数参数估计值置信区间1212.681983混合反应模型

x1为底物浓度,x2为一示性变量

x2=1表示经过处理,x2=0表示未经处理

β1是未经处理的最终反应速度

γ1是经处理后最终反应速度的增长值

β2是未经处理的反应的半速度点

γ2是经处理后反应的半速度点的增长值在同一模型中考虑嘌呤霉素处理的影响混合反应模型x1为底物浓度,x2为一示性变量在84o~原始数据+~拟合结果混合模型求解用nlinfit和nlintool命令估计结果和预测剩余标准差s=10.4000

参数参数估计值置信区间

1160.2802[145.8466174.7137]

20.0477[0.03040.0650]

152.4035[32.413072.3941]

20.0164[-0.00750.0403]

2置信区间包含零点,表明

2对因变量y的影响不显著参数初值(基于对数据的分析)经嘌呤霉素处理的作用不影响半速度点参数未经处理经处理o~原始数据混合模型求解用nlinfit和nlinto85o~原始数据+~拟合结果未经处理经处理简化的混合模型

简化的混合模型形式简单,参数置信区间不含零点剩余标准差s=10.5851,比一般混合模型略大估计结果和预测参数参数估计值置信区间

1166.6025[154.4886178.7164]

20.0580[0.04560.0703]

142.0252[28.941955.1085]o~原始数据未经处理经处理简化的混合模型简化的混合模型形86一般混合模型与简化混合模型预测比较实际值一般模型预测值Δ(一般模型)简化模型预测值Δ(简化模型)6747.34439.207842.73585.44465147.34439.207842.73585.44468489.28569.571084.73567.0478……………191190.83299.1484189.05748.8438201190.83299.1484189.05748.8438207200.968811.0447198.183710.1812200200.968811.0447198.183710.1812简化混合模型的预测区间较短,更为实用、有效预测区间为预测值

Δ一般混合模型与简化混合模型预测比较实际值一般模型预测值Δ(一87注:非线性模型拟合程度的评价无法直接利用线性模型的方法,但R2与s仍然有效。酶促反应

反应速度与底物浓度的关系非线性关系求解线性模型

求解非线性模型机理分析嘌呤霉素处理对反应速度与底物浓度关系的影响混合模型

发现问题,得参数初值引入0-1变量简化模型

检查参数置信区间是否包含零点注:非线性模型拟合程度的评价无法直接利用线性模型的方法,但R8810.4投资额与国民生产总值和物价指数

问题建立投资额模型,研究某地区实际投资额与国民生产总值(GNP)及物价指数(

PI

)的关系2.06883073.0424.5201.00001185.9195.0101.95142954.7474.9190.96011077.6166.491.78422631.7401.9180.9145992.7144.281.63422417.8423.0170.8679944.0149.371.50422163.9386.6160.8254873.4133.361.40051918.3324.1150.7906799.0122.851.32341718.0257.9140.7676756.0125.741.25791549.2206.1130.7436691.1113.531.15081434.2228.7120.7277637.797.421.05751326.4229.8110.7167596.790.91物价指数国民生产总值投资额年份序号物价指数国民生产总值投资额年份序号根据对未来GNP及PI的估计,预测未来投资额

该地区连续20年的统计数据

10.4投资额与国民生产总值和物价指数问题建立投资额89时间序列中同一变量的顺序观测值之间存在自相关以时间为序的数据,称为时间序列

分析许多经济数据在时间上有一定的滞后性

需要诊断并消除数据的自相关性,建立新的模型若采用普通回归模型直接处理,将会出现不良后果

投资额与国民生产总值和物价指数

……………………1.32341718.0257.9140.7676756.0125.741.25791549.2206.1130.7436691.1113.531.15081434.2228.7120.7277637.797.421.05751326.4229.8110.7167596.790.91物价指数国民生产总值投资额年份序号物价指数国民生产总值投资额年份序号时间序列中同一变量的顺序观测值之间存在自相关以时间为序的数据90基本回归模型投资额与GNP及物价指数间均有很强的线性关系t~年份,yt~投资额,x1t~GNP,x2t~物价指数

0,1,2~回归系数x1tytx2tyt

t~对t相互独立的零均值正态随机变量基本回归模型投资额与GNP及物价指数间均有很强的线性关系t91基本回归模型的结果与分析

MATLAB统计工具箱

参数参数估计值置信区间

0322.7250[224.3386421.1114]

10.6185[0.47730.7596]

2-859.4790[-1121.4757-597.4823]R2=0.9908F=919.8529p=0.0000剩余标准差s=12.7164没有考虑时间序列数据的滞后性影响R2=0.9908,拟合度高模型优点模型缺点可能忽视了随机误差存在自相关;如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论