数理统计模型_第1页
数理统计模型_第2页
数理统计模型_第3页
数理统计模型_第4页
数理统计模型_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数理统计模型第一页,共六十六页,编辑于2023年,星期六主要内容数理统计模型概述描述性统计推论性统计模型统计模型中常见的错误统计模型建立程式第二页,共六十六页,编辑于2023年,星期六第一节数理统计模型概述一、统计分析概述统计分析通过计算研究对象的特征的样本平均值、方差,或者所占百分比,研究样本特征值与母体特征值的关系,研究变量之间的关系,特别是因果关系,从而发现被研究对象的发展规律,或者验证有关假想、结论是否成立,验证有关理论在新的时空中是否成立。进而可以针对深层原因,引出改变客观世界的策略。第三页,共六十六页,编辑于2023年,星期六二、统计的两种功能描述与推理描述性统计(descriptivestatistics)描述性统计是概括所取得数据的共有性质。推论性统计(inferentialstatistics)。推论性统计帮助研究人员对数据做出判断。第四页,共六十六页,编辑于2023年,星期六三、管理研究中统计分析的功能

统计分析的方法可以为管理研究提供一种清晰精确的形式化语言;统计分析是进行科学预测、探索未来的重要方法;统计分析技术是处理调查研究资料的必要工具。第五页,共六十六页,编辑于2023年,星期六第二节描述性统计模型一、集中趋势分析(一)含义:集中量数也称集中趋势量数,是用一个数值去代表一组数据的一般水平。常用的集中量数有平均数、中位数和众数。平均数是所有测量数据的算术平均值,中位数是将测量数据按大小顺序一分为二的变量属性值,即位于排列顺序中间位置的数值,众数是测量数据中出现频率最高的数值。第六页,共六十六页,编辑于2023年,星期六例有一组数据是9位工人本月的产量:96、96、97、99、100、101、102、104、155,则:平均数为105.5,中位数为100,众数为96。第七页,共六十六页,编辑于2023年,星期六(二)集中趋势分析的作用集中量数说明某一管理现象在一定条件下,其数量的一般水平。集中量数可以对于在不同空间的同类现象进行比较。集中量数可以对一定管理现象在不同时间中的变化进行比较,以说明这些现象的发展趋势和规律。集中量数可以用来分析某些管理现象之间的依存关系。第八页,共六十六页,编辑于2023年,星期六二、离散趋势分析(一)含义离散趋势分析是反映测量数据的分散程度,其常用指标有:极差(range)与标准差(standarddeviation)。极差是测量数据中的最大值与最小值之间的差异,由两个极端值来决定,只适用于定距与定比数据。标准差综合反映所有数据的分散程度,与平均数配套使用,适用于定距于定比数据,其计算式为:其中,为标准差,x为样本值,X为平均数,N为样本总数。第九页,共六十六页,编辑于2023年,星期六三、频数与频率分析为直观地反映一组测量数据的分布状况,经常用频数与频率分析。频数分布描述测量值中各属性值出现的次数,频率分布则是用比率的形式来表示,各属性值除以样本总数即可得到该属性值的频率。第十页,共六十六页,编辑于2023年,星期六

频数分布也可转化为可视化的表达方式,如长条图、直方图、饼图。在SPSS统计软件中,具体操作是:在统计菜单(statiatics)中单击摘要(summarize)、频数(frequencies),并在频数对话框中选择所要的图表(charts),即可获得这些图表第十一页,共六十六页,编辑于2023年,星期六第三节推论性统计模型统计推断的功能从随机样本中推断总体参数特征、以统计为基础验证假设。第十二页,共六十六页,编辑于2023年,星期六一、双变量的回归分析与相关分析4.4.1回归分析模型收入——X居民储蓄量——Y第十三页,共六十六页,编辑于2023年,星期六(一)回归模型XY第十四页,共六十六页,编辑于2023年,星期六1、回归模型的概念强的正相关弱的正相关中间程度的正相关|r

|=0.936|r

|=0.560|r

|=0.3390强的负相关弱的负相关中间程度的负相关第十五页,共六十六页,编辑于2023年,星期六确立X与Y的关联性回归…寻找“Y”与“X”关系的方法什么是回归?描述“Y”与“X”关系的数学方法-创建过程的“模型”。回归分析

相关是告诉关系的程度,回归分析是找出Y=F(X)的函数关系式

第十六页,共六十六页,编辑于2023年,星期六单纯线性回归回归分析的阶段Data收集用散点图确认关系用最小二乘法推断总体进行方差分析画直线(LineFitting)分析残差此章的因子为一个,因子和输出值(Y)的关系为直线关系的单纯线性回归(SimpleLinearRegression)第十七页,共六十六页,编辑于2023年,星期六通过样本推测的直线未知的真实直线Yi=+xi+i

(i=1,.…,n)i

是相互独立的遵守N(0,2)的概率变量单纯线性回归模型εiei(xi,yi)xy在这里,εi~iidN(0,σ2)Model

定义

一个独立变量(x)与

一个从属变量(Y)间的关系方程式化后显示的方法第十八页,共六十六页,编辑于2023年,星期六将误差平方和最小化的推断方法,找出将残差平方最小化的直线.420410400390380370360350340330320350400450独立变量从属变量最小平方和的单纯回归单纯回归直线与回归直线的差异(误差)直线是以“最小平方和推断法(leastsquareestimation)”的原则画出的.从资料的点到直线的距离的平方和最小化.第十九页,共六十六页,编辑于2023年,星期六ebScatterPlotYvs.XwithFittedLineY=a+bX直线的方程式是

Y=a+bXa是

常数,b是斜率.

“拟合线”是包括实际点和直线的平方差的和最小化后形成的直线.

实际资料的点和直线的差异称为残差(residuals(e)).拟合线,回归方程式构造第二十页,共六十六页,编辑于2023年,星期六1.回归模型的参数确定y=a+bx由历史数据得一组x、y值,可求出参数a、b由最小二乘法得:第二十一页,共六十六页,编辑于2023年,星期六例某企业年投入资本(十万元)x与销售量(万台)y的历史数据如下:yx101.920.912.440.46.451.27.060.37.078第二十二页,共六十六页,编辑于2023年,星期六例yxx2xy101.93.61020.912.4153.711.140.46.440.962.5651.27.0498.460.37.0492.12.834.7296.3324.2平均0.566.9459.264.843.88648.16第二十三页,共六十六页,编辑于2023年,星期六计算结果某企业年投入资本(十万元)x与销售量(万台)y的历史数据如下:第二十四页,共六十六页,编辑于2023年,星期六2、用软件进行回归分析的运算

(1)一元回归模型的软件运算

a.图象分析

b.回归运算第二十五页,共六十六页,编辑于2023年,星期六二、二元回归模型的软件运算

运算步骤第二十六页,共六十六页,编辑于2023年,星期六1、统计值的说明各统计值在计算机参数输出中的位置:mnmn-1…m2m1bSenSen-1…Se2Se1Sebr2SeyFdfSSregSSresid第二十七页,共六十六页,编辑于2023年,星期六1、统计值说明(1)解释变量、被解释变量:

y=m1x1+m2x2+b(2)系数

m1,m2,...,mn——系数是解释变量对预测值的贡献解释变量被解释变量第二十八页,共六十六页,编辑于2023年,星期六1、统计值说明

(3)系数的标准误差值se1,se2,...,sen系数m1,m2,...,mn的标准误差值。——真值在系数估值正负1的标准差区间概率是2/3Seb——常数项b的标准误差值第二十九页,共六十六页,编辑于2023年,星期六1、统计值说明(4)判定系数——r2——Y的估计值与实际值之比范围在0到1之间。如果为1,则样本有很好的相关性,Y的估计值与实际值之间没有差别。而在另一方面,如果判定系数为0,则回归方程不能用来预测Y值。第三十页,共六十六页,编辑于2023年,星期六1、统计值说明(5)Y估计值的标准误差——sey——真值在Y估值正负1的标准差区间概率是2/3(6)F统计值或F观察值——F使用F统计可以判断因变量和自变量之间是否偶尔发生过观察到的关系。(7)置信度——df用于在统计表上查找F临界值。所查得的值和函数LINEST返回的F统计值的比值可用来判断模型的置信度。第三十一页,共六十六页,编辑于2023年,星期六1、统计值说明(8)回归平方和ssreg(9)残差平方和ssresid第三十二页,共六十六页,编辑于2023年,星期六作业4某企业的资金投入X与销售收入Y如下表:试用一元回归方法求出回归线,说明两者的相关关系并对X=57万元企业销售额进行预测。X(万元)Y(万元)110130218180323200435250542310第三十三页,共六十六页,编辑于2023年,星期六例2

某市国内生产总值y与固定资产投入X1、劳动力投入X2的历史数据如下表,试用线性回归方法确定其参数值。序号yX1X2153911264191438221154923417512043196160562071807229第三十四页,共六十六页,编辑于2023年,星期六例2-2.087972.65182248.34758Y=2.65X1-2.09X2+48.35预测:x1=82,X2=35y=?Y=192.71第三十五页,共六十六页,编辑于2023年,星期六作业2000年某企业产品销售量Y与企业销售投入量X1、销售点增加量X2历史数据如下表,试用回归方法求其参数值。说明两者的相关关系并对(X1=140,X2=41)的Y值进行预测。第三十六页,共六十六页,编辑于2023年,星期六作业序号YX1X2142205262237383509480701259977156120891871609920819011030923012031第三十七页,共六十六页,编辑于2023年,星期六三、参数估计(一)含义参数估计是从样本的统计值来估计总体的参数值,其逻辑程序是先有样本分布,再推测总体。当样本对总体参数进行估计时,有两种估计方法:点估计(poimestimation)与区间估计(intervalestimation)。1、点估计点估计是将样本中某统计量的值作为相应总体参数值的单一估计。第三十八页,共六十六页,编辑于2023年,星期六例:想了解某种新产品在各省会城市的销售量,我们可抽去一些省会城市调查其销售量,然后求其平均值,即为平均销售量估计。当然,如果另外抽取几个城市,就会发现其平均销售量不完全一致,这说明点估计值本身就是一个随机变量。第三十九页,共六十六页,编辑于2023年,星期六2、区间估计区间估计不是采用通常度量准确性的方法,如允许估计值与真实值有百分之几的误差,而要判断真实值有多大可能落在样本统计值分布的某一范围、(置馈区间)之内。这一范围越大,估计值的准确性就越低。统计值落在允许偏差的范围的概率越大,故计值的可靠性就越高。一般来说,在管理研究中,置信水平选择95%或99%,即O.95或0.99的概率,真实值落在偏差范围之内,允许不超过0.05或O.01的概率超出此范围。第四十页,共六十六页,编辑于2023年,星期六四、假设检验(一)含义假设检验是先对总体参数作出假设,然后从样本统计值去检验它是否与假设参数值一致。第四十一页,共六十六页,编辑于2023年,星期六(二)假设检验中两类错误在假设检验中存在两类错误:样本是随机抽取的,但也有意外,例如样本没有反映典型特征。当我们错误地将偶然发生的事件当作非偶然发生的,进而错误地将虚无假设否定,则就犯了第一类错误;如果将原本错误的事件认为是正确的,没有否定本该否定的虚无假设,则就犯了第二类错误。第四十二页,共六十六页,编辑于2023年,星期六(三)t检验(t-test)是检验定距或定类变量的相关性,即在定距或定类尺度上,两群体之间是否存在差异。第四十三页,共六十六页,编辑于2023年,星期六例:有MBA资格的人员是否比企业管理专业的本科毕业生表现要好?男性与女性对激励的反映是否相同?此类问题可通过t检验来分析研究变量中不同群体的平均数是否有显著差异,亦即针对具有两个子类别的定类变量(男性与女性、MBA与本科生)进行检验,看这两个群体在定距或定比尺度上(反映程度、表现程度等)的平均数是否存在显著差异。第四十四页,共六十六页,编辑于2023年,星期六T检验方法选择分析平均值比较独立样本t检验选择分组变量选择置信水平选择置信水平输出结果第四十五页,共六十六页,编辑于2023年,星期六(四)方差分析1、含义:方差分析(ANOVA)是检验因变量是定距或定比尺度时,两个以上群体之间的平均的显著差异。第四十六页,共六十六页,编辑于2023年,星期六例:4组促销人员之间是否存在显著差异:一组被送到学校系统学习营销课程;一组通过实地考察在职训练,一组由经验丰富的销售经理进行指导,一组没有接受上述训练。利用方差分析来确定不同群体之间是否存在显著差异可通过F统计量获得。第四十七页,共六十六页,编辑于2023年,星期六2、具体方法选择分析平均值比较单因素方差分析选择两变量输出结果第四十八页,共六十六页,编辑于2023年,星期六(五)χ2检验1、含义χ2检验(chi:squaretest)是用于检验两个定类变量发生频次之间是否存在差异第四十九页,共六十六页,编辑于2023年,星期六例:在超市随机选择90位顾客征求他们对三种饮料的偏好,如果40位选择甲,30位选择乙,20位选择丙,即观测频次为(40,30,20),如果虚无假设(三种饮料的顾客偏好不存在差异)成立,其期望频次应为(30,30,30),x检验就是要判断观测频次(40,30,20)与期望频次(30,30,30)之间的差异是否显著。第五十页,共六十六页,编辑于2023年,星期六2、方法选择分析描述统计建立交叉表统计选择χ2输出结果第五十一页,共六十六页,编辑于2023年,星期六第四节统计分析中的常见错误一、样本平均值当作母体平均值对待样本平均值当作母体平均值对待,不做显著性检验,是常见错误之一第五十二页,共六十六页,编辑于2023年,星期六例:在营销研究中针对某产品设计了两种邮购广告,分别用随机抽样的方法对居民邮寄广告,甲广告寄出200份,有44位居民订购了相应的产品,乙广告寄出400,有1oo位居民订购了该产品。此时很容易算出,甲广告的订购率为22%,己广告的订购率是25%。我们是否可以依此就得出结论:乙广告设计比甲广告设计的好(乙广告的订购率高于甲广告)?

常见的错误就是直接依据两组样本的比例值(甲广告的订购率为22%,乙广告的订购率是25%)来做结论,认为乙广告优于甲广告(乙广告的订购率高于甲厂告)。第五十三页,共六十六页,编辑于2023年,星期六结论:事实上,乙广告未必优于甲广告,因为两个比例值是分别基于200个样本和400个样本得出的。如果继续扩大样本容量,甲乙两个广告的订购率就可能发生变化。我们要做的事情,就是依据这两组样本数据(甲组200个,乙组400个)来推断甲乙两种广告设计的优劣。这是显著性的检验的问题。显著性检验的结果是,不能认为两者具有显著性差异。第五十四页,共六十六页,编辑于2023年,星期六二、做相关分析时不做显著性检验做相关分析时不做显著性检验,用简单相关分析替代偏相关分析,是又一常见错误。偏相关表示在消除其他变量的影响之后,自变量与因变量之间的关联程度。第五十五页,共六十六页,编辑于2023年,星期六例:分析工人的劳动生产率与文化水平之间的关联时,要受到年龄因素的影响。偏相关分析首先用一元回归分析年龄与文化水平之间的关系,回归方程的残差(多项说明不能由文化水平来解释年龄的偏差;然后求劳动生产率与年龄之间的回归方程及残差,反映不能由年龄来解释劳动生产率的偏差;最后第三

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论