管理学研究方法04-统计分析方法(一)_第1页
管理学研究方法04-统计分析方法(一)_第2页
管理学研究方法04-统计分析方法(一)_第3页
管理学研究方法04-统计分析方法(一)_第4页
管理学研究方法04-统计分析方法(一)_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、管理学研究方法(管理学研究方法(4)-统计分析方法(一)统计分析方法(一)学习目标学习目标了解和认识统计数据在管理研究中的重要作了解和认识统计数据在管理研究中的重要作用用理解、掌握统计数据处理的基本方法理解、掌握统计数据处理的基本方法理解、掌握统计学的基本概念和基本方法理解、掌握统计学的基本概念和基本方法(描述统计、统计推断、抽样调查)(描述统计、统计推断、抽样调查)理解、掌握数据分析的基本技术与方法(方理解、掌握数据分析的基本技术与方法(方差分析、相关分析、因素分析、回归分析)差分析、相关分析、因素分析、回归分析)学会应用学会应用Microsoft Excel、SPSS进行数据处理、进行数据

2、处理、数据分析、模型估计、假设检验等。数据分析、模型估计、假设检验等。学会用统计分析方法研究实际的管理学问题。学会用统计分析方法研究实际的管理学问题。 主要参考文献主要参考文献1.1. 李怀祖:李怀祖:管理研究方法论管理研究方法论,第,第5 5章第章第1 1、2 2节。节。2.2. 陈晓萍:陈晓萍:组织与管理研究的实证方法组织与管理研究的实证方法,第,第9 9章。章。3.3. 马庆国:马庆国:管理统计管理统计数据获取、统计原理、数据获取、统计原理、SPSSSPSS工具与应用研究工具与应用研究,科学出版社,科学出版社,20062006年。年。4.美美 戴维戴维R安德森等著:安德森等著:商务与经济

3、统计商务与经济统计,中译,中译本,张建华等译,机械工业出版社,本,张建华等译,机械工业出版社,2003年。年。5.柯惠新等:柯惠新等:调查研究中的统计分析方法调查研究中的统计分析方法, 北京广北京广播学院出版社播学院出版社, 1999年。年。6.李心愉:李心愉:应用统计学应用统计学,北京大学出版社北京大学出版社,1999年。年。7.卢纹岱主编:卢纹岱主编:SPSS for Windows - 统计分析统计分析, 电子电子工业出版社工业出版社, 2000年。年。统计学方法在管理学研究中的应用统计学方法在管理学研究中的应用1. 描述统计与统计图表:数据分析中的最直接表述!描述统计与统计图表:数据分

4、析中的最直接表述!2. 分组数据的统计与分析:比较分析或对比分析分组数据的统计与分析:比较分析或对比分析3. 相关分析:变量间相关与依存关系的解释相关分析:变量间相关与依存关系的解释4. 回归分析:变量间因果关系及其影响程度回归分析:变量间因果关系及其影响程度5. 误差与标准差:误差与标准差:3、6与质量控制与质量控制6. 假设检验:研究中命题或理论的检验假设检验:研究中命题或理论的检验7. 抽样调查与数据分析:调查研究、市场调研抽样调查与数据分析:调查研究、市场调研8. 时间序列与统计决策:预测与决策时间序列与统计决策:预测与决策9. 因子分析与主成分分析:主要影响因素分析因子分析与主成分分

5、析:主要影响因素分析10. 聚类分析:事物或现象的分类研究与特征揭示聚类分析:事物或现象的分类研究与特征揭示 有数据、用数据的地方,就要用统计学方法!有数据、用数据的地方,就要用统计学方法!一、统计学与数据一、统计学与数据1. 什么是统计学什么是统计学 统计学是一门对群体现象的数量特征进行描述、分析和统计学是一门对群体现象的数量特征进行描述、分析和推论的科学推论的科学要点要点: 研究对象研究对象 群体现象大量性群体现象大量性 研究内容研究内容 群体现象的数量表现的内在规律性群体现象的数量表现的内在规律性 研究目的研究目的 计量、描述、分析和推论计量、描述、分析和推论2. 统计学在经济和管理中的

6、应用统计学在经济和管理中的应用 经济经济 :物价、经济增长、就业、贸易、生活:物价、经济增长、就业、贸易、生活 管理:计划、组织、营销、生产、成本、财务、质量管理:计划、组织、营销、生产、成本、财务、质量 还广泛应用于各个领域和各个方面:医药、生物、物还广泛应用于各个领域和各个方面:医药、生物、物理、农林、社会学、人口学、文学、体育等理、农林、社会学、人口学、文学、体育等- cont3. 数据及其类型和来源数据及其类型和来源 数据:数据: -数据类型数据类型 (按分布形式、来源、性质、时序分)按分布形式、来源、性质、时序分) -数据来源数据来源 (官方、半官方(企业)、研究机构或个人、媒体)官

7、方、半官方(企业)、研究机构或个人、媒体) 4. 统计学的分类统计学的分类 * 描述统计学和推断统计学描述统计学和推断统计学 * 理论统计学和应用统计学理论统计学和应用统计学5.统计分析方法与思想概述统计分析方法与思想概述 * 统计学的要素:统计学的要素:总体、样本、总体、样本、描述、推断、推断的可靠性描述、推断、推断的可靠性 * 统计学的方法:数据搜集、整理、度量、描述、分析、推断、统计学的方法:数据搜集、整理、度量、描述、分析、推断、 预测、决策预测、决策二、二、 描述统计学描述统计学数据的搜集数据的搜集数据的整理与汇总数据的整理与汇总数据的度量数据的度量两个变量间关联的度量两个变量间关联

8、的度量分组数据分组数据2.1 数据的搜集数据的搜集原始数据的搜集 * 统计调查方式: 定期统计报表 普查 抽样调查 典型调查 重点调查 * 统计调查方案 * 问卷调查-民意测验二手数据的搜集:年鉴、年报、出版物 2.2 数据整理与汇总数据整理与汇总 数据分组数据分组 分组分组:将总体所有单位按一定的标准区分为若干部分,将总体所有单位按一定的标准区分为若干部分,以此将具有某种共性的个体归入同一组,而将总体内部以此将具有某种共性的个体归入同一组,而将总体内部个体间的差异通过组别区分开来。个体间的差异通过组别区分开来。 分组标准:数量标志、品质标志、混合分组分组标准:数量标志、品质标志、混合分组 频

9、数及频数分布频数及频数分布 频数:具有某种属性的个体在某一组中出现的次数。频数:具有某种属性的个体在某一组中出现的次数。 频数分布:一列表明各组数据频数(个数)的汇总表,频数分布:一列表明各组数据频数(个数)的汇总表,它描述了总体的结构和分布特征。它描述了总体的结构和分布特征。 相对频数:每组的频数相对频数:每组的频数/n 累计频数:各组相对频数的累加累计频数:各组相对频数的累加-cont 组数与组宽(距)组数与组宽(距) 组限组限 组中值组中值 直方图直方图 频数多边形频数多边形 累积曲线累积曲线 统计图统计图 统计表统计表Example: Hudson Auto RepairThe man

10、ager of Hudson would like to get a betterpicture of the distribution of costs for engine tune-upparts. A sample of 50 customer invoices has been takenand the costs of parts, rounded to the nearest dollar, arelisted below.9178935775529980976271697289667579757276104746268971057765801098597886883687169

11、67746282981017910579696273917893577552998097627169728966757975727610474626897105776580109859788688368716967746282981017910579696273-cont Frequency Distribution选择组数:5 20 组之间数据集与组数对应(数据集大组数大,数据集小组数小)选择组宽:等距分组近似组宽 = Largest Data Value Smallest Data ValueNumber of Classes Largest Data Value Smallest Dat

12、a ValueNumber of Classes-contFrequency Distribution如果选择6组, 近似组宽 = (109 - 52)/6 = 9.5 10Cost ($)Frequency 50-59 2 60-69 13 70-79 16 80-89 7 90-99 7100-109 5 Total 50相对频数与百分比频数分布 Cost ($) 相对频数 百分比频数(%) 50-59.04 4 60-69 .2626 70-79.3232 80-89 .1414 90-99.1414 100-109 .1010 Total 1.00 100-cont-cont 直方图(

13、Histogram)24681012141618FrequencyCost ($)-cont累计分布(Cumulative Distributions) Cost ($) 累计频数 累计频数 累计频数 59 2 .04 4 69 15 .30 30 79 31 .62 62 89 38 .76 76 99 45 .90 90 109 50 1.00 100 -cont累计曲线(Ogive)累计曲线的意义与应用1020304050Cumulative FrequencyCost ($)2.3 数据的度量数据的度量1. 集中趋势 (位置,location ) 的度量(measures of cen

14、tral tendency) * 平均数 (mean) * 中位数 (median) * 众数 (mode) * 四分位数和百分位数 (quartiles & percentiles)xxnixxni - cont2. 离散趋势的度量(measures of dispersion) * 全距(极差) : Range = Xmax - Xmin * 四分位数间距(interquartile range): d=Q3 - Q1 * 方差 (variance) (样本) * 标准差 (standard deviation)(样本):s sxixn221()sxixn221()- cont3.

15、 平均数和标准差的应用 * z - scores :z=(x-)/数据的标准化 * 切比雪夫定理(Chebyshevs Theorem) 任何数据中,至少有(1-1/k2) 项落在(位于)平均值(mean)的k个标准差之内。 数学表述:Px-k 1-1/ k2 * 经验规则 (3 - 规则) -cont4. 探索性数据分析 -五数概括法: a. 最小值(min) b. 第1四分位数(Q1) c. 中位数(Q2) d. 第3四分位数(Q3) e. 最大值(max) -盒形图(箱线图):用图形概括数据(上述5个数据)。2.4 两个变量间关联的度量两个变量间关联的度量1. 协方差(covarianc

16、e) -两个随机变量的联合数字特征,相依存程度的度量。 - 定义:cov(X,Y)=E(X-EX)(Y-EY)= E(XY)- EXEY - 样本协方差: - 协方差的解释:1)(1_nyyxxsniiixy-cont2. 相关系数(Correlation coefficient) - 两个随机变量间线性相依程度的度量。 - 定义: - 性质: 0 xy1; xy= 0,X与Y独立; xy= -1,完全负相关 ;xy=+1,正相关 - 样本相关系数: - 相关系数的解释:yxxyYX),cov(yxxyxysssr2.5 分组数据的度量分组数据的度量1. 加权平均 2. 统计分组:意义、方法、

17、要点3. 分组数据的平均数4. 分组数据的方差5. 分组数据的标准差 : s iiiwxwx_nMfxii_1)(2_2nxMfsii关于偏度和峰度 偏度(skewness):偏斜度、偏态系数 是对分布偏斜程度的度量 Sk=3/3 3=E(X-EX)3是X的三阶中心矩 是X的标准差 Sk=0,对称分布。通常: Sk0,曲线分布向右偏。 峰度(kurtosis):峰态系数、峭度 Ek=4/4 - 3 4=E(X-EX)4是X的四阶中心矩,是X的标准差 Ek=0,正态分布。通常, Ek越小,曲线分布的峰越陡峭; Ek越大,曲线分布的峰越平坦。三、三、 统计推断统计推断参数估计参数估计 抽样与抽样分

18、布 参数估计(点估计) 参数估计(区间估计) 假设检验(关于总体均值、总体比例、总体方差)(单个总体、两个总体) 1. 抽样及抽样分布抽样及抽样分布 总体与样本 总体参数:总体分布的数字特征 统计推断:根据样本信息推断总体的数量特征, 及对总体参数的估计和检验。 简单随机抽样 a. 有限总体 - 等可能性 b. 无限总体 - 独立地被抽到 -cont 抽样分布 a. 一个实例 - EAI b. 的分布 的均值: E ( ) = 的标准差: or _x_x_x_xnNnNx1_nx_-cont 中心极限定理: 从总体中抽取样本容量为n的简单随机样本,当样本容量很大时,样本均值 服从近似的正态分布

19、。 抽样误差: sampling error = 样本容量与 的抽样分布的关系 增大样本容量,样本均值落在总体均值某一特定范围的概率将随之增大。 样本比例 的抽样分布 E ( ) = p or _x_x_p_pnppNnNp)1 (1_nppp)1(_x 2. 点估计及其性质点估计及其性质 什么是点估计? 用样本数据计算一个样本统计量, 以此来估计总体参数。 例子点估计的性质 - 如何评价估计的好坏? 无偏性: 有效性: 一致性: )(E)()(21VarVar01limPn3. 参数估计参数估计 - 区间估计区间估计区间估计的基本概念区间估计的基本步骤总体均值的估计总体比例的估计总体方差的估

20、计样本大小的确定3.1 区间估计的基本概念区间估计的基本概念区间估计的基本思想:首先求出待估参数的估计值,然后以此为基础估计出一个区间 ,并提供总体参数落入该区间的概率。以概率表示为:置信区间:以一定的概率保证的总体参数可能落入的区间,区间 。置信度或置信水平:(1 -)100%显著性水平(Significance Level):置信度为(1 -)100%的置信区间的解释),(21),(21121P3.2 区间估计的基本步骤区间估计的基本步骤确定待估参数和置信水平:(1 -)100%。确定所用的估计量,并找出该估计量的抽样分布。根据估计量的抽样分布和指定的显著性水平,计算置信区间。3.3 总体

21、均值的估计总体均值的估计 已知时, 样本均值 服从正态分布: 即: 总体均值的置信度为:(1 -)100% 置信区间为: 关于Z/2与显著性水平的解释 例子 ),(2_nNxnzxnzx2_2_,_x-cont 为未知时, 大样本(n30)时, 样本均值 服从正态分布: 即: 总体均值的置信度为:(1 -)100% 置信区间为: 例子 ),(_nsNxnszxnszx2_2_,_x-cont t -分布: 为未知时, 小样本(n 30)时, 样本均值 服从自由度为(n -1)的 t -分布: 即: 总体均值的置信度为(1 -)100% 的置信区间为: 例子)1(_ntxnstxnstx2_2_

22、,_x-cont 两个总体均值之差的估计 1, 2为已知时, 样本均值之差 服从正态分布,即: 两总体均值差1- 2的置信度为(1 -)100% 的置信区间为: 例子)( ,(222212121_2_1nnNxx_2_12_2_1xxzxx_2_1xx-cont 1, 2为未知时, 大样本(n1, n2 30)时, 样本均值之差 服从正态分布,即: 两总体均值差1- 2的置信度为(1 -)100% 的置信区间为: 例子 )(,(222212121_2_1nsnsNxx_2_12_2_1xxszxx_2_1xx-cont1, 2为未知时, 小样本(n1, n2 5,样本比例m /n=p近似地服从

23、正态分布: p N(P, P(1-P)/n) 单个总体比例的区间估计 )1(,)1(_2_2_nppzpnppzp-cont 两个总体比例之差的估计 的抽样分布 p1,p2为已知时:(近似地) 此时两个总体比例之差置信区间(置信水平为(1-)100%)为: p1,p2为未知时, 则令: 例子)(_2_12_2_1ppzpp2_1_pp )1 ()1 (),(2222111212_1_nppnppppNpp2_21_1;pppp3.5 总体方差的区间估计总体方差的区间估计 单样本总体方差的区间估计 a) 抽样分布 设X1,X2, , Xn是抽自正态总体的简单随机样本,总体方差为2, 则 (n-1

24、)S2/ 2 服从自由度为(n-1)的 分布,即: (n-1)S2/ 2 (n-1) b)总体方差的置信度为(1-)100%的置信区间: 例子222)21 (22222) 1() 1(snsn四、统计推断假设检验 1. 假设检验的基本原理与步骤假设检验的基本原理与步骤2. 总体均值的假设检验总体均值的假设检验3. 总体比例的假设检验总体比例的假设检验4. 总体方差的假设检验总体方差的假设检验5. 计算犯第二类错误的概率计算犯第二类错误的概率6. 假设检验中样本容量的确定假设检验中样本容量的确定7. 分析、评价统计软件输出结果分析、评价统计软件输出结果1. 假设检验的基本原理与步骤a. 什么是假

25、设检验什么是假设检验? b. 假设检验的基本思想假设检验的基本思想 - 概率性质的反证法、小概率原理概率性质的反证法、小概率原理 c.原假设原假设H0与备择假设与备择假设Ha d.几个例子几个例子 - 如何提假设如何提假设? - 检验研究中的假设检验研究中的假设:(:(H0:0Ha:0) -检验某一陈述或声明的有效性:检验某一陈述或声明的有效性:( H0:0Ha:0 ) -决策中的假设检验:(决策中的假设检验:( H0:0Ha:0) e. 犯两类错误的概率犯两类错误的概率 犯第一类错误犯第一类错误: 弃真错误弃真错误 - 概率为概率为 犯第二类错误犯第二类错误: 取伪错误取伪错误 - 概率为概

26、率为 f. 接受域与拒绝域接受域与拒绝域 g. 假设检验的基本步骤假设检验的基本步骤假设检验的基本步骤假设检验的基本步骤1. 根据问题的需要根据问题的需要, 提出原假设提出原假设H0和备择假设和备择假设H12. 选择检验所用的统计量,并确定该统计量的抽选择检验所用的统计量,并确定该统计量的抽样分布样分布 。3. 指定检验用的显著性水平指定检验用的显著性水平 。4. 利用显著性水平提出拒绝利用显著性水平提出拒绝H0的规则(即找临界的规则(即找临界值)值)。5. 收集样本数据,并计算检验统计量的数值。收集样本数据,并计算检验统计量的数值。6. 比较和判断比较和判断: 比较检验统计量值与临界值比较检

27、验统计量值与临界值 结论:接收还是拒绝原假设结论:接收还是拒绝原假设H0?2. 总体均值的假设检验 关于单尾与双尾检验的解释 拒绝域的确定 - 何时拒绝H0?单个正态总体, 2已知。 - Z-检验: 单尾检验: H0:0Ha:0 拒绝域:Z - Z H0:0Ha:0 拒绝域:Z Z 双尾检验: H0:0Ha:0 拒绝域:Z Z/2) 1 , 0(_NnXZ-continued 单个(正态)总体, 2未知。大样本(总体分布可能未知):Z-检验(单尾检验、双尾检验), 用 s代替,拒绝域同上。小样本(正态总体): t-检验 单尾检验: H0:0Ha:0 拒绝域:T - t H0:0Ha:0 拒绝域

28、:T t 双尾检验: H0:0Ha:0 拒绝域:T t/2 )1(0_ntnsXT 两个总体均值差异的显著性检验: 即:1 =2 ? i.e 1-2 = 0? 12 ? or 12 ? A) 12,22为已知时: 单尾检验: H0: 1 2 Ha: 1 2 拒绝域:Z - Z H0: 1 2 Ha: 1 2 拒绝域:Z Z双尾检验: H0:1-2=0Ha:1-20 拒绝域:Z Z/2) 1 , 0()(22212121_2_1NnnXXZ-continuedB) 12,22为未知时: 大样本: 假设和拒绝域同上 小样本(12=22 但未知)单尾检验: H0: 1 2 Ha: 1 2 拒绝域:t

29、 - t H0: 1 2 Ha: 1 2 拒绝域:t t双尾检验: H0:1-2=0Ha:1-20 拒绝域:t t/2 )1 , 0()(22212121_2_1NnSnSXXZ)2(11)(212121_2_1nntnnsXXT两个正态总体均值差异的显著性检验 - 匹配样本总体1:1, 样本为 (x1,x2, , xn)总体2:2, 样本为 (y1,y2, , yn)令: d =1-2 d i= xi - yi, i=1,2, ,nH0: d = 0 Ha: d 0 拒绝域:t t/2H0: d 0 Ha: d 0 拒绝域: t t H0: d 0 Ha: d 0 拒绝域: t - t )1

30、(_ntnsdtdd3. 总体比例的假设检验 a. 原假设与备择假设的提出: 单个总体与两个总体 b. 样本比例的抽样分布: (见区间估计) c. 假设、检验统计量、及拒绝域 单个总体(大样本,或np5) H0:pp0Ha:pp0 拒绝域:Z Z/2 H0:pp0Ha:pp0 拒绝域:Z - Z H0:pp0Ha:pp0 拒绝域:Z Z) 1 , 0(_0_Nppzpnppp)1 (00_-continued 两个总体(大样本) H0:p1-p2=0Ha:p1-p20 拒绝域:Z Z/2 H0:p1p2Ha:p1p2 拒绝域:Z - Z H0:p1p2Ha:p1p2 拒绝域:Z Zd. 例子)

31、 1 , 0()(2_1_212_1Nppppzpp )11)(1 (21_2_1nnppspp21_22_11_nnpnpnp4. 总体方差的显著性检验 a. 单个总体方差的假设检验 - 单尾检验 - 双尾检验 - 例子 b. 两个总体方差的假设检验 - F - 分布 - s12/s22的抽样分布 - 单尾检验: 方法、 步骤 、例子 - 双尾检验: 方法、步骤、例子5. 计算犯第二类错误的概率计算犯第二类错误的概率第二类错误如何产生第二类错误如何产生?犯第二类错误的概率与原假设及临界值的关系犯第二类错误的概率与原假设及临界值的关系 一个例子一个例子 检验的功效(检验的功效(1-)与功效曲线

32、()与功效曲线(Power Curve) 当当H0为假时,做出拒绝为假时,做出拒绝H0的正确结论的概率,的正确结论的概率, 称为检验的功效。称为检验的功效。 计算犯第二类错误的概率计算犯第二类错误的概率: 方法与步骤:见方法与步骤:见安德森安德森商务与经济统计商务与经济统计,第第9章,章,pp265-267.6. 假设检验中样本容量的确定 a. 关于单个总体均值进行假设检验时 b. , 与n之间的关系 c. 一个例子 2022)()(azzn7. 几个有关的问题几个有关的问题 p - 值检验值检验 利用临界值所对应的概率利用临界值所对应的概率p - 值与显著性水平值与显著性水平 比较比较, 决

33、定是否拒绝决定是否拒绝H0。 如果如果 p - 值值 F F 为服从F分布的临界值 (分子的自由度为p,分母的自由度为n - p - 1 )Testing for Significance: t Test假设(Hypotheses) H0: i = 0 Ha: i = 0检验统计量(Test Statistic)拒绝规则(Rejection Rule):Reject H0 if t t t 为t 分布的临界值(自由度为n - p - 1 ).tbsibitbsibiExample: Programmer Salary SurveyA software firm collected data f

34、or a sample of 20computer programmers. A suggestion was made thatregression analysis could be used to determine if salarywas related to the years of experience and the score onthe firms programmer aptitude test.The years of experience, score on the aptitude test,and corresponding annual salary ($100

35、0s) for a sampleof 20 programmers is shown on the next slide.data Exper. Score Salary Exper. Score Salary478249883871004327326.618623.7107536.258234.358131.688635.8674291084388873407522.247930.118023.169433.96833037028.26913338930-cont多元回归模型假设工资( salary,y)与工作经历年数(years of experience ,x1)和能力倾向测试得分( s

36、core on aptitude test score, x2 )有关,则回归模型如下 :y = 0 + 1x1 + 2x2 + 这里: y = annual salary ($000) x1 = years of experience x2 = score on aptitude test score-cont多元回归方程: E(y ) = 0 + 1x1 + 2x2估计的回归方程: y = b0 + b1x1 + b2x2Solving for the Estimates of 0, 1, 2 x1 x2 y 4 78 24 7 100 43 . . . . . . 3 89 30 b = b = b =R 2 =t =F =etc.通过计算机软件,如:Excel, SPSSSAS, Minitab解回归问题-contMinitab Computer OutputThe regression is

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论