统计学基础知识培训_第1页
统计学基础知识培训_第2页
统计学基础知识培训_第3页
统计学基础知识培训_第4页
统计学基础知识培训_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学基础知识培训,2007年5月,根据测量尺度数据的分类,1999年某公司员工情况明细表,数据的分类,根据数据测量的尺度:分为定类数据、定序数据、定距数据、定比数据 根据描述对象与时间的关系:分为截面数据和时间序列数据 根据统计数据的收集方法:分为观测数据和实验数据,4,你想要干什么,一.归纳、描述或者显示数据 二.观察变量和数据的分布 三.比较组间数据的不同 四.变量之间显著性关系的测度 五.相似数据分组的测度 六.相似变量的压缩测度,结束,你要归纳整理的是什么类型的数据,1.已分类数据(定类、定序) 2.连续、数值型数据(定距、定比,返回,你想如何归纳整理数据,1.分类计算频数和百分比

2、2.计算两分类变量下的频数和百分比 3.计算比率值:比率是各不同类别数值之间的比值,返回,分类变量的图形及图表显示,AnalyzeDescriptive StatisticsFrequencies,返回,两分类变量数据的图表及图形显示,AnalyzeDescriptive StatisticsCrosstabs,返回,比率值的计算及显示,AnalyzeReportsCase summaries,返回,如何整理连续数值型数据,1.描述连续数值型数据的统计量及数据分组法 2.图表显示,返回,连续数值型数据统计量及数据分组法,1.统计量:度量集中趋势的统计量包括平均数、几何平均;度量离散趋势的统计量

3、包括极差、方差和标准差等。 3.数据分组:分组是根据统计分析的需要,将原始数据按照某种标准划分成不同的组别,形成分组数据,分组后计算数据出现的频数,形成频数分布表,各常用统计量的计算方法,平均值(mean):一组数据之和除以数据个数; 几何平均值:用于计算比率的平均,实际应用中,主要用于社会经济现象的年平均增长率; 极差(Range):也称全距,是一组数据的最大值和最小值之差; 方差:各变量与其均值离差平方的平均数; 标准差(std.Deviation):即是方差的平方根;与方差不同的是,标准差具有与变量值一样的量纲,实际的意义要比方差清楚。 SPSS实现:AnalyzeDescriptive

4、 StatisticsDescriptives,数据分组法,数据分组包括单变量分组和组距分组两种,单变量适合离散变量分组,一般数据都使用组距分组。 数据分组的步骤: 1.确定组数,可以按斯特奇斯(Sturges)提出的经验公式来确定组数K;K=1+lgn/lg2。n为数据的个数,对结果四舍五入即为组数; 2.确定各组的组距。组距是上限与下限的差,组距=(最大值-最小值)/组数; 3.根据分组整理成频数分布表。 分组需要“不重不漏”,因此习惯上规定“上组限不在内”。若有的值过大,可以设置开口组。等距分组由于各组的组距相等,各组频数分布不受组距大小的影响,可以从频数分布中直接观察频数分布的特征和规

5、律,而不等距分组就必须计算频数密度,频数密度=频数/组距,频数密度才能准确反映频数分布的实际情况,返回,连续数值型数据的显示方法,分组数据的图形显示直方图 这是406例汽车的马力的直方图,50,100,150,200,汽车马力,0,20,40,60,频数,未分组数据的显示方法箱线图 箱线图是由一组数据的5个特征值绘制而成的,它由一个箱子和两条线段组成,5个特征值为:最大值、最小值、中位数和两个四分位,下面是406例产地为美国、欧洲和日本三个地区的汽车马力值的箱线图。欧洲箱线图有两个离群点,连续数值型数据的显示方法,返回,你有何种数据,1.分类数据(定类、定序) 2.连续数值型数据(定距、定比,

6、返回,分类数据分布的统计量指标,1.集中趋势:计算众数、中位数 众数是一组数据中出现次数最多的变量值; 中位数是一组数据排序后,处于中间位置的变量值 ; 2.离散趋势:异众比率、四分位差 异众比率是指非众数组的频数占总频数的比率,用Vr表示,Vr=(fi-fm)/fi。 四分位差也称内距或者四分间距,计算方法:Qd= QU - Ql。四分位差反映的是50%数据的离散程度,其数值越小,说明中间数据越集中,反之,越分散。 3.频数分布和百分比,返回,连续数值型数据分布的统计量指标,1.集中趋势:平均值、加权平均值、算术平均值 简单均值就是一组数据值之和除以其数据个数 ;加权平均的均值与其各个数值的

7、个数有关 ;几何平均是适用于特殊数据的一种平均数,只要用于比率的平均。 2.离散趋势:极差(全距)、方差、标准差 极差也称全距,为一组数最大值减去最小值得到。 方差是各变量值与其均值离差平方的平均数,它是测度数值型数据离散程度的最主要的方法。计算方法:s2=(xi-x平均)/(n-1)。实际分析问题时,我们常用标准差,标准差为方差开根号。 3.数据偏态与峰态的测度 偏态及其测度:计算公式SK=n(xi-x平均值)3/(n-1)(n-2)s3;如果数据分布是对称的,则偏态系数为0,如果偏态系数明显不等于0,表明分布是非对称的;当SK为正值时,可以判断为右偏;当SK为负值时,为左偏。SK越大,说明

8、偏斜的程度就越大。 峰态及其测度:计算方法:K=n(n+1) (xi-x平均值)4-3(xi-x平均值)22(n-1)/(n-1)(n-2)(n-3)s4。标准正态分布的峰态为0,当K0时为尖峰分布;当K0时为扁平分布,与数据分布相关的测度量总结,常见的数据分布正态分布,在社会经济问题中,有许多随机变量的概率分布服从正态分布,如身高、体重等。正态分布记作XN(,), 为随机变量X的均值, 为随机变量X的标准差。 决定了正态分布图形的中心位置, 决定了图形中峰的陡峭程度, 当 较大,图形较缓,当 较小,图形趋于陡峭。 所有的正态分布均能通过Z=(X- )/ 化成标准正态分布XN(0,1)(均数为

9、0,方差为1)。 随机变量X处在一个正负一个之内的概率为68.26%;2个之内的概率为95.45%; 3个之内的概率为99.73,返回,你要比较什么类型的数据,1.分类数据(定比、定序) 2.已分组的连续数值型数据(定距、定比,返回,应用列联分析解决分类数据的组间比较,频数分布表每次只能描述一个变量的情况,而列联表是由两个以上的变量进行交叉分类的频数分布表,是反映两个或多个变量联合分布的表格。可用于各组比例值是否一在列联表中,可以计算以列合计为基数的列百分比或以行合计为基数的行百分比。卡方统计量提供对列联表中观察到的联系的统计显著性检验(拟合优度和变量联系),通过系数、列联系数、Cramers

10、 V和系数测量变量关系强度的指标,Analyze-Descritives-Crosstabs,举例说明,某公司为了提高市场占有率,某行业有两个主要的竞争对手,A和B公司同时开展了广告宣传。在广告宣传之前,A公司的市场占有率为45%,B公司市场占有率为40%,其它公司为15%。广告战后,随机抽取了200名消费者,其中102人准备买A公司产品,82人买B公司产品,另外有16人准备买其它公司产品。问以广告战前后各公司市场占有率是否发生了变化,检验观察值和期望值的拟合优度:计算卡方值为8.18,而显著性0.05、自由度为2时的卡方值5.99,因此说明占有率发生了显著的变化,举例说明,列联表格的卡方检验

11、还用于判断两个分类变量之间是否存在联系的问题中。 一种原料来自不同的地区,原材料质量被分为三个不同的等级。从这批原料中随机抽取500件进行检验,结果如下表,计算卡方值为19.82大于显著性为0.05、自由度为4的的卡方值为9.488,所以地区和原材料等级之间存在依赖关系,原材料的质量受地区影响。存在关系的假设成立,可以计算系数、列联系数Cramers V和系数测量变量关系强度的指标,返回,你想要比较多少组数据或多少个变量,1.一组数据或变量与一个已知数值进行比较 2.两组数据或变量 3.三组或者三个以上变量,返回,应用单样本T检验检验一组数据或变量与一已知数值是否相等,工作中经常碰到根据已有的

12、知识或者给定的标准对单个变量做出结论,比如新产品的份额是否超过了15%等。这样的问题就可以转化为通过单样本T检验进行检验的零假设。单样本T检验检验的是抽样总体均值是否与给定假设一致。根据样本计算得出的T统计量值与给定的0.05显著性水平下的临界值进行比较,从而得出结论。 SPSS实现:Analyze-Compare Means-One Sample T Test,返回,你的数据是如何组织起来的,1.分成两不相关组的一个连续数值型变量 2.具有相关关系的两连续数值型变量,返回,你想要进行何种独立的样本检验,步骤:1.首先检测变量是否服从正态分布,方法为通过Graphs-Interactive-H

13、istogram(直方图)进行观察 2.如果变量服从正态分布,那么应用独立样本T检验进行两样本均数的比较:Analyze-Compare Means-Independent Samples T Test 3.如果变量不服从正态分布,那么应用非参数双独立样本检验进行两独立样本所在总体分布是否相同的检验:Analyze-Nonparametric Tests-2 Independent Samples,返回,你想要何种配对样本的检验,步骤:1.同样通过直方图观察变量是否服从正态分布; 2.如果服从正态分布,那么应用配对样本的T检验进行配对设计的差值均数与总体均数0进行比较:Analyze-Comp

14、are Means-Paired Samples T Test. 3.如果不服从正态分布,那么应用双相关样本检验:Analyze-Nonparametric Tests-2 Related Samples,返回,方差分析(ANOVA,前面介绍的方法均为一个因素水平下,两组数据的比较方法,当一个因素水平下,有三个或者三个以上的组别时,就需要用到方差分析。方差分析适用于两组或者两组以上均值差异的检验。方差分析必须有一个定量(定距或定比尺度)的因变量,以及一个或者多个自变量(定类),定类自变量称为因子,一个因子成为单因子方差分析,若有n个自变量,成为n因子方差分析。其原理为通过对数据误差来源的分析来

15、判断不同总体的均值是否相同。 方差分析的3个基本假定:1.每个总体都应该服从正态分布;2.各个总体的方差2 ;3.观测值是相互独立的。 SPSS实现:AnalyzeCompare MeansOne-Way ANOVA,举例说明,下表为一年内,四个行业抽取的样本企业投诉次数表,问这几个行业之间的服务质量是否有显著性差异,下表为方差分析的结果表,从F统计量值为3.4066大于给定0.05水平下的F分布的临界值3.1273,应该拒绝原假设,说明各个行业的投诉之间的差异是显著的,返回,你有什么样的数据,1.分类数据(定类、定序) 2.定序、等级顺序、或者非参数连续性数据 3.连续数值型数据(定距、定比

16、,返回,分类数据(定类、定序,应用前面讲过的列联分析,卡方对独立性进行检验,进而计算通过系数、列联系数、Cramers V和系数测量变量关系强度的指标,返回,定序、等级顺序、或者非参数连续性数据,计算Spearman相关系数和Kendalls tau-b相关系数,看两变量的关系的密切程度。计算排序的相关系数又称秩相关或者等级相关,记作r。当|r|0.3,视为不相关;当0.3|r|0.5,视为低度相关;0.5|r|0.8,视为中度相关;|r|0.8,视为高度相关。 SPSS实现:Analyze-Correlate-Bivariate选Spearman相关系数和Kendalls tau-b相关系数

17、,返回,连续数值型数据(定距、定比,1.两变量:计算Pearson相关系数来度量两变量关系的密切程度,记作r。当|r|0.3,视为不相关;当0.3|r|0.5,视为低度相关;0.5|r|0.8,视为中度相关;|r|0.8,视为高度相关。 SPSS实现Analyze-Correlate-Bivariate选择Pearson项。 2.控制了一个或者两个的其他其变量的影响之后两变量的相关,为偏相关,也记作r。 Spss实现Analyze- Correlate-Partial选择要分析的两变量进入要分析的变量框;选择要控制的变量进入要控制的变量框,测度变量的因果关系回归分析,前面介绍的数值型变量的相关

18、系数或者偏相关系数主要了解两变量关系的密切程度,而回归分析主要度量一个因变量,与一个、两个或两个以上的自变量的数量伴随关系,是测度因变量和自变量的因果关系的方法。回归分为线性回归和曲线回归。以一元线性回归为例:其回归方程形式为y=ax+b。回归直线的拟和优度的测度应用的是判定系数,判定系数说明了因变量的数据变动中,有多少是由自变量的的变动所决定的。而估计标准误用于测度各实际观测点在直线周围的分散程度,其越小,说明回归直线对各观测点代表性好,反之则代表性差。另外还用F检验检验线性关系的显著性。应用T检验检验回归系数的显著性检验,检验自变量对因变量的影响是否显著。 SPSS实现:Analyze-R

19、egression-Linear,返回,你有什么类型的数据,1.连续数值型数据(定距、定比) 2.分类数据(定类、定序,返回,你想要判别分组还是判别已知组的特征,1.判别分组,应用聚类分析。聚类分析是一组将研究对象分成相对同质的群组的统计分析技术,不区分自变量和因变量。聚类分析的主要目的是根据聚类变量将对象分成相对同质的群组。某一组的内部成员更加相似,与其它组的成员不同。 当数据量小于200时,应用系统聚类分析将数据分组,Analyze-Classify-Hierarchical Cluster; 当大于200个数据时应用K均数聚类法,又称快速聚类法,Analyze-Classify-K-means Cluster,已知分组的判别,2.判别已知组的特征应用判别分析。 判别分析是一种数据分析技术,适用于标准变量或因变量为定类数据,预测变量或者自变量为定距(或者定比数据)的情况。就像医生看病的判断过程一样,有各种各样的病症的症状、检测结果值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论