数据分析一资料课件_第1页
数据分析一资料课件_第2页
数据分析一资料课件_第3页
数据分析一资料课件_第4页
数据分析一资料课件_第5页
已阅读5页,还剩245页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九讲数据分析(一)余可发博士江西财经大学工商管理学院1第九讲数据分析(一)余可发博士1一、数据处理与分析过程1、编辑2、编码3、数据输入4、数据分析(描述性分析、单变量分析、双变量分析、多变量分析)5、解释2一、数据处理与分析过程1、编辑2二、编辑编辑就是检查和调整数据遗漏、易读性和一致性的过程。编辑人员的任务就是要检查调查问卷或者其他数据收集形式中出现的错误和遗漏。当发现问题时,编辑要及时调整数据让他们变得更加完整、一致、可读。3二、编辑编辑就是检查和调整数据遗漏、易读性和一致性的过程。3编辑技巧:1、退回重新填写2、按缺失数据处理3、丢弃(1)不符合要求的问卷和少。(2)样本单位数很大。(3)不符合要求的问卷与符合要求的问卷之间在调查对象上的特征上没有明显的不同。(4)不符合要求的回答在该问卷中占很大的比例。(5)对关键变量的回答是缺失的。4编辑技巧:4编辑的类型:现场编辑后期编辑5编辑的类型:5编辑的任务:1、确定是否需要补充调查2、编辑的一致性3、编辑的完整性6编辑的任务:6三、编码编码就是将数字标度或其他符号分配给不同答案的过程。相关概念:域:一种类型的数据。记录:相关域的集合。文件:相关记录的集合。7三、编码编码就是将数字标度或其他符号分配给不同答案的过程。788编码工作一般包括以下几个方面:(1)确定变量(2)确定变量值(3)无结构问题的编码(4)编码说明书及数据输出格式说明书。9编码工作一般包括以下几个方面:9问题025:您认为打工的外地人对北京市的社会秩序是否有影响?(单选)1□有很大影响2□有较大影响3□没有影响4□不好说4编码答案10问题025:您认为打工的外地人对北京市的社会秩序是否有影响?2)制作编码表112)制作编码表11直接过录0-1编码变量名:一个数据文件中,一个变量只能有一个唯一名称。码位:某一变量在数据文件中占据的栏位码数:某一变量由几位数组成。该变量是数值型(Numeric)——如定距、定比,还是字串型(String),如定类、定序。前者在统计中可以做高级运算,后者则不可以。不适于被访人回答的问题的编码。一般采用7,97,997等。被访人回答不知道时的编码。一般采用8,98,998等。被访人拒绝回答某变量时的编码。一般采用9,99,999等。问卷中出现漏答时的处理编码。一般采用9,99,999等。12直接过录变量名:一个数据文件中,码位:某一变量在码数:该变四、数据录入外部式录入内部式录入采用DOS、WPS、CCED等软件,按ASCII码方式录入成文本文件(*.dat;*.txt)。这种录入方式的特点是,数据之间没有间隔,录完一个数码后自动后移,录入速度较快。缺点是容易错位。采用SPSS数据编辑器(SPSSDataEditor)录入。其优点是不容易错位,缺点是不能自动后移,录入速度慢,数据错误不容易修改。13四、数据录入外部式录入内部式录入采用DOS、WPS、CCED五、数据分析描述分析法假设检验法方差分析法聚类分析法判别分析法回归分析法14五、数据分析描述分析法141、描述性统计分析频数、频率分析数据集中趋势分析算术平均数中位数众数数据分散趋势分析全距(极差)四分位差标准差数据总体形态分布偏度(Skewness)峰度(Kurtosis)

151、描述性统计分析频数、频率分析15频数、频率分析(1)例1:假设有样本数据ABCDEFGHIJ11221465332261122325433441331433541345642463535211211466263455132276366236511841533646349513252226210325234144516频数、频率分析(1)例1:假设有样本数据ABCDEFGHIJ17171818算术平均数未分组数据的平均数计算分组数据的平均数计算上例的计算结果19算术平均数未分组数据的平均数计算19中位数的计算(1)未分组数据的中位数计算对所有数据进行排序,当数据量为奇数时,取中间数为中位数,当数据量为偶数时,取最中间两位数的平均数为中位数。上例中数据量为100,是偶数,所以应取排序后第50位数和第51位数的平均值作为中位数。第50位数是3,第51位数也是3,所以中位数为3。20中位数的计算(1)未分组数据的中位数计算20中位数的计算(2)分组数据的中位数计算下式中L为中位数所在组的下限值,fm为中位数所在组的组频数,Sm-1为至中位数组时累计总频数,h为组距。21中位数的计算(2)分组数据的中位数计算21中位数的计算(3)例2:假设有分组数据如下(销售额单位为万元)年销售额组中值商店数目累计频数80-90853390-10095710100-1101051323110-120115528120-130125230合计3022中位数的计算(3)例2:假设有分组数据如下(销售额单位为万元中位数的计算(4)依据公式例2的中位数为23中位数的计算(4)依据公式23众数的计算未分组数据的众数为出现次数最多的数。分组数据的众数依据下式计算获得。表达式中△1表示众数所在组与前一组的频数差,△2表示众数所在组与后一组的频数差。依据公式,例2分组数据的众数为104.29万元。24众数的计算未分组数据的众数为出现次数最多的数。24全距(极差)的计算全距指的是样本数据中最大值与最小值之间的距离,因而也叫极差。例1中最小值为1,最大值为6,因而全距为6-1=5。25全距(极差)的计算全距指的是样本数据中最大值与最小值之间的距四分位差的计算四分位差是一种按照位置来测定数据离散趋势的计量方法,它只取决于位于样本排序后中间50%位置内数据的差异程度。即第一个四分位与第三个四分位数据之间的差异。例2的四分位差计算过程如下26四分位差的计算四分位差是一种按照位置来测定数据离散趋势的计量标准差的计算(1)未分组数据的标准差计算27标准差的计算(1)未分组数据的标准差计算27标准差的计算(2)分组数据的标准差的计算28标准差的计算(2)分组数据的标准差的计算28常用图形——柱形图29常用图形——柱形图29直方图德国英国法国意大利西班牙荷兰瑞典瑞士比利时奥地利土耳其挪威丹麦中国芬兰葡萄牙希腊俄罗斯200400600800100012001400

xxx年中国内地与欧洲各国市场调查业的市场规模比较(年营业额:百万美元)30直方图德国30饼形图31饼形图31趋势图32.5215元14元13元12元11元10元9元8元以下32趋势图332散点图森氏满10.5%意4度沃力中美314.4%38.5%2120%40%首都知名度

郑州市主要纯水品牌的知名度、美誉度和市场占有率

33散点图森氏33态度对比图34态度对比图34轮廓形象图35轮廓形象图35雷达图36雷达图36数据分布形态图37数据分布形态图37SPSS的描述性分析Frequencies:频数分布表Descriptives:一般性描述Explore:探索性分析Crosstabs:交叉列表38SPSS的描述性分析Frequencies:频数分布表38描述性分析频数分布表一般性描述探索性分析交叉列表计算连续变量的相对比39描述性分析频数分布表一般性描述探索性分析交叉列表计算连续变量频数分布表(Frequencies)调用此过程可进行频数分布表的分析.频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。40频数分布表(Frequencies)调用此过程可进行频数分布待分析变量的列表是否显示频数表定义需要计算的统计量定义需要绘制的统计图定义表格41待分析变量的列表是否显示频数表定义需要计算的统计量定义需要绘百分位数分布特征描述离散趋势集中趋势Frequencies:定义统计量42百分位数分布特征描述离散趋势集中趋势Frequencies:统计图类型直方图加上正态曲线以频数绘制条图或饼图Frequencies:定义统计图无图形条图饼图直方图以构成比绘制条图或饼图43统计图类型直方图加上正态曲线以频数绘制条图或饼图FrequeFrequencies:定义表格频数表排列次序按数值升序按数值降序按频数升序按频数降序44Frequencies:定义表格频数表排列次序按数值升序按数Frequencies:结果解释45Frequencies:结果解释45Frequencies:结果解释46Frequencies:结果解释46Frequencies:结果解释47Frequencies:结果解释47一般性描述(Descriptives)描述性分析

调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标,且可将原始数据转换成标准Z分值并存入数据库,所谓Z分值是指某原始数值比其均值高或低多少个标准差单位,高的为正值,低的为负值,相等的为零。48一般性描述(Descriptives)描述性分析调用是否保存标准变换后的数据49是否保存标准49Descriptives:定义统计量50Descriptives:定义统计量50Descriptives:结果解释51Descriptives:结果解释51Descriptives:结果解释此外,系统以zheight和zweight为变量名将原始数据转换成标准z分值,存放在原数据库中。新变量具有均值为0、标准差为1的特征,亦即变量的标准化过程。52Descriptives:结果解释此外,系统以zheight探索性分析(Explore)描述性分析调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索性统计。它在一般描述性统计指标的基础上,增加有关数据其它特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。53探索性分析(Explore)描述性分析调用此过程可对变量进行两者均有统计量图分组变量列表待分析变量列表54两者均有统计量图分组变量列表待分析变量列表54Explore:定义统计量Descriptives:输出均数、均数的95%可信区间、去掉5%极端值的均数、中位数、方差、标准差、最小值、最大值、全距、四分位数间距、偏度系数、峰度系数。M-estimators:输出集中趋势的最大似然比的稳健估计。Outliers:输出五个最大值与五个最小值。Percentiles:输出第5%、10%、25%、50%、75%、90%、95%位数。55Explore:定义统计量Descriptives:输出均数箱图绘制方式茎叶图正态性检验/正态分布图Explore:定义统计图直方图56箱图绘制方式茎叶图正态性检验/正态分布图Explore:定义Excludecaselistwise:不分析有任一缺失值的记录Excludecasepairwise:不分析计算某统计量时有缺失值的记录Reportvalues:报告缺失值缺失值的处理方式Explore:缺失值的处理57Excludecaselistwise:不分析有任一缺失Explore:结果解释

原始数据的基本情况:男性有效数据459,缺失1,合计460;女性有效数据538,缺失2,合计540。58Explore:结果解释原始数据的基本情况:男性有效数据Explore:结果解释59Explore:结果解释59Explore:结果解释描述性分析左面为箱图,图中方箱为四分位数,中心粗线为中位数,两端线为最大值与最小值,之外的圆圈代表可疑的离群值。60Explore:结果解释描述性分析左面为箱图,图中方箱为四分2、假设检验假设检验又叫显著性检验(testofsignificance)。显著性检验的方法很多,常用的有u检验、t检验、F检验和2检验等。尽管这些检验方法的用途及使用条件不同,但其检验的基本原理是相同的。612、假设检验假设检验又叫显著性检验(testofsig假设检验的步骤建立假设。对样本所属总体提出假设,包括无效假设H0和备择假设HA;确定显著水平α。常用的显著水平α=0.05和α=0.01;从无效假设H0出发,根据样本提供信息构造适宜统计量,并计算统计量值或概率;由附表查出相应的统计量临界值,比较样本统计量值与临界值大小,根据小概率原理做出统计推断(或由概率大小做出判断)。62假设检验的步骤建立假设。对样本所属总体提出假设,包括无效假设统计假设检验的几何意义统计假设检验从本质上来说,就是根据显著水平а将统计量(数)的分布划分为接受区和否定区两部分。前者为接受原假设H0的区间,后者为否定H0,而接受HA的区间。当试验结果落入接受区,就接受H0;反之,否定H0,而接受HA。否定区的概率为α,接受区的概率为1-α。63统计假设检验的几何意义统计假设检验从本质上来说,就是根据显著

是否否定无效假设或,用实际计算出的统计量u或t的绝对值与显著水平α对应的临界值ua或ta比较。若|u|≥ua或|t|≥ta,则在α水平上否定;若|u|<ua或|t|<ta,则不能在α水平上否定。区间和或称为α水平上的否定域,而区间()则称为α水平上的接受域。64是否否定无效假设或图1双侧检验时H0的接受域和否定域65图1双侧检验时H0的接受域和否定域65统计假设检验的两类错误

统计假设检验的是根据“小概率事件实际不可能性原理”来否定或接受无效假设的,所以不论是接受还是否定无效假设,都没有100%的把握。也就是说,在检验无效假设时可能犯两类错误。第一类错误:H0本身是成立,但通过检验却否定了它,犯了“弃真”错误,也叫Ⅰ型错误(typeⅠerror)、а错误。Ⅰ型错误,就是把非真实差异错判为真实差异,即为真,却接受了。66统计假设检验的两类错误统计假设检验的是根据“小第二类错误:H0本身不成立,但通过检验却接受了它,犯了“纳伪”错误,也叫Ⅱ型错误(typeⅡerror)、β错误。Ⅱ型错误,就是把真实差异错判为非真实差异,即为真,却未能否定。统计检验是基于“小概率事件实际不可能性原理”来否定H0,但在一次试验中小概率事件并不是绝对不会发生的。如果我们抽得一个样本,它虽然来自与H0对应的抽样总体,但计算所得的统计量却落入了否定域中,因而否定了H0,于是犯了Ⅰ型错误。犯Ⅰ这类错误的概率不会超过a。67第二类错误:H0本身不成立,但通过检验却接受了它,图2两类错误示意图68图2两类错误示意图68假设检验的类型参数假设检验U检验t检验非参数检验69假设检验的类型参数假设检验69参数统计(parametricstatistics):t、Z、和F检验均属参数检验。其共同特点是,假定随机样本来自某种已知分布(如正态分布)的总体,并对总体分布的参数(如总体均数)进行估计或检验。非参数统计(nonparametricstatistics):对总体分布不作严格规定,不依赖于总体分布类型,也不对总体参数进行统计推断。70参数统计(parametricstatistics):t参数检验——U检验当样本容量大于30时,可以采用U检验。均值检验百分比检验双样本平均数差异的检验双样本百分比差异的检验71参数检验——U检验当样本容量大于30时,可以采用U检验。71均值检验(U)假设有选取统计量设定显著性水平查表得到根据U的计算结果,比较U的绝对值与的大小。若有则接受H0,否则拒绝H0。72均值检验(U)假设有72百分比检验(U)假设有选取统计量设定显著性水平查表得到根据U的计算结果,比较U的绝对值与的大小。若有则接受H0,否则拒绝H0。73百分比检验(U)假设有73双样本平均数差异的检验(U)假设有选取统计量设定显著性水平查表得到根据U的计算结果,比较U的绝对值与的大小。若有则接受H0,否则拒绝H0。74双样本平均数差异的检验(U)假设有74双样本百分比差异的检验(U)假设有选取统计量设定显著性水平查表得到根据U的计算结果,比较U的绝对值与的大小。若有则接受H0,否则拒绝H0。75双样本百分比差异的检验(U)假设有75练习例1:某一酿造厂新引进一种酿醋曲种,以原曲种为对照进行试验。已知原曲种酿出的食醋醋酸含量平均为μ0=9.75%,其标准差为σ=5.30%。现采用新曲种酿醋,得到30个醋样,测得其醋酸含量平均为=11.99%。试问,能否由这30个醋样的平均数判断新曲种好于原曲种?76练习例1:某一酿造厂新引进一种酿醋曲种,以原曲种为对前例分析:所以在a=0.05水平上的接受域为(0.0785<<0.1165)否定域为≤0.0785,≥0.1165

试验结果=0.1199,落入否定区间,所以否定,接受结论:采用新曲种酿造食醋,其醋酸含量有显著改变。77对前例分析:所以在a=0.05水平上的接受域为(0.0785例题:在食品厂的甲乙两条生产线上各测定了30个日产量如表所示,试检验两条生产线的平均日产量有无显著差异。甲生产线(x1)乙生产线(x2)747156547178655354605669625762697363584951536662617262707874585866715356776554586362607065585669596278536770687052555557表1甲乙两条生产线日产量记录78例题:在食品厂的甲乙两条生产线上各测定了30个日产量如表所示(1)建立假设。即两条生产线的平均日产量无差异。(2)确定显著水平α=0.01(3)计算故:79(1)建立假设。(2)确定显著水平α=0.01(3)计算(4)统计推断。由α=0.01查附表2,得u0.01=2.58实际|u|=3.28>u0.01=2.58,故P<0.01,应否定H0,接受HA。说明两个生产线的日平均产量有极显著差异,甲生产线日平均产量高于乙生产线日平均产量。80(4)统计推断。80参数检验——t检验当样本容量小于30时,不可以使用U检验,而需要使用t检验。均值检验均值差异的检验百分比差异的检验81参数检验——t检验当样本容量小于30时,不可以使用U检验,而均值检验(t)假设有选取统计量设定显著性水平查表得到根据t的计算结果,比较t的绝对值与的大小。若有则接受H0,否则拒绝H0。82均值检验(t)假设有82均值差异的检验(t)假设有选取统计量设定显著性水平查表得到根据t的计算结果,比较t的绝对值与的大小。若有

则接受H0,否则拒绝H0。83均值差异的检验(t)假设有83百分比差异的检验(t)假设有选取统计量设定显著性水平查表得到根据t的计算结果,比较t的绝对值与的大小。若有

则接受H0,否则拒绝H0。84百分比差异的检验(t)假设有84例1用山楂加工果冻,传统工艺平均每100g加工500g果冻,采用新工艺后,测定了16次,得知每100g山楂可出果冻平均为=520g,标准差S=12g。问新工艺与老工艺在每100g加工果冻的量上有无显著差异?85例1用山楂加工果冻,传统工艺平均每100g加工500本例总体方差未知,又是小样本,采用双侧t检验。(1)提出无效假设与备择假设,即新老工艺没有差异。,即新老工艺有差异。(2)确定显著水平α=0.01(3)计算t值86本例总体方差未知,又是小样本,采用双侧t检验。86(4)查临界t值,作出统计推断由=15,查t值,得t0.01(15)=2.947,因为|t|>t0.01,P<0.01,故应否定H0,接受HA,表明新老工艺的每100g加工出的果冻量差异极显著。(在统计量t上标记**)87(4)查临界t值,作出统计推断87例题2:海关抽检出口罐头质量,发现有胀听现象,随机抽取了6个样品,同时随机抽取6个正常罐头样品测定其SO2含量,测定结果见表4-3。试分析两种罐头的SO2含量有无差异。正常罐头(x1)100.094.298.599.296.4102.5异常罐头(x2)130.2131.3130.5135.2135.2133.5表2正常罐头与异常罐头SO2含量测定结果88例题2:海关抽检出口罐头质量,发现有胀听现象,随机抽取了6个(1)提出无效假设与备择假设两种罐头SO2含量没有差异;(2)确定显著水平α=0.01(两尾概率)(3)计算89(1)提出无效假设与备择假设两种罐头SO2含量没有差(4)统计推断由df=10,α=0.01查附表3得t0.01(10)=3.169。实得|t|=22.735>t0.01(10)=3.169,P<0.01,故应否定无效假设H0,即两种罐头的SO2含量有高度显著差异,该批罐头质量不合格。90(4)统计推断90例题3:现有两种茶多糖提取工艺,分别从两种工艺中各取1个随机样本来测定其粗提物中的茶多糖含量,结果见表4-4。问两种工艺的粗提物中茶多糖含量有无差异?醇沉淀法(x1)27.5227.7828.0328.8828.7527.94超滤法(x2)29.3228.1528.0028.5829.00表4-4两种工艺粗提物中茶多糖含量测定结果91例题3:现有两种茶多糖提取工艺,分别从两种工艺中各取1个随机(1)建立假设,提出无效假设与备择假设,两种工艺的粗提物中茶多糖含量无差异;(2)确定显著水平α=0.05(两尾概率)

(3)计算92(1)建立假设,提出无效假设与备择假设,两种工艺的粗因两个样本的容量不等,所以93因两个样本的容量不等,所以93(4)查临界t值,作出统计推断当df=9时,查临界值得:t0.05(9)=2.262,|t|=1.381<t0.05(9),所以P>0.05,接受,表明两种工艺的粗提物中茶多糖含量无显著差异。94(4)查临界t值,作出统计推断94非参数检验(X2)在市场调查中常获得一些量表数据,对量表数据求取平均数与方差都是毫无意义的。对量表数据的处理更适宜于采用非参数检验方法。非参数检验中常用的方法是X2检验。X2检验的统计量是上述统计量中,表示第类别在样本中实际出现的次数,表示期望出现的次数,为类别数。95非参数检验(X2)在市场调查中常获得一些量表数据,对量表数据一般选用非参数统计方法的资料:①总体分布不易确定;②分布呈非正态而又无适当的数据转换方法;③等级资料;④一端或两端无确定数值等。因此,非参数检验又称任意分布检验(distribution-freetest)。在实际应用中,对符合参数检验的资料,或经变量变换后符合参数检验的资料应首选参数检验;对不能满足参数检验条件的资料,应选用非参数检验。

96一般选用非参数统计方法的资料:①总体分布不易确定;②分布呈非两个配对样本的非参数检验两个独立样本的非参数检验多个独立样本的非参数检验多个相关样本的非参数检验97两个配对样本的非参数检验97例1以下为治疗前后,病人某项指标的测量值,数据见npa.sav配对样本的非参数检验治疗前(x):24.0016.7021.6023.7037.5031.4014.9037.3017.9015.5029.0019.90治疗后(Y):23.1020.4017.7020.7042.136.1021.8040.3026.0015.5035.4025.5098例1以下为治疗前后,病人某项指标的测量值,数据见npa.s9999100100

Wilcoxon符号检验适用于连续变量

sign符号检验适用于对无法用数字计量的情况进行比较,如两分类,对于连续资料最好不要使用

McNemar实际上就是常用的配对χ2检验,只适用于二分类资料

MarginalHomogeneity是McNemar法向多分类情形下的扩展,适用于资料为有序分类情况配对样本的非参数检验101Wilcoxon符号检验配对样本的非参数检验101Exact:用于计算确切概率只给出近似概率蒙特卡罗方法给出精确概率值,并可设定耗时限制102Exact:用于计算确切概率只给出近似概率蒙特卡罗方法给出共12对指标,指标值治疗后小于治疗前的有3对,其平均秩次为2.83,总秩和为8.50;治疗后大于治疗前的有8对,其平均秩次为7.19,总秩和为57.50;治疗后等于治疗前的有1对。(1)秩次表103共12对指标,指标值治疗后小于治疗前的有3对,其平均秩次为2

Wilcoxon符号秩检验的统计量Z值=-2.179,近似概率(Asymp.sig.)P=0.029,按α=0.05的水准可以认为治疗前后该指标值的差别具有统计学意义。(2)检验统计量104Wilcoxon符号秩检验的统计量Z值=-2.179,近似例2在缺氧条件下,观察4只猫与12只兔的生存时间(分钟),结果如下。试判断猫、兔在缺氧条件下生存时间的差异是否具有统计学意义。数据见npb.sav:生存时间(猫):2534444646生存时间(兔):1515161719212123252728283035两独立样本的非参数检验105例2在缺氧条件下,观察4只猫与12只兔的生存时间(分钟),106106107107108108默认的Mann-WhitneyU检验最常用109默认的Mann-WhitneyU检验最常用109生存时间样本共19例,其中猫的生存时间5例,其平均秩次为15.70,总秩和为78.50;兔的生存时间14例,其平均秩次为7.96,总秩和为111.50。(1)秩次表110生存时间样本共19例,其中猫的生存时间5例,其平均秩次为1给出Mann-WhitneyU、WilcoxonW统计量和Z值,近似值概率(Asymp.Sig)和精确概率值(Exact.sig)均小于0.05,结论一致,表明猫、兔在缺氧条件下的生存时间的差异具有统计学意义,由平均秩次猫(15.7)、兔(7.96)来看,可以认为缺氧条件下猫的生存时间长于兔。(2)检验统计量111给出Mann-WhitneyU、WilcoxonW例3

14名新生儿出生体重按其母亲的吸烟习惯分组(A组:每日吸烟多于20支;B组:每日吸烟少于20支;C组:过去吸烟而现已戒烟;D组:从不吸烟),具体如下。试问四个吸烟组出生体重分布是否相同?数据见npc.sav:A组:2.72.42.23.4B组:2.93.23.2C组:3.33.63.43.4多个独立样本的非参数检验D组:3.53.63.7112例314名新生儿出生体重按其母亲的吸烟习惯分组(A组:每113113114114设置组别变量的最小值1、最大值4115设置组别变量的最小值1、最大值4115116116Kruskal-WallisH检验:k>=3个独立随机连续分布样本的比较,而正态性假设及等方差假设存在问题时,它可以进行总体是否相同的检验。Median:中位数检验,三种方法中检验效能最低,但对于拖长尾的对称分布很有效Jonckheere-Terpstra:对连续性资料或有序分类资料都适用,并当分组变量为有序分类资料时,此法的检验效能要高于Kruskal-Wallis法。117Kruskal-WallisH检验:k>=3个独立随机

母亲每日吸烟多于20支组共4名新生儿,体重平均秩次3.75;每日吸烟少于20支组共3名新生儿,体重平均秩次5.00;过去吸烟现已戒烟组共4名新生儿,体重平均秩次9.38;从不吸烟组共3名新生儿,平均秩次12.50。(1)秩次表118母亲每日吸烟多于20支组共4名新生儿,体重平均秩次3.75Kruskal-WallisH统计量的近似显著概率为0.023,按α=0.05的水准拒绝原假设,可认为四个组中至少有两组出生体重的总体分布不同。(2)检验统计量119Kruskal-WallisH统计量的近似显著概率为0.例4三批甘蓝叶样本分别在甲、乙、丙、丁四种条件下测量核黄素浓度,试验结果如下。问四种条件下的测量结果的差异是否具有统计学意义?数据见npd.sav:多个相关样本的非参数检验120例4三批甘蓝叶样本分别在甲、乙、丙、丁四种条件下测量核黄121121

Friedman:常用的多个配伍样本的非参数检验

Kendall’sW:可进一步给出一致性程度

Cochran’sQ:是两配对样本McNemar方法的推广,只适合二分类变量122Friedman:常用的多个配伍样本的非参数检验Kend(1)秩次表

经FriedmanTest,近似概率(Asymp.sig.)P=0.042,小于0.05,故拒绝原假设,认为四种条件下测量结果的差别具有统计学意义的。(2)检验统计量123(1)秩次表经FriedmanTest,近似概率(As谢谢!124谢谢!124谢谢!125谢谢!125第九讲数据分析(一)余可发博士江西财经大学工商管理学院126第九讲数据分析(一)余可发博士1一、数据处理与分析过程1、编辑2、编码3、数据输入4、数据分析(描述性分析、单变量分析、双变量分析、多变量分析)5、解释127一、数据处理与分析过程1、编辑2二、编辑编辑就是检查和调整数据遗漏、易读性和一致性的过程。编辑人员的任务就是要检查调查问卷或者其他数据收集形式中出现的错误和遗漏。当发现问题时,编辑要及时调整数据让他们变得更加完整、一致、可读。128二、编辑编辑就是检查和调整数据遗漏、易读性和一致性的过程。3编辑技巧:1、退回重新填写2、按缺失数据处理3、丢弃(1)不符合要求的问卷和少。(2)样本单位数很大。(3)不符合要求的问卷与符合要求的问卷之间在调查对象上的特征上没有明显的不同。(4)不符合要求的回答在该问卷中占很大的比例。(5)对关键变量的回答是缺失的。129编辑技巧:4编辑的类型:现场编辑后期编辑130编辑的类型:5编辑的任务:1、确定是否需要补充调查2、编辑的一致性3、编辑的完整性131编辑的任务:6三、编码编码就是将数字标度或其他符号分配给不同答案的过程。相关概念:域:一种类型的数据。记录:相关域的集合。文件:相关记录的集合。132三、编码编码就是将数字标度或其他符号分配给不同答案的过程。71338编码工作一般包括以下几个方面:(1)确定变量(2)确定变量值(3)无结构问题的编码(4)编码说明书及数据输出格式说明书。134编码工作一般包括以下几个方面:9问题025:您认为打工的外地人对北京市的社会秩序是否有影响?(单选)1□有很大影响2□有较大影响3□没有影响4□不好说4编码答案135问题025:您认为打工的外地人对北京市的社会秩序是否有影响?2)制作编码表1362)制作编码表11直接过录0-1编码变量名:一个数据文件中,一个变量只能有一个唯一名称。码位:某一变量在数据文件中占据的栏位码数:某一变量由几位数组成。该变量是数值型(Numeric)——如定距、定比,还是字串型(String),如定类、定序。前者在统计中可以做高级运算,后者则不可以。不适于被访人回答的问题的编码。一般采用7,97,997等。被访人回答不知道时的编码。一般采用8,98,998等。被访人拒绝回答某变量时的编码。一般采用9,99,999等。问卷中出现漏答时的处理编码。一般采用9,99,999等。137直接过录变量名:一个数据文件中,码位:某一变量在码数:该变四、数据录入外部式录入内部式录入采用DOS、WPS、CCED等软件,按ASCII码方式录入成文本文件(*.dat;*.txt)。这种录入方式的特点是,数据之间没有间隔,录完一个数码后自动后移,录入速度较快。缺点是容易错位。采用SPSS数据编辑器(SPSSDataEditor)录入。其优点是不容易错位,缺点是不能自动后移,录入速度慢,数据错误不容易修改。138四、数据录入外部式录入内部式录入采用DOS、WPS、CCED五、数据分析描述分析法假设检验法方差分析法聚类分析法判别分析法回归分析法139五、数据分析描述分析法141、描述性统计分析频数、频率分析数据集中趋势分析算术平均数中位数众数数据分散趋势分析全距(极差)四分位差标准差数据总体形态分布偏度(Skewness)峰度(Kurtosis)

1401、描述性统计分析频数、频率分析15频数、频率分析(1)例1:假设有样本数据ABCDEFGHIJ112214653322611223254334413314335413456424635352112114662634551322763662365118415336463495132522262103252341445141频数、频率分析(1)例1:假设有样本数据ABCDEFGHIJ1421714318算术平均数未分组数据的平均数计算分组数据的平均数计算上例的计算结果144算术平均数未分组数据的平均数计算19中位数的计算(1)未分组数据的中位数计算对所有数据进行排序,当数据量为奇数时,取中间数为中位数,当数据量为偶数时,取最中间两位数的平均数为中位数。上例中数据量为100,是偶数,所以应取排序后第50位数和第51位数的平均值作为中位数。第50位数是3,第51位数也是3,所以中位数为3。145中位数的计算(1)未分组数据的中位数计算20中位数的计算(2)分组数据的中位数计算下式中L为中位数所在组的下限值,fm为中位数所在组的组频数,Sm-1为至中位数组时累计总频数,h为组距。146中位数的计算(2)分组数据的中位数计算21中位数的计算(3)例2:假设有分组数据如下(销售额单位为万元)年销售额组中值商店数目累计频数80-90853390-10095710100-1101051323110-120115528120-130125230合计30147中位数的计算(3)例2:假设有分组数据如下(销售额单位为万元中位数的计算(4)依据公式例2的中位数为148中位数的计算(4)依据公式23众数的计算未分组数据的众数为出现次数最多的数。分组数据的众数依据下式计算获得。表达式中△1表示众数所在组与前一组的频数差,△2表示众数所在组与后一组的频数差。依据公式,例2分组数据的众数为104.29万元。149众数的计算未分组数据的众数为出现次数最多的数。24全距(极差)的计算全距指的是样本数据中最大值与最小值之间的距离,因而也叫极差。例1中最小值为1,最大值为6,因而全距为6-1=5。150全距(极差)的计算全距指的是样本数据中最大值与最小值之间的距四分位差的计算四分位差是一种按照位置来测定数据离散趋势的计量方法,它只取决于位于样本排序后中间50%位置内数据的差异程度。即第一个四分位与第三个四分位数据之间的差异。例2的四分位差计算过程如下151四分位差的计算四分位差是一种按照位置来测定数据离散趋势的计量标准差的计算(1)未分组数据的标准差计算152标准差的计算(1)未分组数据的标准差计算27标准差的计算(2)分组数据的标准差的计算153标准差的计算(2)分组数据的标准差的计算28常用图形——柱形图154常用图形——柱形图29直方图德国英国法国意大利西班牙荷兰瑞典瑞士比利时奥地利土耳其挪威丹麦中国芬兰葡萄牙希腊俄罗斯200400600800100012001400

xxx年中国内地与欧洲各国市场调查业的市场规模比较(年营业额:百万美元)155直方图德国30饼形图156饼形图31趋势图32.5215元14元13元12元11元10元9元8元以下157趋势图332散点图森氏满10.5%意4度沃力中美314.4%38.5%2120%40%首都知名度

郑州市主要纯水品牌的知名度、美誉度和市场占有率

158散点图森氏33态度对比图159态度对比图34轮廓形象图160轮廓形象图35雷达图161雷达图36数据分布形态图162数据分布形态图37SPSS的描述性分析Frequencies:频数分布表Descriptives:一般性描述Explore:探索性分析Crosstabs:交叉列表163SPSS的描述性分析Frequencies:频数分布表38描述性分析频数分布表一般性描述探索性分析交叉列表计算连续变量的相对比164描述性分析频数分布表一般性描述探索性分析交叉列表计算连续变量频数分布表(Frequencies)调用此过程可进行频数分布表的分析.频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。165频数分布表(Frequencies)调用此过程可进行频数分布待分析变量的列表是否显示频数表定义需要计算的统计量定义需要绘制的统计图定义表格166待分析变量的列表是否显示频数表定义需要计算的统计量定义需要绘百分位数分布特征描述离散趋势集中趋势Frequencies:定义统计量167百分位数分布特征描述离散趋势集中趋势Frequencies:统计图类型直方图加上正态曲线以频数绘制条图或饼图Frequencies:定义统计图无图形条图饼图直方图以构成比绘制条图或饼图168统计图类型直方图加上正态曲线以频数绘制条图或饼图FrequeFrequencies:定义表格频数表排列次序按数值升序按数值降序按频数升序按频数降序169Frequencies:定义表格频数表排列次序按数值升序按数Frequencies:结果解释170Frequencies:结果解释45Frequencies:结果解释171Frequencies:结果解释46Frequencies:结果解释172Frequencies:结果解释47一般性描述(Descriptives)描述性分析

调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标,且可将原始数据转换成标准Z分值并存入数据库,所谓Z分值是指某原始数值比其均值高或低多少个标准差单位,高的为正值,低的为负值,相等的为零。173一般性描述(Descriptives)描述性分析调用是否保存标准变换后的数据174是否保存标准49Descriptives:定义统计量175Descriptives:定义统计量50Descriptives:结果解释176Descriptives:结果解释51Descriptives:结果解释此外,系统以zheight和zweight为变量名将原始数据转换成标准z分值,存放在原数据库中。新变量具有均值为0、标准差为1的特征,亦即变量的标准化过程。177Descriptives:结果解释此外,系统以zheight探索性分析(Explore)描述性分析调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索性统计。它在一般描述性统计指标的基础上,增加有关数据其它特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。178探索性分析(Explore)描述性分析调用此过程可对变量进行两者均有统计量图分组变量列表待分析变量列表179两者均有统计量图分组变量列表待分析变量列表54Explore:定义统计量Descriptives:输出均数、均数的95%可信区间、去掉5%极端值的均数、中位数、方差、标准差、最小值、最大值、全距、四分位数间距、偏度系数、峰度系数。M-estimators:输出集中趋势的最大似然比的稳健估计。Outliers:输出五个最大值与五个最小值。Percentiles:输出第5%、10%、25%、50%、75%、90%、95%位数。180Explore:定义统计量Descriptives:输出均数箱图绘制方式茎叶图正态性检验/正态分布图Explore:定义统计图直方图181箱图绘制方式茎叶图正态性检验/正态分布图Explore:定义Excludecaselistwise:不分析有任一缺失值的记录Excludecasepairwise:不分析计算某统计量时有缺失值的记录Reportvalues:报告缺失值缺失值的处理方式Explore:缺失值的处理182Excludecaselistwise:不分析有任一缺失Explore:结果解释

原始数据的基本情况:男性有效数据459,缺失1,合计460;女性有效数据538,缺失2,合计540。183Explore:结果解释原始数据的基本情况:男性有效数据Explore:结果解释184Explore:结果解释59Explore:结果解释描述性分析左面为箱图,图中方箱为四分位数,中心粗线为中位数,两端线为最大值与最小值,之外的圆圈代表可疑的离群值。185Explore:结果解释描述性分析左面为箱图,图中方箱为四分2、假设检验假设检验又叫显著性检验(testofsignificance)。显著性检验的方法很多,常用的有u检验、t检验、F检验和2检验等。尽管这些检验方法的用途及使用条件不同,但其检验的基本原理是相同的。1862、假设检验假设检验又叫显著性检验(testofsig假设检验的步骤建立假设。对样本所属总体提出假设,包括无效假设H0和备择假设HA;确定显著水平α。常用的显著水平α=0.05和α=0.01;从无效假设H0出发,根据样本提供信息构造适宜统计量,并计算统计量值或概率;由附表查出相应的统计量临界值,比较样本统计量值与临界值大小,根据小概率原理做出统计推断(或由概率大小做出判断)。187假设检验的步骤建立假设。对样本所属总体提出假设,包括无效假设统计假设检验的几何意义统计假设检验从本质上来说,就是根据显著水平а将统计量(数)的分布划分为接受区和否定区两部分。前者为接受原假设H0的区间,后者为否定H0,而接受HA的区间。当试验结果落入接受区,就接受H0;反之,否定H0,而接受HA。否定区的概率为α,接受区的概率为1-α。188统计假设检验的几何意义统计假设检验从本质上来说,就是根据显著

是否否定无效假设或,用实际计算出的统计量u或t的绝对值与显著水平α对应的临界值ua或ta比较。若|u|≥ua或|t|≥ta,则在α水平上否定;若|u|<ua或|t|<ta,则不能在α水平上否定。区间和或称为α水平上的否定域,而区间()则称为α水平上的接受域。189是否否定无效假设或图1双侧检验时H0的接受域和否定域190图1双侧检验时H0的接受域和否定域65统计假设检验的两类错误

统计假设检验的是根据“小概率事件实际不可能性原理”来否定或接受无效假设的,所以不论是接受还是否定无效假设,都没有100%的把握。也就是说,在检验无效假设时可能犯两类错误。第一类错误:H0本身是成立,但通过检验却否定了它,犯了“弃真”错误,也叫Ⅰ型错误(typeⅠerror)、а错误。Ⅰ型错误,就是把非真实差异错判为真实差异,即为真,却接受了。191统计假设检验的两类错误统计假设检验的是根据“小第二类错误:H0本身不成立,但通过检验却接受了它,犯了“纳伪”错误,也叫Ⅱ型错误(typeⅡerror)、β错误。Ⅱ型错误,就是把真实差异错判为非真实差异,即为真,却未能否定。统计检验是基于“小概率事件实际不可能性原理”来否定H0,但在一次试验中小概率事件并不是绝对不会发生的。如果我们抽得一个样本,它虽然来自与H0对应的抽样总体,但计算所得的统计量却落入了否定域中,因而否定了H0,于是犯了Ⅰ型错误。犯Ⅰ这类错误的概率不会超过a。192第二类错误:H0本身不成立,但通过检验却接受了它,图2两类错误示意图193图2两类错误示意图68假设检验的类型参数假设检验U检验t检验非参数检验194假设检验的类型参数假设检验69参数统计(parametricstatistics):t、Z、和F检验均属参数检验。其共同特点是,假定随机样本来自某种已知分布(如正态分布)的总体,并对总体分布的参数(如总体均数)进行估计或检验。非参数统计(nonparametricstatistics):对总体分布不作严格规定,不依赖于总体分布类型,也不对总体参数进行统计推断。195参数统计(parametricstatistics):t参数检验——U检验当样本容量大于30时,可以采用U检验。均值检验百分比检验双样本平均数差异的检验双样本百分比差异的检验196参数检验——U检验当样本容量大于30时,可以采用U检验。71均值检验(U)假设有选取统计量设定显著性水平查表得到根据U的计算结果,比较U的绝对值与的大小。若有则接受H0,否则拒绝H0。197均值检验(U)假设有72百分比检验(U)假设有选取统计量设定显著性水平查表得到根据U的计算结果,比较U的绝对值与的大小。若有则接受H0,否则拒绝H0。198百分比检验(U)假设有73双样本平均数差异的检验(U)假设有选取统计量设定显著性水平查表得到根据U的计算结果,比较U的绝对值与的大小。若有则接受H0,否则拒绝H0。199双样本平均数差异的检验(U)假设有74双样本百分比差异的检验(U)假设有选取统计量设定显著性水平查表得到根据U的计算结果,比较U的绝对值与的大小。若有则接受H0,否则拒绝H0。200双样本百分比差异的检验(U)假设有75练习例1:某一酿造厂新引进一种酿醋曲种,以原曲种为对照进行试验。已知原曲种酿出的食醋醋酸含量平均为μ0=9.75%,其标准差为σ=5.30%。现采用新曲种酿醋,得到30个醋样,测得其醋酸含量平均为=11.99%。试问,能否由这30个醋样的平均数判断新曲种好于原曲种?201练习例1:某一酿造厂新引进一种酿醋曲种,以原曲种为对前例分析:所以在a=0.05水平上的接受域为(0.0785<<0.1165)否定域为≤0.0785,≥0.1165

试验结果=0.1199,落入否定区间,所以否定,接受结论:采用新曲种酿造食醋,其醋酸含量有显著改变。202对前例分析:所以在a=0.05水平上的接受域为(0.0785例题:在食品厂的甲乙两条生产线上各测定了30个日产量如表所示,试检验两条生产线的平均日产量有无显著差异。甲生产线(x1)乙生产线(x2)747156547178655354605669625762697363584951536662617262707874585866715356776554586362607065585669596278536770687052555557表1甲乙两条生产线日产量记录203例题:在食品厂的甲乙两条生产线上各测定了30个日产量如表所示(1)建立假设。即两条生产线的平均日产量无差异。(2)确定显著水平α=0.01(3)计算故:204(1)建立假设。(2)确定显著水平α=0.01(3)计算(4)统计推断。由α=0.01查附表2,得u0.01=2.58实际|u|=3.28>u0.01=2.58,故P<0.01,应否定H0,接受HA。说明两个生产线的日平均产量有极显著差异,甲生产线日平均产量高于乙生产线日平均产量。205(4)统计推断。80参数检验——t检验当样本容量小于30时,不可以使用U检验,而需要使用t检验。均值检验均值差异的检验百分比差异的检验206参数检验——t检验当样本容量小于30时,不可以使用U检验,而均值检验(t)假设有选取统计量设定显著性水平查表得到根据t的计算结果,比较t的绝对值与的大小。若有则接受H0,否则拒绝H0。207均值检验(t)假设有82均值差异的检验(t)假设有选取统计量设定显著性水平查表得到根据t的计算结果,比较t的绝对值与的大小。若有

则接受H0,否则拒绝H0。208均值差异的检验(t)假设有83百分比差异的检验(t)假设有选取统计量设定显著性水平查表得到根据t的计算结果,比较t的绝对值与的大小。若有

则接受H0,否则拒绝H0。209百分比差异的检验(t)假设有84例1用山楂加工果冻,传统工艺平均每100g加工500g果冻,采用新工艺后,测定了16次,得知每100g山楂可出果冻平均为=520g,标准差S=12g。问新工艺与老工艺在每100g加工果冻的量上有无显著差异?210例1用山楂加工果冻,传统工艺平均每100g加工500本例总体方差未知,又是小样本,采用双侧t检验。(1)提出无效假设与备择假设,即新老工艺没有差异。,即新老工艺有差异。(2)确定显著水平α=0.01(3)计算t值211本例总体方差未知,又是小样本,采用双侧t检验。86(4)查临界t值,作出统计推断由=15,查t值,得t0.01(15)=2.947,因为|t|>t0.01,P<0.01,故应否定H0,接受HA,表明新老工艺的每100g加工出的果冻量差异极显著。(在统计量t上标记**)212(4)查临界t值,作出统计推断87例题2:海关抽检出口罐头质量,发现有胀听现象,随机抽取了6个样品,同时随机抽取6个正常罐头样品测定其SO2含量,测定结果见表4-3。试分析两种罐头的SO2含量有无差异。正常罐头(x1)100.094.298.599.296.4102.5异常罐头(x2)130.2131.3130.5135.2135.2133.5表2正常罐头与异常罐头SO2含量测定结果213例题2:海关抽检出口罐头质量,发现有胀听现象,随机抽取了6个(1)提出无效假设与备择假设两种罐头SO2含量没有差异;(2)确定显著水平α=0.01(两尾概率)(3)计算214(1)提出无效假设与备择假设两种罐头SO2含量没有差(4)统计推断由df=10,α=0.01查附表3得t0.01(10)=3.169。实得|t|=22.735>t0.01(10)=3.169,P<0.01,故应否定无效假设H0,即两种罐头的SO2含量有高度显著差异,该批罐头质量不合格。215(4)统计推断90例题3:现有两种茶多糖提取工艺,分别从两种工艺中各取1个随机样本来测定其粗提物中的茶多糖含量,结果见表4-4。问两种工艺的粗提物中茶多糖含量有无差异?醇沉淀法(x1)27.5227.7828.0328.8828.7527.94超滤法(x2)29.3228.1528.0028.5829.00表4-4两种工艺粗提物中茶多糖含量测定结果216例题3:现有两种茶多糖提取工艺,分别从两种工艺中各取1个随机(1)建立假设,提出无效假设与备择假设,两种工艺的粗提物中茶多糖含量无差异;(2)确定显著水平α=0.05(两尾概率)

(3)计算217(1)建立假设,提出无效假设与备择假设,两种工艺的粗因两个样本的容量不等,所以218因两个样本的容量不等,所以93(4)查临界t值,作出统计推断当df=9时,查临界值得:t0.05(9)=2.262,|t|=1.381<t0.05(9),所以P>0.05,接受,表明两种工艺的粗提物中茶多糖含量无显著差异。219(4)查临界t值,作出统计推断94非参数检验(X2)在市场调查中常获得一些量表数据,对量表数据求取平均数与方差都是毫无意义的。对量表数据的处理更适宜于采用非参数检验方法。非参数检验中常用的方法是X2检验。X2检验的统计量是上述统计量中,表示第类别在样本中实际出现的次数,表示期望出现的次数,为类别数。220非参数检验(X2)在市场调查中常获得一些量表数据,对量表数据一般选用非参数统计方法的资料:①总体分布不易确定;②分布呈非正态而又无适当的数据转换方法;③等级资料;④一端或两端无确定数值等。因此,非参数检验又称任意分布检验(distribution-freetest)。在实际应用中,对符合参数检验的资料,或经变量变换后符合参数检验的资料应首选参数检验;对不能满足参数检验条件的资料,应选用非参数检验。

221一般选用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论