




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计案例分析案例2.1大学生月平均生活费的估计和检验姓名:覃玉冰学号:班级:16应用统计、数据为了了解大学生日常生活费支出及生活费来源状况,对中国人民大学在校本科生的月生活费支出问题进行了抽样调查。该问卷随机抽取中国人民大学大一、大二、大三、大四在校本科生男女各30多人作为样本。调查采取分层抽样,对在校本科生各个年级男生、女生各发放问卷30多份,共发放问卷300份,回收问卷291份,其中有效问卷共272份。其中,男生的有效问卷为127份,女生为145份。调查得到的部分数据见表一。表一大学生月平均生活费支出的调查数据(仅截取部分)性别所在年级家庭所在地区平均月生活费(元)性别所在年级家庭所在地区
2、平均月生活费(元)男二1998级大型城巾1000女1998级大型城巾500男1998级大型城巾800女1998级大型城巾8001998级r大型城巾1000女1998级大型城巾500男1998级中小城市400女1998级大型城巾1000二、生活费支出的区间估计和假设检验(一)平均月生活费的描述统计量为了更好地研究全校本科学生平均月生活费支出,我们先来看一下样本数据中平均月生活费支出的一些描述统计量。在spss中,点分析一描述统计一描述一变量选择“平均月生活费”,选项选择“均值、标准差、均值的标准误”,得到的样本数据中平均月生活费的描述统计量见表二。表二平均月生活费的描述统计量N均值标准差统计量统
3、计量标准误统计量平均月生活费有效的N(列表状态)272272595.0414.761243.444从表二可以看到,样本数据中平均月生活费支出的均值为595.04,标准差为243.444,均值的标准误为14.761.(二)平均月生活费的假设检验从表二中我们已经知道了样本数据中平均月生活费支出的均值为595.04,现在我们来检验一下全校本科学生即总体的月平均生活费支出是否等于500。1 .检验统计量的确定样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。现在我们并不知道总体的月平均生活费支出是否服从正态分布,但是在样本量大的条件下,如果总体为正态分布,样本统计量服从正态分布:如果
4、总体为非正态分布,样本统计量也是渐进服从正态分布的。所以在这种情况下,我们都可以把样本统计量视为正态分布,这时可以使用z统计量(z分布)。即在总体标准差d已知时,有X7。z二:、/n而我们这里总体标准差6是未知的,此时可以用样本标准差s代替,上式可以写为:2 .提出假设原假设Ho为:全校本科学生月平均生活费支出u=500备择假设Hi为:全校本科学生月平均生活费支出u=5003 .spssft作及结果分析在spss中点分析一比较均值一单样本T检验一检验变量选“平均月生活费”检验值填“500”,得到的平均月生活费的假设检验的结果见表三。表三平均月生活费的假设检验的结果检验值=500tdfSig侬侧
5、)均值差值差分的95%置信区间下限上限平均月生活费6.438271000|95.03765.98124.10从表三可以看到,检验的P值接近于0,其小于0.05,根据小拒大接的原则,拒绝原假设,表面全校学生的月平均生活费支出与500元有显著差异。(三)平均月生活费的区间估计1 .数学模型的建立样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。现在我们并不知道总体的月平均生活费支出是否服从正态分布,但是在样本量大的条件下,样本均值x的抽样分布均为正态分布,其数学期望为总体均值R,方差x经过标准化以后的随机变量服从标准正态分布,即x-LZU”由上式和正态分布的性质,可以得出总体均值
6、N在1-a置信水平下的置信区间为x-z.,xz.IL,2,n一2n-_一,.式中,x-z%卡称为置信下限,x+z丐舟称为置信上限;a是事先所确定的一个概率值,也称为风险值,它是总体均值不包括在置信区间的概率;1-a称为置信水平;z.是标准正态分布右侧面积为吆时的z值;旦是总体均值的22.n标准误;z,£是估计总体均值时的估计误差。2n这里,我们并不知道全校本科学生的平均月生活费支出的方差,但是由于样本数据的样本量较大,所以上式中的总体方差62可以用样本方差s2代替,这时总体均值N在1-口置信水平下的置信区间可以写为:ssIxz.,xz.ILr.n2n2 .模型的求解由表二可知,样本均
7、值为595.04,样本均值的标准误?为14.761.当风险n值支取0.05时,即置信水平1-o(取95%寸,全校学生月平均生活费支出的95%的置信区间为595.04-1.96*14.761,595.04+1.96*14.761,即566.11到623元之间。三、男女学生的平均月生活费的假设检验(一)男女学生的平均月生活费的描述统计量为了更好地研究全校本科男女学生的平均月生活费支出间是否有显著差异,我们先来看一下样本数据中男女学生的平均月生活费支出的一些描述统计量。在spss中点数据一拆分文件一勾选“比较组”一分组方式选“性别”然后点分析一描述统计一描述一变量选择“平均月生活费”,选项选择“均值
8、、标准差、均值的标准误”,得到的平均月生活费的描述统计量见表四。表四男女学生平均月生活费的描述统计量性别N均值标准差统计量统计量标准误统计量男平均月生活费有效的N(列表状态)127127569.69|20.387229.748女平均月生活费有效的N(列表状态)145145617.2421.056253.543从表四可以看到,样本数据中男生的平均月生活费支出的均值为596.69,617.24.标准差为标准差为229.748;女生的平均月生活费支出的均值为253.543o单从样本数据中男女学生的平均月生活费支出的均值来看,全校本科男女学生的平均月生活费支出间是有差异的,但是这只是我们主观的看法,下
9、面我们用两个总体均值之差的假设检验来探究全校本科男女学生的平均月生活费支出问是否有显著差异。(二)男女学生的平均月生活费间的假设检验1 .检验统计量的确定样本数据中男学生有127人,女学生有145人,均大于30,说明两个总体的样本量均较大,此时无论两个总体的分布是不是正态分布,可以证明的是,由两个独立样本算出来的X1-X2的抽样分布都是服从正态分布的,此时,作为检验统计量z的计算公式为:(xi-Xi)-(J1-J2)式中,因,也分别为两个总体的均值,叶,占;分别为两个总体的方差。这里,我们并不知道全校本科男学生和女学生的平均月生活费支出的方差,但是由于两个总体的样本量都较大,所以可以用样本方差
10、S2,S2来替代总体方差6;,6;.此时,上式可以写为:(X1-X1)-(口12)Z:-22s1.s2nn22 .提出假设原假设H。为:全校本科男女学生月平均生活费支出之差吃-乜=0,即全校本科男女学生的平均月生活费支出之间没有显著差别。备择假设Hi为:全校本科男女学生月平均生活费支出之差日-乙。0,即全校本科男女学生的平均月生活费支出之间有显著差别。3 .spss操作及结果分析在spss中点数据一拆分文件一勾选“分析所有个案,不创建组”,然后点分析一比较均值一独立样本T检验一检验变量选“平均月生活费”一分组变量选“性别编号”,定义组选择“使用指定值1和2”,得到的男女学生的平均月生活费间的假
11、设检验的结果见表四。表四男女学生的平均月生活费间的假设检验的结果方差方程的Levene检验均值方程的t检验FSig.tdfSig.砥侧)均值差值标准误差值差分的95%置信区间下限上限平均月生活费假设方差相等.484画-1.612270|.108|-47.55629.500-105.63510.523假设方差不相等-1.623269.679.106-47.55629.308-105.25810.145从表四可以看出,当原假设是男女学生的平均月生活费的方差相等时,检验所对应的P值是0.487,其大于0.05,根据小拒大接的原则,不能拒绝原假设,即没有证据表明方差是不相等的,故我们看假设方差相等时的
12、假设检验的结果就可以了。从假设方差相等时的假设检验的结果上来看,检验的P值为0.108,其大于0.05,根据小拒大接的原则,不能拒绝原假设,即没有证据表明男女学生的月平均生活费支出之间有显著差异。四、估计乡镇地区学生的比例(一)对学生按性别和来源进行分类汇总为了估计乡镇地区学生的比例,我们先对学生按性别和来源进行分类汇总,在spss中点分析一描述统计一交叉表一行选择“性别”,列选择“家庭所在地区”一单元格中的百分比勾选“行”,得到如表五所示的汇总表。表五按性别和家庭所在地区进行的分类汇总家庭所在地区合计大型城市乡镇地区中小城市性别男计数性别中的2620.5%4636.2%5543.3%1271
13、00.0%女计数性别中的6041.4%2215.2%6343.4%145100.0%合计计数性别中的8631.6%68|25.0%11843.4%272100.0%从表五可以看到,家庭所在地区为乡镇地区的学生占所有被抽中的学生的25%。(三)乡镇地区学生比例的区间估计1 .数学模型的建立样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。由样本比例p的抽样分布可知,当样本量足够大时,比例p的抽样分布可用正态分布近似。p的数学期望为E(p)=冗;p的方差为6:="")。样本比例经标准pn化后的随机变量则服从标准正态分布,即p一了:zN(0,1),二(1m)/n
14、与总体均值的区间估计类似,在样本比例p的基础上加减估计误差z%6p,即得总体比例n在1-久置信水平下的置信区间为:k(1-Tt)n(1_n)pf,p用上式计算总体比例n的置信区间时,n值应该是已知的。但实际情况不然,n值恰好是要估计的,所以,需要用样本比例p来替代冗。这时,总体比例的置信区间可表示为:式中,p-z凫Jp(1;p)称为置信下限,p+,Y"1;p)称为置信上限;a是显著性水平;z8是标准正态分布右侧面积为%时的z值;2a4的二©是估222.n计总体比例时的估计误差2.模型的求解从表五可以得到,家庭所在地区为乡镇地区的学生占所有被抽中的学生的25%。所以全校本科学
15、生中,乡镇学生比例的95%的置信区间为0.25-1.96mJ0.25(1-0友,0.25+1.96父j0.25(1-0.25)即19.85%U30.15%间。22722272五、单因素对月平均生活费支出的影响分析(一)数学模型1.单因素方差分析单因素方差分析是指对单因素试验结果进行分析,检验因素对试验结果有无显著性影响的方法。单因素方差分析是两个样本平均数比较的引伸,它是用来检验多个平均数之间的差异,从而确定因素对试验结果有无显著性影响的一种统计方法。在数据中,总误差反映全部观测数据的误差;处理误差(组间误差)是由于不同处理造成的误差,它反映了处理对观测数据的影响,因此称为处理效应;随机误差(
16、组内误差)是由于随机因素造成的误差,也简称为误差。|数据的误差用平方和表示,记为S3其中总平方和记为SST其计算公式为:1n2SST="(%-y)2imj3它反映全部数据总误差大小的平方和。处理平方和记为SSA其计算公式为:l一SSA-6(7-y)2i1它反映处理误差大小的平方和,也称为组问平方和。误差平方和记为SSE其计算公式为:lnSSE-(yj-yi)2i1jW它反映了随机误差大小的平方和,也称为组内平方和。误差平方和的分解及其关系所图一所示。总误差处理误差踵机误差越平方和(55T)图一误差平方和的分解及其关系方差分析的基本原理就是要分析数据的总误差中有没有处理误差。如果处理对
17、观测数据没有显著影响,意味着没有处理误差。这时,每种处理所对应的总体均值应该相等,如果存在处理误差,每种处理所对应的总体均值至少有一对不相在只考虑一个因素的情况下,方差分析也就是要检验下面的假设:H/H(i=1,2,,k)不全相等注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等。2.多重比较多重比较的作用是在拒绝原假设的条件下,通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。多重比较方法有多种,如Fisher的LSD方法、Tukey-Kramer的HSM法等。其中LSD是最小显著差异(leastsignificantdifference)的缩写
18、,该检验方法是由统计学家Fisher提出来的,因此也称为Fisher的最小显著差异方法,简称LSD方法。LSD的适用场合是:如果研究者在事先就已经计划好要对某对或某几对均值进行比较,不管方差分析的结果如何(拒绝或不拒绝原假设),都要进行比较,这时适合采用LSD方法。我们在下面的操作中都是用LSD方法进行多重比较的。(二)年级对月平均生活费支出的影响分析不同年级的学生的月平均生活费支出可能有所不同,现在我们来探究年级对学生的月平均生活费支出是否有显著的影响。方差分析中有三个基本假定:(1)每个总体都应服从正态分布。也就是说,对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本。(2)各
19、个总体的方差必须相同。也就是说,各组观察数据是从具有相同方差的正态总体中抽取的。(3)观测值是独立的每个年级各抽取了60多个学生,样本量比较大,故对于因素的每一个水平,其观测值均可以认为近似服从正态分布,所以满足了第一个假定。由于抽取四个年级的学生是独立进行的,所以可以认为四组样本观测值是相互独立的,即满足了第三个假定。对于第二个假定,我们需要进一步的验证,故我们在做方差分析时要顺带做一下方差齐性检验。在spss中点分析一一股线性模型一单变量一因变量选择“平均月生活费”,固定因子选择“所在年级”一两两比较中的两两比较检验选择“所在年级”,假定方差齐性选择“LSD”一选项中勾选“方差齐性检验”,
20、得到的年级对月平均生活费支出的影响分析结果如表六、表七和表八所示。表六年级对支出影响的方差齐性检验因变量:平均月生活费Fdf1df2Sig.0683268回检验零假设,即在所有组中因变量的误差方差均相等。a.设计:截距+所在年级从表七可以看出,方差齐性检验的P值为0.977,大于显著性水平0.05,根据小拒大接的原则,应该接受原假设,此处的原假设是四个总体的方差相等,故满足方差齐性的假设,即满足第二个假定,可以进行方差分析。表七年级对支出影响的方差分析表因变量:平均月生活费源III型平方和df均方FSig.校正模型75378.112a325126.037.421.738截距87257473.2
21、69187257473.2691462.896.000所在年级75378.112325126.037.421国误差15985421.52126859647.095总计1.124E8272校正的总计16060799.632271a.R方=.005(调整R方=-.006)从表七可以看到,方差分析检验的P值为0.738,大于显著性水平0.05,根据小拒大接的原则,不能拒绝原假设,即认为没有证据表明年级对生活费支出有显者影响。表八年级对支出影响的多重比较平均月生活费LSD95%置信区间(I)所在年级(J)所在年级均值差值(I-J)标准误差Sig.下限上限1998级1999级-15.6948.162回-
22、110.5279.132000级24.4645.757593|-65.63114.552001级17.6849.689产1-80.15115.511999级1998级15.6948.162西-79.13110.522000级40.1537.828289|-34.33114.632001级33.3842.500433|-50.30117.062000级1998级-24.4645.757193|-114.5565.631999级-40.1537.828f289|-114.6334.332001级-6.7739.753|.865|-85.0471.502001级1998级-17.6849.689回-
23、115.5180.151999级-33.3842.500函3-117.0650.302000级6.7739.753|.865-71.5085.04基于观测到的均值。误差项为均值方(错误)=59647.095。从表七可以看到,在多重比较中,检验的各P值均大于显著性水平0.05,根据小拒大接的原则,不能拒绝原假设,这表明各年级之间的月平均生活费支出之间没有显著差异。(三)地区对月平均生活费支出的影响分析不同地区的学生的月平均生活费支出可能有所不同,现在我们来探究地区对学生的月平均生活费支出是否有显著的影响。从表五可以看出,每个地区所抽取的样本量都比较大,故对于因素的每一个水平,其观测值均可以认为近
24、似服从正态分布,所以满足了第一个假定。由于抽取三个地区的学生是独立进行的,所以可以认为三组样本观测值是相互独立的,即满足了第三个假定。对于第二个假定,我们需要进一步的验证,故我们在做方差分析时要顺带做一下方差齐性检验。在spss中点分析一一股线性模型一单变量一因变量选择“平均月生活费”,固定因子选择“家庭所在地区”一两两比较中的两两比较检验选择“家庭所在地区”,假定方差齐性选择“LSD”一选项中勾选“方差齐性检验”,得到的年级对月平均生活费支出的影响分析结果如表九、表十和表十一所示。表九地区对支出影响的方差齐性检验因变量:平均月生活费Fdf1df2Sig.1.282226949检验零假设,即在
25、所有组中因变量的误差方差均相等。a.设计:截距+家庭所在地区从表九可以看出,方差齐性检验的P值为0.279,大于显著性水平0.05,根据小拒大接的原则,应该接受原假设,此处的原假设是四个总体的方差相等,故满足方差齐性的假设,即满足第二个假定,可以进行方差分析表十地区对支出影响的方差分析表因变量:平均月生活费源III型平方和df均方FSig.校正模型391308.716a2195654.3583.359.036截距89252281.148189252281.1481532.204.000家庭所在地区391308.7162195654.3583.359回误差15669490.91726958250
26、.896总计1.124E8272校正的总计16060799.632271a.R方=.024(调整R方=.017)从表十可以看到,方差分析检验的P值为0.036,小于显著性水平0.05,根据小拒大接的原则,应该拒绝原假设,即有证据表明地区对生活费支出有显著影响。表十一地区对支出影响的多重比较平均月生活费LSD(I)家庭所在地区(J)家庭所在地区均值差值(I-J)标准误差Sig.95%置信区间下限上限大型城市乡镇地区*85.1239.166|.031|8.01162.23中小城市-4.1134.220|.905-71.4863.26乡镇地区大型城市*-85.1239.166|.031-162.23
27、-8.01中小城市*-89.2336.746丽-161.58-16.89中小城市大型城市4.1134.220|.905|-63.2671.48乡镇地区*89.2336.74616.89161.58基于观测到的均值。误差项为均值方(错误)=58250.896。*.均值差值在.05级别上较显著。表十一给出的各P值表明,乡镇地区与大城市和中小城市之间的月平均生活费支出之间均有显著差异,而大城市与中小城市之间的差异则不显著。六、双因素对月平均生活费支出的影响分析(一)数学模型双因素方差分析有两种类型:一个是无交互作用的双因素方差分析,它假定因素A和因素B的效应之间是相互独立的,不存在相互关系;另一个是
28、有交互作用的双因素方差分析,它假定因素A和因素B的结合会产生出一种新的效应只考虑主效应的误差分解如图二所示。息误差总平方和6订)因素人平方和(田)因素B平方和伊B)误差平方和(SSE)图二只考虑主效应的误差分解考虑交互效应的误差分解如图三所示总误差因素A的因素£.的2是误差+处理】吴差交互作用I天差随机误差总平方和(SST1图三考虑交互效应的误差分解交互作用平方和(SSAB)误差十平方和(SSE)(二)不考虑交互效应的性别和地区对月平均生活费支出的影响分析不同性别和地区的学生的月平均生活费支出可能有所不同,现在我们来探究不考虑交互效应时的性别和地区两个因素对学生的月平均生活费支出是否
29、有显著的影响。在双因素方差分析中,每个观测值看作由行因素(性别)的2两个水平和列因素(家庭所在地区)的三个水平所组合成的6个总体中抽取的样本量为1的独立随机样本。这六个总体中的每一个总体都应该服从正态分布且具有相同的方差。由于每个总体的样本量较大,所以可以认为近似服从正态分布,对于第二个假定,我们需要进一步的验证,故我们在做方差分析时要顺带做一下方差齐性检验。在spss中点分析一一股线性模型一单变量一因变量选择“平均月生活费”,固定因子选择“性别和家庭所在地区”一模型中的指定模型勾选“设定”,构建项选择“主效应”,并将“性别和家庭所在地区”选入模型一绘制中选择图“性别*家庭所在地区、家庭所在地
30、区*性别”一选项中勾选“方差齐性检验”,得到的同时考虑性别和地区两个因素的影响但不考虑交互效应的分析结果如表十二和表十三所小。表十二考虑性别和地区影响(只考虑主效应)分析的方差齐性检验因变量:平均月生活费Fdf1df2Sig.6985266国检验零假设,即在所有组中因变量的误差方差均相等。a.设at:截距+家庭所在地区+性别从表十二可以看出,方差齐性检验的P值为0.625,大于显著性水平0.05,根据小拒大接的原则,应该接受原假设,故满足方差齐性的假设,可以进行方差分析。表十三考虑性别和地区影响(只考虑主效应)的方差分析表因变量:平均月生活费源III型平方和df均方FSig.校正模型45582
31、8.125a3151942.7082.609.052截距88948545.338188948545.3381527.604.000家庭所在地区302712.4462151356.2232.599回性别64519.409164519.4091.108国误差15604971.50826858227.506总计1.124E8272校正的总计16060799.632271a.R方=.028(调整R方=.018)从表十三可以看到,方差分析中,家庭所在地区检验的P值为0.076,性别检验的P值为0.293,均大于显著性水平0.05,根据小拒大接的原则,不能拒绝原假设,即均没有证据表明二者对生活费支出有显著
32、影响。525-估窃际均值5001大型城市夕镇%区中小城市家庭所在地区平均月生活费的估算边际均值估窃际均值家庭所在地区大型城市乡禧地区中小城市性别图四性别和地区对支出影响的均值图图四给出了两个因素影响的均值图。纵坐标是估计的平均月生活费的边际均值。条线分别表示不同性别和不同家庭所在地区的学生的平均月生活费情况。由于此处我们使用的只考虑主效应的方差分析模型,所以线条折线是平行的。(三)考虑交互效应的性别和地区对月平均生活费支出的影响分析现在我们来探究一,除了同时考虑性别和地区两个因素的影响外,还考虑二者对月平均生活费支出的交互效应的情况。在spss中点分析一一股线性模型一单变量一因变量选择“平均月生活费”,固定因子选择“性别和家庭所在地区”一模型中的指定模型勾选“全因子”一绘制中选择图“性别*家庭所在地区、家庭所在地区*性别”一选项中勾选“方差齐性检验”,得到的分析结果如表十四和表十五所示。表十四考虑性别和地区影响(考虑交互效应)分析的方差齐性检验因变量:平均月生活费Fdf
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 不用设计合同样本
- 4电能和磁能 教学设计-2024-2025学年科学六年级上册教科版
- 公司型基金合同样本
- ppp投资运营合同样本
- 书买卖协议合同样本
- 亚马逊云服务合同标准文本
- zz服装购销合同样本
- 公司会计协议合同样本
- 修补合同样本
- 供货给药店合同样本
- 国际贸易实务-第三章-商品的品名、品质、数量及包装
- 零碳建筑技术标准培训课件
- 盘扣脚手架专项施工方案
- CNG撬车连接安全操作规程
- 地形图的识别与应用-地形图的识别(森林调查技术)
- 科学小报科技小报小学生word手抄报小报模板
- 2022-2023学年天津市南开区七年级(下)期中数学试卷-普通用卷
- DISC职业性格测试(40题,附完整分析)
- 2023年北京定额及计算规则
- 问题解决型护理品管圈QCC成果汇报之降低透析器凝血发生率
- 全自动蜂窝纸板生产线介绍-美迅机械设备制造商
评论
0/150
提交评论