数据的基本统计与非参数检验_第1页
数据的基本统计与非参数检验_第2页
数据的基本统计与非参数检验_第3页
数据的基本统计与非参数检验_第4页
数据的基本统计与非参数检验_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、北京建筑大学理学院信息与计算科学专业实验报告课程名称数据分析实验名称数据的基本统计与非参数检验实验地点基 C-423日期2016.3 .17姓名_班级 _学号_指导教师_成绩 【实验目的】(1)熟悉数据的基本统计与非参数检验分析方法;(2)熟悉撰写数据分析报告的方法;(3)熟悉常用的数据分析软件 SPSS【实验要求】根据各个题目的具体要求,完成实验报告【实验内容】根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别对数据的“家 庭收入”、“现住面积”,进行数据的基本统计量分析,撰写相应的分析报告;根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别分析不同学历 对家

2、庭收入、现住面积是否有显著影响,撰写相应的分析报告。根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析家庭收入与 10000元是否有显著差异,撰写相应的分析报告。根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析婚姻状况对家 现住面积是否有显著影响,撰写相应的分析报告。根据附件“减肥茶数据”给出的相关数据,请选用恰当的分析方法,分析该减肥茶对减肥 是否有显著影响,撰写相应的分析报告。【分析报告】1.表一家庭收入和现住面积的基本描述统计量家庭收入现住面积N有效29932993缺失00均值17696.156762.7241均值的标准误279.64310.47349中

3、值15000.000060.0000众数10000.0060.00标准差15298.8034125.90383方差2.341E8671.008偏度5.546.910偏度的标准误.045.045峰度55.4253.078峰度的标准误.089.089百分位数2510000.000045.00005015000.000060.00007520000.000080.0000表一说明,家庭收入方面:被调查者中家庭收入的均值为17696.16元,中值为15000元,普遍收入为10000元;家庭收入的标准差和方差都相对较大,所以,各家庭收入之间有明显的差异;偏度大于零,说明右偏;峰度大于零,说明数据呈尖峰分

4、布;由家庭收入的四分位数可知,25%的家庭,收入在10000以下,有50%的家庭,收入在15000以下,有75%的家庭,收入在 20000以下;现住面积方面:被调查者中现住面积的均值为 62.724平方米,中值为60平方米,普遍面积为60平方米;现住面积的标准差和方差都相对较大,所以,各家庭现住面积之间有明显的差异;偏度近似等于零,说明现住面积数据对称分布;峰度大于零,说明现住面积数据为尖峰分布;由现住面积的四分位数可知,25%的家庭,现住面积为 45平方米以下,有50%的家庭,现住面积在60平方米以下,有75%的家庭,现住面积在 80平方米以下。图一:家庭收入直方图该图表明,家庭收入分布存在

5、一定的右偏。i I . tn I 比门图二:现住面积直方图该图形象的展示了现住面积的数据分布比标准正态分布更陡峭表二:学历与现住面积的交叉表new總計1.002.003.004.005.00文初中及以下計數7968100805化預期計數779.221.22.21.11.3805.0程文化程度內的%98.9%1.0%0.1%0.0%0.0%100.0%度new內的%27.5%10.1%12.5%0.0%0.0%26.9%佔總計的百分比26.6%0.3%0.0%0.0%0.0%26.9%殘差16.8-13.2-1.2-1.1-1.3標準殘差.6-2.9-.8-1.0-1.2高中(中专)計數1240

6、171001258預期計數1217.633.23.41.72.11258.0文化程度內的%98.6%1.4%0.1%0.0%0.0%100.0%new內的%42.8%21.5%12.5%0.0%0.0%42.0%佔總計的百分比41.4%0.6%0.0%0.0%0.0%42.0%殘差22.4-16.2-2.4-1.7-2.1標準殘差.6-2.8-1.3-1.3-1.4大学(专、本科)計數83251544896預期計數867.323.62.41.21.5896.0文化程度內的%92.9%5.7%0.6%0.4%0.4%100.0%new內的%28.7%64.6%62.5%100.0%80.0%29

7、.9%佔總計的百分比27.8%1.7%0.2%0.1%0.1%29.9%殘差-35.327.42.62.82.5標準殘差-1.25.61.72.62.0研究生及以上計數29310134預期計數32.9.9.1.0.134.0文化程度內的%85.3%8.8%2.9%0.0%2.9%100.0%new內的%1.0%3.8%12.5%0.0%20.0%1.1%佔總計的百分比1.0%0.1%0.0%0.0%0.0%1.1%殘差-3.92.1.9.0.9標準殘差-.72.23.0-.24.0總計計數2897798452993預期計數2897.079.08.04.05.02993.0文化程度內的%96.8

8、%2.6%0.3%0.1%0.2%100.0%new內的%100.0%100.0%100.0%100.0%100.0%100.0%佔總計的百分比96.8%2.6%0.3%0.1%0.2%100.0%之4七朽HE图三:学历与家庭收入直方图表二表明:首先,在所调查的2993个样本中,805个样本为初中及以下学历, 1258为高中(中专)学历,896为大 学(专,本科)学历,34为研究生及以上学历,分别占总样本的 26.9%,42%,29.9%,和1.1%,可见高中 学历居多;收入为 05w,5w10w,10w15w,15w20w,20w25w 的样本量分别为 2897,79,8,4,5,各占样本的

9、 96.8%,2.6%,0.3%,0.1%,0.2%,收入在 05w 的占较大比例。其次,对不同学历进行分析。在初中及以下学历中,98.9%的家庭收入在5万以下,1%的家庭收入在5w10w之间;在高中学历中98.6%的家庭收入在5万以下,1.4%的家庭收入在5w10w之间;在大学学历中 92.9%的家庭收入在5万以下,5.7%的在5w10w之间;在研究生及以上学历中 85.3%的家庭收入在5万以下, 8.8%的家庭收入在 5w10w,2.9%的家庭收入在10w15w之间。最后,对家庭收入进行分析。在家庭收入为5w( 2897)以下的样本中,学历为研究生及以上学历的最少,为29;其他家庭收入中,

10、大学学历的占大多数。由此可以得出,学历与家庭收入有一定的联系。但是, 样本中的各学历的样本量存在一定的悬殊。这些结论从图中可以直观的展现出来。表三:不同学历的家庭收入的一致性检验结果數值df漸近顯著性端)(2皮爾森(Pearson) 卡方102.257 a12.000概似比81.38712.000線性對線性關聯60.1431.000有效觀察值個數2993a. 13資料格(65.0%)預期計數小於5。預期的計數下限為.05本检验的原假设是:不同学历对家庭收入是否有显著影响。如果显著性水平a设为0.05,由于卡方的概率P-值小于a,因此应拒绝假设,认为不同学历与家庭收入是否无显著影响。这种无影响主

11、要体现在家庭收入低的比例在低学历中低于总体比例,而家庭收入高的在比例在低学历中高于总体比例表四:学历与现住面积交叉表-4 -square總計1.002.003.004.005.00初中及以下計數4733072401805化預期計數380.0397.526.6.5.3805.0程文化程度內的%度58.8%38.1%3.0%0.0%0.1%100.0%square 內的 %33.5%20.8%24.2%0.0%100.0%26.9%佔總計的百分比15.8%10.3%0.8%0.0%0.0%26.9%殘差93.0-90.5-2.6-.5.7標準殘差4.8-4.5-.5-.71.4高中(中专)計數65

12、857425101258預期計數593.9621.241.6.8.41258.0文化程度內的%52.3%45.6%2.0%0.1%0.0%100.0%square 內的 %46.6%38.8%25.3%50.0%0.0%42.0%佔總計的百分比22.0%19.2%0.8%0.0%0.0%42.0%殘差64.1-47.2-16.6.2-.4標準殘差2.6-1.9-2.6.2-.6大学(专、本科)計數2735734910896預期計數423.0442.529.6.6.3896.0文化程度內的%30.5%64.0%5.5%0.1%0.0%100.0%square 內的 %19.3%38.8%49.5

13、%50.0%0.0%29.9%佔總計的百分比9.1%19.1%1.6%0.0%0.0%29.9%殘差-150.0130.519.4.4-.3標準殘差-7.36.23.6.5-.5研究生及以上計數92410034預期計數16.116.81.1.0.034.0文化程度內的%26.5%70.6%2.9%0.0%0.0%100.0%square 內的 %0.6%1.6%1.0%0.0%0.0%1.1%佔總計的百分比0.3%0.8%0.0%0.0%0.0%1.1%殘差-7.17.2-.1.0.0標準殘差-1.81.8-.1-.2-.1總計計數1413147899212993預期計數1413.01478.

14、099.02.01.02993.0文化程度內的%47.2%49.4%3.3%0.1%0.0%100.0%square 內的 %100.0%100.0%100.0%100.0%100.0%100.0%佔總計的百分比47.2%49.4%3.3%0.1%0.0%100.0%*- l-IFj图四:不同学历与现住面积的直方图表四表明:首先,在所调查的2993个样本中,805个样本为初中及以下学历,1258为高中(中专)学历,896为大学(专,本科)学历,34为研究生及以上学历,分别占总样本的26.9%,42%,29.9%,和1.1%,可见高中学历居多;现住面积为 060m2, 60120m2,i2018

15、0m2,180240m2,240300m2的样本量分别为 1413,1478,99,2,1,各占样本的47.2%, 49.4%,3.3%,0.1%,0.0%,现住面积在第一和第二种情况下居多。其次,对不同学历进行分析。在初中及以下学历中,58.8%的现住面积为60m2以下,38.1%的现住面积在60120m2之间,3%的现住面积在120180m2之间;在高中学历中, 52.3%的现住面积为60m2以下,45.6%的 现住面积在60120m2之间,2%的现住面积在120180m2之间;在大学学历中,30.5%的现住面积为60m2以下, 64%的现住面积在60120m2之间,5.5%的现住面积在1

16、20180m2之间;在研究生及以上学历中, 26.5%的现 住面积为60m2以下,70.6%的现住面积在60120m2之间,2.9%的现住面积在120180m2之间。最后,对家庭收入进行分析。在现住面积为60m2以下及60120m2的样本中,学历为高中的占大多数;在现住面积120180m2的样本中,大学学历的占大多数。由此可以得出,学历与家庭收入有一定的联系。 但是,样本中的各学历的样本量存在一定的悬殊。这些结论从图四中可以直观的展现出来。表四:不同学历的现住面积的一致性检验结果數值df漸近顯著性端)(2皮爾森(Pearson) 卡方174.891 a12.000概似比178.93812.00

17、0線性對線性關聯131.4291.000有效觀察值個數2993a. 9資料格(45.0%)預期計數小於5。預期的計數下限為.01本检验的原假设是:不同学历对现住面积是否有显著影响。如果显著性水平a设为0.05,由于卡方的概率P-值小于a,因此应拒绝假设,认为现住面积与家庭收入是否无显著影响。这种无影响主要体现在现住面 积小的比例在低学历中低于总体比例,而现住面积大的在比例在低学历中高于总体比例。表五:家庭收入的统计资料N平均數標準偏差標準錯誤平均值家庭收入299317696.156715298.80341279.64310表六:家庭收入的检定檢定值=10000Tdf顯著性(雙尾)平均差異95%

18、差異數的信賴區間下限上限家庭收入27.5212992.0007696.156707147.84458244.4689由表五可知,2993个家庭的家庭收入的平均值为17696元,标准差为15298.8元,均值标准误差为279.64。由表六可知,第二列t统计量的观测值为27.521 ;第三列的自由度为2992;第四列的t统计量的观测值的双尾概率P-值为0第六列和第七列是总体均值与原假设值差的95%的置信区间(7147.84,8244.47),由此计算出总体均值的 95%的置信区间为(8147.84,9244.47)元。该问题应采用双尾检验,因此比较 a/2与p/2,也就是比较a与p。如果a取0.0

19、5,由于p小于0.05,因此拒 绝假设,认为家庭收入的平均值与 10000元有显著的差异。95%的置信区间告诉我们有 95%的把握人为家庭 收入的均值在8147.849244.47元之间,10000元没有包含在置信区间内,也证实了上述推断。4.表七:婚姻状况的 统计量婚姻N均值标准差均值的标准误现住面积已婚268563.114925.88033.49946否30859.316825.900741.47583表八:婚姻状况与家庭收入显著性的 检验方差方程的Levene检验均值方程的t检验FSig.tdfSig.(双侧)均值差值标准误差值差分的95%置信区间下限上限现住假设方.410.5222.4392991.0153.798151.55708.745106.85121面积差相等假设方2.438380.778.0153.798151.55806.734686.86162差不相等表八是已婚和未婚家庭现住面积的均值检验结果。第一步,该检验的F统计量为0.410,对应的概率为0.522.如果显著水平a为0.05,由于概率P值大于0.05,可以认为两总体的方差无显著差异。第二步,由于两 样本方差无显著差异,因此应看第三行t检验的结果。其中,t统计量的观测值为2.439,对应的双尾概率P

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论