经典应用统计学课设2_第1页
经典应用统计学课设2_第2页
经典应用统计学课设2_第3页
经典应用统计学课设2_第4页
经典应用统计学课设2_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、学 号 应用统计学课程设计设计说明书运用SPSS对天津建筑企业根本情况的统计分析分析分析起止日期: 2021 年 6月 16日 至 2021 年 6月 30日学生姓名班级成绩指导教师(签字)年 6 月 30 日目 录 TOC o 1-3 h z u HYPERLINK l _Toc265062949 1 选用的分析方法 PAGEREF _Toc265062949 h 1 HYPERLINK l _Toc265062950 2 描述性分析 PAGEREF _Toc265062950 h 1 HYPERLINK l _Toc265062953 3统计图 PAGEREF _Toc265062953

2、h 3 HYPERLINK l _Toc265062954 4统计报表 PAGEREF _Toc265062954 h 4 HYPERLINK l _Toc265062955 5均值比拟 PAGEREF _Toc265062955 h 4 HYPERLINK l _Toc265062956 6相关分析 PAGEREF _Toc265062956 h 6 HYPERLINK l _Toc265062957 7一元线性回归分析 PAGEREF _Toc265062957 h 8 HYPERLINK l _Toc265062958 8多元线性回归分析 PAGEREF _Toc265062958 h

3、12 HYPERLINK l _Toc265062959 附 原始数据 PAGEREF _Toc265062959 h 151 选用的分析方法在本次调查中主要运用的分析方法有:描述性分析、统计图、统计报表、均值比拟、相关分析、一元线性回归分析、时间序列的曲线估计。2 描述性分析1描述性分析根本原理描述性统计分析过程就是计算并列出一系列描述性统计量指标。这与前面讲的频数分析过程相同,但它可以将原始数据转换成标准化值,并以变量的形式存入数据库,以供进一步分析。将原数据变量X转化成新的标准化值变量Z。我们成为Z分数。Z分数定义:Z分数定义:从平均数为,标准差为的总体中抽出一个变量值X,Z分数表示的是

4、此变量大于或小于平均数几个标准差。计算公式:将原始数据直接转换为Z分数时,常会出现负数和带小数点的值,实际使用起来很不方便。因此,可以对Z分数进一步加以线性转换,使之成为正的数值。最典型的一种Z分数线性转换就是T分数。计算公式: 2天津市建筑业总产值的Z分数表1 天津市建筑业总产值的描述性分析描述统计量N极小值极大值均值标准差方差企业个00370.319137136.000从业人员平均人数18194530.637.53756.804建筑业总产49343.295117851.251房屋建筑施工面积1858354472318.401378.128

5、1899237.106房屋建筑竣工面积182952101973.89538.000289443.771有效的 N 列表状态182天津建筑的描述性统计 spss根本统计分析是进行其他统计分析的根底和前提。通过根本统计方法,可以对要分析的数据的总体特征有比拟准确的把握,从而可以选择其他更为深入的统计分析方法。1频数分析的根本原理频数分析Frequencies过程是描述性统计分析中最常见的方法之一,它不仅可以产生详细的频数分析表,还可以按要求给出平均值、中位数、众数、全距、方差、标准差、频数、峰度、偏度、最小值、最大值、平均标准误差、四分位数、十分位数、百分位数。 频数分析中涉及到的有关描述性统计量

6、的理论知识,在?实用统计学?中前几章已经进行了详细的论述,现只对Kurtosis峰度以及Skewness偏度做以解释。峰度是描述某变量所有取值分布形态陡缓程度的统计量。这个统计峰度为0表示其数据分布与正态分布的陡缓程度相同,峰度大于0表示为尖顶峰。峰度小于0表示比正态分布的顶峰要平坦,为平顶峰。计算公式如下:偏度也是描述数据分布形态的,它是描述某变量取值分布对称性的统计量。具体的计算公式如下:这个统计量是与正态分布相比拟的量,偏度为0表示其数据分布形态与正态分布偏度X相同;偏度大于0表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖在右边:偏度小于0表示负偏差数值大,为负偏或左偏,有一条长尾拖

7、在左边。而偏度的绝对值数值越大表示分布形态的偏斜程度越大。2spss实现 eq oac(,1)建筑业总产值单位:亿元房屋建筑施工面积单位:万平方米房屋建筑竣工面积单位:万平方米表2统计量建筑业总产值房屋建筑施工面积房屋建筑竣工面积N有效181818缺失000均值353.492318.40973.89均值的标准误80.915324.828126.808中值216.932073.12884.94众数32a583a295a标准差343.2951378.128538.000方差117851.2511899237.106289443.771全距119048651806极小值32583295极大值1222

8、54472101和63634173117530a. 存在多个众数。显示最小值表1 天津建筑业总产值、房屋建筑施工面积、房屋建筑竣工面积频数分析结果解读:从结果看出天津建筑业总产值的Mean均值353.49亿元、Std.Error of Mean(平均标准误差)80.915亿元、Median中位数215.93亿元、Mode众数32亿元、Std.deviation(标准差)343.295亿元、Variance方差117851.251亿元、Range全距1190亿元、Minimum最小值32亿元、Maximum最大值1222亿元、Sum合计6363亿元。从结果看出房屋建筑施工面积的Mean均值231

9、8.40万平方米、Std.Error of Mean(平均标准误差)324.028万平方米、Median中位数2073.12万平方米、Mode众数583万平方米、Std.deviation(标准差)1378.128万平方米、Variance方差1899237.106万平方米、Range全距4865万平方米、Minimum最小值583万平方米、Maximum最大值5447万平方米、Sum合计41731万平方米。从结果看出房屋建筑施工面积的Mean均值973.89万平方米、Std.Error of Mean(平均标准误差)126.808万平方米、Median中位数884.94万平方米、Mode众数

10、295万平方米、Std.deviation(标准差)538.000万平方米、Variance方差289443.771万平方米、Range全距1806万平方米、Minimum最小值295万平方米、Maximum最大值2101万平方米、Sum合计17530万平方米。3统计图统计图是用点的位置、线段的升降、直条的长短或面积的大小等方法来表达统计资料内容。它可以把统计资料所反映的变化趋势、数量多少、分布状态和相互关系等情况形象直观地表现出来,以便于比拟和分析。1Bar charts条形图Bar Charts (条形图)是利用宽度相同的条形的长短或上下来表现统计数据大小或变动情况的统计图。图1 条形图4

11、统计报表spss的根本统计功能中还提供了根本统计分析的报表制作功能,根据报表制作的侧重点不同,可以分为3种: eq oac(,1)Cases Summary个案简明统计报表:主要是计算指定变量的分组统计量; eq oac(,2)Report Summaries inRows行形式报表:是以行为对象生成各种统计结果。 eq oac(,3)Report Summaries in Colums列形式报表:是以列为对象生成各个列相应的统计信息。表3 天津市建筑企业总产值简明统计报表局部企业个数从业人员平均人数建筑业总产值房屋建筑施工面积房屋建筑竣工面积住宅年份19901821932675334.总计N

12、11111均值82.0018.7131.70675.46333.60中值82.0018.7131.70675.46333.60极小值821932675334极大值82193267533419911831936583295.总计N11111均值83.0018.9536.17582.73295.41中值83.0018.9536.17582.73295.41极小值831936583295极大值831936583295a. 限于前 100 个案例。1天津市建筑企业总产值简明统计报表5均值比拟1Means均值比拟过程 eq oac(,1)Means均值的根本原理SPSS中的Means均值过程是计算各种根

13、本描述统计量的过程。与前一节中的计算某一样本总体均值相比拟,Means均值过程其实就是对样本进行分组计算均值和标准差,如按照性别计算各组的均值和标准差。可以指定一个或多个变量作为分组变量。如果分组变量为多个,还应指定这些分组变量之间的层次关系。层次关系可以是同层次的或多层次的。同层次意味着将按照各分组变量的不同取值分别对个案进行分组;多层次表示将首先按第一分组变量分组,然后对各个分组下的个案按照第二组分组变量进行分组。表4 均值比拟过程局部报告年份企业个数从业人员平均人数建筑业总产值房屋建筑施工面积房屋建筑竣工面积1990均值82.0018.7131.70675.46333.60N11111标

14、准差.方差.中值82.0018.7131.70675.46333.60峰度.偏度.1991均值83.0018.9536.17582.73295.41N11111标准差.方差.中值83.0018.9536.17582.73295.41峰度.偏度.1992均值96.0018.7648.43721.50344.70N11111标准差.方差.中值96.0018.7648.43721.50344.70峰度.偏度. eq oac(,3)结果解读:Means均值过程的结果输出比拟简单,在结果输出窗口中包含两个输出表(如上图所示)。处理样本数统计,如下图。其中Included包含栏表示参加分析计算的样本数,从

15、表中可知全部样本共有18个参加分析,占到全部样本的100,即分析计算中没有因数据缺测或其他原因等导致Excluded(样本剔除)。变量分组统计结果,如下图。可以看出,1990-2007年,由1990年企业个数82个增长到2007年的1113个。结果说明,1990-2007年天津市建筑企业个数在逐年递增。如下图。可以看出,1990-2007年,由1990年从业人员平均人数从18.71万人增长到2007年的45.34万人。结果说明,1990-2007年天津市建筑从业人员平均人数在逐年递增,等等。2单一样本t检验 eq oac(,1)单一样本T检验根本原理SPSS单一样本t检验是用于解决样本均值与总

16、体均值的比拟这类问题,统计的前提是样本总体服从正态分布。也就是说单一样本本身无法比拟,进行的是样本均值与总体均值间的比拟。 eq oac(,2)SPSS的实现表5单个样本统计量N均值标准差均值的标准误建筑业总产值18353.49343.29580.915表6单一样本t检验单个样本检验检验值 = 32 tdfSig.(双侧)均值差值差分的 95% 置信区间下限上限建筑业总产值3.97317.001321.489150.77492.21 eq oac(,3)结果解读One-SamplesTTest单一样本T检验过程的输出比拟简单,在结果输出窗口中包含描述性统计表和T检验表两个输出表。输出结果第一个

17、表,根本描述性统计量表,从表中可知,参与分析的样品数为18,建筑业总产值353.49亿元,标准差343.295,均值误差80.915。输出结果第二个表,单一样本T检验表,从表中可知,自由度df=17,根据公式计算的t值等于3.973,对应的临界置信水平为0.0000,95的置信区间为(150.77,492.21)。计算的t值对应的临界置信水平在设置的005水平之间,因此拒绝原假设Ho。说明现在建筑业总产值比以前有明显增长。6相关分析1相关分析的原理及应用 eq oac(,1)相关分析的根本原理一般来说现象之间的相互关系可以分为两种,一种是函数关系,另一种是相关关系。函数关系是指变量之间存在的相

18、互依存的关系,它们之间的关系值是确定的。相关关系是两个现象数值变化不完全确定的依存关系。两变量间的相关分析就是研究两变量间线性相关程度并用适当的统计指标表示出来的一种常用统计方法。按相关的程度分,有完全相关、不完全相关和不相关;按相关的性质分,有正相关和负相关。测定变量之间线性相关程度和相关方向的统计指标是相关系数,同时要对相关系数的显著性检验。 eq oac(,2)SPSS的实现表7 描述性统计量描述性统计量均值标准差N企业个数599.00370.31918建筑业总产值353.49343.29518表8 相关性相关性企业个数建筑业总产值企业个数Pearson 相关性1.877*显著性双侧.0

19、00平方与叉积的和2331312.0001894457.240协方差137136.000111438.661N1818建筑业总产值Pearson 相关性.877*1显著性双侧.000平方与叉积的和1894457.2402003471.272协方差111438.661117851.251N1818*. 在 .01 水平双侧上显著相关。 eq oac(,3)结果解读SPSS的两变量间的相关分析(Bivariate)的结果比拟简单,输出结果中只有一个描述性统计量表和一个各变量间的相关关系表。如果进行相关分析的变量是两个以上,输出时会分别显示两两变量间的相关关系如下图。输出结果文件中的第一个表格:描述

20、性统计量表。从表中可知,参与分析的两个变量的样本数都为18,企业个数均值为599.00个,标准差为370.319;建筑业总产值均值为353.49亿元,标准差为343.295。输出结果文件中的第二个表格:相关系数及显著性检验结果表。从表中可知年份和总产值的相关系数r=0.877显著性水平为0000 (Sig(2-tailed),因此在相关系数旁以两个“*号进行标识,企业个数与建筑业总产值值相关性十分显著。2偏相关分析 eq oac(,1)相关分析的根本原理 eq oac(,2)SPSS实现过程表9 描述性统计量描述性统计量均值标准差N房屋建筑施工面积2318.401378.12818房屋建筑竣工

21、面积973.89538.00018企业个数599.00370.31918表10 相关性相关性控制变量房屋建筑施工面积房屋建筑竣工面积企业个数-无-a房屋建筑施工面积相关性1.000.986.921显著性双侧.000.000df01616房屋建筑竣工面积相关性.9861.000.928显著性双侧.000.000df16016企业个数相关性.921.9281.000显著性双侧.000.000.df16160企业个数房屋建筑施工面积相关性1.000.906显著性双侧.000df015房屋建筑竣工面积相关性.9061.000显著性双侧.000.df150a. 单元格包含零阶 (Pearson) 相关。

22、7一元线性回归分析1一元线性回归 eq oac(,1)一元线性回归分析的根本原理一元线性回归是涉及一个自变量的回归分析,主要是处理两个变量(因变量与自变量)之间的线性关系,建立线性数学模型并进行评价预测。即:式中和是未知参数,称为回归常数,称为回归系数。称为随机扰动项。1拟合优度检验:回归方程的拟合优度检验,就是要检验样本数据聚集在样本回归直线周围的密集程度而判断回归方程对样本数据的代表程度。一般用判定系数实现。2回归方程的显著性检验(F检验):回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。一般采用F检验,利用方差分析的方法进行。3回归系数的显著性检验(t检验

23、):是根据样本估计的结果对总体回归系数的有关假设进行检验。一般采用t检验。 eq oac(,2)SPSS实现过程表11 输入/移去的变量输入移去的变量b模型输入的变量移去的变量方法1企业个数a.输入a. 已输入所有请求的变量。b. 因变量: 建筑业总产值表12 模型汇总模型汇总b模型RR 方调整 R 方标准 估计的误差1.877a.768.754170.295a. 预测变量: (常量), 企业个数。b. 因变量: 建筑业总产值表13 回归分析Anovab模型平方和df均方FSig.1回归1539462.85811539462.85853.084.000a残差464008.4141629000.

24、526总计2003471.27217a. 预测变量: (常量), 企业个数。b. 因变量: 建筑业总产值表14 系数系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-133.26777.939-1.710.107企业个数.813.112.8777.286.000a. 因变量: 建筑业总产值表15 参差统计量残差统计量a极小值极大值均值标准 偏差N预测值-66.63805.30353.49300.92618残差-264.205450.767.000165.21118标准 预测值-1.3961.501.0001.00018标准 残差-1.5512.647.000.97018a.

25、 因变量: 建筑业总产值图2直方图图3 标准p-p图图4标准P-P图 eq oac(,3)结果解读SPSS的一元线性回归分析的输出结果中共输出七个表,有Variables Entered/Removed引入或被剔除的变量表、Model Summary常用统计量表、ANOVA方差分析表、Coefficients回归系数表、Residuals Statistics(残差统计表)、标准化残差的直方图和正态分布图P-P图。我们重点解读Model Summary常用统计量、ANOVA方差分析表、Coefficients回归系数和正态分布图P-P图 = 1 * GB3 输出的结果文件中第一个表格:Mode

26、l Summary常用统计量。反映的是一元线性回归模型拟合的情况,相关系数R=0.877,决定系数R2=0.768,而调整决定系数R2=0.752,回归估计的标准差S=170.295,模型拟合效果很理想。 = 2 * GB3 输出的结果文件中第二个表格:ANOVA方差分析表。从表中可以看出残差平方和(Residual)= 464008.414,而回归平方和(Regression)= 1539462.85。回归方程的显著性检验中,统计量为F=53.084,对应的置信水平为0.000,远比常用的置信水平0.05要小,因此可以认为方程是极显著的。 = 3 * GB3 输出的结果文件中第三个表格:Co

27、efficients回归系数分析表,是回归系数以及对回归方程系数的检验结果,系数显著性检验采用t检验。从表中可以看出,Unstandardized Coefficients(非标准化系数)回归方程的Constant常数项=-133.267,回归系数=0.877。回归系数检验统计量t=7.286,Sig为相伴概率值p0.001。由此可知回归方程:y= -133.267+0.877x 回归系数显著水平均为0.000,说明用t统计检验量假设“回归系数等于0的概率为0.000,远比常用的置信水平0.05要小,因此可以认为两个变量之间的线性关系是极为显著的,建立的回归方程是有效的。8时间序列的曲线估计

28、eq oac(,1)时间序列根本原理时间序列的曲线估计是分析社会和经济现象中经常用到的一种曲线估计。通常把时间设为自变量X,代表具体的经济或社会现象的变量设为因变量y,研究变量X与y之间关系的方法就是时间序列曲线估计。其计算公式:Linear:一元线性Quadratic:二次函数。Cubic:三次函数。Exponential:指数函数。Power:幂函数。上述方程中,y为因变量,X为时间,b0为常数,b1、b2和b3为回归系数。 eq oac(,2)SPSS的实现表11 模型描述模型描述模型名称MOD_2因变量1建筑业总产值方程1线性2三次3幂a4指数a自变量个案顺序常数包含其值在图中标记为观

29、测值的变量未指定用于在方程中输入项的容差.0001a. 该模型要求所有非缺失值为正数。表12 个案处理摘要个案处理摘要N个案总数18已排除的个案a0已预测的个案0新创立的个案9a. 从分析中排除任何变量中带有缺失值的个案。表13 个案处理摘要变量处理摘要变量因变量建筑业总产值正值数18零的个数0负值数0缺失值数用户自定义缺失0系统缺失0表14 模型汇总和参数估计值方程模型汇总R 方Fdf1df2Sig.常数b1b2线性.80365.371116.000-194.06457.637三次.995987.636314.000-73.71780.650-10.866幂.909160.019116.00

30、016.3641.283指数.962409.254116.00033.301.198图5 建筑业时间序列曲线估计 eq oac(,3)结果解读 = 1 * GB3 第一局部输出相关统计量和参数的值:有Model Description(模型描述表)、Case Processing Summary(情况处理累计表)和Model Summary and Parameter Estimates (常用统计量和参数估计表)。 = 2 * GB3 输出的结果文件中第二局部如下:这局部结果表示新增加了4个变量FIT_1、FIT_2、FIT_3、FIT_4分别代表线性函数、三次函数、幂函数、指数函数条件下进

31、行回归分析时y的预测值如上图所示。 = 3 * GB3 第三局部输出的是观察值和Linear线性函数、Cubic三次函数、Power幂函数和Exponenti指数函数4种曲线预测值的比照图。从比照图中可以看出,Exponential指数函数的曲线确与样本的实际观察值拟合的较好,所以决定对本节中的研究问题“天津市全民市生产总值分析采用指数函数进行回归分析。 = 4 * GB3 由于在Curve Estimation曲线估计对话框中选了Save保存项,且在Save Variables保存变量框中选择了Predictedvalues预测值选项和Predict through预知过项,并且在Observation观察值框中键入了“18”,因此在SPSS数据编辑窗口中就新增了FIT_1、FIT_2、FIT_3、FIT_4等4个变量的预测值,同时在窗口下方还新增了四个个案。附 原始数据数据来源2021年天津市统计年鉴?建筑企业根本情况(1990-2007年)?表 建筑企业根本情况(1990-2007年) 从业人员 建筑业总产值 房屋建筑 房屋建筑 企业个数 平均人数 (亿元) 施工面积

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论