数据分析期末试题及答案_第1页
数据分析期末试题及答案_第2页
数据分析期末试题及答案_第3页
数据分析期末试题及答案_第4页
数据分析期末试题及答案_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析期末试题及答案

一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计

算的人均GDP(xl)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元

回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童

疫苗接种率的关系。(25分)

解:

L通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(xl)、成人识字率仅2),

一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系

上图是以人均GDP(xl)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间

没有呈线性关系。尝试多种模型后采用曲线估计,得出

表示地区平均寿命仅)与人均GDP(xl)的对数有线性关系

上图是以成人识字率仅2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之

间基本呈正线性关系。

上图是以疫苗接种率仅3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之

间没有呈线性关系

抑-

aeo-

50-

-I'-

00200000.00400000.00600000.00800000.001000000.00

xxx3

上图是以疫苗接种率仅3)的三次方(考)为横轴,地区平均寿命(y)为纵轴的散点图,

由图可知,他们之间呈正线性关系

所以可以采用如下的线性回归方法分析。

2.线性回归

先用强行进入的方式建立如下线性方程

设Y=BO+B1*(Xil)+B2*Xi2+B3*XJeii=l.2...24

其中£i(i=1.2……22)相互独立,都服从正态分布N(0,o、2)且假设其等于

方差

模型汇总b

标准估计的误

模型RR方调整R方差

1.9523.907.8913.332

a.预测变量:(常量),x3,xl,x2。

b.因变量:y

上表是线性回归模型下的拟合优度结果,由上表知,R值为0.952,大于0.8,表

示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均

GDP(xl)、成人识字率(x2),一岁儿童疫苗接种率仅3)一起表示出来。

建立总体性的假设检验

提出假设检验HO:Pl=P2=P3=0,Hl,:其中至少有一个非零

得如下方差分析表

Ab

Anova

模型平方和df均方FSig.

1回归1937.7043645.90158.190,oooa

残差199.7961811.100

总计2137.50021

a.预测变量:(常量),x3,xl,x2。

b.因变量:y

上表是方差分析SAS输出结果。由表知,采用的是F分布,F=58.190,对应的检验

概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过

了,平均寿命(y)与人均GDP(xl)、成人识字率仅2),一岁儿童疫苗接种率仅3)之间

有高度显著的的线性回归关系。

做独立性的假设检验得出参数估计表

系数a

非标准化系数标准系数

模型B标准误差试用版tSig.

1(常量)33.0143.13710.523.000

X1.072.015.4044.865.000

x2.169.040.4314.245.000

x3.178.049.3393.654.002

a.因变量:y

上表是有关参数估计的信息,同样是上面的检验假设,HO:B1=82=B3=0:Hl:

Bl、82、B3不全为零

由表知,

&1=33.014,31=0.072,82=0.169,33=0.178,以B1=0.072为例,表示当成人

识字率仅2),一岁儿童疫苗接种率仅3)不变时,,人均GDP(xl)每增加一个单位,平

均寿命(y)就增加0.072个单位。

基于以上结果得出年平均寿命仅)与人均GDP(xl)、成人识字率(x2),一岁儿童疫苗

接种率仅3)之间有显著性的线性关系有回归方程

Y=33.014+0.072*Xl+0.169*X2+0.178*X3

B1、B2、B3对应得p值分别为0.000,0.000,0.002,对应的概率p值都小于0.05,

表示它们的单独性的假设检验没通过,即该模型是最优的,所以不用采用逐步回

归的方式分析。

对原始数据进行残差分析

未标准化的残差RES」

-7.53964

-3.57019

-3.42221

-2.89835

-2.30455

-2.17263

-2.05862

-1.37142

-1.17048

43890

17260

03190

.94655

1.42896

1.61252

1.61590

2.10139

3.01856

3.02571

3.49808

4.60737

5.29645

以XI为横轴,RES_1为纵轴画出如下散点图

由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归

模型比较合理。

同理可以得出RES_1与X2、X3的散点图,

-

rns

p

-

s

e

a

p

o

z

-

p

E」

p

u

e

ut;

n

由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归

模型比较合理。

由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归

模型比较合理。

误差项的正态性检验

数据(RES_1)标准化残差ZRES_1

Zscore:UnstandardizedResidual的正态Q-Q图

2'

观测值

由图可以看出,散点图近似的在一条直线附近,则可以认为数据来自正太分布总

二、诊断发现运营不良的金融企业是审计核查的一项重要功能,审计核查的分类

失败会导致灾难性的后果。下表列出了66家公司的部分运营财务比率,其中33

家在2年后破产Y=0,另外33家在同期保持偿付能力(Y=l)。请用变量Xl(未分配

利润/总资产),X2(税前利润/总资产)和X3(销售额/总资产)拟合一个Logistic回归

模型,并根据模型给出实际意义的分析,数据见财务比率.sav(25分)。

解:

整体性的假设检验

提出假设性检验

H0:回归系数笈=0(i=l,2,3),H1:不都为0

建立logistic模型:

由(^^)=凤+川X1+应X2+^X3

分类表也

已预测

Y

已观测01百分比校正

步骤0Y0033.0

1033100.0

总计百分比50.0

a.模型中包括常量。

b.切割值为.500

上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵,其中33家在

2年后破产(y=0),但模型均预测为错误,正确率为0%,另外33家在同期保持偿

付能力(Y=l),正确率为100%,所以模型总的预测正确率为50%。

不在方程中的变量

得分dfSig.

步骤0变量XI31.6211.000

X219.3581.000

X32.8091.094

总统计量37.6233.000

由上表得知,如果变量Xl(未分配利润/总资产),X2(税前利润/总资产)进入方程,

概率p值都为0.000,小于显著性水平0.05,本应该是拒绝原假设,XLX2是可以

进入方程的。而X3(销售额/总资产)进入方程,概率p值为0.094,大于显著性水平

0.05,本应该是接受原假设,X3(销售额/总资产)是不能进入方程的,但这里的解

释变量的筛选策略为enter,是强行进入方程的。

用强行全部进入

模型汇总

步骤-2对数似然值Cox&SnellR方NagelkerkeR方

15.791a.727.969

a.因为参数估计的更改范围小于.001,所以估计在迭代次数

13处终止。

-2倍的对数似然函数值越小表示模型的拟合优度越高,这里的值是5.791,比较小,

表示模型的拟合优度还可以,而且NagelkerkeR方为0.969,与0相比还是比较大的,

所以拟合度比较高

分类表a

己观测已预测

Y

01百分比校正

步骤1Y032197.0

113297.0

总计百分比97.0

a.切割值为.500

上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵,其中33家在

2年后破产(y=0),但模型预测出了32家,正确率为97%,另外33家在同期保持

偿付能力(Y=l),模型预测出了32家,正确率为97%,所以模型总的预测正确率为

97%,较之前的有很大的提高。

方程中的变量

BS.E,WalsdfSig.Exp(B)

步骤laXI.336.3091.1781.2781.399

X2.180.1072.8521.0911.198

X35.1605.200.9851.321174.235

常量-10.33411.147.8591.354.000

a.在步骤1中输入的变量:X1,X2,X3.

上表给出了方程中变量的系数。由表得出

凤=-10.3344=0.336区=0.18Q质=5.160

Zd为例,表示控制变量X2(税前利润/总资产)和X3(销售额/总资产)不变,Xl(未分

配利润/总资产)每增加一个单位,ln(—^出一)增加0.336分单位

模型方程:

ln(加丫=0})=-10.334-0.336X1+0.180X2+4.160X3

1-P{Y=O}

Logistic回归方程:

exp)10.3340.336Xk0.180X2+4.160X3

―_l+exptrl0.3340.336Xk0.180X2+4.160X3

由表得知,XI到X3对应的概率p值都大于0.05,接受原假设,表示XI到X3对Y

都没有显著性影响。所以用下述方法改进。

用向前步进(wald)

模型汇总

步骤-2对数似然值Cox&SnellR方NagelkerkeR方

115.8033.682.910

29.472b.711.949

a.因为参数估计的更改范围小于.001,所以估计在迭代次数9

处终止。

b.因为参数估计的更改范围小于.001,所以估计在迭代次数

10处终止。

-2倍的对数似然函数值越小表示模型的拟合优度越高,这里的值是9.472,比之前

的5.791要大,表示拟合优度降低,表示用向前的方法并没有比进入的方法好

分类表a

已预测

已观测Y百分比校正

01

步骤1Y031293.9

113297.0

总计百分比95.5

步骤2Y032197.0

113297.0

总计百分比97.0

a.切割值为.500

而且从上表知道总的预测百分比为97%,没有变化,所以这一步较之前的强行进入的方法

没什么优化,也就是没什么必要用向前的方法做。

所以有最优的一个Logistic回归模型为

模型方程:

ln(-P{y二°匚)=-10.334-0.336X1+0.180X2+4.160X3

l-p{Y=0}

Logistic回归方程:

_exp)10.3340.336Xk0.180X2+4.160X3

―-l+exp(?10.3340.336Xk0.18CX2+4.160X3

三、为了研究几个省市的科技创新力问题,现在取了2005年8个省得15个科技

指标数据,试用因子分析方法来分析一个省得科技创新能力主要受到哪些潜在因

素的影响。数据见8个省市的科技指标数据.sav,其中各个指标的解释如下:(25

分)

XI:每百万人科技活动人员数(人/万人)

X2:从事科技活动人员中科学技术、工程师所占比重(%)

X3:R&D人员占科技胡哦哦的呢人员的比重(%)

X4:大专以上学历人口数占总人口数的比例(%)

X5:地方财政科技拨款占地方财政支出的比重(%)

X6:R&D经费占GDP比重(%)

X7:R&D经费中挤出研究所占比例(%)

X8:人均GDP(元/人)

X9:高科技产品出口额占商品出口额的比重(%)

X10:规模以上产业增加值中高技术产业份额(%)

XII:万名科技人员被国际三大检索工具收录的论文数(篇/百万人)

X12:每百万人口发明专利的授权量(件/百万人)

X13:发明专利申请授权量占专利申请授权量的比重(%)

X14:万人技术市场成交合同金额(万元/万人)

X15:财政性教育经费支出占GDP比重(%)

解:

解释的总方差

初始特征值a提取平方和载入

成份合计方差的%累积%合计方差的%累积%

原始11.427E899.63699.6361.427E899.63699.636

2517846.046.36299.997

33265.489.002100.000

4201.762.000100.000

5121.0668.453E-5100.000

634.0782.379E-5100.000

78.1795.711E-6100.000

83.101E-112.165E-17100.000

91.520E-121.061E-18100.000

101.033E-147.210E-21100.000

118.393E-165.860E-22100.000

12-6.843E-17-4.778E-23100.000

13-7.700E-15-5.377E-21100.000

14-1.363E-13-9.514E-20100.000

15-6.538E-12-4.565E-18100.000

重新标度11.427E899.63699.6368.38855.92155.921

2517846.046.36299.997

33265.489.002100.000

4201.762.000100.000

5121.0668.453E-5100.000

634.0782.379E-5100.000

78.1795.711E-6100.000

83.101E-112.165E-17100.000

91.520E-121.061E-18100.000

101.033E-147.210E-21100.000

118.393E-165.860E-22100.000

12-6.843E-17-4.778E-23100.000

13-7.700E-15-5.377E-21100.000

14-1.363E-13-9.514E-20100.000

15-6.538E-12-4.565E-18100.000

提取方法:主成份分析。

a.分析协方差矩阵时,初始特征值在整个原始解和重标刻度解中均相同。

上表是用协方差矩阵分析法分析出的总方差的结果,由上表知道,初始特征值间

所占的比例相差很大,取值范围差异大,所以不大适合做协方差的矩阵分析。所

以应该采用相关矩阵的方法分析如下:

相关矩阵,

XIX2X3X4X5X6X7X8X9X10XIIX12X13X14X15

相XI1.00.857.893.943.373.988.988.756.172.520.914.989.883.984.806

关0

X2.8571.00.863.882.573.841.844.776.209.586.839.912.722.905.769

0

X3.893.8631.00.830.191.930.922.525.210.613.720.888.834.907.629

0

X4.943.882.8301.00.441.911.948.874.318.563.976.971.903.934.883

0

X5.373.573.191.4411.00.278.300.713.245.397.545.440.081.392.592

0

X6.988.841.930.911.2781.00.985.665.125.480.867.969.881.983.759

0

X7.988.844.922.948.300.9851.00.737.275.590.895.978.905.972.767

0

X8.756.776.525.874.713.665.7371.00.458.574.916.818.626.752.802

0

X9.172.209.210.318.245.125.275.4581.00.811.256.213.141.160.069

0

XI.520.586.613.563.397.480.590.574.8111.00.454.548.432.498.312

00

XI.914.839.720.976.545.867.895.916.256.4541.00.943.830.905.925

10

XI.989.912.888.971.440.969.978.818.213.548.9431.00.876.988.834

20

XI.883.722.834.903.081.881.905.626.141.432.830.8761.00.838.781

30

XI.984.905.907.934.392.983.972.752.160.498.905,988.8381.00.778

40

XI.806.769.629.883.592.759.767.802.069.312.925.834.781.7781.00

50

a.此矩阵不是正定矩阵。

上表是15个变量间的相关系数矩阵,可以看出相关系数都比较高,比如XI

(每百万人科技活动人员数(人/万人))和X2(从事科技活动人员中科学技术、

工程师所占比重(%))的相关系数0.859,接近1,呈较强的的线性相关性,

所以能够从中提取公因子,适合做因子分析

解释的总方差

初始特征值提取平方和载入

成份合计方差的%累积%合计方差的%累积%

111.13674.23774.23711.13674.23774.237

21.70611.37185.6081.70611.37185.608

31.2478.31693.9241.2478.31693.924

4.5083.38697.310

5.2051.36598.675

6.125.83299.507

7.074.493100.000

83.059E-162.040E-15100.000

91.532E-161.021E-15100.000

101.188E-167.923E-16100.000

114.537E-173.025E-16100.000

12-2.301E-16-1.534E-15100.000

13-3.671E-16-2.448E-15100.000

14-4.891E-16-3.261E-15100.000

15-8.277E-16-5.518E-15100.000

提取方法:主成份分析。

由表可知,前两个因子的特征根值很高,累积方差贡献率为分别为85,608(>=80%

即可),对解释原有变量的贡献很大,第3个以后的因子特征根值都很小,对解

释原有变量的贡献很校,可以忽略,因此提取第一和第二个因子比较合适,基本

能表达所有信息。有特征值%=11.1364=1.706

成份矩阵a

成份

12

XI.973-.158

X2.919.036

X3.883-.161

X4.985-.004

X5.482.497

X6.947-.242

X7.972-.108

X8.849340

X9.300.834

X10.611.637

XII.955-.001

X12.992-.091

X13.876-.282

X14.968-.156

X15.859-.092

提取方法:主成份。

3.已提取了2个成份。

上表是因子载荷矩阵A

以Xl,X5,X10为例,有因子分析模型

Xi=0.973F1-0.158^+^';

=0.482K+0.497工+对

X10=0.611+0.637^+^;

因为X5,和用。,变量在6,尸2上都有较大的相差不大的载荷,几乎都受它们

的共同影响,因子间的差异性没有表示出来,不方便进行因子命名,所以要进

行正交旋转(拉大因子间的差异性)

成份转换矩阵

成份12

1.926.379

2-.379.926

提取方法:主成份。

旋转法:具有Kaiser标准化的

正交旋转法。

0.9260.379

对A做方差最大的正交旋转,得到正交旋转矩阵「=[-0.3790.9261

旋转成份矩阵a

成份

12

XI.960.223

X2.837381

X3.878.185

X4.913.370

X5.258.642

X6.968.135

X7.940.268

X8.657.636

X9-.038.885

X10.325.821

XII.884.361

X12.952.292

X13.918.071

X14.955.222

X15.830.240

提取方法:主成份。

旋转法:具有Kaiser标准化的

正交旋转法。

a.旋转在3次迭代后收敛。

上表为旋转后的因子载荷矩阵

以X1,X5,X10为例,有因子分析模型

X:=0.960Fi-0.223^+^;

居+J;

X5=0.258K+0.642

Xi。=0.325/+0.821鸟+%;

在第一公因子K对应的列中,正载荷主要是

其载荷分别是,所以可视为

X1,X2,X3,X4,X6,X7,X11,X12,X13,X14,X15,0.960.......K

高科技因子;

在第二公共因子K对应的列中,正载荷主要是,X5,X10其载荷是0.642,0.821,

所以外可视为非该科技因子;

有公共因子E,尸2的得分矩阵如下:

F1的得分:

-0.90012

-0.79770

-0.47026

-0.45750

-0.00373

0.12888

0.25514

2.24528

得分越高表示科技越高

F2的得分

-1.31413

-1.28805

-0.53602

-0.02641

0.33279

0.39734

1.00045

1.43403

得分越低表示分高科技成分越高

四、湖南省某白酒厂开发了一种新的白酒,想在本省上市,考虑到公司的现状:

生产能力小,营销实力不强,在全省范围内没有系统的营销网络。公司收集了某

年度湖南省各地区的经济发展和消费水平指标,并选取了与白酒消费相关的6

个代表性指标,即xl:总人口(万人),x2:人均国民生产总值,x3:职工年平均

工资(元),X4:平均每人每年现金收入(元),x5:平均每人每年消费性支出(元),

x6:平均每人每年储蓄(元)。具体数据见消费情况数据,sav,试通过聚类分析的方

法,根据该厂的特点选择营销区域。(25分)

解:采用谱系聚类

用组间连接的方法表示类间距

用平方euclidean距离表示类内距

聚类表

群集组合首次出现阶群集

阶群集1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论