美国居民收入的预测_第1页
美国居民收入的预测_第2页
美国居民收入的预测_第3页
美国居民收入的预测_第4页
美国居民收入的预测_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、论文题目:美国居民收入的预测组别姓名学号学院专长短号长号本部建模写作编程组别:研究生评阅情况(评阅专家填写):评阅1.评阅2.评阅3.美国居民收入的预测摘要从居民众多的信息中判别居民年收入问题具有很高的社会实际应用意义,本题主要就是找出判别居民收入是否超过50K的具有一定可信度的检验方法。对于此,我们建立了基于spss的Fisher判别模型、基于MATLAB的BP神经网络模型和主成分分析模型。问题一和问题二都是判别问题,本文比较了基于SPSS的Fisher判别算法和BP神经网络算法,通过比较,BP神经网络做判别分析的准确性更高。问题一和问题二的区别就在于样本数据的维度问题,问题一只需要考虑连续

2、型数据样本,问题二需要考虑所有的数据信息,因此需要将类别型属性数据进行数值化处理。通过我们选取的BP神经网络的判别模型,问题一的判别准确度检验的结果如下:训练样本的准确度测试样本的准确度平均值85.7%76.5%对附录三200个居民样本数据的预测结果如下:年收入统计人数总和占比>50k5929.5%<=50k14170.5%总和200100%统计的人数总和相对应的居民样本可见正文表5-2。对于问题二的判别准确度的检验结果:训练样本的准确度测试样本的准确度平均值87%83.03%问题二中的判别模型对附录三200个居民样本数据的预测结果如下:年收入统计的人数总和占比>50k562

3、8%<=50k14472%总和200100%有表中的问题一和问题二中对于判别模型准确度检验,以及对附录三的预测结果比较得知,我们建立的判别模型具有较高的可信度。 对于问题三中主成分的提取问题,我们运用SPSS的主成分因子分析得到了与居民年收入相关度较高的8个指标,依次是:hours-per-week、relationship、capital-gain、native-country、education、fnlwgt、occupation、workclass这8项关键因素。为了验证这8个关键因素的正确性,我们保留附录三中这8个主成分样本数据进行年收入的预测,得到的结果:年收入统计的人数总和占

4、比>50K5829%<=50K14271%对比可知,我们提取出来的8个主成分具有较强的代表性。关键字:Fisher判别,BP神经网络,主成分分析,SPSS1.问题重述1.1 问题的背景随着社会经济与科学技术的不断发展,人们已经进入了信息时代,要在大量的信息中获得有科学价值的结果,从而统计方法越来越成为人们必不可少的工具和手段。通过一些居民相关的信息测算估计居民年收入对于政府机构、慈善机构客观较真实的了解人民的收入情况、生活水平具有很强的实践意义,从而更好的实行惠民政策。1.2 需要解决的问题本题给出的一组从美国1994年人口普查数据库抽取出来的数据,其中包含了年龄,工种,学历,职业

5、,人种以及年收入等相关信息,我们需要通过对所给属性数据进行分析处理,通过正确的判别方法,对已知样本数据进行训练测试,基于此再对附录三给出的数据相关信息判断居民收入是否超过五万美元进行预测分析。由于所给的数据信息中,除了连续型数据之外,还有类别数据,据此我们需要进行前期的数据处理。问题一:根据附录二中的数据,只考虑连续型属性,提出判别美国居民年收入是否超过5万美元的方法,并检验你提出方法的正确性。按照所提出的方法,判断附录三中的200个居民的年收入是否超过5万美元。问题二:考虑所有属性(包括连续型属性和类别型属性),提出判别美国居民年收入是否超过5万美元的方法,并检验你提出方法的正确性。按照所提

6、出的方法,判断附录三中的200个居民的年收入是否超过5万美元。问题三:在第二问的基础上,判断各属性的重要程度,选取几个重要属性,重新建模并于原模型进行对比。2. 问题分析问题一:在所给信息中,首先只需考虑连续型属性(即age,fnlwgt, education-num, captical, hours-per-week这五个属性 ),判断这些属性和年收入之间的关系,提出年收入超过50K的判别方法,并检验该判别方法的正确性。得到具备一定可信度的判别方法后,再对附录三中的200个居民数据的年收入是否超过50K做出检验判别。问题二:问题二不同于问题一的地方在于,问题一只考虑了所给信息中部分是连续型属

7、性的信息,问题二就要考虑所给的全部信息情况,找出这些所有信息和年收入超过50K的判别关系,依然对所得判别方法进行正确性的检验,再对附录三中的200个居民年收入是否超过50K进行判别分析。问题三:通过前面两问的分析解答,我们可以得到只分析部分数据和分析全部数据对结果判别的正确率的影响,那样我们可以接着判断各个属性的重要程度,找出影响判别的重要因素,建立新的模型与原模型进行比较分析,看是否能在保证正确率的情况下,精简对年收入是否大于50K的判断信息的收集工作。3.基本假设与符号说明3.1 基本假设(1)假设所给信息均真实有效(2)所给数据非主观挑选,具有一般性(3)所给数据信息与居民收入有一定的相

8、关性,可以用来判别居民的收入情况3.2 符号说明符号符号说明BP神经网络的输出的与实际输出样本之间的误差平方和BP神经网络的学习速率 神经元的阀值原始样本数据标准后的样本数据4.数据处理和分析4.1 美国居民收入信息的统计根据题目的附录二中给出的居民收入大于或者小于等于50K的其他众多个人信息,我们做了一些统计整理,首先统计了男女的分布情况,如下表:表4-1:居民收入按性别统计情况性别 收入>50K占比率<=50K占比率男(1)9528.02%24471.98%女(0)4829.81%11370.19%分析统计所给数据我们知道,男性有339个,其中收入大于50K的有95人,占比28

9、.02%;女性有161个,其中收入大于50K的有48人,占比29.81%。表4-2:居民收入和教育年限的统计情况收入教育年限>50K占比率<=50K占比率>平均值(10年)48男1327.08%127男3527.56%女3572.92%女9272.44%<=平均值(10年)95男6063.16230男7833.91%女3536.84女15266.09%由表4-2简单的统计数据可知居民年收入和居民受教育年限的关系,发现教育年限与收入的关系并不呈强烈的显著相关性。这与问题三中主成分分析中教育年限的相关系系数基本符合。4.2 美国居民收入信息的收据处理4.2.1数据处理 附录

10、二中有capital-gain(正数), capital-loss(正数)两项针对资产投资是正收益还是负收益的情况,我们用excel 将两项进行相减处理合并,所得正数即为资产投资所得的盈利,负数则为资产投资的损失值。4.2.2 缺失数据的处理 我们对附录二所给的数据进行分析发现,所给的属性特征中有35个标识“?”的数据缺失。对于缺失数据的处理方法有以均值替代、众数替代、K最近距离邻发、组合完整化方法以及直接剔除等方法。要根据实际情况的需要进行灵活的方法选择,本题中考虑到样本数量基数大有500个,35个缺失数据只占7%相对较小,所以我们在问题一做判别建模分析中直接用剔除缺失数据的处理方法进行了数

11、据判别分析,得出了判别模型后,再对附录三200个居民样本数据的预测处理上,为了保证样本数据的完整性我们对于缺失的数据进行的是以众数替代缺失值。4.2.3 对类别型数据的数值型处理因为所给的数据中还有很多是类别属性的信息(race, sex, relationship, marital-status, Occupation, education, workclass, native-country)所以我们需要进行数值化处理,相应的处理标识见下表(具体数值见附录十三):表4-3:类别属性数据的数值化处理所在列名称原始值赋值Income<=50K0>50K1RaceWhite0Asia

12、n-Pac-Islander1Amer-Indian-Eskimo2Other3Black4sexMale0Female1workclassPrivate1Self-emp-not-inc2Self-emp-inc3Federal-gov4Local-gov5State-gov6Without-pay7Never-worked8.5 问题一的解答问题一要求提出判别美国居民收入方法,并检验提出方法的正确性.该问题属于判别问题,解决此类问题的方法有判别分析法和网络神经系统等,我们选择用spss方法和BP神经网络建立模型求解。为了检验提出方法的正确性,我们选取附录二中任意300组数据进行训练,利用其

13、余200组数据进行检测。首先,我们用SPSS判别工具建立判别模型。5.1模型一的建立: 基于SPSS的 Fisher判别5.11 Fisher判别的基本原理Fisher判别法由Fisher在1936年提出,是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,该判别方法对总体的分布不做任何要求。各类在维特征空间里的样本均值向量: , (5.1-1)通过变换映射到一维特征空间后,各类的平均值为:, (5.1-2)映射后,各类样本“类内离散度”定义为:, (5.1-3)显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类内离散度越小越好。因此,定义Fisher准则函

14、数: (5.1-4)使最大的解就是最佳解向量,也就是Fisher的线性判别式。5.1.2求解从的表达式可知,它并非的显函数,必须进一步变换。已知:,, 依次代入,有:, (5.1-5)所以: (5.1-7)其中: (5.1-8)是原维特征空间里的样本类内离散度矩阵,表示两类均值向量之间的离散度大小,因此,越大越容易区分。将和代入(5.1-3)式中: (5.1-9)其中:, (5.1-10)因此: (5.1-11)显然: (5.1-12)称为原维特征空间里,样本“类内离散度”矩阵。是样本“类内总离散度”矩阵。为了便于分类,显然越小越好,也就是越小越好。将上述的所有推导结果代入表达式:可以得到:其

15、中,是一个比例因子,不影响的方向,可以删除,从而得到最后解: (5.1-13)就使取得最大值,可使样本由维空间向一维空间映射,其投影方向最好。是一个Fisher线性判断式。 这个向量指出了相对于Fisher准则函数最好的投影线方向。5.1.3 Fisher算法步骤由Fisher线性判别式求解向量的步骤: 把来自两类的训练样本集分成和两个子集和。 由,计算。 由计算各类的类内离散度矩阵,。 计算类内总离散度矩阵。 计算的逆矩阵。 由求解。5.2 基于SPSS的Fisher判别分析SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比

16、较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。我们首先随机选择300组样本数据进行判别分析,剩下的200组数据进行SPSS判别准确度的检验测算,达到的准确率为74.6%。表5-1:spss分析结果income预测组成员合计01初始计数010043143184273357%069.930.1100.0123.576.5100

17、.0交叉验证b计数09746143184273357%067.832.2100.0123.576.5100.0注:a 已对初始分组案例中的 74.6% 个进行了正确分类。b 仅对分析中的案例进行交叉验证。 在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。c 已对交叉验证分组案例中的 74.0% 个进行了正确分类。由上表可知,SPSS做判别分析的准确度为74.6%,并不是很理想,对此,我们引入BP神经网络的判别模型。5.3 BP神经网络模型5.3.1 BP神经网络的基本理论神经网络是一种运算模型,由大量的节点(或称“神经元”)和之间相互联接构成。每个节点代表一种特定的

18、输出函数,称为激励函(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重(weight),这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。人工神经网络通常是通过一个基于数学统计学类型的学习方法(Learning Method)得以优化,所以人工神经网络也是数学统计学方法的一种实际应用,通过统计学的标准数学方法我们能够得到大量的可以用函数来表达的局部结构空间,另一方面在人工智能学的人工感知领域,我们通过数学统计学的应用可

19、以来做人工感知方面的决定问题(也就是说通过统计学的方法,人工神经网络能够类似人一样具有简单的决定能力和简单的判断能力),这种方法比起正式的逻辑学推理演算更具有优势。图5: 多层神经元网络(BP神经网络图)输入输出层之间实现全连接,而同一层的神经元之间无连接,输入神经元与隐含层神经元之间是网络的权值,其意思是两个神经元之间的连接强度隐含层或输出层任一神经元将前一层所有神经元传来的信息进行整合,通过还会在整合过的信息中添加一个阀值,这主要是模仿生物学中的神经元必须到达一定的阀值才会触发的原理,然后将整合过的信息作为该层神经元输入。BP算法由数据流的前向计算(正向传播)和误差信号的反向传播两个过程构

20、成。正向传播时,传播方向为输入层隐层输出层,每层神经元的状态只影响下一层神经元。若在输出层得不到期望的输出,则转向误差信号的反向传播流程。通过这两个过程的交替进行,在权向量空间执行误差函数梯度下降策略,动态迭代搜索一组权向量,使网络误差函数达到最小值,从而完成信息提取和记忆过程。本质上来说BP算法的核心是数学中的负梯度下降理论,即BP网络的误差调整方向总是沿误差下降最快的方向进行,常规三层BP网络权值和阀值调整公式如下: , , 其中为网络的输出的与实际输出样本之间的误差平方和;为网络的学习速率;为神经元的阀值,下标的意义与权值的相同。5.4 BP神经网络模型的实现5.4.1BP神经网络模型学

21、习样本的建立根据附录一给出的数据,我们随机选择了其中的60%作为训练样本,其余40%作为测试样本。该数据共有500个随机样本,在问题一里面只需要考虑连续型属性的样本数据,所以在问题一中只需要分析5个影响因数(age, fnlwgt, education-num,资产收益,hours-per-week)。该数据是随机进行排序的,所以我们选择原始数据的300个样本作为训练样本,其他的200个样本作为测试样本。问题二中将所有数据进行统一数值化处理后,依然在总的数据中选取部分作为样本训练数据,其他数据作为检验我们模式准确度的测试样本数据。5.4.2原始数据预处理 (1)数据归一化处理的必要性附录中原始

22、数据的属性不一样,会使得神经网络收敛慢、训练时间长。数据范围大的输入在模式分类中的作用可能会偏大,而数据范围小的输入作用就可能会偏小。由于神经网络输出层的激活函数的值域是有限制的,因此需要将网络训练的目标数据映射到激活函数的值域,需要进行数据归一化的处理。(2)数据归一化处理的方法数据归一化处理方法有简单快捷的线性转换,以及Matlab的premnmx , postmnmx , tramnmx 3个函数的处理。在本题综合考虑到我们基于MATLAB编程,由此我们采用了MATLAB提供的PN1=mapminmax(P1)函数进行数据的归一化处理。(3)设置参数 训练样本共有300个,在满足网络需求

23、的前提下我们设置隐含层节点数为12个;由于训练目标和测试目标为一维的向量,输出维数为1维;判别函数我们根据网络的层数分别选择了非线性的tansig以及线性的purelin函数;训练显示间隔,学习步长,最大训练时间等均设置在合理的范围内。(4)网络的运算过程 利用MATLAB提供的神经网络工具箱实现人工神经网络的功能。首先,我们利用训练样本(数据见附录一)对网络实行训练,通过调节各项参数以及判别函数来提高训练样本精度;然后,当训练精度达到一定程度的时候,我们再加入测试样本,对网络进行检验。BP网络的运行结果不是十分的稳定,当训练次数达到100次以后,我们连续测得20组数据(具体的编程代码见附录二

24、)求的均值如下表所示(见附录三)表5-2:问题一的BP神经网络训练和检测训练样本的准确度测试样本的准确度平均值85.7%76.5% 由表5-2可知,对于问题一的BP神经网络模型在训练样本中的准确度达到了85.7%,在测试样本中也达到了76.5%,说明问题一中的BP神经网络模型对于判别分析具有较好的可信度。综上所述,可知用BP神经网络训练样本的准确度高达85.7%,它的测试结果的准确度也有76.5%,相对使用spss方法预测的效果准确率74.6%更加理想。于是,我们更有理由采用BP神经网络模型。5.5对附录三数据的检测按照我们前面所做的BP神经网络的训练测试网络模型,我们对附录三中200个居民数

25、据(具体数据见附录四)年收入是否超过50K做了预测判别(代码见附录五)。输出检验值C2大于等于1的即为年收入大于50K的样本数据,输出值C3小于1的表示年收入小于等于50K的样本数据。表5-3:附录三200个居民年收入预测统计年收入统计对应的具体居民占比>50k591 12 18 20 21 25 28 29 30 33 39 41 43 47 49 50 52 60 62 66 75 76 77 81 82 83 87 90 91 93 104 106 110 112 117 118 121 125 126 136 137 140 147 148 151 156 161 163 164

26、 172 175 176 177 188 189 191 193 197 20029.5%<=50k1412 3 4 5 6 7 8 9 10 11 13 14 15 16 17 19 22 23 24 26 27 31 32 34 35 36 37 38 40 42 44 45 46 48 51 53 54 55 56 57 58 59 61 63 64 65 67 68 69 70 71 72 73 74 78 79 80 84 85 86 88 89 92 94 95 96 97 98 99 100 101 102 103 105 107 108 109 111 113 114 1

27、15 116 119 120 122 123 124 127 128 129 130 131 132 133 134 135 138 139 141 142 143 144 145 146 149 150 152 153 154 155 157 158 159 160 162 165 166 167 168 169 170 171 173 174 178 179 180 181 182 183 184 185 186 187 190 192 194 195 196 198 19970.5%总和200200100%由表5-3可知,年收入大于50K的共有59个,占比29.5%;年收入小于等于50K

28、的有141个,占比70.5%。而在附录一所给的500个样本数据中,年收入超过50K的有143人,占比28.6%;年收入小于等于50K的有357人,占比71.4%。通过对比可知,预测值的占比率与实际情况的占比率浮动1%,相对来说结果浮动比较小,由此可知我们的预测方法具有较高的可信度。6 问题二的解答6.1 问题二的建模问题一是基于所给数据中的连续属性的信息判别居民收入是否超过50K的情况,而问题二考虑的是所给信息的所有属性(包括连续型属性和类别型属性),提出判别美国居民年收入是否超过5万美元的方法,再检验我们所提方法的正确性。按照所提出的方法,判断附录三中的200个居民的年收入是否超过5万美元。

29、 问题二中首先依然要进行数据处理,将类别型的数据进行数值化处理,具体的数值统一化标准(见表4-3:类别型数据的数值化),将所给的样本数据按照表4-3的数值标准统一化后得到数值型的样本数据(全部样本数据见附录六),然后剔除掉含有缺失值的35项样本数据,依然利用MATLAB提供的BP神经网络的方法进行样本的测算(程序代码见附录七),得到的结果(附录八)整理如下表:表6-1:问题二的BP神经网络训练和检测训练样本的准确度测试样本的准确度平均值87%83.03%由表6-1可知,我们对所提的BP神经网络的方法检验,用随机选取的300个样本进行的训练样本的准确度达到87%,用剩下的165个测试样本的准确度

30、检验更是达到了83.03%,准确率相对第一问来说,指标增加的情况下准确度有所提高具有一定可信度。因此,运用BP神经网络对于判别居民年收入是否超过50K的方法具有一定的可靠性。 6.2 问题二模型的检验为了验证我们在问题二中BP神经网络模型的正确性,我们输入附录三中200个居民样本数据,为了保证样本的完整性和不失数据的一般性,对于其中的缺失值我们以众数替代,基于MATLAB的进行BP神经网络运算(程序代码见附录九),得到的结果如下:表6-2:对附录三中200个居民数据的预测检验年收入统计对应的具体居民占比>50k562 6 18 20 21 23 24 25 28 29 37 38 40

31、43 45 46 49 50 51 59 60 62 65 67 72 74 75 82 86 87 91 95 101 104 108 109 118 119 126 128 139 140 147 151 155 161 172 173 175 177 178 179 188 189 199 20028%<=50k1441 3 4 5 7 8 9 10 11 12 13 14 15 16 17 19 22 26 27 30 31 32 33 34 35 36 39 41 42 44 47 48 52 53 54 55 56 57 58 61 63 64 66 68 69 70 71

32、73 76 77 78 79 80 81 83 84 85 88 89 90 92 93 94 96 97 98 99 100 102 103 105 106 107 110 111 112 113 114 115 116 117 120 121 122 123 124 125 127 129 130 131 132 133 134 135 136 137 138 141 142 143 144 145 146 148 149 150 152 153 154 156 157 158 159 160 162 163 164 165 166 167 168 169 170 171 174 176

33、180 181 182 183 184 185 186 187 190 191 192 193 194 195 196 197 19872%总和200200100%由表6-2可知,在附录三中200个居民样本中,年收入大于50K的有56人,占比28%;年收入小于等于50K的有144人,占比72%。相比较于附录一所给的500个样本数据中,年收入超过50K的有57人,占比28.6%;年收入小于等于50K的有357人,占比71.4%。图6:预测组值与实际组值的对比由图6可以更加直观的看到预测与实际值之间占比浮动小,再次说明我们的预测方法具有较高的可信度。7 问题三的解答判断居民收入是否超过50k的潜在

34、影响因素众多,题目给出了15个可能影响收入的条件指标因素,在不影响判别准确性的前提下,精简指标信息在信息膨胀的今天显得很有必要。问题三中我们运用主成分分析法进行指标的精简,确定影响居民收入是否超过50K的关键指标。7.1 主成分的基本思想主成分分析旨在利用降维的思想,设法将原来众多的具有一定相关性的指标,重新组合成一组新的互补相关的综合指标来代替原来指标.通常数学上的处理就是将原来的个指标作线性组合,作为新的综合指标。线性组合的选取应遵循以下准则:在所有线性组合中所选取的应该是方差最大的,故称为第一主成分。如果第一主成分不足以代表原来个指标的信息,再考虑选取即选第二个线性组合.为了有效的反映原

35、有信息,已有的信息就不需要再出现在中,用数学的语言表达就是要求,称为第一主成分,依次类推可以构造出第三、第四、第个主成分。7.2问题三模型的建立我们以附录二中的500组数据为样本数据,记表示以从age到native-country的16个信息特征为指标,记得到原始数据矩阵。(1)样本数据标准化为为了消除各项因素之间在量纲化和数量级上的差别,对样本数据进行标准化,得到标准化矩阵,用标准化后的数据代替,得:;其中,为因素 的平均数, 为因素 的标准差。(2)根据标准化矩阵建立相关系数矩阵相关系数矩阵是反映标准化后的数据之间的相关关系的密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。由于

36、矩阵是一个实对称矩阵,故;其中,。(3)根据相关系数矩阵求特征值及正交化单位特征向量求解相关系数矩阵的特征方程,得到特征值,由于是一个正定矩阵,故其特征值均为正数,将其按从大到小的数序排列得。将特征值带入方程,求得对应的特征向量,由于正交化单位特征向量,故(4)选择重要的主成分,并写出主成分表达式 主成分分析可以得到个主成分,但是由于各个主成分的方差是递减的,包含的信息量也是递减的,所以实际分析时,一般不是选取p个主成分,而是根据各个主成分累计贡献率的大小选取前k个主成分,这里贡献率就是指某个主成分的方差占全部方差的比重,实际也就是某个特征值占全部特征值合计的比重。即得到贡献率若贡献率越大,说

37、明该主成分所包含的原始变量的信息越强。主成分个数k的选取,主要根据主成分的累积贡献率来决定,即一般要求累计贡献率达到85%以上,这样才能保证综合变量能包括原始变量的绝大多数信息。 (5)计算主成分得分计算个样品在个主成分上的得分如下:综合评价函数(6)综合评价函数每个主成分的贡献率为综上所述,我们得到模型如下:7.3模型的求解(1)数据KMO检验和巴特利球体检验我们依然采用附录二中的数据,即剔除了35个缺失值的居民的全部属性信息,用SPSS软件求解,因为SPSS做主成分分析数据时首先进行KMO检验和巴特利球体检验,KMO检验系数>0.5,P值(最后一行Sig为球星检验的P值)<0.

38、05时,数据才有结构效度,才能进行主成分分析。我们对居民收入信息中所给的信息得到的KMO检验系数为0.542(结果见附录十)>0.5,P值=0.000,所以数据具有结构效度,可以做主成分分析。(2)主成分个数的确定数据具备做因子分析的前提条件,运用SPSS做得的相关系数矩阵的特征值及所有主成分的贡献率情况,如下表所示:表7-1:特征值及贡献率主成分特征值贡献率累计贡献率12.10515.03715.03721.82913.06528.10231.3449.59837.741.2528.94246.64251.0747.6754.31261.0697.63761.94971.0377.40

39、969.35880.9096.4975.84890.8436.02381.87100.7975.6987.56110.6724.892.36120.6264.4796.831130.4443.169100142.31E-151.65E-14100由表可知,主成分F1.。F7特征值均大于1,故可以确定主成分的个数m=7(3)主成分的系数分析确定主成分后,我们在SPSS里得到主成分对每个原指标的相关系数,如下表:表7-2:主成分矩阵系数属性成份1234567age.273-.128.187.573-.189-.165-.295workclass.039-.115.666-.010.119.238-

40、.307fnlwgt.011.253-.285-.035.128.522.342education.070.139-.160.649.340.187-.186education-num.267-.376.468-.327-.314.073.114marital-status-.350.667.246-.077-.143.001.252occupation-.068.055.376-.218.710-.059.119relationship-.073.517.344.428-.229.038.390race-.035.279.081-.154.044.610-.446sex-.208.578.2

41、31-.070-.205-.161-.325capital-gain.926.324-.055-.118-.010-.006.011capital-loss.002-.353-.038.084-.373.512.107hours-per-week.923.341-.053-.122.009-.033.005native-country.257-.318.391.304.184.078.382根据表7-2,通过比较每个主成分关于原指标的系数绝对值,我们得到以下结论:第一主成分与caption-gain、hours-per-week 等属性强相关,第二主成分与marital婚姻状态、relatio

42、nship关系、sex性别等属性强相关,第三主成分与workclass属性相关,第四主成分与age年龄、education教育等属性强相关,第五主成分与职业强相关,第六主成分与fnlwgt、种族、资产损失等属性强相关,第七主成分与race种族属性相关。(4)根据表达式计算个主成分对原指标的相关系数为保证原来数据的信息最大程度的保留,故将特征值大于1的前面几个指标定为关键指标,如下表:表7-3:对应特征值的特征向量1234567age0.188-0.0950.1610.512-0.182-0.16-0.29workclass0.027-0.0850.574-0.0090.1150.23-0.30

43、1fnlwgt0.0760.187-0.2460.0310.1240.5050.336education0.0480.103-0.1380.580.3280.181-0.183education-num0.184-0.2780.404-0.292-0.3030.0710.112marital-status-0.2410.4930.212-0.069-0.1380.0010.247occupation-0.0470.0410.324-0.1950.6860.0570.117relationship-0.050.3820.2970.383-0.2210.0370.383race-0.0240.20

44、60.07-0.1380.0420.59-0.438sex-0.1430.4270.199-0.063-0.198-0.156-0.319capital-gain0.6380.24-0.047-0.105-0.01-0.0060.011capital-loss0.001-0.261-0.0330.0750.360.4950.105hours-per-week0.6360.252-0.0460.1090.0090.0320.005native-country0.177-0.2350.3370.2720.1780.0750.375所以得到主成分对原指标的相关系数函数: 而每个主成分的贡献率为表7-

45、4:主成分的贡献率w占比w10.2168w20.1884w30.1384w40.1379w50.1183w60.1101w70.1068则综合评价函数,如下表:表7-5:综合评价得分1234567综合评价得分age0.188-0.0950.1610.512-0.182-0.16-0.290.045629workclass0.027-0.0850.574-0.0090.1150.23-0.3010.0748208fnlwgt0.0760.187-0.2460.0310.1240.5050.3360.1280906education0.0480.103-0.1380.580.3280.181-0.

46、1830.1298805education-num0.184-0.2780.404-0.292-0.3030.0710.112-0.0129034marital-status-0.2410.4930.212-0.069-0.1380.0010.2470.0706224occupation-0.0470.0410.324-0.1950.6860.0570.1170.115411relationship-0.050.3820.2970.383-0.2210.0370.3830.1738831race-0.0240.2060.07-0.1380.0420.59-0.4380.0474142sex-0

47、.1430.4270.199-0.063-0.198-0.156-0.319-0.0063699capital-gain0.6380.24-0.047-0.105-0.01-0.0060.0110.1618813capital-loss0.001-0.261-0.0330.0750.360.4950.1050.0651212hours-per-week0.6360.252-0.0460.1090.0090.0320.0050.1991482native-country0.177-0.2350.3370.2720.1780.0750.3750.1476141主成分得分系数0.21680.1884

48、0.13840.13790.11830.11010.1068根据综合得分对其进行排序如下表:表7-6: 综合得分排序影响因素综合得分贡献率累计贡献率相关性hours-per-week 0.1991482 0.1444341140.144正相关relationship 0.1738831 0.1261103610.27正相关capital-gain 0.1618813 0.1174059420.387正相关native-country 0.1476141 0.1070585210.494正相关education 0.1298805 0.094197060.588正相关fnlwgt 0.1280906 0.0928989180.681正相关occupation 0.115411 0.0837029180.765正相关workclass 0.0748208 0.0542644920.819正相关marital-status 0.0706224 0.0512195630.87正相关capital-loss 0.0651212 0.0472297660.92正相关race 0.04744142 0.0344073380.954正相关age 0.045629 0.0330928

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论