版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
对于全国各省离婚率影响因素的定量分析——基于主成分-因子-多元回归-聚类模型华南理工大学曾浩健、陈晓强、吴志铭目录:TOC\o"1-5"\h\z摘要11引言22问题分析2表1离婚率的影响因素意义33文献综述44数据预处理45模型的建立与求解6图1三级扌旨标结构示意图65.1主成分-因子分析模型6表2三级扌旨标示意表6表3KMO检验和Bartiett检验7表4各个指标变量共同度表8表5经济因子变量解释8表6主成分荷载表10表7因子得分系数矩阵10表8校正后因子得分系数矩阵125.2多元回归分析模型13表9F检验值与伴随概率13表10相关系数13表11多元回归结果114表12相关系数14表13在不同省份间,指标对离婚率的贡献率15表14多元回归结果216表15在不同年份间,指标对离婚率的贡献率165.3改进的层次聚类分析模型17图2分组聚类情况186研究结论及总结187模型的评价、改进以及推广198参考文献199【附录】——模型准备209.1主成分-因子分析模型的准备209.2多元回归分析模型的准备21#/24页表8校正后因子得分系数矩阵经济主成分城市登记失业率居民消费物价指数(1997)全社会固定资产投资额人均国内生产现值第三产业增加值占GDP比重城乡居民储蓄存款年底余额1-0.17474-0.011030.119590.2246660.2606590.0696642-0.013420.190019-0.115350.026846-0.092280.171143加总-0.188160.1789880.0042360.2515120.1683770.240807人口结构及其素质城镇人口比例人口出生率性别比总负担系数大专以上占比普通高等学校数10.2560540.2105340.1273160.238273-0.105980.028452-0.063810.0300290.011261-0.009820.2044260.14177加总0.1922430.2405620.1385770.2284560.0984480.170221居民生活水平居民恩格尔系数家庭人均全年总收入商品房本年人均销售面积客运量总计互联网上网人数卫牛机构数10.0129470.004316-0.047470.2066160.184498-0.1947520.1330940.1773050.175002-0.004610.052040.055724加总0.1460410.181620.1275290.2020110.236538-0.13902最后因子得分公式为:‘Z=—0.188160*x+0.178988*x+0.004236*x+0.251512*x+0.168377*x+0.240807*xTOC\o"1-5"\h\z111213141516<Z=—0.192243*x+0.240562*x+0.138577*x+0.228456*x+0.098448*x+0.170221*x212223242526Z=0.146041*x+0.18162*x+0.127529*x+0.202011*x+0.236538*x+0.13902*x13313233343536(5-4)z为经济因子得分1Z为人口结构及其素质得分2Z为居民生活得分3其中,stdx(i=1,2,3,4;j=1,2,3,4,5,6)表示第i个一级指标组的第j个原指标标准化后的评价指标变量:—x..)/b(—x..)/b(i=1,2,3;j=1,2,3,4,5,6)jij(5-5)ijij新的综合一级指标Z、新的综合一级指标Z、1Z各自主要考虑了相应6个指标的影响,依据3主成分表达式,代入数据计算31个省份、直辖市在经济、人口结构及其素质、居民生活水平方面的得分。结果见附表1。5.2多元回归分析模型5.2.1基于不同省份:首先,依据主成分分析得到的6个主成分做以离婚率为因变量对不同省份、直辖市的多元回归分析,得到F检验值与伴随概率如下表(以0.05作为显著性水平):表9F检验值与伴随概率回归变量伴随概率F检验值(Constant)00.013经济F10.012经济F20.103人口结构及其素质F10.201人口结构及其素质F20.974居民生活F10.307居民生活F20.048由表中得知回归方程F值为0.013小于0.05,同时有多个伴随概率不满足小于0.05。由此,我们知道拟合的回归方程存在多重共线性,因此,进一步对6个主成分做双侧检验的相关分析,得到如下表:表10相关系数相关系数经济F1经济F2人口结构及其素质F1人口结构及其素质F2居民生活F1居民生活F2经济F1皮尔逊相关系数10.572**-0.192-0.046.758**经济F2皮尔逊相关系数010.307.540**.847**0.283人口结构及其素质F1皮尔逊相关系数.572**0.307100.053.849**人口结构及其素质F2皮尔逊相关系数-0.192.540**01.535**-0.041居民生皮尔逊-0.046.847**0.053.535**10
活F1相关系数居民生活F2皮尔逊相关系数.758**0.283.849**—0.04101由多重共线性知,在一般情况下,认为相关系数取值的绝对值低于0.75才可认为本题没有多重共线性的问题。那么,由上述图标,筛选出并剔除引起多重共线性问题的指标为:居民生活F2和经济F2剔除两个指标后,通过合成两个人口结构及其素质得出人口结构及其因素指标,并且用经济F1、居民生活F1分别代替经济指标和居民生活指标。同时,对这三个指标进行同样的多元回归分析。表11多元回归结果1Model系数0i伴随概率F检验值RRSquareAdjustedRSquare常数1.51900.017.557a0.310.234经济—0.40.216人口结构及其素质0.6370.005居民生活0.040.905同样F值为0.017小于0.05,部分伴随概率不满足小于0.05,于是对不同变量做相关分析,得到如下表:表12相关系数相关系数经济人口结构及其素质居民生活经济皮尔逊相关系数1.458**-0.046人口结构皮尔逊相.458**10.25及其素质关系数居民生活皮尔逊相关系数-0.0460.251由表知道,相关系数取值的绝对值均小于0.75甚至小于0.5,按照法则,说明本题没有多重共线性的问题我们得到回归方程如下:(5—6)y=1.519—0.4X+0.637X+0.04X(5—6)123其中,b表示,在人口结构及其素质、居民生活因素不变的条件下,经济因1素每增加一单位,离婚率平均减少一单位b表示,在经济、居民生活因素不变的条件下,人口结构及其素质因素每增2加一单位,离婚率平均增加一单位b表示,在人口结构及其素质、经济因素不变的条件下,居民生活因素每增h3加一单位,离婚率平均增加一单位同时,由调整的多重判定系数R2=0.234=23.4%知道,在自变量调整后,在a离婚率取值的变差中,能被经济、人口结构及其素质和居民生活因素的多元回归方程所解释的比例为23.4%由多元回归方程的系数,依据校正后的因子得分系数表,可对经济第一主成分、人口结构及其素质第一、二主成分、居民生活第一主成分三大指标组内各指标进行加权,得出指标对离婚率的贡献率:表13在不同省份间,指标对离婚率的贡献率经济城市登记失业率全社会固定资产投资总额居民消费物价指数(基期1997年)人均国内生产总值(现价)第三产业占GDP的比重城乡居民储蓄存款年底余额贡献率0.0698960.004412-0.04784-0.08987-0.10426-0.02787人口结构及其素质城镇人口比例人口出生率性别比总负担系数大专以上比率普通高等学校数贡献率0.1224590.1532380.0882730.1455260.0627110.108431居民生活水平居民恩格尔系数居民家庭人均总收入商品房本年人均销售面积各运量互联网人数卫牛机构总数贡献率0.0005180.000173-0.001900.0082650.007380-0.00779从得到的结果来看,在“经济”这部分中,第三产业占GDP的比重的贡献率最高,而此指标可以近似代表经济发展的进程和程度,说明经济发展的水平确实影响着离婚率,纵观欧美等国家的历史发展情况,社会化发展程度越高,代表物质生活水平越高,人们可以更多地注重个人的享受和追求,而离婚率就上升。其他指标除了固定资产总额以外,贡献率都比较平均,大概是因为各个宏观经济指标是同步变动的。六个指标的贡献率之和不高,而且还说明经济是一个复杂的方面,在这方面,还存在其他更多的指标对离婚率有影响作用,需要考虑更多指标。在“人口机构及其素质”中,出生人口率和总负担系数的贡献率相近,分别代表了生育水平和单位劳动力的承受抚养压力,说明在婚姻关系中,孩子是一个维系婚姻关系的重要因素,而抚养压力则也代表家庭压力的部分。六个指标的贡献率总和比较高,说明所选指标的代表程度较好,解释度高。而在居民生活方面,我们得出大部分指标对离婚率的影响很小,对此有两种解释:其一是所选的指标代表性不够,与我们大众对生活水平跟离婚率之间关系有明显关系的印象不符;其二是由于经济中的指标对离婚率确实有影响,而收入的影响作用却很低,大概是因为收入水平的调整并没有跟上经济发展的步伐,生活质量的指标没有同步跟上。5・2・2基于不同年份:其次,通过对全国的指标对2002年~2009年的数据做时间上的多元回归分析,采用逐步回代的筛除变量的方法,得到以下回归情况如表:表14多元回归结果2Model系数伴随概率F检验值RRSquareAdjustedRSquare常数1.50800.04.729a0.5310.453人口结构及其素质F1-0.5190.04由表知道,本次回归同时满足F检验和T检验的模型只有一个:y=1.508-0.519X(5-7)其中,B表示,人口结构及其素质F1每增加一单位,离婚率平均减少一单H1位同时,由调整的多重判定系数R2=0.453=45.3%知道,在自变量调整后,在a离婚率取值的变差中,能被经济、人口结构及其素质和居民生活因素的多元回归方程所解释的比例为45.3%。同理,依据校正后的因子得分系数表,可对人口结构及其素质第一主成分内各指标进行加权,得出指标对离婚率的贡献率:表15在不同年份间,指标对离婚率的贡献率人口结构及其素质城镇人口比例人口出生率性别比总负担系数大专以上比率普通高等学校数贡献率-0.13289-0.10927-0.06608-0.123660.055003-0.01477
由于在逐步回代过程中,为了消除多重共线性而剔除其他可替代变量,保留作用最大最综合的变量,也在一定程度上说明了人口结构及其素质第一主成分(F1)起最大最有代表性的作用,同时结果表明沿着年份,从全国范围来看,第一主成分(F1)对离婚率变化具有接近一半的解释程度。表明从全国范围看,排除掉不同省之间结构的影响后,影响粗离婚率的变化最主要因素来自人口结构及其素质第一主成分(F1),即主要来自城镇人口比例、总负担系数、人口出生率的影响,分别代表了城市化程度和家庭老人、孩子的因素,这点和此前对离婚率的定性研究是吻合的,所以此结果亦具有参考价值。虽然由结果可以看到可决系数和调整的多重判定系数都不高,但这并不代表模型失败,它更确切的表明了,离婚率实际上与更多因素相关,需要更多的指标才能更全面的解释离婚率的变化情况。而研究离婚率与不同省份的指标间关系时23.4%的解释程度和与不同年份的指标间关系时45.3%的解释程度恰恰表明了在本文选取的研究指标中,能够对离婚率解释不是完整的,恰恰也解释了本文没有涉及到的心理因素、家庭因素、法律因素等对离婚率的影响是具有分量的。但是,由于上述因素的数据获取难度,本文不做针对性研究。但是在本文中应用到的多元回归模型在解决此类问题具有一定的参考价值。5・3改进的层次聚类分析模型在层次聚类中,对22个省、4个直辖市、5个自治区分别对离婚率、经济指标、居民生活指标和人口结构及其素质指标进行层级聚类各自分为低、中、高三组。在本次层次聚类的过程中,由于直接层次聚类带来个别分类组内成员数过少,我们采用以下迭代方法对聚类方法进行改进。在一次层次聚类中,Step.l我们通过先剔除包含过少成员数的组别,并保留其原有分类的高、中、低属性。Step.2对剔除后剩余的成员进行再一次层次聚类,如果分组较为均衡(低、中、高分布较均衡),采纳层次聚类结构。如果分组仍然存在个别组包含过少成员的情况,则回到第一步。Step.3将剔除的成员,按照其原有的高、中、低属性加合并如对应的分组。Step.4对现有分组,以该项指标按顺序编排,并以3代表高、2代表中、1代表低。做完四次层次聚类,得到如下分组情况:北京市甘肃省西藏自治云盛省四工省北京市甘肃省西藏自治云盛省四工省山东省係省天津市河北省止吞省辽宁省河束省北京市浙江省吉宝甘齬忑藏自沦云卓省赍州省海虑省厂吞壮按北京市浙江省吉宝甘齬忑藏自沦云卓省赍州省海虑省厂吞壮按江茜省険誣省江苏省河北省山西省肉盏古自图2分组聚类情况并对以离婚率为主参照量,做出解释情况表(详见附表2)。从解释情况表,结合众数代表顺序数据的集中趋势,我们观察高、中、低离婚率分别得到一下信息:对于高离婚率省份,具有低经济、高人口结构及其素质、中居民生活的集中趋势对于中离婚率省份,具有低经济、中人口结构及其素质、中偏高居民生活的集中趋势对于低离婚率省份,具有低经济、低人口结构及其素质、低居民生活的集中趋势由此可见,离婚率在不同省份中,以人口结构的集中变化最为显著,居民生活集中变化为次,经济的集中变化不明显。6研究结论及总结在整个研究过程中,结合文献综述通过大体上对离婚率的认识,假设18个指标作为研究离婚率问题的指标。通过相关分析,做出18个指标与离婚率的相关系数(如表1),初步验证三个方向共18个指标拥有表面相关性。为了简化运算,提高指标代表性,采用主成分分析方法,得到了结合指标间的关系,将18个指标合成为6个综合指标,并通过因子分析,得出综合指标的得分情况。同时,为了进一步验证指标与离婚率之间的关联性,采用多元回归分析方法,得到了指标对离婚率的解释度与回归方程,在此解决了什么因素对离婚率有影响,影响程度多少的问题。最后,将指标归结为三大方向指标,并通过改进的层次聚类分析得到不同地区之间的结构差别,并由此解决离婚率与三大方向指标在不同地区的分布结构问题。综合整个文章,通过一步一步递进改变做出的因子成分表,本文得出所研究的指标究竟哪个指标对离婚率解释最多。此外,本文在直接研究离婚率问题的时候,同时发现了对研究离婚率所潜在的问题,也就是本文在回归分析中所考虑欠周到引起指标缺乏,对离婚率的解释不够完全的情况。但总的来说,对于本文所研究的离婚率的问题,以及在本文的研究范围内,对离婚率得到了以下结论:对不同省份和不同年份来说,离婚率确实与经济、人口结构及其素质、居民生活水平有关,并且以人口结构的集中变化最为显著,居民生活集中变化为次,经济的集中变化不明显。7模型的评价、改进以及推广7.1主成分-因子分析模型的评价及推广优点:模型一通过主成分分析将数据进行组合,选出具有代表性的指标来替代原有数据,然后对新指标进行因子分析等数学模型并得到了全国及各省份、直辖市与离婚率相关的经济、人口结构及其素质、居民生活水平三方面综合得分情况,过程辅以统计数学软件完成,得到的结果比较简便、完整、精确。缺点:由于模型一采用的是统计学的原理,模型一需要足够多的数据才能做到更加精确,误差更小。而缺点正是数据量不够大,模型一需要更多的数据才能将误差降低,使结果更加符合实际情况。推广:模型一主要采用的主成分-因子分析模型,在研究不同年份或不同省份、国家与离婚率的经济、人口结构及其素质、居民生活水平三方面相关综合情况都能够得到使用,如果加上聚类分析模型,我们就能够研究经济、人口结构及其素质、居民生活水平三方面在不同省份或不同年份对离婚率进行分析。例如研究某省市的离婚率变动与经济、人口结构及其素质、居民生活水平三方面的关系。同时,主成分-因子分析模型也能够在类似的定性问题定量化的研究中发挥其用途。7・2多元回归分析模型的评价及推广优点:模型三通过多元回归的方法计算得到了粗离婚率与一级指标之间的相关程度,并且在此基础上,通过对比相关系数,筛选得到影响粗离婚率的关键性指标与不明显指标。缺点:由于模型三是对这一部分数据进行回归,不能够综合所有指标的情况,具有一定的误差推广:由于模型较容易理解,并且能够清晰的描绘出变量之间的相关系数,此模型被广泛应用于社会统计当中。7・3改进的差异层次聚类分析模型的评价及推广优点:模型二通过对比四次层次聚类分析的聚类情况,并且通过迭代筛选偏离程度太大的数据,从而得出离婚率与因子指标的关联性的集中趋势,使得聚类分布更加均匀,更具有参考价值。缺点:由于聚类方法上造成的系统误差不稳定,不能够大范围运用,同时当数据量足够大的时候,会出现一些偏高的数据,可能会使聚类效果不够具有显著性。推广:此模型可以用于强调出某一因素与其他因素的关联性,能够运用到关联性的探索性研究中。8参考文献中经网统计数据库,____,综合年度库/新浪博客,2011,离婚率计算方法的学术拨正./s/blog_7f7665d60100ruld.html.扌/course/a1016/tongjimiaoshu/1/xiangguanchengdu.htm汪国华,从熟人社会到陌生人社会:城市离婚率趋高的社会学透视J],背景科技大学学报社会科学版,第23卷第1期,2007.夏吟兰,对离婚率上升的社会成本分析[J],甘肃社会科学,1003-3637(2008)01-0023-05,2008.张俊荣,经济与婚姻一一10省、市离婚率水平实证分析[J],法制与社会,1009-0592(2008)08-358-01,2008.葛新权,王斌,应用统计[M],北京:社会科学文献出版社,2006.贾俊平,何晓群,金勇进,统计学[M],北京:中国人民大学出版社,2009.柯惠新,沈浩,调查研究中的统计分析法[M],北京:中国传媒大学出版社,2005.余建英,何旭宏,数据统计分析与SPSS应用[M],北京:人民邮电出版社,2003.汪远征,SAS软件与统计应用教程[M],北京:机械工业出版社,2007.王芳,SAS统计分析与应用[M],北京:电子工业出版社,20011.9【附录】——模型准备9.1主成分-因子分析模型的准备•主成分分析原理:主成分分析⑹是设法将原来众多具有一定相关性(比如p个指标)的指标,重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。最经典的做法就是用F](选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var()越大,表示F包含的信息越多。因此在所有的线性组合中选取的F应该是方差最大的,故称F为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F:即选第二个线性组合,为了有效地反映原来信息,J已有的信息就不需要再出现在F中,用数学语言表达就是要求Cov(F,F)=0,则称F为第二主成分,以此类推可以构造出第三、第四……第p个主成分。2设对某一事物的研究涉及p个指标,分别用X,XX表示,这p个指标构12p成的p维随机向量为x=(X,XX)。设随机向量x的均值为12p对X进行线性变换,可得M个新的综合变量,用Y表示,即满足下式:=AX+AX+...+AX11111221pp=AX+AX+...+AXJ22112222ppI(9-1)=AX+AX+...+AXJmm11m22mpp由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量Y的统计特征也尽不相同。而求主成分问题要求新的综合指标必须满足两个条件:(1)新的综合指标彼此独立,即二者相关系数为零。
(2)新的综合指标反映了样本总信息。(9—2)根据方差最大化原理,主成分问题实质是变量间方差最大化问题。(9—2)Var(Y)=Var(aX,)=a,CaTOC\o"1-5"\h\ziiiia=(a,aa),C为协方差矩阵i订i2ip若不对a进行限制时,可使Var(Y)任意增大,因此,我们可以再增加一个线性变ii换约束条件:aa'=1(9-3)ii基于上述原则和条件决定的综合变量Y,Y,,Y,分别称为原始变量的第一,第二,…,第p个主成分。其中,各综合变量在总方差中占的比重依次递减,在实际研究中工作中,通常只挑选前几个方差最大的主成分,从而达到简化系统结构、抓住问题实质的目的。9.2多元回归分析模型的准备•多元线性回归分析的原理:定义:在实际问题
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44903-2024温室气体产品碳足迹量化方法与要求畜产品
- 商铺合同模板集合
- 二零二四年度高速公路声屏障施工合同3篇
- 空白劳动合同范本2篇
- 2024年度电力工程质量问题处理与维修合同2篇
- 动物皮肤病课件
- 化工原理自测题:第二章(自)
- 2024年度企业改制与重组合同4篇
- 中医科推拿护理小讲课
- 员工创新管理分析报告
- FAB-常用词汇介绍
- 放射防护管理机构(组织构成、管理部门、人员、职责)
- 2023-2024年司考刑法真题(含答案及解析)
- 上肢血管超声检查
- pep人教版英语四年级上册 Unit 6《Meet my family!》单元作业设计
- 高寒地区陆上大型风力发电机组安装工法文本
- ISTA-6-AMAZON-亚马逊测试标准(快递包裹运输)
- 施工方案abcd类分类
- 职业病危害告知书
- 情绪管理学习通超星课后章节答案期末考试题库2023年
- 科教版高中信息技术必修1第一单元初识数据与计算1.2数据的计算公开课一等奖课件省赛课获奖课件
评论
0/150
提交评论