南京市流动人口医保问题统计研究.doc_第1页
南京市流动人口医保问题统计研究.doc_第2页
南京市流动人口医保问题统计研究.doc_第3页
南京市流动人口医保问题统计研究.doc_第4页
南京市流动人口医保问题统计研究.doc_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京市流动人口医保问题统计研究 南京财经大学 马超、汪古月、陈万琳目 录摘要III一、绪论1(一)研究背景与问题的提出 1(二)问题研究综述 1(三)建模思路与技术路线 2二、流动人口的人口学特征统计分析5(一)调研设计5(二)列联表分析 5(三)对应分析 8三、基于离散选择模型的参保影响因素分析10(一)变量选取 10(二)基于因子分析思想解决多重共线性问题 10 1.多重共线性102.因子分析的思想113.具体构造新因子过程12(三)基于二元离散选择模型的实证研究 141.处理后的变量说明 14 2.logistic模型介绍153.实证分析174.模型预测功能20(四)基于多元离散选择模型的实证研究211.multinomial logistic模型介绍21 2.实证分析22四、基于结构方程模型的满意度分析25(一)结构方程模型说明 25 1.模型简介及概念说明252.结构方程一般模型25(二)变量说明 26(三)实证分析 27 1.模型的评价272.模型输出结果28五、主要结论及相应政策建议30六、本文的创新与不足33参考文献34附录38摘 要上世纪90年代以来,随着城乡改革和对外开放的扩大,我国出现了人类历史上最为壮观的人口流动大潮。然而,在大规模农村劳动力进入城市,为城市繁荣做出巨大贡献的同时,他们在社会保障方面却没有得到应有的待遇。本文通过对南京市流动人口的医保状况进行调研,对流动人口参保的影响因素以及医保满意程度进行分析建模,以期给政府部门提供一些可靠的建议供参考决策,从而能建立一种具有一定针对性的让流动人口普遍满意的医疗保障制度,并能吸引流动人口积极参加到务工地的医疗保障中。首先从描述统计的角度进行分析,并将流动人口的参保选种和相应的人口学特征变量,以列联表的形式描绘出来,通过2检验,初步判断是否参保与哪些变量有关。在此基础上进行对应分析,通过对应分析图直观的反应出参保选种与各变量间的关联。其次,在描述统计的基础上,使用离散选择模型从定量的角度上进行实证分析,并得出结论:报销比率的提高会促进流动人口的参保;从事职业与具体参加哪种保险并无显著关系,但与是否参加保险有关;收入增加、受教育年数增加与具体参加哪种保险并无显著关系,但对是否参保有积极的作用;户籍对是否参保无显著关系,但持非农户口的更有可能参加城镇职工医保。最后,通过建立结构方程模型对流动人口的医疗状况满意度进行分析,得出结论:就医服务质量感知和医保服务质量感知影响了流动人口的满意度;当流动人口医疗满意度提高,未来参保意愿就会提高,这个关系十分显著;另外,政策认知能显著影响就医和医保服务质量感知。本文建模的创新之处在于通过因子分析的思想寻找工具变量,以解决离散选择模型中的多重共线性问题;另外,将那些在户籍地参加了新农合,但在务工地无法享受到相应福利的那部分流动人口界定为无医保者,这也是本文的一大创新。关键词:流动人口;医疗保障;logistic模型;结构方程模型42一、 绪论(一)研究背景与问题的提出上世纪90年代以来,随着城乡改革和对外开放的扩大,我国出现了人类历史上最为壮观的人口流动大潮。数量庞大的流动人口,其主体是从农村转移到城市的务工人员,即通常所说的农民工。南京市作为江苏省省会,有着较为发达的政治经济文化,是一个重要的流动人口流入地。然而流动人口在为市场经济的发展和城市的繁荣做出巨大贡献的同时,他们在社会保障方面却没有得到应有的待遇。主要表现在:(1)原则上规定用人单位必须给职工参加城镇职工医疗保险(以下简称职工医保),但由于农民工文化程度有限,一般都在小型不正规企业,真正能参加职工医保的人数很少。(2)城镇居民基本医疗保险(以下简称居民医保)明确规定了覆盖人群为城镇中那些不属于城镇职工基本医疗保险制度覆盖范围的学生、儿童以及其他非从业城镇居民。即对于没有南京户口的流动人口,即使是那些没有经济来源的妇女、儿童,也不太可能参加居民医保事实上,在调研的150名流动人口中,确实无人参加居民医保。因此在后文的分析中,不再单列一栏“城镇居民医保”。(3)所以大部分流动人口只能参加新型农村合作医疗(以下简称新农合)。但新农合除了保障水平低外,还存在着一个问题:流动人口在户籍地参加了新农合,然而对于长期在南京打工的流动人口来说,每次生病都返乡看病不太现实,在定点医院看病再回乡报销的手续十分繁琐。也就是说,一部分在户籍地参加了新农合的流动人口,来了南京后无法享受到应有福利。对于这样一部分人,本文将其视为无医保者,这也是本次建模的一个创新之处,后文中提到的无医保者均是这个概念。因此,建立健全有关流动人口的医疗保障制度,不仅对于解决该人群在城市务工期间的医疗保障问题具有重要的作用,而且对我国产业结构的调整和市场经济的发展,乃至构建和谐社会都具有极其重要的现实意义。(二)问题研究综述国内对这方面的研究较晚,大多是以定性分析为主,定量分析的较少。这些文献大多集中在最近10年,也反映出我国逐渐开始重视到流动人口这个特殊群体的医疗保障问题。首先,从对流动人口医疗保障制度及政策方面的分析来看,主要有以下一些观点。王向(2003),佟艳超、刘芮(2010)对流动人口社会保障政策方面的分析后,提出了一个观点,就是通过改革户籍制度,最终把农民工纳入城市,一方面可以提高城市化率,另一方面可以更有效的解决流动人口的医疗保障问题。蔡建民(2006)提出要建立以农民工为主体的流动人口社会保障体系框架,需要建立并完善包括现行社保基金管理机构服务方式在内的各项配套服务。陈海波、肖样敏(2008)通过对衡阳市流动人口的调研,得出了类似的结论,建议构建“协同互补型”的流动人口医疗保障体系。贾勇、王琼(2009)主张通过加大对政策的宣传力度,以此提高流动人口医疗保险的参保率;重视不同人群的不同健康问题这一点很重要,并有针对性的采取医疗保障措施。常传颂(2010)对浙江省农民工医疗保障的现在调查后,主要站在法治的角度上,提出:国家必须制定一部相关法律;强化用工单位的法律责任;加强对农民工医疗保障的监管。其次,从流动人口医疗保障状况及影响因素的实证分析方面,主要有以下一些观点。彭绩、程锦泉(2005)通过对深圳市流动人口进行分层随机抽样调查,采用定性研究与定量研究相结合的方法,结果表明,流动人口在社区卫生服务提供与利用中均处于弱势地位,即卫生需求高,但利用率很低。王兰芳、陈万明、崔晓宁(2006)通过“适度性”测评,发现当前江苏省新农合保障水平低于适度性的下限,呈现低态,必须从合作医疗的基金供给和基金支出2个方面采取适度性调控,以达到平衡策略。朱考金、狄金华(2008)通过对南京市的进城农民工调研,发现农民工居住状况差,基本消费占了整个消费支出的很大比重,相比较而言,医疗支出的比重很小,与农村居民相比,进城农民工的身体健康情况略好,而在医保处理这方面,农民工比较消极,通常选择成本低的方式。黄乾(2009)利用城市农民工调研数据,通过probit模型进行实证分析,研究农民工参加医保及模式选择的影响因素,得出结论是提高农民工的人力资本和收入水平,是增加农民工医疗保障需求和提高医疗保障参保率的最重要途径。刘宏、王俊(2010)利用CHNS(中国健康与营养调查)数据,从居民对医疗保障信息认知情况进行分析,得出对医疗保障信息认知如何显著影响其卫生医疗需求的结论。研究发现,对医疗保障信息缺乏认知的城乡居民,在卫生医疗需求方面不足,从而使医疗改革的效果大打折扣,体现出公共政策的重要性。(三)建模思路与技术路线本文建模目的是通过对南京市流动人口的医保状况调研分析,以期给政府部门提供一些可靠的建议供参考决策,从而能建立一种具有一定针对性的能让流动人口普遍满意的医疗保障制度,并引导流动人口积极参加医保。围绕着这个目标,笔者倒着逆推出本文的脉络,并以此为建模的路线。怎样的医保才是让人满意的,并能引导人参与?参考文献调研考察汇总数据统计建模建模目的什么样的流动人口对应会选择哪种医保?图1.1 逆推建模思路由本文的建模目的,既然要建立一种让流动人口普遍满意的医疗保障制度从而让流动人口积极参保,所以必然要先解决这样两个问题:1. 什么样的流动人口对应会选择哪种医保?2. 怎样的医保才是让流动人口普遍满意的?或者说流动人口对于医保的满意程度取决于哪些因素?这样逆推得到的写作思路可以避免出现为了建模而建模、陷入“唯方法论”、计量模型脱离主题的问题。思路上的逻辑关系 方法上的逻辑关系流动人口医疗保障满意度分析流动人口人口学特征描述统计流动人口医疗保障参保影响因素分析研究意义文献综述政策建议列联分析2检验描述统计图表对应分析结构方程满意度分析离散选择模型二元多元基于因子分析构造工具变量图1.2 技术路线根据以上建模思路,可以得到本文建模的技术路线,如图1.2。有2条主要的脉络,一条是思路上的逻辑关系(图1.2左半边),一条是方法上的逻辑关系,图中细箭头代表逻辑上的递进关系。本文在借鉴国内外相关理论研究成果的基础上,通过设计调查问卷,对南京市流动人口进行抽样调查。先采用列联分析和对应分析,用图表的方式直观的先验反应出流动人口医保选种与人口学特征之间的联系,在此基础上采用离散选择模型解决第一个问题,即“什么样的流动人口对应会选择哪种医保”;再采用结构方程模型解决第二个问题,即“流动人口对于医保的满意程度取决于哪些因素”。综合以上建模得出的结论提出政策建议,为完善流动人口医疗制度提出有益的决策参考。二、流动人口的人口学特征统计分析(一)调研设计通过前期文献研究和专家座谈,本次调研地点选择流动人口日流动量较大的人才交流市场,从走出劳务市场的人中每隔4人抽取一人进行调研,共与150名流动人口进行面对面访谈。调研问卷共分4个部分:1.流动人口的基本情况,这其中包括了流动人口的个人基本信息、职业信息以及家庭信息;2.流动人口的医疗保障情况,其中包括了被访者个人的参保信息、被访者子女和配偶的参保信息,被访者的就医信息;3.流动人口对于务工当地的就医满意度情况;4.流动人口的参保认知情况及参保意愿。(二)列联表分析使用马克威5.0软件对调研问卷中的一些重要变量进行描述性统计分析,得出被访者的户人均收入、受教育年限以及去年医疗支出额的均值、中位数、极值、标准差、偏峰度等信息,从而对南京市流动人口这个群体在宏观有一个大致把握。如表2.1:表2.1 重要变量的描述统计表均值中位数最大值最小值标准差偏度峰度受教育年数6.0561503.010.393.53户人均收入17179.13145003900034008141.510.492.47去年医疗支出额1300.47121050000893.881.065.43从中可以初步得出以下一些结论:1.南京市流动人口的文化程度偏低,受教育年数的中位数和均值都在6左右,即小学毕业,有一半人不超过小学文化;2.南京市流动人口属弱势群体。因为据南京市统计局发布的数据,2010年南京城市居民家庭人均收入为31314.26元,而被访问的流动人口家庭人均收入为17179.13元,仅为南京市总体水平的55%。3. 三个变量的偏度均大于0,表明数据右偏,即表明数据左边比较密集,右边分散。尤其是医疗支出的偏度最大,表明流动人口的医疗支出还处于一个低水平,大多数人的医疗支出很少,都集中在左边,也就是说多数人的医疗水平是小于平均值1300元的,只是少数人医疗支出水平高的人拉动了平均水平。三个变量的峰度均大于0,表明它比正态分布要陡峭,为尖峰分布,成尖峰厚尾的特征,尤其是医疗支出数据,峰度最大,从一个侧面反映了悬殊比较大。以上从单个变量的角度初步进行分析,但在研究流动人口参保状况的时候,通常不仅需要单独考察某一方面的信息,而且还要将几个方面的信息联合起来一并考察,从而得到更客观合理的结果,因此这里进一步做列联分析。使用SAS9.0软件对流动人口参保情况的列联分析,结果如表2.2,我们可以得到一些基本的人口学信息:(1)总共150名受访流动人口中,参与新农合的有66人(44%),参与职工医保的有36人(24%),无医保的有48人(32%)。其中,男性占59%,女性占41%,性别对于参保情况有统计学意义(2=8.715,P值=0.013),从经济学角度来看,性别与医保没有直接联系,但考虑到性别与工作、收入、教育等相关,从而间接的影响到了参保状况。(2)年龄方面,18-35岁的青壮年占49%,35岁以上者占51%,与性别的解释类似,年龄对于参保情况也具有统计学意义。(3)受教育年数方面,受教育年数在3年以下的占19%,4-6年的占47%,7-9年的占26%,10年以上的占8%,受教育年数方面对于参保情况具有统计学意义,直观上看,受教育时间长的人比短的人更有可能选择医疗保障。(4)被访者中农村户口的占79%,非农户口占21%,户口对于参保情况具有统计学意义,从表中可以看出,有非农户口的人选择职工医疗保险的人的相对比重更高,而农村户口的流动人口多为新农合。(5)收入方面,年家庭人均收入在1万元以下的占22%,1万到2万的占41%,2万到3万的占32%,3万以上的占7%,收入对于参保情况具有很显著的统计学意义,收入高的人享有医疗保障的人比例明显大,收入3万元以上的人均有医疗保险。(6)被访者中有超过一半(58%)的人没有享受到报销,没有享受到报销的这87人当中,有48人是没有参保,当然不会有报销,另外39人参保了却没有享受过报销;另外可以发现,参加职工医保的人明显报销比率要比参加新农合的人高。(7)健康自评方面,由差到好的5个等级所占比重依次为1%,7%,25%,51%,5%。职业方面,服务业占36%,工业占51%,商业占13%。健康自评与职业对于参保情况不具有统计学意义(P值分别为0.224,0.223),不过,由于2检验是一个总体检验,不排除可能有少数类别间的联系被淹没在绝大多数无关类别的情形出现,因此通常2不以严格的统计学上的0.05为判断准则,具体界值 表2.2 参保情况列联表新农合职工医保无医保合计2值P值人数构成比人数构成比人数构成比人数构成比性别男3857.582877.782245.83880.598.7150.013女2842.42822.222654.17620.41年龄18-353146.972466.671939.58740.496.3000.04335以上3553.031233.332960.42760.51受教育0-3710.61411.111735.42280.1921.5400.0024-63553.031336.112347.92710.477-91928.791313.11714.58390.2610以上57.58616.6712.08120.08暂住证有4974.242569.443368.751070.710.4930.782无1725.761130.561531.25430.29户口农村6192.421952.783981.251190.7922.4900.000非农57.581747.22918.75310.21健康差00.0000.0024.1720.0110.6230.224较差46.06411.1136.25110.07一般1624.24925.001327.08380.25好3959.091952.781939.58770.51很好710.61411.111122.92220.15婚姻未婚1522.731027.78918.75340.231.7390.784已婚4771.212466.673470.831050.70离婚46.0625.56510.42110.07职业服务业2436.36925.002143.75540.365.7020.223工业3553.031952.782347.92770.51商业710.61822.2248.33190.13收入(万元)1以下812.1238.332245.83330.2239.8750.0001-23146.97925.002143.75610.412-32131.822055.56510.42460.323以上69.09411.1100.00100.07报销比率03045.45925.0048100.00870.5867.3100.0000-25%2436.36719.4400.00310.2125%-1218.182055.5600.00320.21660.44360.24480.32150为多少并无统一标准,有学者认为如果P值大于0.2,就没有做对应分析的必要张文彤,董伟.SPSS统计分析高级教程M.北京:高等教育出版社,2004:309。介于此,笔者在下面的对应分析中就排除了这2个变量,不过由于谨慎性原则,在后面章节的回归方程中,还是会考虑这2个变量。(8)被访者中有暂住证的占71%,无暂住证的占29%;未婚的占23%,已婚的占70%,离婚的占7%。这2个变量的P值过大(分别为0.782和0.784),故可认为这2个变量对参保情况不具有统计学意义,可以不再做进一步分析。(三)对应分析上一节使用了列联表2检验的方法对数据进行了一个先验的分析,得到了参保状况和人口学特征等分类变量两两之间的联系。但现在更进一步分析多个分类变量之间关系时,2检验显得不够,可以通过对应分析的方法,将上一节的列联表转换成一张散点图,从而将列联表中包含的类别关系信息用各散点空间位置关系的形式直观的表现出来。图2.1 对应分析图基于上一节列联表2检验的研究,选定参保情况、受教育年数、家庭人均收入、年龄、性别、户口、报销比率作为变量进行对应分析,而婚姻状况、职业状况、自评健康状况、是否有暂住证由于2检验的P值过大,而不被选入进行对应分析。对应分析图如图2.1。图2.2 判别度量由图2.2判别度量可以看出,变量间都呈锐角,表明对应分析效果不错。从图2.1对应分析图可以得出以下一些结论:(1)职工医保、非农户口、较高报销、10年以上教育、家庭人均收入3万元以上之间有联系。这类流动人口通常具有较高的素质与稳定的收入,虽然是流动人口,但是非农户口,这类人一般有比较不错的工作,公司会给予员工参加职工医保,并有较高(超过25%)的报销比率。(2)0-3年文化、家庭人均收入1万元以下、无医保之间有联系,这类人文化程度很低,小学没毕业或文盲半文盲,相应的收入水平也低,他们进城后多半成为苦力,这就是城市中的弱势群体。由于贫困不愿意主动花钱参加医保,或者是无信息来源,不知道如何参保,或者是在户籍地参加了新农合,但所参合的新农合在务工地(南京)不起作用,本人也不愿意在务工地参保。这样的人群缺少起码的医疗保障,并且他们多半从事苦力,易患疾病,所以这样的人群应该是政府部门重点关注对象。(3)低报销和新农合之间有联系。由数据分析,可以得到这样的结论,新农合在报销比率上不如职工医保。笔者认为这主要有2个原因,一是我国的城乡差距较大,农村的医疗保健水平本身不如城市;二是流动人口在户籍地参加了新农合,现在到了务工地(南京),存在一个异地就医的问题,即便户籍地的新农合能报销,但手续烦杂,影响了报销比率。 三、基于离散选择模型的参保影响因素分析 在上一章的多重对应分析中,我们将繁杂的数据以类别联系的方式直观的表现在了二维图形中,一目了然的得出了很多有用的结论。但是对应分析这种方法只能从直观的角度定性分析问题,不能用于相关关系的假设检验,无法得到确切的统计结论,也无法从定量的角度更深层次的分析流动人口的参保情况。因此本章将在上一章研究的基础上,采用离散选择模型,以定量分析的形式研究流动人口参保的影响因素,明确解决“什么样的流动人口对应会具体选择哪种医保”这个问题,使结论更加细致客观。(一)变量选取按照上章对应分析及列联表2检验,由于谨慎性原则,建模之初,本文将健康自评与职业(2检验P值分别为0.224,0.223)也纳入到自变量当中,而是否有暂住证和婚姻情况(2检验P值分别为0.782和0.784)则被排除在外。因此本文以流动人口是否参保作为被解释变量,以被访者年龄、受教育年数、自评健康状况、家庭人口、家庭人均收入、报销比率、性别、户口、职业为解释变量,具体如表3.1:表3.1 变量选取及说明变量变量说明因变量Y 参保情况0=无医保1=参保 自变量X1 年龄取绝对数X2 受教育年数取绝对数X3 自评健康状况1=很差 2=较差 3=一般 4=较好 5=很好X4家庭人口取绝对数X5家庭人均收入取绝对数X6报销比率取绝对数X7性别1=男 2=女X8户口1=农村户口 2=非农户口X9职业1=服务业 2=工业 3=商业(二)基于因子分析思想解决多重共线性问题1.多重共线性由常识知,流动人口的年龄与受教育年数会有反向关系,即一般年龄大的人文化水平低;流动人口的家庭人均收入会与受教育年数有正向关系,即一般文化水平高的人收入相应会高。经检验,流动人口的年龄与受教育年数的偏相关系数为-0.44,流动人口的家庭人均收入与受教育年数的偏相关系数为0.538,这2个数值都很高。至于收入与年龄之间的偏相关系数比较低(为0.241),很可能是因为文化对收入的正效应,与文化对年龄的负效应正负相抵了。确定是否存在多重共线性可以通过辅助回归的方法,辅助回归结果如表3.2:表3.2 辅助回归结果因变量自变量T统计量P值年龄受教育年数-5.870.00家庭人均收入受教育年数6.000.00由辅助回归结果知,年龄、家庭人均收入分别与受教育年数回归,都有很好的解释作用,所以可以认为他们之间存在显著的共线性关系孙敬水.中级计量经济学M. 上海:上海财经大学出版社,2009:126-133。模型存在多重共线性的时候会影响到方程的效果。从逻辑上讲,本身就不应该将冗余变量纳入模型进行分析;更重要的是,与多元回归模型一样,logistic回归也对多重共线性比较敏感,当存在多重共线性的时候,系数标准误的估计将产生偏差(Berry & Feldman,1985),当共线性严重时甚至会导致系数估计符号的变化(Hanushek & Jackson,1977)。这是建模中一个个比较严重而又经常被学者们忽略的问题。模型中其他解释变量之间也存在着一定的共线性,但相关系数都在0.4以下,这时多重共线性带来的问题不严重,可以忽略王济川,郭志刚.Logistic回归模型方法与应用M.北京:高等教育出版社,2001:190-191。2.因子分析的思想(1)学者孙敬水(2008)建议将那些存在多重共线性的变量,通过主成份分析的方法,将存在相关性的变量组合成新的主成份,用较少的新指标代替原来较多的旧变量,而这些较少的新指标之间是不存在相关性的。所以再对新指标建立回归方程时,实际上就避免了多重共线性的问题。本文结合理论知识后,决定探索性的采用因子分析的思想来解决多重共线性问题。因为因子分析在某种程度上可以看成是主成份分析的推广与扩展,它对问题的研究更加深入,与主成份分析类似,因子分析实质上也是个“降维”的过程,同样不受量纲的影响,将多个相关的变量用少量不相关的因子来代替。而比起主成份分析,因子分析有它特有的优势,可以通过因子轴的旋转,可以使得到新的因子载荷意义更加明显。(2)因子分析的基本思想是:设有N个样本,P个指标,X=(X1,X2,,XP)T为随机向量,要寻找的公因子为F=(F1,F2,,Fm)T,则模型x1 = a11F1 + a12F2 + + a1mFm + 1x2 = a21F1 + a22F2 + + a2mFm + 2xp = ap1F1 + ap2F2 + + apmFm + p (3.1)就称为因子模型,写成矩阵形式为:X = AF + a (3.2)其中A=(aij)为因子载荷矩阵,aij为因子载荷,其实质是公因子Fi和变量Xj的相关系数为特殊因子,代表公因子以外的影响因素,在实际分析时忽略不计。对求得的公因子,需要观察它们在哪些指标上有较大的载荷,再据此说明该公因子的实际含义。通常会进一步作因子旋转,以求旋转后能得到更加合理的解释。(3)在建完因子分析模型后,可以通过回归估计的方法写出如下的因子表达式:Fi = bi1X1 + bi2X2 + + binXn (i=1,2,m) (3.3)通过上面4.3因子表达式,计算出F的因子得分(变量标准化后),后面建立回归方程模型的时候用F的因子得分数值代替原来的变量X数值,在解释方程的时候再将F还原成X。这样就基本解决了多重共线性问题。3.具体构造新因子过程(1)提取公因子:对上文提到的变量中具有多重共线性的3个变量,即被访者年龄,受教育年数,家庭人均收入用SPSS16.0进性分析。由表3.3Bartlett球形检验知,Sig值为0,表明各变量间确实具有较大相关性,可以提取公因子。表3.3 Bartlett球形检验卡方值66.544自由度3Sig值0.000表3.4 方差贡献率因子个数单位根方差贡献率累计方差贡献率11.65355.11455.11420.93531.16886.28230.41213.718100.00由表3.4 可以看出,当选取2个因子的时候,累计方差贡献率达到了86.282%,说明选取2个因子基本能很好的解释原来3个变量了。这里实际上是将3维降到了2维,用2个新的没有相关性的变量代替原来3个变量。采用方差最大旋转的方法后,结合因子载荷矩阵和公式3.1,我们可以写出该实际问题的因子模型,如下:Z年龄注:Z表示标准化,下同。 = 0.012F1 + 0.951F2Z受教育年数 = 0.636F1 0.616F2 (3.4)Z家庭人均收入 = 0.949F1 + 0.022F2 通过观察公式3.4中的因子载荷,可以发现公因子F1在受教育年数和家庭人均收入上的载荷比较高,受教育年数越长、家庭人均收入越高,F1的值越大,。公因子F2在受教育年数和年龄上的载荷比较高,受教育年数越短、年龄越大,F2的值越大。(2)选取工具变量:因子分析提取公因子的目的是找到新的2个指标代替原来的3个,作为工具变量放入后面的模型中,从而没有多重共线性。这里通过回归估计的方法并结合公式3.3,写出上述2个公因子的因子表达式,如下: F1 = 0.231*Z年龄 + 0.385*Z受教育年数 + 0.793*Z家庭人均收入 F2 = 0.805*Z年龄 - 0.372*Z受教育年数 + 0.239*Z家庭人均收入 (3.5)将年龄、受教育年数和家庭人均收入的标准化数值,带入公式3.5,就可以算出2个公因子对应于每个样本的具体数值,也就是因子得分。(3)检验多重共线性:这里对计算出的2列因子得分再进行一次简单相关分析,检验结果如表3.5;同时再进行一次辅助回归,结果如表3.6:可以看出,F1与F2之间已经基本完全没有相关性了;另外,F1、F2与其余变量之间的相关性也很小(所以相关系数均不超过0.35)。下面在建回归方程的时候,就直接将公式3.5算出的因子得分数值带入,以代替此前的3个变量的具体数值。这样就解决了此前的多重共线性问题。表3.5 Pearson相关系数表F1F2F1Pearson相关系数Sig值10.0001.000F2Pearson相关系数Sig值0.0001.0001表3.6 辅助回归结果因变量自变量T统计量P值R2F1F2-1.83E-081.000(三)基于二元离散选择模型的实证研究1.处理后的变量说明本文以流动人口是否参保作为被解释变量,以被访者年龄、受教育年数、家庭人均收入、自评健康状况、家庭人口、报销比率、性别、户口、职业为解释变量。根据前文基于因子分析思想,提取了2个新的公因子F1和F2代替此前被访者年龄、受教育年数、家庭人均收入这3个变量,处理后的变量如表3.7:表3.7 处理后的变量说明变量变量说明因变量Y 参保情况0=无医保1=参保 自变量X1 自评健康状况1=差 2=较差 3=一般 4=较好 5=很好X2家庭人口取绝对数X3报销比率取绝对数X4性别1=男 2=女X5户口1=农村户口 2=非农户口X6职业1=服务业 2=工业 3=商业X7 F1取值为公式4.5结果X8 F2取值为公式4.5结果在做离散选择模型的时候,取决对数的连续型变量直接纳入计算即可;而性别和户口虽然是离散变量,但是只有2个取值,像这样的二分类也可以直接纳入方程,也可以对系数得到很好的解释;自评健康状况这样的有序自变量,学者叶勇(2001)从专业角度出发认为可以将该变量作为连续型变量进行分析;而职业这样的无序分类变量,1、2、3仅仅是一个代码,不代表水平高低,并且3者之间差别并不能强行规定为“等距”,所以不能直接带入方程,需要设定虚拟变量,设置如下:职业D1 = 1 工业;0 其他职业D2 = 1 商业;0 其他2.Logistic模型介绍(1)线性概率模型:这里由于被解释变量为流动人口是否参保,是0-1变量,而不是连续型数值变量,如果直接用普通最小二乘法进行估计的话,即建立线性概率模型,会造成以下几个问题:由于在线性概率模型中残差的非齐性,参数估计的估计方差将是有偏的,因此任何假设检验如t检验和F检验都是无效的; 由线性概率模型估计的事件概率值在遇到很大或很小的x时,可能会超出0,1区间,这是不合常理的,无法解释的;最严重的问题在于它的函数形式,因为线性概率模型是线性的,即无论x取什么样的值,回归估计系数、都是常数,而在最小二乘法估计的线性概率模型中,截距和斜率对于所有的x值并不是常数。(2)引入Logistic分布:由于上面提到的线性概率模型存在一些致命的缺陷,所以当因变量是离散变量的时候,不能直接用最小二乘估计建立线性方程。需要使用非线性函数,最好事件发生的概率P随着x的增加也单调增加,随着x的建设单调减少,即一种值域在(0,1)区间内并且有着S型的曲线。最常用的最流行的一种分布就是Logistic分布,如图3.1。其累计分布函数为一个比较简单的形式:P(yi = 1|xi)= Pi = (+xi) = 1/(1+exp(-i) (3.6)Logistic函数很好的满足了上述要求,首先值域在0-1范围内,并且曲线呈S型,表明 被定义为一系列影响事件发生概率的因素的组合,即=+x。的作用对于发生某个事件的可能性是变化的,在中间的时候敏感变化大,两头变化小。这很符合常理,比如收入越高越倾向于参加医保,收入水平在中间某个阶段内变化对参加医保概率的影响较大,而收入太低或太高时则不那么敏感(特别穷困的人收入增加一点也不会立刻去参加医保,收入很多的人本身有完善医保的可能性就很大,收入再增加一点改变的激励不大)。 图3.1 logistic函数的曲线图(3)从Logistic函数到Logistic回归模型:把上面公式3.6重新换个形式写成:P(yi = 1|xi)= (3.7)将事件发生的条件概率写为P(yi = 1|xi)= pi,就可以得到下面的Logistic回归模型:pi = = (3.8) 其中,pi为第i个样本发生事件的概率,这是一个由解释变量x构成的非线性函数。可以通过数学上的一些技巧使之线性化,便于估计。(4)logit变换:这一步是将非线性的函数形式转变为线性。首先由3.8式很容易算出不发生事件的条件概率,如下:1-pi = 1- = (3.9)那么,事件发生概率与不发生概率之比为 = (3.10) 这个比值被称为发生比(the odds of experiencing an event),简称odds,该值为正值(也有翻译为优势比)。将发生比取对数就能得到一个线性函数了,如下:ln() = (3.11)上述过程就是logit变换,这个形式称为logit形式,又叫y的logit,即logit(y)= ln()=ln odds。变换之后,logit(y)对其参数就是线性的了。同理,当自变量由1个变成k个的时候,公式3.8扩展为: = (3.12)对应的logistic回归模型就是以下的形式:ln = (3.13)其中,= P(yi=1|x1i,x2i,xki)为给定自变量x1i,x2i,xki 的值的条件下事件发生的概率。logistic回归模型就是调查出x1i,x2i,xki 构成样本的值,并同时观察在这些情况下事件发生与否,拥有这些信息后通过极大似然估计法估计出模型各参数值,研究者就能运用这些信息来分析和表达在特定情况下事件发生与否的发生比以及发生的概率,然后结合实际经济学理论进性解释推断。3.实证分析按照表3.7中的变量选取,使用SPSS16.0对数据进行分析,结果如表3.8:由表3.8模型1可知,方程总体通过了显著性检验,但除了报销比率、关于职业的虚拟变量、公因子F1通过了显著性检验外,其余变量没能通过显著性检验。由此,本文将那些不显著的变量按照sig值由大到小,逐个剔除,直到所有变量均通过了显著性检验,由此得到了模型2,如上表3.8右侧部分。根据虚拟变量的同进同出原则,虽然职业D1虚拟变量没能通过显著性检验,但由于虚拟变量整体通过了显著性检验,虚拟变量D2也通过了显著性检验,因此这里将D1也放在方程中不做剔除。表3.8 流动人口是否参保影响因素分析模型1模型2 (剔除模型1不显著变量)估计系数(WALD值)Exp()值Exp()95%置信区间估计系数(WALD值)Exp()值Exp()95%置信区间健康自评0.354(1.396)家庭人口-0.128(0.170)报销比率0.128(15.097)*1.1361.0651.2120.127(15.708)*1.1361.0661.209性别0.428(0.766)户口-0.116(0.032)职业(5.445)*(7.214)*职业D10.867(1.276)2.3800.52910.7100.595(1.385)1.8130.6734.885职业D2-1.735(3.157)*0.0760.0261.196-1.933(4.147)*0.1450.0230.930F11.516(18.535)*4.5532.2839.0771.405(19.317)*4.0752.1787.624F2-0.244(0.847)常数项-1.444(0.396)0.556(0.582)Omnibus检验2=81.909 sig=0.0002=79.026 sig=0.000HL检验2=11.783 sig=0.1612=11.585 sig=0.171伪决定系数Cox & Snell=0.421 Nagelkerke=0.589Cox & Snell=0.410 Nagelkerke=0.573-2对数似然106.152109.035预测正确率83.382.0注:*、*、*分别为在1%、5%、10%显著性水平下显著;带 标记的一行是对虚拟变量整体进行检验。比较模型1和模型2,综合各种指标来看,2个模型并无明显优劣之分,只是模型1的拟合优度及预测准确性上略微好一点点。考虑到模型2中那些显著的变量,wald值均有不同程度的提高,即变量更加显著;另外参数估计的95%置信区间更小,精度更好;并且模型2的变量少,使logistic方程表达式更加简洁,便于解释。 综上所述,本文更倾向于建立模型2那样的方程,如下:logit(y)= ln()=ln odds=0.556 + 0.127*报销比率 + 0.595*职业D1 1.933*职业D2 + 1.405*F1 (3.14)根据公式3.5因子表达式可知,公因子F1 = 0.231*Z年龄 + 0.385*Z受教育年数 + 0.793*Z家庭人均收入,把它带回到公式3.14中,如下:logit(y)= ln()=ln odds=0.556 + 0.127*报销比率 + 0.595*职业D1 1.933*职业D2 + 0.325*Z年龄 + 0.541*Z受教育年数 + 1.114Z家庭人均收入 (3.15)为了书写简便,按照表3.1的变量说明,用字母来代替公式中的中文,如下:logit(y)= ln()=ln odds=0.556 + 0.127*X6 + 0.595* D1 1.933* D2 + 0.325*ZX1 + 0.541*ZX2 + 1.114ZX5(3.16) 由于这里的ZX1 、ZX2、 ZX5都是标准化处理过后的数据,为了方便直观意义上的解释,这里在形式上把它还原成原始数值,还原方法:将标准化数值写出(原始数值-均值)/标准差的形式。这样公式3.15就可以写成:logit(y)= ln()=ln odds=-4.197 + 0.127*X6 + 0.595* D1 1.933* D2 + 0.037*X1 + 0.180*X2 + 0.00137*X5 (3.16)公式3.16就是完整的流动人口参合医保影响因素的logistic方程。其中X6 表示报销比率,D1代表工业的虚拟变量,D2代表商业的虚拟变量,X1代表年龄,X2代表受教育年数,X5代表家庭人均收入。从上面的模型中,我们可以得出以下一些结论:(1)报销比率的提高会促进流动人口的参保。当报销比率提高1个百分点的时候,参保人数与不参保人数之比,这个比值(发生比)是没提高报销率之前的1.136倍(exp(0.127)=1.136,下同)。有的时候我们不单单考虑只提高1个百分点的情况,如果报销比率提高10个百分点,发生比就是之前的3.561倍(exp(10*0.127)=3.561,下同,可依此类推)。(2)和从事服务业的流动人口相比,从事工业的参保人数与不参保人数之比(发生比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论