版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于该公司同工同酬模型的探讨摘要本文在“统计回归”的基础上,给出了两种模型,通过对已有的90组数据测试检验,实现了对该公司的工资计算,并将计算方法应用到8组数据中去,得到了非常准确的结果。考虑到运算量的大小,我们采用了较为科学的逐步分析法,提取了对结果影响较大的两个因素,分别是学历和工龄,再次使用BP神经网络重新建立模型四,达到了很高的识别率。在模型检验方面,对于“多元线性回归方法”以及“多元非线性回归方法”,本文采用了“
F检验法”和“相关系数检验法”进行检验,最终确定诊断值与检测结果是非线性关系。对于“BP神经网络”,本文选取90组已知数据中的60组数据作为训练样本,以此建立BP神经网络,之后,依次选取不同的30组数据重复上述过程,准确率非常高,极好的证明了模型的科学合理性。通过比较可知,采用BP神经网络的模型识别率较高,但相应处理时间较长。多元线性回归模型思想清晰,虽然可以通过优化得到最小二范数,但其数据之间的关系只停留在线性阶层,与含有隐层的神经网络模型相比,对事物的抽象和预测不够准确。关键词:多元线性回归多元非线性回归BP神经网络逐步分析法F检验问题重述:1.1问题描述:职工工资可以说是人们最为关切、议论最多的部分,因此也常常是最受重视的部分。一般说来,现代企业的工资具有补偿职能、激励职能、调节职能、效益职能。科学合理的工资制度,是激励职工的劳动积极性,提高劳动效率的重要手段,正确运用工资的杠杆作用在调动员工积极性方面会起到事半功倍的效果。此外,对于企业中的各种不同的“特殊职务族”,是否要制定和执行专门的倾斜与优惠政策,如对管理干部、高级专家、女工等,也是需要重点考虑的问题。1.2问题提出如表所示,随机抽取了某企业若干职工的相关数据。请建立适当的数学模型研究下列问题:(1)分析平均日工资与其他因素之间的关系,尤其需要说明与哪些因素关系密切;(2)考察女工是否受到不公正待遇,以及她们的婚姻状况是否影响其收入;(3)继续改进你的模型,并给出模型误差分析。问题分析:题目要求根据所提供确定平均日工资与其他因素之间的关系,并且分析出哪些因素影响较大。这就需要把表中的数据转化为一种数学关系。首先我们分析平均日工资与其他因素之间成什么关系,是否是多元线性关系,或是多元非线性,或是呈网络关系,并对结果进行分析比较;其次,作者在分析数据中发现存在个别工资属于模型中的奇异点,会在很大程度上影响模型的准确性,应在建立模型中把它删除以提高模型的拟合度;最后分析是否每一个因素都会在影响很大程度上影响诊断工资额,删去影响小的测量指标,保留特征值,以减少计算工资时的运算量,本文采用逐步判别法解决此问题。最后本文应用F检验与相关系数检验等方法来检验模型,以判别模型优劣。模型假设本题所给的数据具有代表性,能确实反映该公司的工资构成;所给的数据认为是准确可靠的,给的工资具有显著的统计特征;计算工资的全部标准都已被题目所给的几个参量所包含;认为样本容量足够大,可认为判别准则有较高的可靠性和准确性;男性和女性的工资数据都是在同等条件下获得的;在没有足够经验的情况下,我们假定女性和男性在同等条件下工资额是一样的。符号说明::平均日工资:工龄(日)(一线工作)=(培训)=(岗位)=(性别)=(婚姻)=表示学历为本科表示学历为硕士表示为博士表示为博士后模式的建立与问题求解对于问题1的第一小问,本文将在模型一、二中一起给予求解;对于问题1的第二小问以及问题2,本文在模型三中给予解答;对于问题3,本文在模型四中给予解答。5.1模型一:多元线性回归模型5.1.1模型假设:平均日工资与其他因素都是服从多元线性可分关系的。假设非表中因素可忽略不计。根据数据表,假设工龄增长一个月,月工资增长可认为是常数。对于拟合多项式,对自变量为负的部分也是正确的。其他因素相互之间无影响。5.1.2模型建立及算法平均日工资是一个正态随机变量,即Y服从正态分布,故本文假设的模型形式为:~是待估计回归系数,是随机误差。记Y=,x=,=,=,使用MATLAB软件代入数据,可得到的参数估计和置信区间见表5.1.3模型结果:变量参数估量置信区间37.2894[32.6269,41.9520]0.0881[0.0747,0.1015]-0.3000[-4.7744,4.1743]-5.0121[-18.1137,8.0894]0.3306[-3.6418,4.3030]1.8996[-3.3284,7.0816]1.1707[-4.1646,6.5090]17.6054[4.2835,31.0074]25.0976[13.5342,36.6609]所得的拟合表达式:5.1.4模型分析:在该模型中,本文建立了多元线性回归模型,利用最小二乘法算出待定回归系数,而后简单的确定了平均日工资与其他因素之间的关系。由后面的模型检验部分看出,~的置信区间均过零点,故不可靠,同时拟合度不高,只有0.7929。故而对该模型进行改进,增加交互项,即非线性回归模型。5.2模型二:非线性回归模型5.2.1模型假设:假设非表中因素可忽略不计。对于拟合多项式,对自变量为负的部分也是正确的。5.2.2模型建立及算法根据数据表,假设工龄增长到一定数值后,月工资不再增长。设平均日工资与其他因素之间满足~是待估计回归系数,是随机误差。算法同模型一,可得到的参数估计见表5.2.3模型结果变量参数估量29.8230.22777-2.414-2.49430.615411.57880.5149617.57419.281-0.00033287所得参数表达式:5.2.4模型分析:在该模型中,本文建立了多元非线性回归模型。算法同模型一,得出平均日工资与其他因素之间的函数关系。由后面的模型检验部分看出,拟合度提高到0.87774。说明平均日工资与其他因素之间呈非线性关系。5.3模型三:待检验参数经过筛选的多元线性回归模型我们知道影响平均日工资的因素越多,平均日工资的构成就越复杂,计算工资就会相当耗费资源,同时某些因素也会对计算结果造成一些负面影响。因此我们需要找到一种只用一部分因素又能有很高精度的模型,在模型三中,本文通过逐步判别法,得出工龄及学历是影响平均日工资的关键或主要因素,这样可以大大减少计算工资所花费的时间,修改后的模型更具有实际意义和应用价值。5.3.1逐步判别法来筛选特征因素这里本文使用逐步判别法来筛选特征因素。逐步判别法的主要思想是:在建立多元回归方程的过程中,按偏相关系数的大小次序将自变量逐个引入方程,对引入方程中的每个自变量偏相关系数进行统计检验,效应显著的自变量留在回归方程内,循此继续遴选下一个自变量。如果效应不显著,停止引入新自变量。由于新自变量的引入,原已引入方程中的自变量由于变量之间的相互作用其效应有可能变得不显著者,经统计检验确证后要随时从方程中剔除,只保留效应显著的自变量。直至不再引入和剔除自变量为止,从而得到最优的回归方程。5.3.2逐步判别法的建立及算法:Step1.确定F检验值确定F检验水平,以作为引人或剔除变量的标准。Step2.逐步计算(a)计算全部自变量的偏回归平方和V’。(b)在已引入的自变量中,检查是否有需要剔除的不显著变量。在已引入的变量中选取具有最小V’值的一个并计算其F值,如果F<F2,表示该变量不显著,应将其从回归方程中剔除,计算转至(c)。如F>F2则不需要剔除变量,这时则考虑从未引入的变量中选出具有最大值的一个并计算F值,如果F>F2,则表示该变量显著,应将其引人回归方程,计算转至(c)。如果F<F2,表示已无变量可选入方程,则逐步计算阶段结束,计算转入(c)。(c)剔除或引人一个变量后,相关系数矩阵进行消去变换,第t+1步计算结束。其后重复(a)~(c)再进行下步计算。Step3.其他计算计算回归方程入选变量的系数、复相关系数及残差等统计量。分析后得具体筛选过程如下:准备工作计算总体的组内离差阵和组间离差阵,确定引入变量和剔除变量的临界值和,虽然临界值是随着引入变量和剔除变量的个数的变化而变化的,但当样本容量有一定大小后,他们的变化甚微,本文取。逐步计算本题已经引入了8个变量,本文设为,则计算内容如下i)计算全部变量的“判别能力”对未选入变量计算。对已选入的变量,计算对已入选的变量中考虑剔除可能存在的最不显著变量,取最大的(即最小的)。ii)假设,这里表示属于已入选的变量。做F检验,剔除变量是统计量为:若,则剔除,然后对E和T作消去变换。若,则从未入选变量中选出最显著的变量,即要找出最小的(即最大的),假设,这里表示属于未入选变量,做F检验,引入变量是统计量为:若,则引入,然后对E和T作消去变换。重复上面操作i),ii),直至不能剔除又不能引入新的变量时,逐步计算结束。5.3.3模型结果1.方差分析如下:Anovaf模型平方和df均方FSig.1回归13244.961113244.961114.092.000a残差10215.93988116.090总计23460.900892回归17277.51328638.757121.547.000b残差6183.3878771.073总计23460.900893回归18197.02536065.67599.100.000c残差5263.8758661.208总计23460.900894回归18610.13144652.53381.526.000d残差4850.7698557.068总计23460.900895回归18588.01436196.005109.351.000e残差4872.8868656.661总计23460.90089a.计算变量:(常量),x1。b.计算变量:(常量),x1,x3。c.计算变量:(常量),x1,x3,x8。d.计算变量:(常量),x1,x3,x8,x7。e.计算变量:(常量),x1,x8,x7。f.因变量:y2.残差分析表如下: 残差统计量a极小值极大值均值标准偏差N计算值39.0192.6957.6314.45290残差-25.68519.888.0007.39990标准计算值-1.2882.425.0001.00090标准残差-3.4122.642.000.98390因变量:y基于此模型,工龄和学历逐步被判别是与平均日工资关系密切的因素。由方差分析表可以看到,性别以及女性婚姻情况在计算model1至model5均被剔除,对因变量影响并不大,可近似认为,在该公司女性并没有受到不公平待遇,且她们的婚姻状况对她们的工资影响不大。5.3.4根据筛选结果利用多元线性回归模型判断影响密切我们知道影响平均日工资的因素越多,平均日工资的构成就越复杂,同时某些因素也会对计算结果造成一些负面影响。因此我们需要找到一种只用一部分其他因素又能有很高精度的模型,在该模型中,本文通过逐步判别法,得出工龄及学历是影响平均日工资的关键或主要因素,这样可以大大减少计算工资构成所花费的资源,修改后的模型更具有实际意义和应用价值。根据以上两项因素,重复之前的多元线性回归模型,可以得到新的回归方程为:其中:表示工龄,和联合表示学历。测试90组数据,置信度为95%,拟合度是0.79,平均误差比模型一小,我们认为该方法是正确可行的。选取一组数据,相近,代表性别婚姻的取不同值,检验输出值,与期望值的误差在可接受范围内。比较可知,性别对工资影响小,可以认为女性并未受到不公平待遇。而女性的婚姻对工资虽有一定的影响,但在误差允许范围内,可以忽略不计。X1X2X3X4X5X6X7X83738000010041.75653741000100042.0223842000010042.11054242001100042.11053842000100042.11053842001010042.11054030000000041.04855.3.5模型分析:在模型三中,本文采用了逐步判别法来筛选主要因素。并再次使用多元线性回归测试了建模效果。应当指出,这种给予逐步判别法的选取关系密切因素的方法,虽然会导致结果的准确性下降,但是在实际应用中,特别是当计算的工资个数非常多,耗费资源较多时,有着很大的实际意义。5.4模型四:基于BP算法的神经网络在模型一、二中,本文采用了回归分析法建立模型,但是由结果可以看出,输出结果和期望值还是存在很大的误差,因此本文采用模型四,即BP神经网络模型。BP神经网络是一种进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。人工神经网络具有自学习和自适应的能力,可以通过预先提供的一批相互对应的输入-输出数据,分析掌握两者之间潜在的规律,最终根据这些规律,用新的输入数据来推算输出结果,这种学习分析的过程被称为“训练”。自学习过程是一个反复迭代的过程,首先给网络一个初始权值,然后输入一个样本计算并输出,通过实际输出与期望输出之间的差值来修改网络的权值以达到减少这个网络差值的目的。反复执行该过程直到这个差值小于预定值为止。对足够样本进行这样训练后,网络所得的那组权值便是网络通过自学习得到的正确的内部表示。因为本题选用多层网络(MSP)。5.4.1前馈神经网络本文采用前馈神经网络。既是构成网络的神经元只接受前一层的输入,只输出给后一层的神经元,无反馈网络,因此可用一单向无环网络来描述。在网络中结点可以分为两类,既是输入输出结点与计算结点。输入输出接点直接与外界相联,直接受外界影响,因此为可见层,而其他结点所在的中间层为隐藏层。若一个神经网络有多层,则第k层的输出与第k+1层的输入相连。输出可耦合到任意多个输入。5.4.2三层前馈神经网络本文构建一个三层前馈神经网络,如下图所示:基于实际问题的分析,可知网络只有一个输出y,既员工的日工资。而有输入变量有8个,分别为。以此确定了输入层与输出层的节点数分别为7个和1个。另外,而中间隐藏层节点数的选取我们采用动态构造法:即输入输出节点数不变,而隐层节点数可变,初始时放入足够多的隐藏层节点,然后逐渐删掉那些不起作用的节点,直到节点不可收缩为止。使用MATLAB神经网络工具箱进行迭代,为使结果更加直观,收敛速度加快,不妨将y和规格化,即按照公式(其中和分别为对应变量的最小值和最大值),使y和都落在区间[0,1]之内。最终得网络模型的最佳隐藏层节点数为5。据此可知,基于BP神经网络分类模型的最佳网络拓扑结构为:7×5×1。5.4.3反向传播网络(BP神经网络)下面本文将给出计算出各层权值和偏执量的方法。其主要思想是从后向前逐步传播输出层的误差,以间接的算出隐藏层的误差,进而得到各层权值和偏执量。定义其中为第组数据输入时,网络的实际输出。当第组数据显示患病时=1反之=0,即为我们的理想输出,训练的目标就是使上式尽量的小。因此,训练一个神经网络就可以看成一个求函数最小值的过程,最方便的办法就是最速下降法,求得公式如下:对于隐藏层的第j个神经元到输出层的第i个神经元的权的修正量为:其中和分别表示第组样本输入时,输出层第i个神经元的状态和隐藏层第j个神经元的输出。输出层的第i个神经元的阀值的修正量为:对于输入层的第L个神经元的隐藏层的第k个神经元的权的修正量为5.4.4BP神经网络模型的构建与训练本文将采用MATLAB工具箱中的神经网络工具箱进行神经网络模型的训练。自学习的过程是一个反复迭代的过程,首先给网络一个初始权值,然后输入一个样本计算并输出,通过实际输出与期望输出之间的差值来修改网络的权值以达到减少这个网络差值的目的。反复执行该过程直到这个差值小于预定值为止。对足够样本进行这样训练后,网络所得的那组权值便是网络通过自学习得到的正确的内部表示。网络建立:在MATLAB中调用下列函数:net=newff(PR,[5,1],{'tansig','purelin'},'trainscg','learngdm');各项参数的意义与选取根据:(1)PR是一个由每个输入向量的最大最小值构成的2×R的矩阵;R为输入神经元数目;(2)[5,1]是隐层网络的神经元个数和输出层的神经元个数;(3){'tansig','purelin'},选取每一层的变换函数。根据本文所使用数据的类型特点,在隐藏层采用双曲线正切S型变换函数“tansig”;在输出层采用线性变换函数“purelin”;(4)'trainscg'是BP神经网络的训练算法函数。(5)'learngdm'是学习函数。设置训练参数设置每50次迭代显示一次,学习速率设置为0.05,迭代上限设为2000次,训练目标设为0.0012。net.trainParam.show=50;net.trainParam.lr=0.05;net.trainParam.mc=0.9;net.trainParam.epochs=3000;net.trainParam.goal=0.002;调用trainscg训练BP网络,调用下列函数,其中P为输入矩阵,T为输出矩阵。[net,tr]=train(net,P,T);得到下列训练图形网络仿真通过函数sim(net,q)函数实现,其中参数net为该神经网络,q为待检测的输入矩阵。网络训练完成以后,使用该函数根据已训练好的网络,对测试数据进行仿真计算。同时也可以进行模型的检验。模型分析:在模型四中,本为采用了BP神经网络进行了建模。虽然模型的建立较为复杂,但是可以从测试数据的输出值与原期望值的比较中得出,该模型能很好的计算出员工的工资。剔除异常数据后,所得的输出值与原期望值非常接近。而且可以肯定,如果学习的数据不只是60组,而是更大的数据量,则所得到的神经网络将更加准确。因此模型四适用于大量数据,大量计算问题的处理。模型检验6.1检验模型一:多元线性回归模型的检验回归模型的检验,回归模型是否为线性函数形式,条件可化为F检验法:有平方和分解公式:简记为:
其中被称为残差平方和,被称为回归平方和。通过F检验法容易得到:统计量值F=38.7600。统计量对应的概率p=0。可以观察到p<F2、相关系数检验法:在概率中,复相关系数的计算公式:它是反映X与Y成线性度的一个度量指标,r的取值范围为(0,1),r越接近1,X与Y的线性度就越高。由相关系数检验法计算得:R=0.7929可见R不够接近1,线性相关度不理想,不满足线性关系。6.2检验模型二:多元非线性回归模型的检验检验方法同模型一。F检验法:通过F检验法容易得到:统计量值F=63.816。统计量对应的概率p=0。可以观察到p<F2、相关系数检验法:由相关系数检验法计算得:R=0.87774可以观察到R接近1,非线性相关度良好,满足非线性关系。6.3检验模型四:基于BP算法的神经网络模型检验为了检验神经网络的准确度,本文随机选取了60组数据作为训练数据,而对30组数据作检验,得到下表:x1x10x2x3x4x5x6x7x8yy0y'y0'520.0984682710100010490.23880648.580850.232553370.7221006560000100680.522388161.893750.431252270.4814004380010100620.432835859.52530.3959300.0503282280001000430.149253737.8600460.0725381140.2341356670111001650.477611969.445990.543972600.5536105030000100680.522388161.123920.419761110.2275711160011000480.223880651.495350.276052570.5470459521000100620.432835863.67930.45792530.5382932170011000770.656716475.927570.64071540.1028446390010100470.208955243.171940.15182540.1028446390000100390.089552239.868170.102511990.4201312910000000570.35820958.668370.383111670.3501094090011000600.402985164.717130.473392450.5207877460111001870.805970177.247470.66041420.0765864330011000420.134328439.1741840.0921521030.2100656460001000480.223880649.661560.24868750.1487964990000000500.253731347.313210.213631720.3610503281000100560.343283657.777270.36981190.0262582060000100340.014925434.46060.02183190.6827133480010100650.477611961.728260.428783260.6980306350011000650.477611978.765690.683071540.321663021110110750.626865774.692760.622284060.8730853390011000650.477611979.433010.69303180.0240700220011000340.014925437.1728940.0622822090.4420131290010001720.582089672.071720.583163080.6586433260111010870.805970199.051950.985851620.339168490000000570.35820956.531070.351211580.3304157551101001730.597014972.989620.596862130.4507658640011000700.552238872.217110.585332220.4704595190001000740.611940372.412080.58824其中,将仿真输出结果按逆规格化公式还原,并与期望值比较。数据结果显示,用所构建的神经网络算法,检测剩余的30组数据,得到了与预期相近的结果。因此,上述检验验证了所建的BP神经网络的正确性。误差分析7.1灵敏度分析:对模型二进行灵敏度分析:选取一组数据(,)=(27,1,0,0,0,1,0,0,34),用上述多元非线性模型可得,y=33.591088,与期望值相当接近。每次只改变一个变量值,输出结果如下表:X1X2X3X4X5X6X7X8YoY’2710001003433.59108828100010033.8005527000010036.00508827110010031.09678827101010034.20649827100110035.16988827100000033.07612827100011051.16508827100010152.87208827100011170.446088的改变对的影响不大,说明该模型稳定性好。~的0-1值改变对的影响不大,而、的改变对的影响,这与模型三相吻合,进一步说明了该模型的准确性。7.2各模型误差分析各模型的误差如表:模型平均误差模型一7.74模型二5.99模型三7.52模型四0.41我们利用逐步求解的方法求出了对预测结果影响相对较大的因素。舍弃对平均日工资影响较弱的因素,以达到减少计算量的目的。根据模型三,只需考虑工龄和学历即可。测试结果如前所示,对比用非线性回归方法测试的结果,其平均误差为5.99,而神经网络的平均误差为0.41。这说明神经网络受参数的影响比非线性回归方法小。这点差别是两种模型的本质所决定。神经网络通过大量数据的学习训练并且反馈而确定其内部参数权值。大大增加了模型的准确性。非线性模型是多项式,系数较大的参数对结果的影响较大,所以参数改变会引起较大误差。当然,我们应该看到,由于减少运算量和耗时所造成的正面影响对比其准确率稍微下降的负面影响。这是相当积极的。模型优缺点分析本文就问题分别建立了多元线性回归模型、多元非线性回归模型和神经网络模型。多元线性回归模型思想清晰,计算简便,易于实现。针对问题而言,线性模型的拟合度不如非线性模型高;而且其数据之间的关系只停留在线性阶层,与含有隐层的神经网络模型相比,对事物的抽象和计算不够准确。从上面的计算结果也可以反映出这一点,两种模型的计算存在偏差。其本质是因为神经网络的训练准则是使误差达到最小或者使误差在可接受的范围内,而回归分析的结果并不一定是误差最小。需要指出的是,神经网络由于加入了隐层,其权重系数的意义有待进一步研究。模型的推广本模型可推广到各类工资的计算,分析个人因素对工资的影响。但由于本模型是根据7个指标以及已知的90个数据来计算工资值,具有一定的局限性,但将上述方法与实际情况起来,一定会有更广阔的应用价值。参考文献[1]董霖MATLAB使用详解北京科学出版社2008年8月[2]FredricM.HamIvicaKostanic著叶世伟等译神经计算原理北京机械工业出版社2007年5月[3]曹振华随机数学基础北京高等教育出版社2009年8月[4]姜启源数学模型北京高等教育出版社2001年2月[5]袁慰平等计算方法与实习南京东南大学出版社2006年10月[6]巨军让,卓戎BP神经网络在MATLAB上的方便实现[J]新疆石油学院报1999,(2):42-45.[7]罗成汉.基于MATLAB神经网络工具箱的BP网络实现[J]计算机仿真2004,21(5):109-111.附录:程序代码:学习算法:privatevoidtrain_network(double[]outputs){//getmomentumvalues(deltavaluesfromlastpass)double[]delta_hidden=newdouble[_nn.NumberOfHidden+1];double[]delta_outputs=newdouble[_nn.NumberOfOutputs];//Getthedeltavaluefortheoutputlayerfor(inti=0;i<_nn.NumberOfOutputs;i++){delta_outputs[i]=_nn.Outputs[i]*(1.0-_nn.Outputs[i])*(outputs[i]-_nn.Outputs[i]);}//Getthedeltavalueforthehiddenlayerfor(inti=0;i<_nn.NumberOfHidden+1;i++){doubleerror=0.0;for(intj=0;j<_nn.NumberOfOutputs;j++){error+=_nn.HiddenToOutputWeights[i,j]*delta_outputs[j];}delta_hidden[i]=_nn.Hidden[i]*(1.0-_nn.Hidden[i])*error;}//Nowupdatetheweightsbetweenhidden&outputlayerfor(inti=0;i<_nn.NumberOfOutputs;i++){for(intj=0;j<_nn.NumberOfHidden+1;j++){//usemomentum(deltavaluesfromlastpass),//toensuremovedincorrectdirection_nn.HiddenToOutputWeights[j,i]+=_nn.LearningRate*delta_outputs[i]*_nn.Hidden[j];}}//Nowupdatetheweightsbetweeninput&hiddenlayerfor(inti=0;i<_nn.NumberOfHidden;i++){for(intj=0;j<_nn.NumberOfInputs+1;j++){//usemomentum(deltavaluesfromlastpass),//toensuremovedincorrectdirection_nn.InputToHiddenWeights[j,i]+=_nn.LearningRate*delta_hidden[i]*_nn.Inputs[j];}}}工号日平均工资(元/天)性别工龄(月)女性婚姻状况受教育状况工作部门性质一线工作情况培训情况133女7已婚女性本科技术岗位00234男14男性本科技术岗位00334男18男性本科管理岗位00442男19未婚女性本科技术岗位00534女19未婚女性本科管理岗位00634女19已婚女性本科技术岗位00734女27已婚女性本科技术岗位10836女30已婚女性本科技术岗位00943男30男性本科技术岗位001040女30未婚女性本科技术岗位001145女31未婚女性硕士技术岗位011240女31已婚女性本科管理岗位001337女38已婚女性本科技术岗位001437男41未婚女性本科技术岗位001538女42已婚女性本科技术岗位001642男42未婚女性本科管理岗位001738男42男性本科技术岗位001838女42已婚女性本科管理岗位001937女47已婚女性本科技术岗位102037女52已婚女性本科技术岗位102149女52未婚女性硕士技术岗位012239男54男性本科技术岗位002347女54已婚女性本科管理岗位002439女54已婚女性本科技术岗位002553男55男性硕士管理岗位012649女66已婚女性本科管理岗位002741男67男性本科管理岗位002841女67男性本科管理岗位002950女75未婚女性本科技术岗位003047男78未婚女性本科管理岗位003147女79未婚女性本科技术岗位003245男91未婚女性本科管理岗位003345女92已婚女性本科技术岗位103444女94已婚女性本科管理岗位003560女103已婚女性硕士管理岗位013651女103已婚女性本科技术岗位003748男103未婚女性本科技术岗位003848男111未婚女性本科管理岗位003965男114男性博士管理岗位014074男114未婚女性博士管理岗位014161男114未婚女性博士管理岗位114247女117已婚女性本科技术岗位104368男139男性本科管理岗位004470女140已婚女性硕士管理岗位114575女154已婚女性硕士管理岗位114673男158未婚女性博士技术岗位1147100男159男性博士后管理岗位114857女162男性本科技术岗位004960男167未婚女性本科管理岗位005056女172已婚女性本科技术岗位105161女174已婚女性本科技术岗位105287男175男性硕士管理岗位015357女199未婚女性本科技术岗位005457女209已婚女性本科技术岗位005572女209未婚女性博士管理岗位005662女210男性本科技术岗位005770男213未婚女性本科管理岗位005862女220已婚女性本科技术岗位105962女222已婚女性本科技术岗位006074男222未婚女性本科技术岗位006176女223未婚女性本科技术岗位006268男223男性本科技术岗位006362女227已婚女性本科管理岗位006462女232已婚女性本科技术岗位106567女235已婚女性本科技术岗位106687男245男性博士管理岗位016777男253男性本科管理岗位006862女257男性本科技术岗位106968女260已婚女性本科技术岗位007087男284未婚女性博士管理岗位017165男287未婚女性本科技术岗位007257女290未婚女性本科技术岗位007387男308男性硕士管理岗位017462男309未婚女性本科管理岗位107565女319已婚女性本科管理岗位007668男325男性本科技术岗位007765男326未婚女性本科管理岗位007857男329未婚女性本科管理岗位007968女337已婚女性本科技术岗位008078男346男性硕士管理岗位118157女355已婚女性本科技术岗位108265男357男性本科技术岗位008371男380男性硕士管理岗位118491男387男性硕士管理岗位118591男403未婚女性硕士管理岗位118665男406未婚女性本科管理岗位008776女437未婚女性本科技术岗位008881女453男性本科技术岗位008969女458未婚女性本科技术岗位009067男464未婚女性硕士管理岗位01注:1.关于培训,1表示受过培训,0表示未受培训。2.关于一线工作情况,0表示两年内没有一线工作经历,1表示其他。企业同工同酬案例分析09012320茅光健09012326杨俊09012333桂滕华摘要: 资制度的合理性与科学性是激励职工的劳动积极性,提高劳动效率的重要因素。因而通过建立数学模型,分析影响企业员工工资的因素,对于了解以及完善企业工资制度具有建设性意义。 我们根据附表所给出的被解释变量平均日工资,以及解释变量性别、工龄等七个因素,进行合理的模型假设,并按照多元线性回归的方法建模。首先用Matlab软件拟合出平均日工资随工龄的变化曲线,根据图形的变化趋势,选取函数进行第一次建模。通过在交互式画面中对因素的逐条检验,判定工龄和受教育状况为显著性影响因素,并且利用Matlab统计功能工具箱中的rcoplot(r,rint)命令剔除数据中的异常点,修正模型。最终得到平均日工资随工龄和受教育状况变化的关系式。 现代社会,女性的社会地位随着自我价值的实现而日益提高。在企业层面上,女性的自我价值是否得到与男性的同等评价仍是众多学者研究的论题。我们在分析了总体的工资模型后,又将数据按性别分为男、女两类,分别按照上述方法进行建模,通过对比进行分析了解是否存在“区别待遇”。以同样的方法再次对已婚与未婚女性进行建模分析,了解婚姻状况对平均日工资的影响,探讨差异存在是否合理。 我们在第一次模型的基础上进行第二次修正,即通过剔除异常值,减少非相关因素,对线性回归相关系数进行进一步的修正,使得R向1趋近,使模型更加完善。最后,我们回归实际,从实际情况中分析模型的合理性,对模型进行第三次修正,即重新分配了受教育情况对工资影响的权重,使得模型更加精确更加符合实际。相信通过我们的研究分析,此次数学建模对于企业的工资制度具有参考性意义。【关键词】:多元线性回归分类建模Matlab统计工具箱一.问题重述 职工工资可以说是人们最为关切、议论最多的部分,因此也常常是最受重视的部分。一般说来,现代企业的工资具有补偿职能、激励职能、调节职能、效益职能。科学合理的工资制度,是激励职工的劳动积极性,提高劳动效率的重要手段,正确运用工资的杠杆作用在调动员工积极性方面会起到事半功倍的效果。此外,对于企业中的各种不同的“特殊职务族”,是否要制定和执行专门的倾斜与优惠政策,如对管理干部、高级专家、女工等,也是需要重点考虑的问题。 附件(Adata.xls)随机抽取了某企业若干职工的相关数据。请建立适当的数学模型研究下列问题: 1.分析平均日工资与其他因素之间的关系,尤其需要说明与哪些因素关系密切; 2.考察女工是否受到不公正待遇,以及她们的婚姻状况是否影响其收入; 3.继续改进你的模型,并给出模型误差分析。二.问题分析 本问题是关于企业职工同工同酬问题的研究分析 问题一、我们以日平均工资为被解释变量,以员工性别、工龄、女性婚姻状况、员工受教育状况、工作部门性质、一线工作情况以及培训情况这些因素为解释变量,分析研究出相应的数据模型。从数据模型中观察平均日工资与哪些因素关系密切。 问题二、把总体数据分为男女两个类别,根据两个类别的数据分别研究出相应的数据模型,根据两个模型的差异分析,判断女工是否受到不公正待遇。然后把女性类别的数据按照已婚和未婚分为两类,分别研究出两个数据模型,根据它们的差异分析,判断女性婚姻状况是否影响其收入。 问题三、通过观察由预测值和实际值得出的残差值,不断修正数据模型,使得相关系数趋向于1。在已完善的数据模型的基础上,研究讨论误差因素,比如:异常值、无相关变量,从而进行误差分析。三.模型假设 1.在实际情况中,企业计算工资公式应该对于每位职工都一样,本模型就是为了求解这个计算工资公式。 2.在实际情况中,企业职工的工资应该与他的工龄成正比,即工龄越大,其相应的工资越多,而且可以确定工龄就是工资的主要影响因素。 3.对于受教育程度的影响,按照实际经验,在其他同等的条件下,本科,硕士,博士,博士后享有的工资呈递增趋势。 4.以上两个变量(工龄,受教育程度)可以看成模拟连续变量,而对于性别(男或女)、工作部门(管理或技术)、一线工作情况(有或没有)、培训(有或没有)这些因素来说,它们不能随机取值,因此可以用bool值0、1来处理。 5.根据实际情况,工资计算公式应该是各个变量因素的多项式的线性相加的结果,具体模型公式见下面变量符号说明。四.变量符号说明1.性别变量用表示,其对应的表示该变量产生的工资。2.工龄变量用表示,其对应的表示该变量产生的工资。3.婚姻状况变量用表示,其对应的表示该变量产生的工资。4.受教育状况变量用表示,其对应的表示该变量产生的工资。5.工作部门变量用表示,其对应的表示该变量产生的工资。6.一线工作情况变量用表示,其对应的表示该变量产生的工资7.培训情况变量用表示,其对应的表示该变量产生的工资。则职工工资,其计算公式可以表示为:五.模型的建立 1.首先用Matlab软件拟合出平均日工资随工龄的变化曲线,如图所示:观察上图,选取函数进行建模(令,从而转化为关于的线性运算,为方便起见,以下均用表示工龄变量);由于其他几个自变量非随机连续变量,先假设符合线性关系,建立模型,分析并进行修正。而对于这一修正也符合实际,因为将之后,可以判断出方程的斜率越来越小,既满足上图,又符合实际,因为在实际中,随着工龄的增长,不可能工资永远持续增长下去,而且当工龄小的时候它的斜率反而大说明刚刚进入单位的年轻人的工资增长很快,这样就能充分调动年轻人的工作热情,为企业注入活力,这样的很符合实际,因此很有必要地做这样的模型修正。六.数据处理[1]表示性别,男性用“0”表示,女性用“1”表示;[2]表示工龄变量;[3]表示婚姻状况,男性用“0”表示,已婚女性用“1”表示,未婚 女性用“2”表示;[4]表示受教育状况,本科用“0”表示,硕士用“1”,博士用“2” 表示,博士后用“3”表示;[5]表示工作部门,技术岗位用“0”表示,管理岗位用“1”表示;[6]表示一线工作情况,“0”表示没有参加,“1”表示参加;[7]表示培训情况,“0”表示未受培训,“1”表示经受培训。[8]实验数据组数n=90;七.模型求解利用Matlab统计工具箱,在工作区间中导入矩阵X和Y,输入命令:[b,bint,r,rint,stats]=regress(Y,X,0.05)其中,0.05为alpha,输出b为的估计值,bint为b的置信区间,r为残差向量,rint为r的置信区间,stats为回归模型的检验统计量。stats有三个值:回归方程的决定系数(是相关系数);统计量值;与统计量值相关的概率;按照上述步骤得到结果:b=bint=26.090319.468432.71220.2844-6.68867.25732.3447-5.48473.6484-0.91815.195513.50089.3482-3.22663.55760.1655-4.94662.7665-1.0901-4.09069.35162.6305-4.12546.9823stats=统计量值0.842862.78120bbint386.8777178344.5566879429.19874772.979612886-77.2875927883.246818560.8870732960.7542177921.0199288-8.385908617-60.8947945444.1229773107.931012360.04799244155.81403227.438329231-31.5015540146.37821247-0.201107965-44.2996389343.8974237.812507558-69.6452523985.27026751stats=F统计量P0.792444.702202.为了检测7个变量是否对工资有显著性影响,我们用stepwise函数,在Matlab工作空间中输入命令:stepwise(X,Y,8,0.05)其中8表示矩阵X的列数,0.05为显著性水平alpha值;得到交互式画面:其中蓝色表示较显著性因子,其他表示次要因子,在修正模型时可忽略。上图中的即为表示工龄变量,即为受教育情况变量,而且可以从数据中观察出,完全随着的变化而变化,为0则也为0,为非0则也为1,可见带来的影响完全可以用来替代表示,因此在修正模型时只考虑这两个变量,则有现在令则可以得到3.在Matlab中利用rcoplot函数查找数据之中的异常点,输入命令:rcoplot(r,rint)得到异常值分布图,如下所示:其中红色表示异常值点,即第43、47、52、60、61、67、90组数据,故在进一步修正时可以忽略。将剩余83组数据重新带入,进行计算,在Matlab中输入命令:[b,bint,r,rint,stats]=regress(Y,X,0.05)则得到该回归方程的线性回归系数:b=bint=370.2719349.6862390.85760.92840.83211.0246111.144091.2196131.0683Stats=F统计量P0.9000270.20000可以看出,修正后回归方程的决定系数为0.9000,相关系数值为0.9487,比修正前模型更准确。可以说明这样的修正是符合实际的,进而得到修正后回归方程为:4.下面研究其他次要因素的影响:①为分析性别对工资的影响,将数据按性别分为男、女两类,分别按照上述方法进行建模,通过对比进行分析。通过Matlab计算,得到男性工资方程回归系数:b=bint=404.2430350.3553458.13060.81320.58911.0373116.668981.3618151.9760stats=F统计量P0.700056.80000.0000因此回归方程为:对于女性,用同样的方法得到工资方程的回归系数:b=bint=360.0593332.0956388.02301.03600.89141.180671.710014.7956128.6244stats=统计量值0.800076.60000.0000因此回归方程为:根据男女两类的线性回归方程,女性:男性:比较可知男性和女性平均日工资关于三个主要变量的影响因素相差很小,只是存在着细微差别,例如最工龄变量的回归系数,男性为0.8132,女性为1.0360,男性略占优势;受教育情况变量的回归系数,男性为116.6689,女性为71.7100,女性略占优势。二者稍微有些差别,并不存在男女工资待遇不平等现象。②为研究婚姻状况对于女性工资的影响:将女性数据按照婚姻状况分为已婚和未婚两类,依次建立模型,比较分析婚姻状况对平均日工资的影响。 得出已婚的工资方程的回归系数:b=bint=355.2128327.5318382.89381.03520.88881.1816191.1308133.0786249.1829stats=统计量值0.9000122.90000.0000该回归方程为:未婚女性的工资方程的回归系数为:b=bint=357.8057322.1234393.48801.21600.93371.498456.589924.636388.5434stats=统计量值0.943466.66510.0000该回归方程为:对比这两条回归方程:已婚:未婚:可见未婚女性的工资的第一部分,要比已婚女性的高出2.38,而第二部分的斜率系数要低于已婚女性0.17,可见只要当工龄大于118月,就出现未婚比已婚的低收入了,而未婚女硕士及未婚女博士的收入明显要低于同等条件的已婚女性。联系实际,该企业可能对工龄相对较小的未婚女性给予一定的补偿措施,毕竟她们还未成家,只有自己一个人的经济收入,这符合实际情况。但是对工龄相对较大的未婚女性,在工龄及受教育情况相同时,与已婚女性相竞争明显处于劣势。在实际情况中,某些企业因考虑未婚女性将来结婚生子要有产假以及其他因素,往往倾向于选择已婚女性作为长期职工。所以该模型与实际情况也是相符的。可见,婚姻状况对女性平均日工资还是有影响的。当然以上两因素都是次要因素,对于工资回归方程的影响很小,在建立整体模型时是可以忽略的,但是研究一下它们所隐含着的平等问题还是有意义的。工号日平均工资(元/天)性别工龄(月)女性婚姻状况受教育状况工作部门性质一线工作情况培训情况1330女7已婚本科技术岗位002340男14男性本科技术岗位003340男18男性本科管理岗位004420男19男性本科技术岗位005340女19未婚本科管理岗位006340女19已婚本科技术岗位007340女27已婚本科技术岗位108360女30已婚本科技术岗位009430男30男性本科技术岗位0010400女30未婚本科技术岗位0011450女31未婚硕士技术岗位0112400女31已婚本科管理岗位0013370女38已婚本科技术岗位0014370男41男性本科技术岗位0015380女42已婚本科技术岗位0016420男42男性本科管理岗位0017380男42男性本科技术岗位0018380女42已婚本科管理岗位0019370女47已婚本科技术岗位1020370女52已婚本科技术岗位1021490女52未婚硕士技术岗位0122390男54男性本科技术岗位0023470女54已婚本科管理岗位0024390女54已婚本科技术岗位0025530男55男性硕士管理岗位0126490女66已婚本科管理岗位0027410男67男性本科管理岗位0028410女67未婚本科管理岗位0029500女75未婚本科技术岗位0030470男78男性本科管理岗位0031470女79未婚本科技术岗位0032450男91男性本科管理岗位0033450女92已婚本科技术岗位1034440女94已婚本科管理岗位0035600女103已婚硕士管理岗位0136510女103已婚本科技术岗位0037480男103男性本科技术岗位0038480男111男性本科管理岗位0039650男114男性博士管理岗位0140740男114男性博士管理岗位0141610男114男性博士管理岗位1142470女117已婚本科技术岗位1043680男139男性本科管理岗位0044700女140已婚硕士管理岗位1145750女154已婚硕士管理岗位1146730男158男性博士技术岗位11471000男159男性博士后管理岗位1148570女162未婚本科技术岗位0049600男167男性本科管理岗位0050560女172已婚女性本科技术岗位1051610女174已婚女性本科技术岗位1052870男175男性硕士管理岗位0153570女199未婚女性本科技术岗位0054570女209已婚女性本科技术岗位0055720女209未婚女性博士管理岗位0056620女210未婚女性本科技术岗位0057700男213男性本科管理岗位0058620女220已婚女性本科技术岗位1059620女222已婚女性本科技术岗位0060740男222男性本科技术岗位0061760女223未婚女性本科技术岗位0062680男223男性本科技术岗位0063620女227已婚女性本科管理岗位0064620女232已婚女性本科技术岗位1065670女235已婚女性本科技术岗位1066870男245男性博士管理岗位0167770男253男性本科管理岗位0068620女257已婚本科技术岗位1069680女260已婚女性本科技术岗位0070870男284男性博士管理岗位0171650男287男性本科技术岗位0072570女290未婚女性本科技术岗位0073870男308男性硕士管理岗位0174620男309男性本科管理岗位1075650女319已婚女性本科管理岗位0076680男325男性本科技术岗位0077650男326男性本科管理岗位0078570男329男性本科管理岗位0079680女337已婚女性本科技术岗位0080780男346男性硕士管理岗位1181570女355已婚女性本科技术岗位1082650男357男性本科技术岗位0083710男380男性硕士管理岗位1184910男387男性硕士管理岗位1185910男403男性硕士管理岗位1186650男406男性本科管理岗位0087760女437未婚女性本科技术岗位0088810女453已婚本科技术岗位0089690女458未婚女性本科技术岗位0090670男464男性硕士管理岗位01八、模型评价 最终的到的模型经过三次修正,并剔除了异常值,同时进行了显著性因子检验,最终只保留了七个影响因素中的2个显著性因素,使模型大大简化,准确度也进一步提高。得到的模型回归方程的决定系数为0.9000,相关系数R值为0.9487,统计量值为270.2000。相关系数R比较接近于1,故得到方程的线性相关程度比较高。 利用该模型能合理地解释性别以及女性婚姻状况对平均日工资的影响,并分析工资的主要影响因素,有助于企业建立合理的工资制度,从而激励职工的劳动积极性,提高工作效率,因而具有重要的实际意义。参考文献:(1)《数学建模与实验》陈恩水王峰编(2)《数学模型及其应用》戴明强李卫军杨鹏飞主编(3)《计量经济学》(第二版)谢识予主编高等教育出版社(4)《随机数学基础》曹振华编高等教育出版社基于C8051F单片机直流电动机反馈控制系统的设计与研究基于单片机的嵌入式Web服务器的研究MOTOROLA单片机MC68HC(8)05PV8/A内嵌EEPROM的工艺和制程方法及对良率的影响研究基于模糊控制的电阻钎焊单片机温度控制系统的研制基于MCS-51系列单片机的通用控制模块的研究基于单片机实现的供暖系统最佳启停自校正(STR)调节器单片机控制的二级倒立摆系统的研究基于增强型51系列单片机的TCP/IP协议栈的实现基于单片机的蓄电池自动监测系统基于32位嵌入式单片机系统的图像采集与处理技术的研究基于单片机的作物营养诊断专家系统的研究基于单片机的交流伺服电机运动控制系统研究与开发基于单片机的泵管内壁硬度测试仪的研制基于单片机的自动找平控制系统研究基于C8051F040单片机的嵌入式系统开发基于单片机的液压动力系统状态监测仪开发模糊Smith智能控制方法的研究及其单片机实现一种基于单片机的轴快流CO〈,2〉激光器的手持控制面板的研制基于双单片机冲床数控系统的研究基于CYGNAL单片机的在线间歇式浊度仪的研制基于单片机的喷油泵试验台控制器的研制基于单片机的软起动器的研究和设计基于单片机控制的高速快走丝电火花线切割机床短循环走丝方式研究基于单片机的机电产品控制系统开发基于PIC单片机的智能手机充电器基于单片机的实时内核设计及其应用研究基于单片机的远程抄表系统的设计与研究基于单片机的烟气二氧化硫浓度检测仪的研制基于微型光谱仪的单片机系统单片机系统软件构件开发的技术研究基于单片机的液体点滴速度自动检测仪的研制基于单片机系统的多功能温度测量仪的研制基于PIC单片机的电能采集终端的设计和应用基于单片机的光纤光栅解调仪的研制气压式线性摩擦焊机单片机控制系统的研制基于单片机的数字磁通门传感器基于单片机的旋转变压器-数字转换器的研究基于单片机的光纤Bragg光栅解调系统的研究单片机控制的便携式多功能乳腺治疗仪的研制基于C8051F020单片机的多生理信号检测仪基于单片机的电机运动控制系统设计Pico专用单片机核的可测性设计研究基于MCS-51单片机的热量计基于双单片机的智能遥测微型气象站MCS-51单片机构建机器人的实践研究基于单片机的轮轨力检测基于单片机的GPS定位仪的研究与实现基于单片机的电液伺服控制系统用于单片机系统的MMC卡文件系统研制基于单片机的时控和计数系统性能优化的研究基于单片机和CPLD的粗光栅位移测量系统研究单片机控制的后备式方波UPS提升高职学生单片机应用能力的探究基于单片机控制的自动低频减载装置研究基于单片机控制的水下焊接电源的研究基于单片机的多通道数据采集系统基于uPSD3234单片机的氚表面污染测量仪的研制基于单片机的红外测油仪的研究96系列单片机仿真器研究与设计基于单片机的单晶金刚石刀具刃磨设备的数控改造基于单片机的温度智能控制系统的设计与实现基于MSP430单片机的电梯门机控制器的研制基于单片机的气体测漏仪的研究基于三菱M16C/6N系列单片机的CAN/USB协议转换器基于单片机和DSP的变压器油色谱在线监测技术研究基于单片机的膛壁温度报警系统设计基于AVR单片机的低压无功补偿控制器的设计基于单片机船舶电力推进电机监测系统基于单片机网络的振动信号的采集系统H
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏省南通市通州高级中学2024-2025学年高二上学期第二次阶段性检测物理试题(含答案)
- 江苏行政职业能力模拟48
- 2022年湖南省湘西州中考数学试卷 (原卷版)
- 浙江公务员面试模拟113
- 可视化教学在小学音乐课堂中的应用
- 2000年新疆公务员面试真题
- 地方公务员辽宁申论80
- 网络服务器搭建、配置与管理-Linux(麒麟欧拉)(微课版)(第5版)课堂实践任务单2-熟练使用Linux基本命令
- 河南行政职业能力测验模拟61
- 湖南行政职业能力模拟122
- 肾素血管紧张素系统药
- 双碱法脱硫操作规程
- 二实小“群文阅读”立项申报书
- 传感器技术习题答案
- 射线作业安全培训课件
- 采油院井下工具介绍
- 轻钢龙骨纸面石膏板隔墙施工法
- 施工机具报审表
- 市场结构理论练习习题
- 材料力学内部习习题集及问题详解
- 灯杆生产工艺流程
评论
0/150
提交评论