版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.主成分分析2.因子分析3.聚类分析4.相关性分析5.回归分析
第六章多元统计分析模型背景模型思想模型建立步骤主成分优缺点案例分析主成分分析第一节一、模型背景在研究实际问题时,往往需要涉及多个变量,而通常多个变量间存在较强的相关关系,即这些变量间存在较多的信息重复。假如直接利用它们进行分析,不但模型复杂,还会因为变量间存在多重共线性而引起较大的误差。为能够充分利用数据,通常希望用较少的新变量代替原来较多的旧变量,但同时这种代替仍可以反映原来多个变量的大部分信息。这实际上是一种降维的方法。二、模型思想主成分分析(PCA)是一种数学降维的方法。该方法通过构造原变量的一系列线性组合形成一组新的互不相关的变量,使这些新变量尽可能多地反映原变量的信息。这里的“信息”主要由数据变量的方差反映,即方差越大,包含的信息越多。主成分分析通常运用累计方差贡献率来分析方差。简要步骤:利用输入变量构造数据矩阵,并求相关矩阵;由相关系数矩阵的特征值求得累计方差贡献率;再依据累计方差贡献率及相关系数矩阵的特征向量,选择主成分并得出表达式。三、模型建立步骤原始数据标准化处理计算相关系数矩阵R计算特征值和特征向量选择主成分,并对各主成分所包含信息给于适当解释计算综合得分原始数据标准化处理目的:消除变量在量纲上的的影响。假设指标变量有m个指标向量,共有n个待评价对象,记第i个评价对象的第j个指标的取值为,将各指标值转换成标准化指标,公式如下:其中提示:中心极限定理,当n较大时近似服从正态分布2.计算相关系数矩阵R相应嗯嗯相关系数矩阵记为其中是第i个指标与第j个指标的相关系数当数据标准化后,第i个指标与第j个指标的相关系数3.计算特征值和特征向量解特征方程
,求得特征值
及对应的特征向量
,其中
由特征向量和原变量组成m个新的指标变量yj。4.选择主成分,计算综合评级值主成分贡献率的定义为:某个主成分的方差占全部方差的比重,也就是某个特征值占全部特征值合计的比重。第个成分的贡献率为:其中随机变量观察数据的取值为前个成分的累计贡献率为:
各主成分的方差是递减的,包含的信息也是递减的。当接近于1时,则选择前个综合指标作为个主成分,代替原来的个指标变量。在实践中,一般要求选取主成分的累计贡献率达到85%以上。积累贡献率表示前
个主成分的贡献率之和。5.计算综合得分综合得分计算公式如下:根据每个待评价对象的综合得分值,对其进行评价。其中
为第j个主成分的贡献率例1:某河流2001年-2007年的污染物浓度如表2.1所示.要求运用主成分分析,将各年份监测值与五个类别的水质标准值进行比较以确定水质级别.
高锰酸钾指数BOD石油类挥发酚砷六价铬氨氮DO20015.13.90.030.0020.0040.00216.620025.35.60.040.0030.0040.0051.35.820035.55.90.340.0040.0040.0071.45.420045.98.70.460.0060.0060.0091.6320057.112.60.680.020.0050.0081.73.720068.611.10.750.030.0050.0081.94.620077.39.70.050.0080.0060.0061.83.6
表2.1该河流各指标监测值与水质级别以及综合污染指数1、数据预处理首先将DO(溶解氧)取倒数,使其与其他指标成为同向指标,即数值越大,表示污染越严重.接着将数据标准化,得到标准化后的矩阵;2、计算相关系数矩阵利用公式
得到相关系数矩阵R.3、计算特征值和特征向量接下来计算相关系数矩阵的特征值,特征向量及主成分累积贡献率.得到8个特征值依次为5.81,2.35,0.64,0.10,,,提取主成分对应的特征值大于1的前3个主成分.4.选择主成分,计算综合评级值由此,依据公式
计算主成分综合得分,结果如表2.2所示.年份2001200220032004200520062007主成分得分-2.8883-1.8464-1.13071.378321.606041.870271.01081
表2.2主成分分析评价结果•优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。•缺点:如果数据集中有极端值或变量间呈现非线性关系,主成分分析效果大打折扣。当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。•缺点解决方法:稳健主成分分析、非线性主成分分析(相关延伸自行查找资料)。/T_steve7/article/details/54376455四、主成分优缺点主成分分析能降低所研究的数据空间的维数。这是一种删除多余变量的方法。主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制,预测和评价,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。主成分分析的应用:五、案例下表是我国1984—2000年宏观投资的一些数据,试利用主成分分析对投资效益进行分析和排序年份投资效果系数(无时滞)投资效果系数(时滞一年)全社会固定资产交付使用率建设项目投产率基建房屋竣工率19840.710.490.410.510.4619850.40.490.440.570.519860.550.560.480.530.4919870.620.930.380.530.4719880.450.420.410.540.4719890.360.370.460.540.4819900.550.680.420.540.4619910.620.90.380.560.4619920.610.990.330.570.4319930.710.930.350.660.4419940.590.690.360.570.4819950.410.470.40.540.4819960.260.290.430.570.4819970.140.160.430.550.4719980.120.130.450.590.5419990.220.250.440.580.5220000.710.490.410.510.46利用Matlab求得相关系数矩阵的前五个特征根及其贡献率如下表所示主成分分析结果序号特征根贡献率累计贡献率13.134362.686662.686621.168323.367086.053630.35027.003693.057240.22584.516297.573450.12132.4266100.0000可以看出,前三个特征根的累计贡献率已经达到93%以上,主成分分析效果很好。下面选取前三个主成分进行综合评价,前三个特征根对应的特征向量,如表所示由此可得三个主成分分别为分别以三个主成分的贡献率为权重,构建主成分综合评价模型为标准变化量的前三个主成分对应的特征向量分量1分量2分量3分量4分量5第1特征向量0.4905420.525351-0.487060.067054-0.49158第2特征向量-0.293440.048988-0.28120.8981170.160648第3特征向量0.5108970.433660.3713510.1476580.625475年代19881985199619861989199719991998名次1011121314151617综合评价值-0.2662-0.5292-0.7405-0.7789-0.9715-1.1476-1.2015-1.6848年代199319921991199419871990198420001995名次123456789综合评价值2.44641.97681.11230.86040.84560.22580.05310.0531-0.2534各年度的三个主成分值代入上式,可以得到各年度的综合评价值以及排序结果如表2.3所示.表2.3排序结果计算的Matlab程序如下data=importdata('data.csv'); X=zscore(data); R=corrcoef(X); [vec,lamba,rate]=pcacov(R);
vec=vec.*sign(sum(vec)) contr=cumsum(rate)/sum(rate)num=input(‘请选择主成分个数:’);df=X*vec(:,1:num); tf=df*rate(1:num); [stf,ind]=sort(tf,'descend');[ind,stf]%导入数据%标准化数据%求相关系数矩阵%主成分分析,vec为R特征向量,lamba为R特征值,rate为各个主成分贡献率%使特征向量和为正%求贡献率,对所有主成分操作%交互式选取主成分%计算各主成的得分%计算综合得分%得分降序排列%显示排名得分情况程序执行的结果如下VEC为特征向量所得结果左边为综合得分排名右端为综合得分累积贡献率使用SPSS软件分析的过程如下
第一步,导入
第二步,选择分析方法第三步,点击提取按钮并选择提取主成分个数第三步,单击确定进行主成成分分析最终获得结果如下,与Matlab程序计算的结果一致第二节模型背景因子分析模型模型建立步骤案例分析因子分析
第六章因子分析(FactorAnalysis)是指从变量群中提取公共因子的统计技术.一般认为,公共因子是不能直接观测的,但它们与可观测变量有着密切的关系.在因子分析过程中,将变量的方差分为个别变量方差和公共方差两部分.依据公共方差的大小可评估各变量对公共因子的依赖程度.从而通过分析各公共因子对变量的贡献选取合适的公共因子替代原变量,并解释公共因子的含义.与主成分分析类似,因子分析将相同本质的变量归入一个因子,可减少变量的数目,达到降维的目的.在数学建模中,因子分析用于分析多指标的问题,通过因子得分还可以得出不同公共因子的重要性指标.一、模型背景“因子”是什么?例如,在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。而这三个公共因子可以表示为:称、、是不可观测的潜在因子,24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分,称为特殊因子。数学模型:设Xi(i=1,2,…,p)共p个变量,如果表示为:其中,载荷矩阵A中aij为第个i变量与第j个公共因子之间的线性相关系数,反映变量与公共因子之间的相关程度。
为特殊因子,代表公共因子以外的因素影响。该模型还需满足以下条件:1)各特殊因子之间以及特殊因子与公共因子之间均互相独立2)各公共因子都是均值为0,方差为1的独立正态随机变量二、因子分析模型矩阵形式为:对原始数据进行标准化处理计算相关系数矩阵R计算初等载荷矩阵提取公因子进行因子旋转计算因子得分,并进行综合评价三、模型建立步骤原始数据标准化处理目的:消除变量在量纲上的的影响。假设指标变量有m个指标向量,共有n个待评价对象,记第i个评价对象的第j个指标的取值为,将各指标值转换成标准化指标,公式如下:其中提示:中心极限定理,当n较大时近似服从正态分布2.计算相关系数矩阵R其中是第i个指标与第j个指标的相关系数相应的相关系数矩阵记为当数据标准化后,第i个指标与第j个指标的相关系数3.计算初等载荷矩阵计算相关系数矩阵R的特征值
及对应的特征向量,其中
,初等载荷矩阵为:4.提取p个公因子①根据因子方差(特征值)大小来确定因子个数:只取方差大于1(特征值大于1)的那些因子。②或者按照因子的累计方差贡献率确定因子个数:一般认为达到60%才符合要求。记载荷矩阵5.进行因子旋转直接构造出的公共因子往往含义很模糊,这时不便于进行实际背景的解释。而由于因子载荷阵是不唯一的,所以可以对因子载荷阵进行旋转,使因子载荷阵的结构简化,矩阵中每列或行元素的平方值向0和1两极分化。因子旋转主要有以下三种方法:①方差最大旋转法:使各因子保持正交状态,但尽量使各因子的方差达到最大,即相对的载荷平方和达到最大,从而方便对因子的解释②四次最大正交旋转法:该方法倾向于减少和每个变量有关的因子数,从而简化对原变量的解释③平均正交旋转:该方法介于方差最大正交旋转和四次方最大正交旋转之间。例1依据学员业务指标数据,利用因子分析,提取公共因子.解:设应检验观测矩阵的四个变量为:业务理论知识,实际业务技能,思想集中能力,逻辑思维能力.若已知六位学员的四个变量观测数据,并计算得出相关矩阵为1、计算特征值和特征向量,并提取公因子上述矩阵的两个最大特征值为因即它们说明了总方差的96.3%,两个相应的特征向量构成的矩阵为用两个特征向量的平方根为元素构建对角矩阵2.计算载荷矩阵计算得载荷矩阵3.进行因子旋转接下来,正交旋转载荷矩阵,以下采用方差最大旋转法.方差最大的正交旋转矩阵为f1的载荷矩矩阵f2的载荷矩阵旋转了的载荷矩阵为由
,,,说明原变量
,,与公共因子
密切相关且各占据了公共方差的一半以上,而,说明原变量
与公共因子
密切相关且各占据了公共方差的一半以上.因此,用变量“业务理论知识”、“实际业务技能”、“思想集中力”最高地装载第1公共因子,作为知识指标因子.而用“逻辑思维能力”装载第2公共因子,作为天赋指标因子.并得到因子分析模型为6.计算因子得分利用回归方法求单个因子得分函数记第个样本点对第个因子得分的估计值为为原始数据经过标准化后的数据,且有因此有因子分析模型注意要点:1)载荷矩阵可以不唯一,也就是说提取的公因子不是唯一的。
2)共同度量统计意义:变量xi的信息能够被k个公因子解释的程度,用k个公因子对第i
个变量xi的方差贡献率表示3)公共因子Fj的方差贡献率(方差等于特征值)统计意义:第j个公因子对变量xi的提供的方差总和,反映第j个公因子的相对重要程度。与主成分分析不同之处:1.目的不同:因子分析要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分)。2.假设条件不同:主成分分析中不需要有假设;因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。3.提取主因子的方法不同:因子分析抽取主因子不仅有主成分法,还有极大似然法,主轴因子法,基于这些方法得到的结果也不同;主成分只能用主成分法抽取。4.主成分与因子的变化:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。主成分分析与因子分析的用法:因子分析和主成分分析都是通过少数几个新的变量来代替原有变量,但主成分分析变量个数与原始变量个数相同,有多少个变量就有多少个主成分,我们需要做的,就是根据贡献率来确定少数几个主成分。因子分析要事先确定几个主成分,也就是因子,然后将原始变量综合成少数几个因子。例:我国上市公司赢利能力与资本结构的实证分析已知上市公司的数据见表1。试用因子分析法对该企业进行综合评价。表1上市公司数据公司销售净利率x1资产净利率x2净资产收益率x3销售毛利率x4资产负利率x歌华有线43.317.398.7354.8915.35五粮液17.1112.1317.2944.2529.69用友软件21.116.03789.3713.82太太药业29.558.6210.137314.88浙江阳光118.4111.8325.2225.49烟台万华17.6313.8615.4136.4410.03方正科技2.734.2217.169.9674.12红河光明29.115.446.0956.269.85贵州茅台20.299.4812.9782.2326.73中铁二局3.994.649.3513.0450.19红星发展22.6511.1314.350.5121.59伊利股份4.437.314.3629.0444.74青岛海尔5.48.912.5365.523.27湖北宜化7.062.795.2419.7940.68雅戈尔19.8210.5318.5542.0437.19福建南纸7.262.996.9922.7256.58此处不具体展示原始数据标准化处理过程。利用MATLAB软件求得相关系数矩阵,见下表2。表2相关系数矩阵x1x2x3x4x110.31941-0.17090.60636x20.3194110.673910.34363x3-0.17090.673911-0.13851x40.606360.34363-0.138511由相关系数矩阵求得特征值及特征向量,见下表3。进而求得初等载荷矩阵A1。表3特征根和特征向量特征根特征向量λiu1ju2ju3ju4j1.89720.53064-0.41216-0.70184-0.236581.54960.593770.40445-0.0229370.695220.393020.260660.72074-0.0096969-0.642250.160210.54582-0.383490.7119-0.21958本例中,我们选取2个主因子。利用MATLAB程序对提取的因子载荷矩阵进行旋转,得到旋转后的因子贡献和贡献率见表4、载荷矩阵B见表5。表4贡献率数据因子贡献贡献率累计贡献率11.779444.4944.4921.667341.6886.17表5载荷矩阵指标主因子1主因子2销售净利率0.8930.0082资产净利率0.3720.8854净资产收益率-0.23020.9386销售毛利率0.88920.0494利用回归方法计算各因子得分函数如下:利用综合因子得分公式:表6上市公司综合排名表排名12345678F10.03150.00250.97890.4558-0.05631.27911.51591.2477F21.46911.44770.39600.85481.3577-0.1564-0.5814-0.9729F0.72690.70160.69690.64880.62770.58470.50140.1735公司烟台万华五粮液贵州茅台红星发展雅戈尔太太药业歌华有线用友软件排名910111213141516F1-0.03510.9313-0.6094-0.9859-1.7266-1.2509-0.8872-0.8910F20.3166-1.19490.15440.34680.2639-0.7424-1.3459-1.6131F0.1350-0.0972-0.2399-0.3412-0.7637-1.0049-1.1091-1.2403公司青岛海尔红河光明浙江阳光伊利股份方正科技中铁二局福建南纸湖北宜化计算的Matlab程序如下data=importdata('data.csv');X=zscore(data(:,1:4)); R=corrcoef(X) [vec,val,con]=pcacov(R); vec=vec.*sign(sum(vec1)); a=vec.*sqrt(val)'; num=2; am=a(:,1:num); [b,t]=rotatefactors(am,'Method','varimax');bt=[b,a(:,num+1:end)] degree=sum(b.^2,2) %读取数据%数据标准化%计算相关系数矩阵%主成分分析计算%特征向量正负转换%计算初等载荷矩阵%提取两个因子%提取主因子载荷矩阵%旋转变换,返回值b是旋转后的载荷矩阵,t是正交矩阵%全部因子的载荷矩阵%计算共同度,对行求和contr=sum(bt.^2) %计算因子贡献,对列求和rate=contr(1:num)/sum(contr) %计算因子贡献率coef=R\b %计算得分函数的系数weight=rate/sum(rate); %计算得分权重F1_F2=X*coef %计算综合得分score=F1_F2*weight'; %加权求和[score,ind]=sort(score,'descend');%排序[ind,score] %显示排名程序执行的结果如下使用SPSS软件分析的过程如下导入数据的过程与之前相同,不再赘述,与主成成分分析不同的就是选区旋转方法为最大方差法,如下图所示最终获得结果如下,与Matlab程序计算的结果一致第三节聚类分析的背景及原理Q型聚类分析R型聚类分析聚类方法步骤案例分析聚类分析
第六章人们往往会碰到通过划分同种属性的对象很好的解决问题的情形。例如对市场进行细分、对员工进行分类等等。需要采取一种方法,将对象进行分类,使得同一类中的对象之间相似性比其他类的对象的相似性更强。即类中对象的同性质最大化,类与类间对象的异性质最大化。一、聚类分析背景与原理1、聚类分析背景一般情况下,所研究的样品或指标(变量)之间是存在程度不同的相似性(亲疏关系)。于是根据所给样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,最后将整个分类系统画成一张分群图,用来表示所有样品间的亲疏关系。2、模型思想二、Q型聚类分析——对样本进行分类1、样本点间相似性度量--常用Minkowski距离1)绝对值距离2)欧氏距离3)Chebyshev距离
在闵式距离中,最常用的是欧几里得距离,它的主要优点是当坐标轴进行正交旋转时,欧氏距离保持不变。因此,如果对原坐标系进行平移和旋转变换后,样本点间的距离和变换前相同。注:①在使用Minkowski距离时,一定要采用相同量纲的变量。当变量的量纲不同,测量值变异范围相差悬殊时,首先进行数据的标准化处理,然后再计算距离。②在使用Minkowski距离时,应尽可能的避免变量的多重相关性。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。马氏距离——对闵式距离的改进式中:x,y为来自P维总体Z的样本观测值;∑为Z的协方差矩阵,实际中∑往往是未知的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响。2、类与类之间相似性度量
1)最短距离法2)最长距离法3)类平均法4)重心法三、R型聚类分析——对变量进行分类1、变量相似性度量1)相关系数。2)夹角余弦
四、模型建立步骤:1、最短距离法、类平均法、重心法的计算步骤(区别在于:类与类之间的距离定义不同):2、动态聚类方法1)随机将n个样品分为a个初始类,计算初始类的均值:2)计算某样品到初始类(均值)的欧氏距离若样品在距离最小的初始类中,则不重新分配,继续计算其他样品距离;若某样品不在距离最小的初始类中,需重新分配,此时更新分类,继续计算其他样品的欧氏距离,直到所有样品都归类为止。3)更新均值,重复2)步骤,直到所有样品不用分配为止。
小结若需要进行分类的数据量不是特别大时,使用最短距离法、类平均法、重心法得到的结果差异不是很大,不同在于计算距离矩阵时使用的计算公式不同。当遇见实际问题,可以根据计算量的大小以及可行性选取适当的方法进行计算。而动态聚类法则需要事先给出所要分成的几种类型才能使用。1、我国各地区普通高等教育发展水平综合评价
由于我国各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展的起点不一致,因而各地区普通高等教育的发展水平存在一定的差异,不同的地区具有不同的特点。请对我国各地区普通高等教育的发展状况进行综合评价。
参与评价的十个指标各自含义见表1,指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以各地区相应的人口数得到十项指标值见表2。例题表1指标含义x1每百万人口高等院校数x2每十万人口高等院校毕业生数x3每十万人口高等院校招生数x4每十万人口高等院校在校生数x5每十万人口高等院校教职工数x6每十万人口高等院校专职教师数x7高级职称占专职教师的比例x8平均每所高等院校的在校生数x9国家财政预算内普通高教经费占国内生产总值的比重x10生均教育经费表2我国各地区普通高等教育发展状况数据地区x1x2x3x4x5x6x7x8x9x10北京5.96310461155793131944.3626152.213631上海3.39234308103549816135.0230520.912665天津2.3515722971329510938.430310.869385陕西1.35811113641505830.4526991.227881辽宁1.5881284211445834.328080.547733吉林1.67861203701535833.5322150.767480黑龙江1.1763932961174435.2225280.588570湖北1.0567922971154332.8928350.667262江苏0.9564942871023931.5430080.397786广东0.693971205612434.529880.3711355四川0.564057177612332.6231490.557693山东0.575864181572232.9532020.286805甘肃0.714262190662628.1326570.737282湖南0.744261194612433.0626180.476477浙江0.864271204662629.9423630.257704新疆1.2947732651144625.9320600.375719福建1.045371218632629.0120990.297106山西0.855365218763025.6325550.435580河北0.814366188612329.8223130.315704安徽0.593547146462032.8324880.335628云南0.663640130441928.5519740.489106江西0.774363194672328.8125150.344085海南0.73351165471827.3423440.287928内蒙古0.844348171652927.6520320.325581西藏1.692645137753312.1810114199河南0.553246130441728.4123410.35714广西0.62843129391731.9321460.245139宁夏1.394862208773422.715000.425377贵州0.64233293371628.1214690.345415青海1.483846151633017.8710240.3873681)R型聚类分析定性考察反映高等教育发展状况的5个方面10项评价指标,可以看出,某些指标可能存在较强的相关性。比如每10万人口高等院校毕业生数、每10万人口高等院校招生数与每10万人口高等院校在校生数之间可能存在较强的相关性,为验证这种想法,运用Matlab软件计算10个指标之间的相关系数,相关系数表如表3所示。表3相关系数矩阵x1x2x3x4x5x6x7x8x9x10x11.000.940.950.960.970.980.410.070.870.66x20.941.000.990.990.970.970.610.350.800.60x30.950.991.001.000.980.980.630.340.820.62x40.960.991.001.000.990.990.610.330.830.61x50.970.970.980.991.001.000.560.240.860.62x60.980.970.980.991.001.000.550.220.870.62x70.410.610.630.610.560.551.000.780.370.15x80.070.350.340.330.240.220.781.000.110.05x90.870.800.820.830.860.870.370.111.000.68x100.660.600.620.610.620.620.150.050.681.00可以看出某些指标之前确实存在很强的相关性,因此可以考虑从这些指标中选取几个有代表性的指标进行聚类分析。为此,把10个指标根据其相关性进行R型聚类,再从每个类中选取代表性的指标。首先对每个变量(指标)的数据分别进行标准化处理。变量间相近性度量采用相关系数,类间相似性度量的计算选用类平均法。聚类树型图如下图所示。Matlab程序:data=load('C:\Users\lenovo\Desktop\205.txt');d=pdist(data,'correlation');
%计算相关系数导出的距离z=linkage(d,'average');%产生聚类等级树[h,t]=dendrogram(z);
%画聚类图num=input(‘输入分类数目num:');T=cluster(z,‘maxclust’,num);%把对象划分为num类%%%%%%%%%%输出分类%%%%%%%%%%fori=1:numt=find(T==i);t=reshape(t,1,length(t));fprintf('µÚ%dÀà:%s\n',i,int2str(t));end
从聚类图中可以看出,每10万人口高等院校招生数、每10万人口高等院校在校生数、每10万人口高等院校教职工数、每10万人口高等院校专职教师数、每10万人口高等院校毕业生数5个指标之间有较大的相关性,最先被聚到一起。如果将10个指标分为6类,其他5个指标各自为一类。这样就从10个指标中选定了6个分析指标。
x1
为每百万人口高等院校数;
x2为每10万人口高等院校毕业生数;
x3为高级职称占专职教师比例;
x4为平均每所高等院校的在校生数;x5为国家财政预算内普通高等教育经费占国内生产总值的比例;
x6为生均教育经费。可以根据这6个指标对30个地区进行聚类分析。2)Q型聚类分析根据这6个指标对30个地区进行聚类分析。首先对每个变量的数据分别进行标准化处理,样本间相似性采用欧氏距离度量,类间距离的计算选用类平均法。聚类树型图如图5所示。Matlab程序:clc,cleara=load(‘C:\Users\lenovo\Desktop\julei.txt’);%导入数据b=zscore(a);%标准化数据d=pdist(b);%计算两两之间的欧氏距离z=linkage(d);%生成具有层次结构的聚类图dendrogram(z);%画聚类图k=input(‘输入分类数目:');T=cluster(z,'maxclust',k);%把对象划分为k类%%%%%%%%%%输出分类%%%%%%%%%%fori=1:kt=find(T==i);t=reshape(t,1,length(t));fprintf('µÚ%dÀà:%s\n',i,int2str(t));end案例研究结果
各地区高等教育发展状况存在较大的差异,高等资源的地区分布很不均衡。如果根据各地区高等教育发展状况把30个地区分为三类,结果为:第一类——北京;第二类——西藏;第三类——其他地区。如果根据各地区高等教育发展状况把30个地区分为四类,结果为:第一类——北京;第二类——西藏;第三类——上海、天津;
第四类——其他地区。如果根据各地区高等教育发展状况把30个地区分为五类,结果为:第一类——北京;第二类——西藏;第三类——上海、天津;第四类——宁夏、贵州、青海;第五类——其他地区。从以上结果结合聚类图中的合并距离可以看出,北京的高等教育状况与其他地区相比有非常大的不同,主要表现在每百万人口的学校数量和每10万人口的学生数量以及国家财政预算内普通高教经费占国内生产总值的比例等方面远远高于其他地区,这与北京作为全国的政治、经济与文化中心的地位是吻合的。上海和天津作为另外两个较早的直辖市,高等教育状况和北京是类似的状况。宁夏、贵州和青海的高等教育状况极为类似,高等教育资源相对匮乏。西藏作为一个非常特殊的民族地区,其高等教育状况具有和其他地区不同的情形,被单独聚为一类,主要表现在每百万人口高等院校数比较高,国家财政预算内普通高教经费占国内总值的比重和生均教育经费也相对较高,而高级职称占专职教师的比例与平均每所高等院校的在校生数又都是全国最低的。这正是西藏高等教育状况的特殊之处:人口相对较少,经费比较充足,高等院校规模较小,师资力量薄弱。其他地区的高等教育状况较为类似,共同被聚为一类。针对这种情况,有关部门可以采取相应措施对宁夏、贵州、青海和西藏地区进行扶持,促进当地高等教育事业的发展。2、已知有20个样本,每个样本有两个特征,数据分布如下表所示,试采用k_均值聚类分析方法对这些数据进行分类。特征样本x10101212367x2001112226626777788899Matlab程序如下:X=[01012123678678978989
00111222666777788899]';figure;%绘制数据点分布图plot(X(:,1),X(:,2),'.');xlabel('X1');ylabel('X2');opts=statset('Display','final');K=input(‘请输入聚类数目K:’)%根据数据点分布图判断分类数目[idx,C]=kmeans(X,K,'Distance','cityblock','Replicates',10,'Options',opts);[idx,C]=kmeans(X,K,'Distance','cityblock',…'Replicates',10,'Options',opts);%X为样本,K为聚类数目,'Distance','cityblock'表示使用绝对误差和作为测量距离,%'Replicates',10表示迭代重复次数为10,'Options',opts表示迭代算法最小化拟合准则figure;plot(X(idx==1,1),X(idx==1,2),'r.','MarkerSize',12)%绘制第一类样本坐标点
holdonplot(X(idx==2,1),X(idx==2,2),'b.','MarkerSize',12)%绘制第二类样本坐标点xlabel('X1');ylabel('X2');plot(C(:,1),C(:,2),‘kx’,…'MarkerSize',15,'LineWidth',3)%绘制聚类中心legend('Cluster1','Cluster2','Centroids',…'Location','NW')title‘ClusterAssignmentsandCentroids‘%添加标题holdoff%%%%%%%%%%输出分类%%%%%%%%%%fori=1:Kt=find(idx==i);t=reshape(t,1,length(t));fprintf(‘第%d类:%s\n',i,int2str(t));end最终分类图:程序输出结果:第1类:91011121314151617181920第2类:12345678第四节基本概念相关性分析相关性分析方法案例分析相关性分析
第六章
xy一、基本概念客观事物之间大多是普遍联系、相互依存、相互制约。用变量反映这些现象的特征时,这就表现为变量之间的依存关系。变量之间的关系各种定义的相似性对量均应具有以下两种性质1.,对于一切、成立;2.,对于一切、成立。越接近1,与越相关或越相似。越接近0,与的相似性越弱。相关系数二、相关性分析1、相关性分析相关性分析是用来研究变量之间是否存在相关关系,并评估相关关系的相关方向以及相关程度的一种统计的方法。2、相关系数相关系数是反映变量之间相关关系密切程度,常用r表示,取值范围[-1,1]。相关系数取值解释见下表1。表1相关强度r等级表数值范围相关程度0.8-1.0极强相关0.6-0.8强相关0.4-0.6中等程度相关0.2-0.4弱相关0.0-0.2极弱相关或无相关三、相关性分析方法相关性分析种类繁多,在数学建模中常用的为以下三种:灰色关联度、斯皮尔曼等级相关和皮尔逊相关系数。1、灰色关联度(1)背景灰色系统理论提出了对各子系统进行灰色关联度分析的概念,意图透过一定的方法,去寻求系统中各子系统(或因素)之间的数值关系。灰色关联度分析的意义是指在系统发展过程中,如果两个因素变化的态势是一致的,即同步变化程度较高,则可以认为两者关联较大;反之,则两者关联度较小。因此,灰色关联度分析对于一个系统发展变化态势提供了量化的度量,非常适合动态的历程分析。(2)计算方法表2部分式子含义表达式含义
第i个比较数列与第j个比较数列
第k个样本之间的关联系数
两级最小差两级最大差
分辨率,取值[0,1]假设有以下两组数列现在比较一下两组数列的相关度,灰色关联度计算公式如下:该式子中解释见表2
灰色关联度计算公式为:(3)使用情况①在实际获取数据过程中,常常会受到客观因素和人为因素的影响,使获得的数据不完全准确,具有一定灰度。因此,在统计过程中运用灰色理论更加合理。②在对多组待测数列与一个参考数列之间相关度大小的排序时,可选择使用灰色关联度。2、斯皮尔曼等级相关(等级差数法)(1)方法思想斯皮尔曼等级是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各等级数之差来进行计算的。(2)适用对象主要用于解决称名数据和顺序数据相关的问题。称名数据:只说明某一事物与其他事物在属性上的不同或类型上的差异,其数值一般都取整数形式,只计算个数,并不说明事物之间差异的大小,比如性别、颜色类别,它们只能用具有相同属性的个体数目来统计。一般不能对这类数据进行加减乘除运算。顺序数据,例如在各种的比赛中,我们常常会设置名次,“第一名、第二名、第三名……”来表示。顺序变量数据之间虽有次序与等级关系,但这种数据之间不具有相等的单位,也不具有绝对的数量大小和零点.因此,只能进行顺序递推运算。(3)计算步骤①将数量标志和品质标志的具体表现按等级次序编号②得出两个标志对应等级编号的差di③计算皮尔斯曼等级相关系数ρ,以评价变量之间的相关性,计算公式为(4)使用情况
在确定两组数据间的相关度时,使用斯皮尔曼等级相关较好。3、皮尔逊相关系数(1)方法思想皮尔逊积矩相关系数用于度量两个变量和之间的相关(线性相关),值介于-1与1之间。(2)计算公式(3)使用情况①皮尔逊相关系数可以用来用来衡量国民收入和居民储蓄存款、身高与体重、高中成绩和高考成绩等变量之间的线性相关关系。②在确定两组数据是否在一条线上时,比较适合使用皮尔逊相关系数。四、相关性分析案例例梭梭生长量与气候因子的关联分析表3为1995年梭梭逐月生长量、月平均气温、月降水量、月日照和月平均相对湿度的原始数据,试排出影响梭梭生长的关联序,并找出主要的影响因子。表3梭梭生长与气候数据X0/cm0.010.51.510.81316.31819.314.810.381X1/℃4.27.41016.121.123.924.724.5221813.16.8X2/mm171017192487296.9269194584.912X3/h54738413714910910116481847966X4/%817975757779838683828182法一:灰色关联度数据处理:X0-X1X0-X2X0-X3X0-X44.1916.9953.9980.996.99.572.578.58.515.582.573.55.38.2126.264.28.1235136647.655.792.762.76.778.983655.2249.7144.766.77.2179.266.268.27.747.773.771.75.13.171735.8116581则两级最小差与两级最大差分别为: minmin|x0(k)-xi(k)|=|4.19,3.1,53.99,62.7|=3.1 maxmax|x0(k)-xi(k)|=|8.5,249.7,144.7,81|=249.7
ε(1)0.9915530.9711570.9595050.9830960.9623920.9660250.9726340.9838520.9689510.9652960.9846090.979334ε(2)0.9020730.9523630.9116490.9616690.3555650.7086680.6279750.341610.4208190.74152410.941848ε(3)0.7154440.6483410.6170730.5096590.4905120.5881410.6155880.474680.669720.6444220.6533060.673953ε(4)0.6215990.6292110.6450720.6768050.6775220.6822180.6739530.6679720.6627820.6509790.6467020.621569
法一:灰色关联度
法二:斯皮尔曼等级相关将数据按大小顺序进行排序,再对其进行等级化,得到数据表格如下:
123456789101112X0124781011129653X1134681012119752X2425611891210713X3137101198125642X4652134101211978进一步有:d1d2d3d4d5d6d7d8d9d10d11d120-10100-110-101-30-11-3220-1-1400-1-3-3-31304011-5-3265610-2-3-2-5法二:斯皮尔曼等级相关Matlab程序实现:clear,clca=[124781011129653;134681012119752;425611891210713;137101198125642;652134101211978];d1=a(1,:)-a(2,:);%数据处理:第一行逐次减第二、三、四、五行d2=a(1,:)-a(3,:);d3=a(1,:)-a(4,:);d4=a(1,:)-a(5,:);d=[d1;d2;d3;d4];m=size(d,2);%m表列数rou=1-6*sum(d.^2,2)/(m^3-m);%求斯皮尔曼等级相关系数矩阵结果:相关系数矩阵rou=[0.9790;0.8392;0.8042;0.3776]第五节回归分析回归基本概念一元线性回归多元线性回归非线性回归案例分析一、回归基础概念1、回归分析例1
一种农作物的亩产量Y与播种量X1、施肥量X2有联系,但X1、X2不能严格决定Y。除了播种量和施肥量外,其它因素如灌溉情况、气温变化、自然灾害等等,都会影响到亩产量Y,我们把除X1,X2以外影响Y的因素归于随机误差。
例2
人的身高X和体重Y存在关联,一般表现为身高越大体重也倾向于越大,但身高不能严格地决定体重。•根据样本信息来描述两种或两种以上变量间的相互依赖的定量关系的统计分析方法称为回归分析。•实际问题中往往涉及多个变量。在这些变量中,有一个是特别关注的称为因变量,而其他变量看作是影响这一变量的因素,称为为自变量。
•例1中亩产量Y为因变量,播种量X1、施肥量X2为自变量。一个自变量两个及两个以上自变量多元回归线性回归非线性回归回归模型一元回归线性回归非线性回归2、回归分类3、回归分析与相关性分析区别
•回归分析着重寻求变量间的近似函数关系
•相关性分析着重寻求数量性指标,以刻画有关变量之间关系深浅程度
4、回归模型
现在设一个问题中有因变量以及自变量有模型:其中为观察值围绕它的期望值的离差,是一个不可观测的随机变量,又称为随即干扰项或随机误差项。于是可以得到就是在给定了自变量值的条件下,因变量的条件期望即:则函数称为对的回归函数,方程:称为对的回归方程
例一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系,即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。为达到此目的,将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)
将居民消费支出看成是其可支配收入的线性函数时:为一线性函数。其中,
0,
1是未知参数,称为回归系数。
二、一元线性回归一元线性回归模型基本假定拟合效果分析回归方程的显著性检验1、一元线性回归模型对误差项做出以下假定•正态性。是一个服从正态分布的随机变量,且数学期望为0•方差齐性。即对所有的,的方差均相同•独立性。对于一个特定的值,它所对应与其他值所对应的不相关2、基本假定xy(xn,yn)(x1,y1)
(x2,y2)(xi,yi)}ei=yi-yi^利用最小二乘法得到的估计值为利用最小二乘法得到的估计值为3、拟合效果分析
对于n个样本点(xi,yi),i=1,2,…,n,其回归方程为记残差为:
总偏差平方和(ST){回归平方和(SR){残差平方和(SL){2)判定系数R2
判定系数定义为:回归平方和占总偏差平方和的比例判定系数意义:反映回归直线的拟合程度取值范围在[0,1]之间R2
1,说明回归方程拟合的越好;
R2
0,说明回归方程拟合的越差判定系数等于相关系数的平方,即R2
=r24、回归方程的显著性检验检验该模型是否比较真实地反映了因变量与自变量之间的相关关系。思路及步骤:1)提出假设当H0为真时,则表示y不受x的影响,说明模型不成立;当H1真时,则x与y之间却有一定的关系,说明模型可以成立。
三、多元线性回归多元线性回归模型回归系数估计回归方程的显著性检验回归系数的显著性检验最优回归方程与逐步回归法1、多元线性回归模型记,多元线性回归分析的模型为现得到n个独立观测数据由上式模型得:2、回归系数估计——最小二乘法
其中,矩阵多元线性回归方程的矩阵形式为3、回归方程显著性检验检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验。思路及步骤:1)提出假设当H0为真时,则表示y不受x的影响,说明模型不成立;当H1真时,则x与y之间有一定的关系,说明模型可以成立。2)计算检验统计量F
4、回归系数显著性检验注意要点:回归系数的检验就是用来确定每一个单个的自变量xi
对因变量y
的影响是否显著。需要对每一个自变量都要单独进行检验。采用t
检验。这里在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验
5、最优回归方程与逐步回归法(1)最优回归方程是指:对因变量y有显著作用的自变量,全部选入回归方程;对因变量y无显著作用的自变量,均不引入回归方程。(2)变量筛选方法①向前选择变量法②向后删除变量法③逐步回归法逐步回归法逐步回归法是向前选择变量法和向后删除变量法的一种结合,能够避免多重共线性。首先,求y与每一个xi的一元线性回归方程,选择F值最大的变量进入模型。然后,对剩下的(m-1)
个模型外的变量进行偏F检验(设定xi1
已在模型中),在若干通过偏F检验的变量中,选择Fj值最大者进入模型。再对模型外的(m-2)
个自变量做偏F检验。在通过偏F检验的变量中选择Fj值最大者进入模型。接着对模型中的三个自变量分别进行偏F检验,如果三个自变量都通过了偏F检验,则接着选择第四个变量。但如果有某一个变量没有通过偏F检验,则将其从模型中删除。重复上述步骤,直到所有模型外的变量都不能通过偏F检验,则算法终止。逐步回归法可用spss实现:用spss进行逐步回归第1步:选择【分析】【回归-线性】,进入主对话框第2步:在主对话框中将因变量选入【因变量】,将所有自变量选入【自变量】,并在【方法】下原则【逐步】第3步:点击【选项】,在【步进方法标准】下选中【使用F值】,在【进入】和【除去】中输入要求的F值上下限(默认3.84和2.71,一般不用改变)。点击【继续】第4步:点击【确定】得到逐步回归方程。四、非线性回归特点:
因变量y
与x
之间不是线性关系思想方法:可通过变量代换转换成线性关系注意要点:并非所有的非线性模型都可以化为线性模型几种常见的非线性模型及其变换:双曲线方程;幂函数方程;指数曲线方程对数曲线方程;S型曲线方程几种常见的非线性模型(1)双曲线方程线性化变换:图像:基本形式:(2)幂函数方程线性化变换:基本形式:图像:(3)指数曲线方程线性化变换:基本形式:图像:(4)指数曲线方程线性化变换:基本形式:图像:线性化变换:基本形式:图像:(5)对数曲线方程基本形式:图像:(6)S型曲线方程线性化变换:五、一元线性回归举例在家庭消费的例子的总体中有如下一个样本:用matlab可观察到Y-X图像趋近直线,固可用一元线性方程。
Matlab程序实现:clc,clearFormatlongx=[59463811221155140815951969207825852530];y=[800110014001700200023002600290032003500];plot(x,y,'*')%画出y-x散点图x=x';Y=y';X=[ones(10,1),x];%构造回归分析的数据矩阵[beta,betaint,r,rint,st]=regress(Y,X);%计算回归系数和统计量beta:回归系数,betaint:回归系数置信区间,r:残差,rint:残差0.95的置信区间运行结果:beta=179.8996betaint=-90.7163450.51551.25691.0984 1.4154st=0.9766334.4876021679.6144对应于R²、F、P、s²六、多元线性回归举例
利用Matlab程序,求得
(2)回归方程的检验
令原假设为
(6.1)
(3)回归系数检验:
Matlab程序实现:clc,clearab=textread('ex7_19.txt');y=ab(:,[2,7]);Y=nonzeros(y); %去掉y后面的0,并变成列向量x123=[ab(1:13,3:5);ab(1:12,8:10)]; %提取x1,x2,x3X=[ones(25,1),x123];[beta,betaint,r,rint,st]=regress(Y,X);%线性回归回归系数及统计量st第二个分量为Ffw1=finv(0.025,3,21);%计算fw2=finv(0.975,3,21);%计算st(2),fw1,fw2c=diag(inv(X'*X));q=sum(r.^2);%计算残差平方和ybar=mean(Y);%观测值的平均值yhat=X*beta;%计算y的估计值u=sum((yhat-ybar).^2);%回归平方和t=beta./sqrt(c)/sqrt(q/21);%t统计量tfw=tinv(0.975,21);%t分布上alpha/2分位数t,tfw
七、spss逐步回归举例
据下表数据,用逐步回归法建立不良贷款与贷款余额、累计应收贷款、贷款项目个数和固定资产投资额的回归方程编号不良贷款各项贷款余额累计应收贷款贷款项目个数固定资产投资额10.967.36.85
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年耕整地机械项目规划申请报告模板
- 旧版本劳动合同范本
- 无机污染物对土壤的污染镉铅铬砷考核试卷
- 塑料制品在手表制造上的应用考核试卷
- 农药制造中的市场竞争与价格战略考核试卷
- 摩托车对运动和健康的促进作用考核试卷
- 木材的金属腐蚀和防护措施考核试卷
- 摩托车的减震器技术与性能考核试卷
- 2024年度工程合同管理信息系统开发合同3篇
- 油炸食品制造业的食品加工工艺与设备设计考核试卷
- 中职开设专业方案
- 新能源汽车的市场价格变化趋势
- 护理职业生涯规划书成长赛道
- 2024年重庆市优质企业梯度培育政策解读学习培训课件资料(专精特新 专精特新小巨人中小企业 注意事项)
- 吉林省延边州2023-2024学年高一上学期期末学业质量检测数学试题(解析版)
- 三体二黑暗森林
- 2023年1月福建高中学业水平合格性考试语文试卷真题(含答案)
- 2024-2023-2024年中考语文三年真题分类汇编(全国版)7病句 试卷(含答案解析)
- 设备撞件不良分析报告
- 呼吸科进修总结汇报
- 小学语文新课程标准解读课件
评论
0/150
提交评论