版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
建模中的统计方法2013年数学建模暑期培训选讲主讲勾明内容要点:一、几个案例二、实用的统计方法
三、几种特殊方法
四、常用的统计软件五、实例分析案例一:本科生就业影响因素分析
据有关统计表明,具有大学以上学历者占中国全部劳动者的比例非常低,中国的高等教育也正在处于“精英教育”向大众化的高等教育过渡阶段。社会对于高学历人才的总体需求大于毕业生的总人数,但最近几年大学毕业生找工作却有越来越难的趋势。特别自1999年起,中国高校连年大幅扩招。其中,2000年扩招60.9万人,增幅38.16%;2001年扩招29.4万人,增幅13.3%。目前中国在校大学生已突破1350万人,这种大力度推进高校扩招的方式对于中国在21世纪实施人才战略,建设现代化强国,具有极为重要的意义,但随着大幅扩招,也产生了教育质量滑坡以及就业形式严峻等问题。根据问卷调查的数据,对各种影响因素进行描述,频数分析,并分析影响就业的显著因素,建立数学模型并给出一些相关的建议,为同学们以后就业提供一定的参考。案例二:中国35个主要城市购房能力比较分析现在,房价越来越成为人们的一个中心议题,上至中央领导,下至普通民众,可以说,人人谈房价,而住房作为拉动我国经济的三驾马车之一,对国民经济的作用更是举足轻重。房子,无论对国家还是个人,其重要性不言而喻,它牵动着绝大多数中国人的神经,我们中大多数人也面临购房压力。但是,由于中国幅员辽阔,在各地区由于经济发展水平低于差距等种种因素,各地区房价不尽相同。根据所给的资料,分析:各地房价是否合理?各地区之间的居民购房能力有无明显差异?若有差异,哪些地区购房能力相对较强,哪些地区购房能力相对较弱?如何建立适当的数学模型进行描述?案例三:中国35个主要城市经济效益分析根据35个主要城市某年关于年底总人口、地区生产总值(GDP)、工业总产值、客运总量、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民储蓄年末余额、在岗职工平均人数、在岗职工工资总额10个指标的数据,以期对这些城市的经济效益进行横向和纵向的比较,找出它们之间的差别并分析原因,同时针对个别城市分析其自身经济效益的发展趋势。建模方法运筹优化概率方法统计方法微分方程随机分析数学规划建模方法……实用的统计方法
数据的描述性统计统计推断相关分析方差分析回归分析因子分析聚类分析数据的描述性统计在对数据进行深入加工之前,总应该对数据有所印象。可以借助于图形和简单的运算,来了解数据的一些特征。由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。数据的描述性统计初步整理和直观描述(频数表和直方图)进一步加工、提取有用信息(计算统计量)位置的统计量:均值和中位数变异程度的统计量:标准差、方差、极差分布形态的统计量:偏度、峰度公交车调度方案的优化模型(2001)文献【2,p6】,对模型I的描述性分析,通过直方图,得出上行、下行各时间段最大客容量的双峰直方图,对各时间段的车次给出了一个初步的调度方案。数据的描述性统计分布形态的统计量:偏度(skewness)、峰度(kurtosis)偏度:RV标准化的三阶中心距。反映分布的对称性峰度:随机变量标准化的四阶中心距。>0,右偏态,此时数据位于均值右边的比位于左边多>3,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据偏度为:-1.233,<0.左偏态,说明数据位于均值左边的比位于右边多峰度为1.009,<3.细尾分布92年施肥方案数据分析:数据的描述性统计数据的探索性分析数据的概率分布三大分布及他们之间的关系。统计推断假设检验参数估计点估计(估计方法及评判的标准)区间估计相关分析但是仅仅有满意顾客的比例是不够的;商家希望了解什么是影响顾客观点的因素,及这些因素如何起作用对于现实世界,不仅要知其然,而且要知其所以然。顾客对商品和服务的反映对于企业是至关重要的,类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,以及如何影响。
目前的问题是:如何相关(相关程度多大)?
如何度量他们的相关性?如何判断这些因素(变量)是否相关?
相关分析Pearson相关系数:Pearson相关矩阵:做散点图初步判断两个变量间是否存在相关趋势,是否为直线趋势,以及数据中是否存在异常点计算相关系数R>0正相关,R<0负相关R的绝对值越接近1,表示两个变量愈接近线性关系,R绝对值等于1时,两者为完全线性关系R的绝对值越接近0,表示两个变量愈没有线性关系,R绝对值等于0时,两者为完全没有线性关系R的绝对值大于0.8时,视为高度相关
R的绝对值介于0.5-0.8时,视为中度相关
R的绝对值小于0.3时,视为不相关处理方法:“深发展”和“四川长虹”在中国股市上像一对孪生姐妹,它们的发展表现出同升、同降的现象。它们是否具有一定的内在联系?如果存在内在联系,那么根据任一股票的变化能否判断另一股票的变动趋势?由于两者都是龙头股,根据它们的变动进而能否对大盘的变动做出推测?X1:“深发展”日收盘价X2:“四川长虹”日收盘价X3:“深证指数”日收盘价X4:“上证指数”日收盘价分析要求:(1)探求个股与个股、个股与大盘间是否有典型的相关关系(2)如果有,它们是否服从某种模型?(3)更进一步,如果服从某种模型,能否根据这种模型做一些预测用于支持投资决策?案例分析:股票分析“深发展”与深证指数的散点图“四川长虹”与上证指数的散点图“深发展”与深证指数的相关系数“四川长虹”与上证指数的相关系数相关系数矩阵“深发展”与“四川长虹”的相关系数方差分析单因素方差分析多因素方差分析单因素方差分析一、单因素方差分析的基本思想单因素方差分析用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。主要解决多于两个总体样本或变量间均值的比较问题。是一种对多个总体样本的均值是否存在显著差异的检验方法。二、应用的条件服从方差分析的三个假设:1、观测变量各总体服从正态分布。2、观测变量各总体的方差相同。3、观测变量各总体独立的。总离差平方和及组内、组间离差平方和令:总离差平方和:组间离差平方和:组内离差平方和:SST=SSA+SSE四、基本步骤五、结果解释step1:明确观测变量和控制变量。step2:剖析观测变量的方差。step3:通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。在观测变量总离差平方和中,如果组间离差平方所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方所占比例较小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。
单因素方差分析单因素方差分析,是指仅分析一个因素对试验结果的影响是否显著的问题。例:用火焰原子吸收光谱法测定试样中的铋,研究溶液的酸度对测定吸光度的影响,得到如下结果,求分析酸含量的变化对测定结果的影响是否显著?含酸量(%)012340.1400.1530.1600.1810.175吸光度0.1410.1500.1580.1850.1730.1440.1530.1630.1830.174平均值0.1420.1530.1610.1830.174在方差分析中,把所有数据之间的差异叫做总变差。产生总变差的原因有两类,一类是条件变差(本例中即是酸度的影响),另一类就是试验误差。方差分析解决这个问题的办法就是:1、从总变差中区分出试验变差和条件变差,也就是将不同因素的影响给区分开来。2、利用F检验比较这两个变差的大小,确定出主要变差。3、根据主要的变差,去选择较好的分析条件,或确定进一步试验的方向。方差分析的基本思想方差分析的依据是建立在变差平方和具有加和性的基础上的。因此,如果用变差平方和来表征测定结果的总变差,那么总变差的平方和就等于各变异因素形成的变差平方和的总和。方差分析的基本思想,就是将总变差分解为各构成部分之和,然后对它们作统计检验。总变差:
其中m为试验水平数,n为重复次数,自由度vT=mn–1=N–1条件变差(组间方差)每一组的测定平均值和总平均值差值的平方和再乘以重复次数:
自由度vA=m–1试验误差(组内方差)各组内的每次测定值和组内平均值差值的平方和:
自由度ve=m(n–1)=N–m总变差的分解定义
我们的目的是研究溶液的酸度对测定吸光度的影响,为此,需要做一些基本假定,把所研究的问题归结为一个统计问题,然后用方差分析的方法进行解决。
单因子方差分析的统计模型
在例中我们只考察了一个因子,称其为单因子试验。通常,在单因子试验中,记因子为A,设其有r个水平,记为A1,A2,…,Ar。在每一水平下考察的指标可以看成一个总体,因为现共有r个水平,故有r个总体,假定:各总体的方差相同:12=22=…=r2=2
;(即,具有方差齐次性)从每一总体中抽取的样本是相互独立的,即所有的试验结果yij
都相互独立。每一总体均为正态总体,记为N(i,i2),i=1,2,…,r;
我们要比较各水平下的均值是否相同,即要对如下的一个假设进行检验:H0
:1
=2=…=r
备择假设为H1
:1,2,…,r不全相等在不会引起误解的情况下,H1通常可省略不写。如果检验结果为H0成立,因子A的r个水平均值相同,称因子A的r个水平间没有显著差异,简称因子A不显著;反之,当H0不成立时,因子A的r个水平均值不全相同,这时称因子A的不同水平间有显著差异,简称因子A显著。
一般情况下,在水平Ai下的试验结果yij与该水平下的指标均值i一般总是有差距的,记ij=yiji,ij称为随机误差。于是有yij=
i+ij
ij~N(0,2)且ij相互独立,i,i
2均为未知参数称为单因素试验方差分析的数学模型。方差分析的基本思想就是通过条件误差和随机误差的比较来判断假设H0是否成立。如果条件误差比随机误差大得多,我们就认为因素A的不同水平对试验结果有显著影响,从而拒绝H0
;如果条件误差与随机误差得数值差别不大,则认为因素A的不同水平对试验结果没有显著影响,从而接受H0
;检验统计量当H0为真时,对给定的,可作如下判断:若F=<F(fA,fe),则说明因子A不显著。该检验的p值也可利用统计软件求出,若以Y记服从F(fA,fe)的随机变量,则检验的p值为p=P(YF)。如果F>F(fA,fe),则认为因子A显著;当H0为真,即i间的差距不大,则因素A的各个水平对总体的影响应差不多,SSA中也应只含有随机误差,因而F的值不应太大,如果F值很大,超过临界值F0.05,就应当否定H0,即认为之间有显著差异;若F>F0.01时,称为有高度显著差异,或A因素高度显著。例1含酸量(%)01234
0.1400.1530.1600.1810.175吸光度0.1410.1500.1580.1850.173
0.1440.1530.1630.1830.174平均值0.1420.1520.1600.1830.174Ti0.4250.4560.4810.5490.5220.3946PTi2/ni0.060210.069310.077120.100470.090830.3979QA0.060220.069320.077130.100480.090830.3980Rx=[0.1400.1530.1600.181 0.175;0.141 0.150 0.158 0.185 0.173;0.144 0.153 0.163 0.183 0.174];Anova1(x’);例1方差来源变差平方和自由度平均变差平方和F临界值SSA3.30E-0348.26E-04(SSA/vA)/(SSe/ve)=221.2F0.05,4,103.48SSe3.73E-05103.73E-06F0.01,4,105.99SST3.34E-03142.39E-04结论:酸度对测定结果有非常显著的影响方差分析要注意以下几点1、从理论上可推知,当ve很小时,F检验的灵敏度是很低的,ve很大时,灵敏度就高。增加实验次数,有利于灵敏度提高。一般ve应在5-10,如达不到,须将
放宽至0.20。2、当F值特别小时,表明可能取样或测量中有系统误差,一般不应发生,一旦发生就应仔细寻找原因,决不能放过。3、试验应采取随机的方式,而不能按照先后次序(例如温度从高到低)。因为有可能在整个试验过程中,前后尺度掌握不均,或者有其它因素也在有规律或周期性地变化。4、如果是评定实验室之间及实验室内部的精度,当F
F时,就说明实验室之间的精度与实验室内部的精度是一致的。双因素方差分析1、多因素全面试验的试验设计方法类型交差分组:每个因素的每个水平与其它因素的所有水平都要搭配到,试验A和B处于完全平等的地位系统分组:先按A的a个水平分成a组,然后在不同的组里再按B的水平来分组,如果有第三个,还可再安排C,它们的各自水平数不必相同,也不需要均匀搭配混合分组:可以使其中两个先采用一种分组方法,然后对第三个采取另一种方法于是有yij=
+αi+βj+ij
ij~N(0,2)且ij相互独立,,αi,βj,i
2
均为未知参数式称为双因素试验方差分析的数学模型。我们要比较各水平下的均值是否相同,即要作如下的假设检验:。要判断因素A的影响是否显著就等价于检验假设H01
:α
1
=α
2=…=αr=0要判断因素B的影响是否显著就等价于检验假设
H02
:β1=β2=…=βr=0
双因素方差分析1、交叉分组的双因素试验 设因素A有l个水平,A1,A2……Al,因素B有m个水平B1,B2……Bm,在每一组合(Ai,Bj)下进行一次试验,得到观察值Aij,其方差分析计算方法如下:
双因素方差分析表例2:为考察蒸馏水的pH值和硫酸铜溶液浓度对化验血清中白蛋白的球蛋白的影响,将蒸馏水pH值(A)和硫酸铜浓度(B)分成如下的水平进行试验:水平因素1234pH值(A)5.405.605.705.80硫酸铜浓度(B)0.040.080.10
A1A2A3A4TjB(TjB)2/lB13.52.62.01.49.522.56B22.32.01.50.86.610.89B32.01.91.20.35.47.29TiA7.86.54.72.5
(TiA)2/m20.2814.087.362.0821.5414.377.692.69T21.5P38.5QA43.8QB40.7R46.3x=[3.5 2.6 2.0 1.4;2.3 2.0 1.5 0.8;2.0 1.9 1.2 0.3];Anova2(x’);结果方差来源变差平方和自由度平均变差平方和F临界值SSA5.2931.7640.9F0.01,3,69.78SSB2.2221.1125.8F0.01,2,610.92SSe0.2660.043结论:A和B对测定白蛋白与球蛋白的影响非常显著,其中A因素(pH值)的影响比B因素(CuSO4浓度)影响更大。某企业在制定某商品的广告策略时,收集了该商品在不同地区采用不同广告形式促销后的销售额数据,希望对广告形式和地区是否对商品销售额产生影响进行分析。案例分析:广告形式、地区对销售额的影响F值较大,F值的相伴概率小于或等于用户给定的显著性水平a,则拒绝H0,认为不同水平下各总体均值有显著差异;F值较小,F值的相伴概率大于用户给定的显著性水平a,则不能拒绝H0,可以认为不同水平下各总体均值无显著差异.广告形式对销售额的单因素方差分析结果可以看到:观测变量销售额的离差平方总和为26169.306;如果仅考虑广告形式单个因素的影响,则销售额总变差中,不同广告形式可解释的变差为5866.083,抽样误差引起的变差为20303.222,它们的方差分别为1955.361和145.023,相除所得的F统计量的观测值为13.43,对应的概率P值近似为0。如果显著水平为0.05,由于P值<0,则应拒绝原假设,认为不同广告形式销售额产生了显著影响,不同广告形式对销售额的影响效应不全为0。地区对销售额的单因素方差分析结果可以看到:观测变量销售额的离差平方总和为26169.306;如果仅考虑地区单个因素的影响,则销售额总变差中,不同地区可解释的变差为9265.306,抽样误差引起的变差为16904.0,它们的方差分别为545.018和134.159,相除所得的F统计量的观测值为4.062,对应的概率P值近似为0。如果显著水平为0.05,由于P值<0.05,则应拒绝原假设,认为不同地区销售额产生了显著影响,不同地区对销售额的影响效应不全为0。回归分析回归分析:是研究随机变量之间的相关关系的一种统计方法。主要包括:一元线性回归多元线性回归非线性回归逐步回归Logistic回归这里,称为偏回归系数。回归分析的数学模型:从1978年改革开放以来,中国国民经济一直保持着较高的增长速度,人民生活水平大幅提高。但近年来由于全球竞争加剧,中国对外开放程度的加深,国民经济的发展面临着很大的挑战。财政收入水平的高低是反映一国经济实力的重要标志。在一定时期内,财政收入规模大小受许多因素的影响,如国民生产总值大小、进出口额、社会从业人员数多少、税收规模大小、税率高低因素等。分析要求:(1)分析影响财政收入的有哪些因素,对财政收入影响最大的又是哪些因素。(2)分析各因素对财政收入的影响程度,说明各个影响因素重要程度不同的原因。(3)对五各省市的财政收入作单独考察,分析影响各省市财政收入的影响因素。案例分析:财政收入决定因素分析财政收入与税收的关系财政收入与GNP的关系全国财政收入回归模型的建立财政收入与进出口额的关系财政收入与从业人数的关系建立多元回归模型四元线性回归模型结论:从模型上可以看出(1)其他收入对财政收入增长的直接作用最大,税收形成的作用次之。国民生产总值的作用微弱。(2)从业人数与财政收入呈负相关关系,说明随着从业人员人数的增多,并没有相应的明显增加财政收入。它实际反映了人均劳动生产率较低,潜在失业现象较为严重,生产方式多为劳动密集型,且劳动者整体素质不高。这与我国实际的就业状况比较吻合。各地区财政收入多元回归分析(北京市)财政收入与从业人数的散点图(北京市)财政收入与从业人数的散点图(全国)变量剔除后两模型比较分析主成分分析与因子分析主成分分析主要是一种降维的思想。原先有几个变量,最多有几个主成分。因子分析的基本目的在于:用少数几个随机变量刻画较多变量之间的协方差关系。这少数的随机变量是不可观测的,人们称之为“因子(factor)”。基本思路是:根据相关性大小将变量分组,使得组内的变量之间具有较高的相关性,不同组内的变量之间相关性较低
。
因子分析而因子分析是事先确定要找几个成分,或叫因子(factor)(比如两个),那就找两个。主成分分析与因子分析的公式上的区别主成分分析因子分析(m<p)因子得分的p×p矩阵.而对于观测值X=(x1,…,xp),其中xi=(x1i,…,xni),i=1,…,p,的样本相关阵第(ij)-元素为X=(X1,…,Xp)的相关阵为第(ij)-元素为的p×p矩阵,其中sij为第i和第j观测的样本相关系数关于特征值和特征向量特征方程|R-lI|=0的解为特征值l,这里B为一个p维正定方阵.l通常有p个根l1≥l2≥…≥lp.满足(R-liI)xi=0的向量xi为li的特征向量.对任意向量a有性质前m个主成分的累积贡献率:这里R为X的样本相关阵,第i个特征值li=ai’Rai=V(ai’x);ai为第i个特征向量.Cov(ai’x,aj’x)=0.这里aij为第i个特征向量的第j个分量;第i个主成分的载荷平方和为该主成分的方差,等于其特征值li.所选的m个主成分对变量xj的总方差贡献为主成分负荷(载荷,loading):Yi与Xj的相关系数:因子分析数学模型
矩阵表示为:设有n个样本,每个样本由p个指标来描述,且每个指标都已标准化即每个指标的样本均值为零,方差为1。正交因子模型为:
mi=变量i的均值ei=第i个特殊因子Fi=第i个公共因子aij=第i个变量在第j个因子上的载荷不能观测的值满足下列条件:F和e独立E(F)=0,Cov(F)=IE(e)=0,Cov(e)=Y,Y是对角矩阵,
正交因子模型:X-m=AF+eF为公共因子向量,每个公共因子(如Fi)是对模型中每个变量都起作用的因子;而e为特殊因子向量,每个特殊因子(如ei)只对一个变量(第i个)起作用.因子分析的方法在于估计S=AA’+Y和Y,再分解以得到A.X的协方差阵S可以分解成这里l1≥l2≥…≥lp为S的特征值;而e1,…,ep为相应的特征向量(e1,…,ep为主成分的系数,因此称为主成分法).上面分解总是取和数的重要的头几项来近似.X的协方差阵S可以近似为(如Y忽略)如Y不忽略,S可以近似为应用中,S可以用样本相关阵R代替.正交模型X=m+AF+e的协方差结构
根据前面模型,可得出下面结果:上面sii2=Sjaij2+yi2中,Sjaij2称为共性方差(公共方差或变量共同度commonvariance,communalities),而yi2称为特殊方差.变量共同度刻画全部公共因子对变量Xi的总方差所做的贡献.的统计意义就是第i个变量与第j个公共因子的相关系数,表示Xi依赖Fj的份量,这里eij是相应于特征值li的特征向量ei的第j个分量.因子载荷阵中各列元素的平方和Sj=Siaij2称为公共因子Fj对X诸变量的方差贡献之总和因子载荷令T为任意m正交方阵(TT’=T’T=I),则X-m=AF+e=ATT’F+e=A*F*+e,这里A*=AT,F*=T’F.因此S=AA’+Y=ATT’A’+Y=(A*)(A*)’+Y因此,因子载荷A只由一个正交阵T决定.载荷A*=AT与A都给出同一个表示.由AA’=(A*)(A*)’对角元给出的共性方差,也不因T的选择而改变.正交变换T相当于刚体旋转(或反射),因子载荷A的正交变换AT称为因子旋转
估计的协方差阵或相关阵,残差阵,特殊方差及共性方差都不随旋转而变.
这里“残差阵”为协方差阵或相关阵与估计的AA’+Y之差.因子旋转的一个准则为最大方差准则.它使旋转后的因子载荷的总方差达到最大.如即要选变换T使下式最大(计算机循环算法)需要由X=AF变成F=bX.或
Fj=bj1X1+…+bjpXpj=1,…,m,
称为因子得分(函数).
这通常用加权最小二乘法或回归法等来求得.总结
模型X=m+AF+e因子分析的步骤1.根据问题选取原始变量;
2.求其相关阵R,探讨其相关性;
3.从R求解初始公共因子F及因子载荷矩阵A(主成分法或最大似然法)4.因子旋转;
5.由X=AF到F=bX(因子得分函数)
6.根据因子得分值进行进一步分析.例题分析以02级信息与计算科学专业45名毕业生的22门课的考试成绩为基本资料,对学生的成绩进行因子分析.原始数据来自02信息与计算科学学生的学籍管理档案(注:此处没有考虑每门课程的教学时数;考查课的成绩根据正态分布曲线下的面积应用进行了标准化,英语三个学期的成绩之和记为英语成绩;体育成绩取第一学期的成绩;不及格的科目按第一次考试成绩计算)。
表2:检验结果表2给出了KMO检验和巴特利特球形检验的结果。其中KMO统计量为0.874接近于1,说明变量间的相关性极强,因子分析的效果非常好。巴特利特球形检验给出的相伴概率为0.000小于显著性水平0.05因此拒绝零假设,认为适合于因子分析。巴特利特微球度检验以原有变量相关系数矩阵为出发点,其原假设是:相关系数矩阵是单位阵,即相关系数矩阵为对角阵且主对角元素均为1。巴特利特球度检验的检验统计量根据相关系数矩阵的行列式计算得到,且近似服从卡方分布。如果该统计量的观测值比较大,且对应的概率p-值小于给定的显著性水平,则应拒绝原假设,认为相关系数矩阵不太可能是单位阵,原有变量适合作因子分析;反之,如果检验统计量的观测值比较小且对应的概率p-值大于给定的显著性水平,则不能拒绝原假设,可以认为相关系数矩阵与单位阵无显著差别,原有变量不适合做因子分析。巴特利(Bartlett)系数KMO检验统计量是用于比较变量间简单相关系数和偏相关系数的指标,数学定义为:KMO的统计量取值在0~1之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1。KMO值越接近1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量的简单相关系数平方和越接近0时,KMO值越接近0,KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。Kaiser给出了常用的KMO度量标准;0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。第一因子变量中数学分析1、数学分析2,高等代数1、高等代数2、空间解析几何都有较大的载荷,这些课程大部分是专业基础课,因此第一因子可以定义为数学专业基础理论因子。在第一因子变量各科载荷中,数学分析和高等代数较大,说明数学分析和高等代数对第一因子变量的影响较大。第二因子变量中C语言程序设计,数据结构与算法,离散数学都有较大的载荷,这些课程大部分是计算机专业基础因子。第三因子变量中概率论与数理统计,复变函数,常微分方程,哲学原理,运筹学都有较大的载荷,这些大部分是三年级开设的数学专业课程,因此我们把第三因子变量定义为数学专业能力因子。(为什么会有哲学原理呢?因为哲学原理有很强的逻辑相关性,这正好与数学专业的培养学生逻辑思维能力相吻合)。
第四因子变量中数字信号处理,数字图像处理,面向对象的程序设计都有较大的载荷,这些课程都是大学三年级开设的是在计算机基础理论的前提下应用计算机基础理论解决实际问题的课程,反映了学生解决实际问题的能力水平,因此定义为计算机能力因子。第五个因子变量中体育基本上占了全部载荷,这正好和我们说的德智体全面发展相结合,说明体育也是很重要的,定义为体育因子。
第六因子变量中大学英语载荷最大,达到了0.825说明英语在大学生的学习中地位非常重要,定义为英语素质因子。
第七因子变量中毛泽东思想概论和邓小平理论概论思想道德教育都有很大的载荷,定义为思想理论素质因子,这几门课程是学习其它课程的理论指导学科,不论大学生以后从事哪方面的工作都离不开毛泽东邓小平理论指导,思想道德理论基础又为大学生的思想素质打下了坚实的基础。
表6:因子转换矩阵
因子课程名称潜在变量Factor1数学分析1、2,高等代数1、2空间解析几何数学基础能力Factor2C语言程序设计,数据结构与算法,离散数学计算机基础能力Factor3概率论与数理统计,复变函数,常微分方程,哲学原理,运筹学数学专业能力Factor4数字信号处理,数字图像处理,面向对象程序设计计算机能力Factor5体育体育因子Factor6英语英语因子Factor7毛泽东思想概论,邓小平理论概论,思想道德修养思想理论因子因子分析和主成分分析的一些注意事项:可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。另外,如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系应用因子分析法进行分析的步骤如下:1、根据研究问题选取原始变量;2、对原始变量进行标准化并求其相关矩阵,分析变量之间的相关性;3、求解初始公共因子及因子载荷矩阵;4、因子旋转;5、因子得分;6、根据因子得分进行进一步分析聚类分析案例分析:中国35个主要城市经济效益分析根据35个主要城市某年关于年底总人口、地区生产总值(GDP)、工业总产值、客运总量、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民储蓄年末余额、在岗职工平均人数、在岗职工工资总额10个指标的数据,以期对这些城市的经济效益进行横向和纵向的比较,找出它们之
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 体育课教案课件
- 北京市矢量地图-可改颜色
- 《全科医师培训眼科》课件
- 《光学概要》课件
- 《吉利收购沃尔沃初》课件
- 《级开发讲义》课件
- 五千以内加减混合两步运算竞赛检测口算题大全附答案
- 内护2型糖尿病
- 函数y=27x8+13x+arcsin6x的导数计算步骤
- 心理慰藉服务
- DLT 572-2021 电力变压器运行规程
- DL∕T 1764-2017 电力用户有序用电价值评估技术导则
- 四年级上册英语教案-UNIT FOUR REVISION lesson 14 北京版
- 公务员职业道德建设和素质能力提升培训课件(共37张)
- 营养风险筛查与评估课件(完整版)
- 2023年江西飞行学院招聘考试真题
- 2024入团积极分子入团考试题库(含答案)
- 对外投资合作国别(地区)指南 -巴林-20240529-00467
- 2024年小学科学新教材培训心得8篇
- QBT 2739-2005 洗涤用品常用试验方法 滴定分析 (容量分析)用试验溶液的制备
- 粪污处理产业发展政策与法规
评论
0/150
提交评论