地理数学方法判别分析_第1页
地理数学方法判别分析_第2页
地理数学方法判别分析_第3页
地理数学方法判别分析_第4页
地理数学方法判别分析_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

地理数学方法判别分析第一页,共五十七页,2022年,8月28日判别分析§1.基本原理§2.基本操作§3.选项设置§4.实例分析第二页,共五十七页,2022年,8月28日§1.基本原理

定义:判别分析是先根据已知类别的事物的性质(自变量),建立函数式(自变量的线性组合,即判别函数),然后对未知类别的新事物进行判断以将之归入已知的类别中。第三页,共五十七页,2022年,8月28日判别分析有如下的假定:预测变量服从正态分布。预测变量之间没有显著的相关。预测变量的平均值和方差不相关。预测变量应是连续变量,因变量(类别或组别)是间断变量。两个预测变量之间的相关性在不同类中是一样的。第四页,共五十七页,2022年,8月28日

在分析的各个阶段应把握如下的原则:事前组别(类)的分类标准(作为判别分析的因变量)要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别分析的效果。所分析的自变量应是因变量的重要影响因素,应该挑选既有重要特性又有区别能力的变量,达到以最少变量而有高辨别能力的目标。初始分析的数目不能太少。第五页,共五十七页,2022年,8月28日判别分析是一种有效的对个案进行分类分析的方法,组别的特征已知。如银行为了对贷款进行管理,需要预测哪些类型的客户可能不会按时归还贷款。已知过去几年中,900个客户的贷款归还信誉度,据此可以将客户分成两组:可靠客户和不可靠客户。第六页,共五十七页,2022年,8月28日

再通过收集客户的一些资料,如年龄、工资收入、教育程度、存款等,将这些资料作为自变量。通过判别分析,建立判别函数。那么,如果有150个新的客户提交贷款请求,就可以利用创建好的判别函数,对新的客户进行分析,从而判断新的客户是属于可靠客户类,还是不可靠客户类。第七页,共五十七页,2022年,8月28日判别分析的目的是得到体现分类的函数关系式,即判别函数。基本思想是在已知观测对象的分类和特征变量值的前提下,从中筛选出能提供较多信息的变量,并建立判别函数;目标是使得到的判别函数在对观测量进行判别其所属类别时的错判率最小。判别函数的一般形式是:其中,为判别函数判别值;为反映研究对象特征的变量;为各变量的系数,即判别系数。

常用的判别法有距离判别法、Fisher(费歇尔)判别法和Bayes(贝叶斯)判别法。第八页,共五十七页,2022年,8月28日例1人文发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示分别采用出生时的预期寿命、成人识字率和实际人均GDP,将以上三个指示指标的数值合成为一个复合指数,即为人文发展指数。资料来源UNDP《人类发展报告》1995年。今从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品,另选四个国家作为待判样品作判别分析。使用三种判别方法进行判别,并进行研究三者之间的关系。第九页,共五十七页,2022年,8月28日第十页,共五十七页,2022年,8月28日本例中变量个数p=3,两类总体各有5个样品,即n1=n2=5,有4个待判样品,假定两总体协差阵相等。两组线性判别的计算过程如下:(1)计算两类样本均值(2)计算样本协差阵,从而求出第十一页,共五十七页,2022年,8月28日类似地经计算第十二页,共五十七页,2022年,8月28日(3)求线性判别函数W(X)解线性方程组得第十三页,共五十七页,2022年,8月28日(4)对已知类别的样品判别分类对已知类别的样品(通常称为训练样品)用线性判别函数进行判别归类,结果如下表,全部判对。第十四页,共五十七页,2022年,8月28日(5)对判别效果作检验判别分析是假设两组样品取自不同总体,如果两个总体的均值向量在统计上差异不显著,作判别分析意义就不大:所谓判别效果的检验就是检验两个正态总体的均值向量是否相等,取检验的统计量为:其中将上边计算结果代人统计量后可得:第十五页,共五十七页,2022年,8月28日函数有效。故在检验水平下,两总体间差异显著,即判别(6)对待判样品判别归类结果如下表:第十六页,共五十七页,2022年,8月28日

2、继续用前面距离判别法例1的人文发展指数的数据作Bayes判别分析。贝叶斯准则:一种概率方法把已知的地理数据分成几类,计算出未知地理类型或者区域归属于各已知类型的概率值,它归属于哪一类的概率值最大,就把它划归为该类。第十七页,共五十七页,2022年,8月28日这里组数k=2,指标数p=3,n1=n2=5代人判别函数:第十八页,共五十七页,2022年,8月28日得两组的判别函数分别为:将原各组样品进行回判结果如下一灯片表:待判样品判别结果如下:第十九页,共五十七页,2022年,8月28日3、利用距离判别法中例l的人文发展指数的数据作Fisher判别分析:

费歇尔准则较优的判别函数应该能根据待判断对的n个指标最大限度地将它所属的类与其它类区分开来一般采用线性判别函数基本方法:首先假定判别函数(线性函数),然后根据已知信息对判别函数进行训练,得到函数关系式中的关系值,从而最终确定判别函数第二十页,共五十七页,2022年,8月28日

(1)建立判别函数利用前例计算的结果,可得Fisher判别函数的系数第二十一页,共五十七页,2022年,8月28日所以判别函数为(2)计算判别临界值y0。由于所以第二十二页,共五十七页,2022年,8月28日

(3)判别准则(4)对已知类别的样品判别归类第二十三页,共五十七页,2022年,8月28日第二十四页,共五十七页,2022年,8月28日上述回判结果表明:总的回代判对率为100%,这与统计资料的结果相符,而且与前面用距离判别法的结果也一致。(5)对判别效果作检验由于所以在检验水平下判别有效。(6)待判样品判别结果如下:判别结果与实际情况吻合。第二十五页,共五十七页,2022年,8月28日§2.基本操作

SPSS利用“Discriminate”过程进行判别分析操作,下面给出基本操作步骤。Step1:打开主对话框。选择“Analyze”→“Classify”→“Discriminate”命令,打开“DiscriminateAnalysis”对话框,如图1.1所示图1.1“DiscriminateAnalysis”对话框,第二十六页,共五十七页,2022年,8月28日Step2:选择分组变量和自变量在变量列表中选择指定分组变量,单击右向箭头按钮,将其移动至右侧的“GroupingVariable”(分组)文本框中,并单击“DefineRange”(定义范围)按钮,出现图1.2所示的“DiscriminantAnalysis:DefineRange”(判别分析定义范围)对话框,在“Minimum”文本框中输入该分组变量的最小值,在“Maximum”文本框中输入该分组变量的最大值,单击“Continue”按钮,返回主对话框。图1.2“DiscriminateAnalysis:DefineRange”对话框第二十七页,共五十七页,2022年,8月28日在变量列表中选择判别分析的变量,单击右向箭头按钮,将其移动至“Independents”(自变量)列表框中。Step3:选择判别分析方法。在主对话框中,自变量列表框下侧显示两个单选框,用于指定选择判别分析的方法。

Enterindependentstogether默认选项。当认为所有自变量都能对观测特性提供丰富的信息时,使用该选项,选择该项将不加uanz地使用所有自变量进行判别分析,建立全模型,且不需要进一步选择。

Usestepwisemethod逐步分析方法。当认为不是所有自变量都能对观测量特性提供丰的信息时,选择该项,因此需要判别贡献的大小再进行选择。选中该单选按钮时,“Method”按钮被激活,可以进一步选择判别分析方法。第二十八页,共五十七页,2022年,8月28日Step4:选择变量值标识。如果需要使用一部分个案参与判别函数的推导,而且有一个变量的某个值可以作为这些观测量的标识,则用SelectVariable功能进行选择。方法为在变量列表中选择变量,单击右向箭头按钮,将其移动至“Selection”(选择变量)文本框;然后单击“Selection”文本框右侧的“Value”按钮,显示“DiscriminantAnalysis:SetValue”(判别分析:设定值)子对话框,如图1.3所示,输入选择变量的标识。单击“Continue”按钮,返回主对话框。图1.3“DiscriminantAnalysis:SetValue”第二十九页,共五十七页,2022年,8月28日Step5:执行操作。选择完毕后,单击“OK”按钮,执行判别分析操作。第三十页,共五十七页,2022年,8月28日§3.选项设置§3.1Method选项选择“Usestepwisemethod”方法进行判别分析时,“Method”(方法)按钮将被激活,单击“Method”按钮,打开“DiscriminantAnalysis:StepwiseMethod”(判别分析:逐步分析方法)对话框,如图1.4所示第三十一页,共五十七页,2022年,8月28日在“Method”选项组中选择进行逐步判别分析的方法,可供选择的判别分析方法有5种:

1.Wilks’lambdaWilks’lambda方法。默认选项,每步都是Wilk的概计量最小的进入判别函数。

2.Unexplainedvariance不可解释方差方法。选择该项,表示每步都是使各类不可解释的方差和最小变量进入判别函数。

3.Mahalanobis’distanceMahalanobis距离方法。选择该项,表示每步都使靠的最近的两类间Mahalanobis距离最大的变量进入判别函数。

4.SmallestFratio最小F值方法。选择该项,表示每步都使任何两类间的最小的F值最大变量进入判别函数。第三十二页,共五十七页,2022年,8月28日

5.Rao’sVRaoV统计量。选择该项,表示每步都使RaoV统计量产生最大增量的变量进入判别函数,可以对一个要加入到模型中的变量的V值指定一个最小增量。选择该方法时需要在该项下面的“V-to-enter”(输入V值)文本框中输入这个增量的指定值,当某变量导致的V值增量大于指定值的变量进入判别函数。“Criteria”(准则)选项组用于选择逐步判别停止的判据,可供选择的判据包括以下几项:第三十三页,共五十七页,2022年,8月28日

UseFvalue默认选项。使用F值是系统默认的判据,当加入一个变量(或剔除一个变量)后,对判别分析的变量进行方差分析。当计算的F值大于指定的Entry值时,该变量保存在函数中,默认Entry值是3.84;当该变量使计算的F值小于指定的Removal值时,该变量从函数中剔除,默认Removal值是2.71。即当被加入的变量F值为3.84时,才把该变量加入到模型中,否则变量不能进入模型;或者当要从模型中移出的变量F值为2.71时,该变量才被移出模型,否则模型中的变量不会被移出。设置这两个值时应该注意Entry值和Removal值。

UseprobabilityofF选择该项,表示用F检验的概率决定变量是否被加入函数或被剔除,而不是用F值加入变量的,F值概率的默认值是0.05,移出变量的F值概率是0.10。Removal值是移出变量的F值概率;Entry值是加入变量的F值概率。第三十四页,共五十七页,2022年,8月28日“Display”(显示)选项组的选项用于显示逐步变量判别法的过程设置。有以下两个复选项:

Summaryofstep要求在逐步选择变量过程中的每一步之后显示每个变量的统计量。

Fforpairwisedistances要求显示两两类之间的两两F值矩阵。第三十五页,共五十七页,2022年,8月28日§3.2Statistics选项在主对话框中单击“statistics”按钮,打开“DiscriminantAnlysis:statistics”(判别分析:统计量)对话框,如图1.5所示。图1.5“DiscriminantAnlysis:statistics”对话框第三十六页,共五十七页,2022年,8月28日该对话框中给出了输出结果中显示的统计量,包括如下选项。在“descriptive”(描述性)选项组中选择对原始数据的描述统计量的输出。

Means均值。选择该项,可以输出各类中各自变量的均值、标准差以及各自变量总样本的均值和标准差。

UnivariateANOVA单变量方差分析。选择该项,表示对每一类同一自变量均值都相等的假设进行检验,输出单变量的方差分析结果。

Box’sM选择该项,表示对各类的协方差矩阵相等的假设进行检验。第三十七页,共五十七页,2022年,8月28日“FunctionCoefficients”(判别分析的系数)选项组中给出选择判别函数系数的输出形式的选项,有两个复选项:

Fisher’s选择该项,表示可以用于对新样本进行判别分类的fisher系数,对每一类给出一组系数,并给出该组中判别分数最大的观测量。

Unstandardized选择该项,表示未经标准化处理的判别系数。在“matrices”(矩阵)选项组中选择自变量的系数矩阵,有4个复选项:

Within-groupcorrelation类内相关矩阵。它计算相关矩阵之前将各组协方差矩阵平均后,计算类内相关矩阵。

Within-groupcovariance合并类内协方差矩阵,是将各组(类)协方差矩阵平均后计算的,区别与总协方差矩阵。

Separate-groupscovariance协方差矩阵。

Totalcovariance总样本的协方差矩阵。第三十八页,共五十七页,2022年,8月28日§3.3Classification选项在主对话框中单击“classify”按钮,显示“DiscriminantAnalysis:Classification”(判别分析:分类)子对话框,如图1.6所示。图1.6“DiscriminantAnalysis:Classification”对话框第三十九页,共五十七页,2022年,8月28日该对话框用于指定分类参数和判别结果。分别介绍各个选项组的选项。在“priorprobabilities”选项组中选择先验概率,有两个单选项供选择:

Allgroupsequal表示各类先验概率相等。

Computefromgroupssizes表示由各类的样本量计算决定,即各类的先验概率与其样本量成正比。在“usecovariancematrix”(利用协方差矩阵)选项组中选择分类使用的协方差矩阵,有两个单选项:

Within-groups选择该项,表示指定使用合并组内协方差矩阵进行分类。

Separate-groups选择该项,表示指定使用各组协方差矩阵进行分类,由于分类是根据判别函数而不是根据原始变量,因此该选择项不是总等价于二次判别。第四十页,共五十七页,2022年,8月28日在“plots”选项组中选择要求输入的统计图形,给出3个复选项:

Combined-groups选择该项,生成一张包括各类的散点图,该散点图是根据前两个判别函数值做的散点图;如果只有一个判别函数,就输出直方图。

Separate-groups选择该项,根据前两个判别函数值对每一类生成一张散点图,共分为几类就生成几张散点图;如果只有一个判别函数就生成一张直方图。

Territorialmap选择该项,生成用于根据函数值把观测量分到各组中去的边界图,此种统计图把一张图的平面划分出与类数相同的区域,每一类占据一个区,各类的均值在各区中用*号标出;如果仅有一个判别函数则不作此图。第四十一页,共五十七页,2022年,8月28日在“display”选项组中选择生成到输出窗中的分类结果,其中包括3个复选框:

Casewiseresults要求输出每个管测量,包括判别分数实际类预测类(根据判别函数求得的分类结果)和后验概率等,选择此项还可以选择其附属选择项,选择“Limitcasesto”(个案限制)选项,并在后面的文本框中输入观测量数n,选择此项则仅对前n个观测量输出分类结果,观测数量大时可以选择此项。

Summarytable要求输出分类的综述表,给出正确分类观测数(原始类和根据判别函数计算的预测类相同)和错分观测量数即错分率。

Leave-one-outclassification输出对每个观测量进行分类的结果,所依据的判别时由除该观测量以外的其他观测量导出的,也称为交互校验结果。该对话框给出选择缺失值的处理方法,即“Replacemissingvalueswithmean”,表示用该变量的均值代替缺失值。第四十二页,共五十七页,2022年,8月28日§3.4Save选项在主对话框单击“save”按钮,打开“DiscriminantAnalysis:Save”(判别分析:保存)对话框,如图1.7所示。该对话框用于指定生成并保存在数据文件中的新变量,其中包括如下选项:图1.7“DiscriminantAnalysis:Save”对话框第四十三页,共五十七页,2022年,8月28日

Predictedgroupsmembership选择该项,要求建立一个新变量预测观测量的分类,是根据判别分数把观测量按后验概率最大指派所属的类,每运行一次“Discriminant”过程就建立一个,表民使用判别函数预测各观测量属于哪一类的新变量。第一次运行建立新变量的变量名为dis_1,如果在工作数据文件中不把前一次建立的新变量删除,第n次运行建立的新变量名为dis_n。

Discriminantscores选择该项,要求建立表明判别分数的新变量,该分数是由未标准化的判别系数乘自变量的值,将这些乘积求和后加上常数得来的。每次运行“Discriminant”过程就给出一组表明判别分数的新变量,建立几个判别函数就有几个判别分数变量参与分析的观测量,共分为m类,则建立m个点则判别函数指定该选择项就可以生成m-1个表明判别分数的新变量。

Probabilitiesofgroupsmembership选择该项,要求建立新变量表明观测量属于某一类的概率。如果有m类,对一个观测量就会给出m个概率值,因此建立m个新变量。第四十四页,共五十七页,2022年,8月28日§4.实例分析例1、为研究舒张期血压和血浆胆固醇对冠心病的作用,某医师测定了50—59岁冠心病人15例和正常人16例的舒张压和胆固醇指标,结果如下表所示。试做判别分析,建立判别函数以便在临床中用于筛选在临床中用于筛选冠心病人(数据文件:discriminant.sav)第四十五页,共五十七页,2022年,8月28日冠心病人组正常人组编号舒张压胆固醇编号舒张压胆固醇19.865.18110.662.07213.333.73212.534.45314.663.89313.333.0649.337.1049.333.94512.805.49510.664.45610.664.09610.664.92710.664.4579.333.68813.333.63810.662.77913.335.96910.663.211013.335.701010.665.021112.006.191110.403.941214.664.01129.334.921313.334.011310.662.691412.803.631410.662.431513.335.961511.203.42169.333.63第四十六页,共五十七页,2022年,8月28日操作步骤:Step1:读取数据文件discriminant.sav。其中,变量名“舒张压”、“胆固醇”代表两项指标值。病人资料和正常人资料合并一同输入,定义变量名为“组别”的变量用于区分冠心病人资料和正常人资料,即冠心病人资料的“组别”值均为1,正常人资料的“组别”值均为2.Step2:选择“Analysis”→“Classify”→“Discriminant”命令,在“DiscriminantAnalysis”对话框中,选择“组别”变量进入“GroupingVariable”文本框;单击“DefineRange”按钮,在“Minimum”文本框中输入1,在“Maximum”文本框中输入2,单击“Continue”按钮,返回主对话框。Step3:选择变量“舒张压”和“胆固醇”移动到“Independents”列表框中,本例选择“Enterindependentstogether”判别方式作为判别分析的方法。第四十七页,共五十七页,2022年,8月28日

Step4:单击“Statistics”按钮,在“Descriptive”选项中选择“Mean”;在“FunctionCoefficients”选择“Unstandardized”。单击“Continue”按钮,返回主对话框。

Step5:单击“Classify”按钮,在“Plot”选项组中选择“Combined-groups”选项,在“Display”选项组中选择“Casewiseresult”和“Summmarytable”选项;单击“Continue”按钮,返回主对话框。

Step6:单击“Save”按钮,在弹出的对话框中选择“Predictedgroupmembership”选项,单击“Continue”按钮,返回主对话框。

Step7:单击“OK”按钮,执行判别分析操作。第四十八页,共五十七页,2022年,8月28日判别分析的结果1、分析个案综合统计量表1.2和表1.3所示为系统处理的数据简明表明中的数据,按变量“组别”分组共有31个样本为判别基础数据进入分析,其中第一组十五例,第二组十六例。AnalysisCaseProcessingSummaryUnweightedCasesNPercentValid31100.0ExcludedMissingorout-of-rangegroupcodes0.0

Atleastonemissingdiscriminatingvariable0.0

Bothmissingorout-of-rangegroupcodesandatleastonemissingdiscriminatingvariable0.0

Total0.0Total31100.0表1.2分析个案综合统计量第四十九页,共五十七页,2022年,8月28日2、分组统计量表1.3所示为分组统计量列表。表中给出分组变量和合计的均数(means)、标准差(standarddeviation)和有效个案的例数。GroupStatistics表1.3分组统计量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论