第五章 统计方法_第1页
第五章 统计方法_第2页
第五章 统计方法_第3页
第五章 统计方法_第4页
第五章 统计方法_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章统计方法第一页,共二十页,编辑于2023年,星期四式中分子是残差和,分母是残差的自由度。分析步骤:首先,计算模型所有输入的S2,然后一一删除这些输入,若删除一个有用的输入,S2第二页,共二十页,编辑于2023年,星期四的估计值将会大幅度上升,若删除一个多余的输入,估计值不会有太大的变化。在上述步骤的迭代过程中,引入F比率和F统计检验,形式如下:若一个输入被删除后,F接近于1,新模型合适;若F值明显大于1,说明新模型不合适。应用迭代的方差分析方法,能识别哪一个输入和输出的相关的,哪些是不相关的。第三页,共二十页,编辑于2023年,星期四下表是有3个输入的数据集的方差分析情况输入集Si2F1x1,x2,x33.562x1,x23.98F21=1.123x1,x36.22F31=1.754x2,x38.34F41=2.345X19.02F52=2.276X29.89F62=2.48第四页,共二十页,编辑于2023年,星期四上述分析结果,只有删除x3,F没有明显变化,其他情况F比值显著增加,因此可以删除,不影响模型的性能。方差的多元分析是方差分析的一个推广,解决了输出不是单个数值而是一个向量的数据分析问题。方差的多元分析基于这样一个假设,输出变量间相互独立,采用一个多元线性模型来建模:第五页,共二十页,编辑于2023年,星期四残差矩阵R为:古典的多元分析也包含基本的分析方法,如一组样本向量如何转换为一组新的维数更少的样本向量。数据归约和数据转换中用到。第六页,共二十页,编辑于2023年,星期四5.6对数回归线性回归用于对连续值函数进行建模。广义回归模型提供了将线性回归用于分类响应变量建模的理论基础,它最常见的形式是对数回归。对数回归将某些事件发生的概率建模为预测变量集的线性函数。它不是预测因变量的值,而是估计因变量取给定值的概率p。例如,对数回归不预测顾客的信用等级是好是坏,而是试着估计顾客有好的信用等级的概率。第七页,共二十页,编辑于2023年,星期四对数回归仅适用于输出变量是二元分类变量的情况。但输入变量也可以是定量的,它支持一般的输入数据集。假设输出Y有两个分类值编码为0和1,由数据集能计算出所给输入样本所产生的输出值取0和取1的概率。对数回归的模型表示为:输出用对数据是为了结果输出在[0,1]区间。第八页,共二十页,编辑于2023年,星期四假设有一训练数据集,用线性回归建成模为:并假设给出一新的待分类的样本,其输入值{x1,x2,x3}={1.,0,1},用上面模型可估计出输出值为1的概率。根据概率p的最终结果,可推出输出值Y=1的可能性比分类值Y=0小。和挖掘的其他方法对比较。第九页,共二十页,编辑于2023年,星期四5.7对数-线性模型对数-线性建模是一种分类(或数量型)变量间关系的方法。对数-线性模型近似于离散的、多元的概率分布。它是一种假设输出Yi具有泊松分布的的广义线性模型,假设其期望值μj的自然对数是输入的线性函数:第十页,共二十页,编辑于2023年,星期四由于所感兴趣的变量是分类变量,用表示数据总体分布的频率表来表示它们。对数-线性建模的主要目的是识别分类变量间的关联。因此,此类分类问题转换成了求模型中所有β值为0的问题。如果对数-线性模式中变量间有相互作用,表示这些变量不是独立的而是相关的,相应的β值不为0。由于所研究的问题是变量间的关联,因此没有必要将分类变量作为分析的输出。如果需要输出,可采用对数回归来分析。此处仅解释一个定义数据集时没有输出变量的对数-对性模型。第十一页,共二十页,编辑于2023年,星期四一致性分析是分析关联矩阵(也称列联表)中的分类数据。其分析结果回答了“所分析的变量间是否有关联”这个问题。例如,下表是一个2×2列联表,有关男性和女性对堕胎态度的调查结果,样本数=1100,两个分类变量-性别(男性和女性)和赞同(是和否),每一种情况都有累积结果。赞同是否总计性别女309191500男319281600总计6284721100第十二页,共二十页,编辑于2023年,星期四对数-线性模型用于解决分类变量间的关联,分析步骤是它基于根据两个列联表的比较,定义变量间关联的算法:

1.第一步,把所给的列联表转换成一个具有期望值的表,并假定这些变量间是在独立的情况下来计算这些值。

2.第二步,用平均距离指标和卡方检验作为评价两个分类变量关联的标准,对这两个矩阵进行比较。第十三页,共二十页,编辑于2023年,星期四算法思路:用Xm×n来表示这个列联表。其行和为:其列和为:行和的总和为:列和的总和为:第十四页,共二十页,编辑于2023年,星期四假定各行和各列变量间没有关联。用这些和可以计算期望值的列联表。期望值计算如下:由上式可得到期望值的新表,两个表具有相同的维数。上例计算结果如下:j=1,…,m,i=1,…,n赞同是否总计性别女285.5214.5500男342.5257.5600总计6284721100第十五页,共二十页,编辑于2023年,星期四到此已完成算法的第一步,下一步是关联卡方检验的应用。初始假设H0是假设两个变量是不相关的,可以用皮氏卡方公式来检验:χ2的值越大,拒绝假设H0的可能性越大。对于上例有如下检验结果:第十六页,共二十页,编辑于2023年,星期四按照m×n维表自由度的计算公式为:

d.f.(degreesofreedom)=(m-1)(n-1)=(2-1)(2-1)=1一般,在置信水平α下若χ2≥T(α),那么拒绝假设H0。其中T(α)是χ2分布表的阈值,本例中,选择α=0.05,可得:作简单的比较结论是拒绝假设H0,则男性和女性对堕胎的态度有很大的差异。第十七页,共二十页,编辑于2023年,星期四5.8线性判别分析线性判别分析(LDA)是解决因变量是类型的(名义类型或顺序类型),自变量是数值型的分类问题,LDA的目标是构造一个判别函数,能够通过对不同的输出类中的数据进行计算产生不同的分数。线性判别函数的形式如下:式中x1,x2,…,xk是自变量,z是判别得分,w1,w2,…,wk是加权。第十八页,共二十页,编辑于2023年,星期四判别函数z的构造是求出一组权值wi,这组权值能使预分类的样本集的判别得分的类间方差和类内方差的比率达到最大。构造出判别函数z后,就可以用它来预测一个新的未被分类的样本的类。分数线(cuttingscores)是判断单个判别得分的标准。设za和zb分别是类A和类B中预分类的样本的平均判别得分。如果两类样本一样大且服从同一方差分布,那么分数线Zcut-ab的最佳选择是:

zcut-ab=(za+zb)/2第十九页,共二十页,编辑于2023年,星期四当z>zcut-ab时,新样本为A类;当z<zcut-ab时,新样本为B类;当z=zcut

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论