版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、7.聚类算法7.1 k-means ( k 均算法定义以及原理:定义:k均值聚类算法(k-means clustering algorithm )是一种迭代求解的聚类分析算法,其步骤是随 机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分 配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类 的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件 可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误 差平方和局部最小。原理:K-Means
2、算法是一种无监督分类算法,假设有无标签数据集:1X2X该算法的任务是将数据集聚类成K个簇C Ci,Ck,最小化损失函数为:k2Exii 1 x Ci1)其中i为簇Ci的中心点:(2)K -Means算法使用贪心策略求得一个1 cixCi要找到以上问题的最优解需要遍历所有可能的簇划分,近似解,具体步骤如下:1)在样本中随机选取k个样本点充当各个簇的中心点2)计算所有样本点与各簇中心之间的距离dist x,然后把样本点划入最近的簇中n earest3)根据簇中已有的样本点,重新计算簇中心1|cx q(4)重复2,37.1.2算法特点 优点:容易实现。缺点:可能收敛到局部最小值,在大规模数据上收敛较
3、慢。适合数 据类型:数值型数据。7.1.3聚类过程创建k个点作为k个簇的起始质心(经常随机选择)。分别计算剩下的元素到k个簇中心的相异度(距离),将这些元素分别划归到相异度最低的簇。根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均值。将D中全部元素按照新的中心重新聚类。重复第4步,直到聚类结果不再变化。最后,输出聚类结果。7.1.4算去实现 创建k个点作为K个簇的起始质心(经常随机选择)当任意一个点的簇分配结果发生 变化时(初始化为True)对数据集中的每个数据点,重新分配质心对每个质心计算质心到数据点之间的距离将数据点分配到距其最近的簇对每个簇,计算簇中所有
4、点的均值并将均值作为新的质心7.1.5算法总结与讨论虽然K-Means算法原理简单,但是也有自身的缺陷:首先,聚类的簇数K值需要事先给定,但在实际中这个K值的选定是非常难以估计的,很多时候,事 先并不知道给定的数据集应该分成多少个类别才最合适。K -Means需要人为地确定初始聚类中心,不同的初始聚类中心可能导致完全不同的聚类结果,不能保证K -Means算法收敛于全局最优解。针对此问题,在K -Means的基础上提出了二分K-Means算法。该算法首先将所有点看做是一个簇,然后一分为二,找到最小SSE的聚类质 心。接着选择其中一个簇继续一分为二,此处哪一个簇需要根据划分后的SSE值来判断。对
5、离群点敏感。(4 )结果不稳定(受输入顺序影响)。(5)时间复杂度高O (nkt),其中n是对象总数,k是簇数,t是迭代次数。5)7-16确定K个簇的初始质心的方法 选择批次距离尽可能远的K个点首先随机选择一个点作为第一个初始类簇中心点,然后选择距离该 点最远的那个点作为第二个初始类簇中心点,然后再选择距离前两个点的最近距离最大的点作为第三个初 始类簇的中心点,以此类推,直至选出K个初始类簇中心点。选用层次聚类或者Canopy算法进行初始聚类,然后利用这些类簇的中心点作为K-Means算法初 始类簇中心点。7.2模糊c-均值聚类算法FCM算法的概念模糊c均值聚类算法fuzzy c-means
6、algorithm (FCMA)或称(FCM )。在介多模糊聚类算法 中,模糊C均值(FCM )算法应用最广泛且较成功,它通过优化目标函数得到每个样本点对所有类中 心的隶属度,从而决定样本点的类属以达到自动对样本数据进行分类的目的。FCM算法原理假定我们有数据集X,我们要对X中的数据进行分类,如果把这些数据划分成c个类的话,那么对应的就有c类中心为Ci,每个样本Xj属于某一类Ci的隶属度定为Uij,那么定义一个FCM目标函数及其约束条件如下:cnmJUpjXjCi(3)Mj1c(4)11目标函数(式3)由相应样本的隶属度与该样本到各类中心的距离相乘组成的,式4为约束条件,也就是一个样本属于所有
7、类的隶属度之和要为1。式1中的m是一个隶属度的因子,一般为2,畑表示“到中心点q的欧式距离。Uij的迭代公式为:cki 昼2mlXiCi的迭代公式:6)NmCjilUij* XiNmi 1uij我们发现Uij和Ci是相互尖联的,彼此包含对方,程序一开始会随机生成一个Uij,只要数值满足条件即可,然后开始迭代,通过Uij计算出Ci,有了 Ci又可以计算出Uij,反反复复,这个过程中目标函数J 一直在变化,逐渐纟刍向稳定。那么当J不在变化时就认为算法收敛到一个较好 的结果了。FCM算法步骤确定分类数,指数m的值,确定迭代次数。初始化一个隶属度U (注意条件和为1)。根据U计算聚类中心C。 这个时候
8、可以计算目标函数J了。根据C返回去计算U,回到步骤3,一直循环直到结束。SOM (自组织映射网络)SOM的定义它模拟人脑中处于不同区域的神经细胞分工不同的特点,即不同区域具有不同的响应特征,而且这一过程是自动完成的。自组织映射网络通过寻找最优参考矢量集合来对输入模式集合进行分类。 每个参考矢量为一输出单元对应的连接权向量。与传统的模式聚类方法相比,它所形成的聚类中心能映射到 一个曲面或平面上,而保持拓扑结构不变。对于未知聚类中心的判别问题可以用自组织映射来实现。SOM的特点自组织神经网络是神经网络最富有魅力的研究领域之一,它能够通过其输入样本学会检测其规律性和 输入样本相互之间的尖系,并且根据
9、这些输入样本的信息自适应调整网络,使网络以后的响应与输入样本 相适应。竞争型神经网络的神经元通过输入信息能够识别成组的相似输入向量;自组织映射神经网络通过 学习同样能够识别成组的相似输入向量,使那些网络层中彼此靠得很近的神经元对相似的输入向量产生响 应。与竞争型神经网络不同的是,自组织映射神经网络不但能学习输入向量的分布情况,还可以学习输入 向量的拓扑结构,其单个神经元对模式分类不起决定性作用,而要靠多个神经元的协同作用才能完成模式分 类。SOM的工作原理先来了解它是如何工作的,用随机值或从输入中随机采样对连接权重进行初始化,网格中的每个神经元都被赋予一个位置。数据输入后,测量输入向量(X)和
10、所有神经元权向量(W )之间的距离,与输入 数据距离最小的神经元为胜者(WTU ),距离度量如下:27)djWji xid其中,是神经元j的权重与输入X之间的距离,最小距离的神经元是胜者。第二步,调整获胜神经元及其邻域神经元的权重以确保如果下一次是相同的输入则胜者还是同一个神经元。网络采用邻域函数确定哪些邻域神经元权重需要修改,通常使用高斯墨西哥帽函数作为邻域函数,数学表达式如下:8)其中,是随时间变化的神经元影响半径,d是距离获胜神经元的距离。邻域函数的一个重要特性是它的 半径随时间而减小,这样刚开始时较多邻域神经元权重被修改,但是随着网络的学习,最终只有少量的神 经元的权重被修改(有时只有
11、一个或没有)。权重的改变由下式计算:dWX Wg)按照这个方法继续处理输入,重复执行给定的迭代次数。在迭代过程中利用一个与迭代次数相尖的因子来减少学习率和影响半径。8分类算法8.1.k-NN (k 近邻)8.1.1 KNN算法的概念K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K 个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。这就类似于现实生活中少数服 从多数的思想。下面通过一个简单的例子说明一下:如下图,图8-1样本数据图如上图所示,有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中间的那 个绿色的圆所标示的数
12、据则是待分类的数据。这也就是我们的目的,来了一个新的数据点,我要得到它的 类别是什么?好的,下面我们根据k近邻的思想来给绿色圆点进行分类。如果K=3,绿色圆点的最邻近的3个点是2个红色小三角形和1个蓝色小正方形,少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于红色的三角形一类。 如果K=5, 绿色圆点的最邻近的5个邻居是2个红色三角形和3个蓝色的正方形,还是少数从属于多数,基于统计的 方法,判定绿色的这个待分类点属于蓝色的正方形一类。从上面例子我们可以看出,k近邻的算法思想非常的简单,也非常的容易理解,那么我们是不是就到此 结束了,该算法的原理我们也已经懂了,也知道怎么给新来的点如何
13、进行归类,只要找到离它最近的k个 实例哪个类别最多即可。8.1.2距离的度量在上文中说到 k近邻算法是在训练数据集中找到与该实例最邻近的个实例的 K个实例,这K 多数属于某个类,我们就说预测点属于哪个类。定义中所说的最邻近是如何度量呢?我们怎么知道谁跟测试点最邻近。这里就会引出我们几种度量两个点之间距离的标准。我们可以有以下几种度量方式:设特征空间Z是n维实数向量空间FT,Xi,Xj乙Xi123Xi,Xi,XiXi12xj Xj ,Xj3,Xj ,Xjn ,Xi.Xj的Lp距离定义为LpXi,XjippiiXi Xj1110)这里P 1,当P=2时,称为欧氏距离,即11)l_2Xi,Xj11
14、xj当P时,称为曼哈顿距离,即Li Xi,Xj|Xjxi1112)当p时,它是各个坐标距离的最大值,即L Xj ,Xj max Xj “其中当p=2的时候,就是我们最常见的欧式距离,我们也一般都用欧式距离来衡量我们高维空间中俩点的距离。在实际应用中,距离函数的选择应该根据数据的特性和分析的需要而13) 定,一般选取P=2欧式距离表示。KNN算法KNN算法的思想总结如下:就是在训练集中数据和标签已知的情况下,输入测试数据,将测试数据 的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应 的类别就是K个数据中出现次数最多的那个分类,其算法的描述为:初始化距
15、离为最大值。 计算未知样本和每个训练样本的距离dist,然后对所有的距离进行排序,选择前k个距离。得到目前K个最临近样本中的最大距离maxdist如果dist小于maxdist,则将该训练样本作为K最近邻样本,然后在邻近样本空间中选择最多的类 别。重复步骤2、3、4,直到未知样本和所有训练样本的距离都算完统计K最近邻样本中每个类标号出现的次数选择出现频率最大的类标号作为未知样本的类标号8.2决策树之ID3算法8.2.1决策树的基本认识 决策树是一种依托决策而建立起来的一种树。在机器学习中,决策树是一 种预测模型,代表的是一种对象属性与对象值之间的一种映射尖系,每一个节点代表某个对象,树中的每
16、一个分叉路径代表某个可能的属性值,而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所表示 的对象的值。决策树仅有单一输出,如果有多个输出,可以分别建立独立的决策树以处理不同的输出。8.2.2 ID3算法介绍ID3算法是决策树的一种,它是基于奥卡姆剃刀原理的,即用尽量用较少的东西做更多的事。ID3算法,即Iterative Dichotomiser 3 ,迭代二叉树3代,是Ross Quintan发明的一种决策树算法,这个算 法的基础就是上面提到的奥卡姆剃刀原理,越是小型的决策树越优于大的决策树,尽管如此,也不总是生成 最小的树型结构,而是一个启发式算法。在信息论中,期望信息越小,那么信息
17、增益就越大,从而纯度就 越高。ID3算法的核心思想就是以信息增益来度量属性的选择,选择分裂后信息增益最大的属性进行分 裂。该算法采用自顶向下的贪婪搜索遍历可能的决策空间。8.2.3信息、嫡与信息、增益在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信 息,带来的信息越多,该特征越重要。在认识信息增益之前,先来看看信息燔的定义。烟这个概念最早起 源于物理学,在物理学中是用来度量一个热力学系统的无序程度,而在信息学里面,爛是对不确定性的度 量。在1948年,香农引入了信息爛,将其定义为离散随机事件出现的概率15)一个系统越是有序,信息嫡就越低,反之一个系统越是混乱,它的信息爛就越高。
18、所以信息燔可以被认 为是系统有序化程度的一个度量。假如一个随机变量X的取值为X X1,X2 ,,Xn 每一种取到的概率分别是nPbPi,.5p n,那么X的燔定义为H Xpi log 2 p,这个公式的含义是一个变量的i1变化情况可能越多,那么它携带的信息量就越大。对于分类系统来说,类别C是变量,它P Cl ,P C2 P Cn。而这的取值是Cl,C2,.,Cn,而每一个类别出现的概率分别是 里的n就是类别的总数,此时分类系统的嫡就可以表示为:HCPG log2 P Ci A信息增益是针对一个一个特征而言的,就是看一个特征是多少两者的差值就是这彳、特征给系统带来的信息量(14) t,系统有它和
19、没有它时的信息 量各即信息增益。接下来以天气预报 的例子来说明。下面是描述天气数据表,学习目标是play 或者 not play。12345b7hot hot hot mild cool cool coolnonoyesyesyesnoyes图8-2天气预报数据例子可以看出,一共14个样例,包括9个正例和5个负例。那么当前信息的爛计算如下:Entropy S 14件14恼2 现2 940286在决策树分类问题中,信息增益就是决策树在进行属性选择划分前和划分后信息的差值。设利用属性Outlook来分类,那么如下图:(20)Outlooksunny overcast rainyYesYesNoNo
20、NoYesYesYes yes图8-3天气预报属性划分图这些属性划分后,数据被分为三部分了,那么各个分支的信息爛计算如下:Entropy sunnv loq2 loq2 0.9709515255En tropyovercast4og2g424En tropyrainy33 Iog2dog 2那么划分后的信息爛为:Entropy S TsO.970951 414 14YesYesYesNono(16)200log(17)20.970951(18)sO.970951 0.69353614(19)Entropy ST 代表在特征属性T的条件下样本的条件燔。那么最终得到特征属性T带来的信息增益为:IG
21、 T Entropy S Entropy ST 0.24675信息增益的计算公式如下:(21)IG ST Entropy 8 Entropy?:value T其中s为全部样本集合,value (T )是属性T所有取值的集合,v是T的其中一个属性值,Sv是S中属性T的值为v的样例集合,Sv为Sv中所含样例数。在决策树的每一个非叶子结点划分之前,先计算每一个属性所带来的信息增益,选择最大信息增益 的属性来划分,因为信息增益越大,区分样本的能力就越强,越具有代表性,很显然这是一种自顶向下的贪 心策略。因为信息增益越大,说明有该属性与无该属性时的信息爛相差很多。信息增益是有该属性与无 该属性之间的差值
22、,信息增益越大说明该属性的信息爛越大或者说占比很大,含有信息量越大,信息还 有的可能性更多,则区分样本的能力越强,易于区分样本。8.2.4 ID3算法缺陷抗噪声性差,如果数据样本数量太少或噪声太大,就会产生过拟合的问题。样本少,其树的构成基本上就是为少数样本量身定做的树,如果噪声太大,或样本少且有噪声的 话,很多树枝都是噪声拟合出来的。 在选择最优特征时,很容易倾向于选择“特征值种类较多”的特征,作为分类特征。举个极 端点的例子,假设有100个样本集,现在有一个特征其数值种类也是100,如果按该特征分类,就能把这个样本集分成100份,每份一个样本。在用ID3算法做决策树时,肯定会选择这个特征作
23、为第一个最优特征,因为这个特征分出来的样本集每一个纯度都是最高。无法处理特征值为连续型数据的特征。(不过可以考虑把连续型数据转化成离散型数据),即, 可以处理像性别特征、boolen特征等离散型特征,但没法处理特征值在某个区间内可以任意取值的特征, 如身高特征、年龄特征。8.3 C4.58.3.1 C4.5的概念C4.5算法是用于生成决策树的一种经典算法,是ID3算法的一种延伸和优化。C4.5算法对ID3算法主要做了一下几点改进:(1 )通过信息增益率选择分裂属性,克服了ID3算法中通过信息增益倾向于选择拥有多个属性值的属性作为分裂属性的不足;能够处理离散型和连续型的属性类型,即将连续型的属性
24、进行离散化处理;构造决策树之后进行剪枝操作;能够处理具有缺失属性值的训练数据。C4.5算法训练的结果是一个分类模型,这个分类模型可以理解为一个决策树,分裂属性就是一个树节点, 分类结果是树的结点。每个节点都有左子树和右子树,结点无左右子树。ID3算法通过信息增益假设以属性A作为分裂属性(分Splitinfo aSm Sjslog 2ji -Sis22)8.3.2 C4.5与信息增益率分裂属性选择的评判标准是决策树算法之间的根本区别。区别于选择分裂属性 C4.5算法通过信息增益率选择分裂属性。裂结点),属性A的“分裂信息” (split information)如下:其中,训练数据集S通过属性A
25、的属性值划分为m个子数据集, Sj表示第j个子数据集中样本数量,|耳表示划分之前数据集屮样木总数屋。以上文小的天气预报作为示例A是Outlook,则A有三个子数集分别有5、4、5个样本。通过属性A分裂之后样本集的信息增益为:InfoGain S,A E S EaSa( 23)通过属性A分裂之后样本集的信息增益率:InfoGain S,AInfoGainRation S,ASplillnfoA S(24)通过C4.5算法构造决策树时,信息增益率最大的属性即为当前节点的分裂属性,随着递归计算,被计算的属性的信息增益率会变得越来越小,到后期则选择相对比较大的信息增益率的属性作为分裂属性。8.3.3
26、C4.5算法流程如I、图所示:创建节点N用后剪枝方法进行剪枝结束图8-4 C4.5算法流程8.4随机森林8.4.1随机森林的基本概念随机森林分解开来就是“随机”和“森林”。“随机”的含义我们之后讲,我们先说“森林”, 森林是由很多棵树组成的,因此随机森林的结果是依赖于多棵决策树的结果,这是一种集成学习的思想。 森林里新来了一只动物,森林举办森林大会,判断这到底是什么动物,每棵树都必须发表意见,票数最多的 结果将是最终的结果。随机森林最终的模型见下图示:图8-5随机森林模型图8.4.2随机森林之如何构建每棵树假设共有N个样本,M个特征。这里我们讲“随机”的含义。对于每棵树都有放回的随机抽取训练样
27、本,这里抽取随机抽取2N /3的样本作为训练集,再有放回的随机选取m个特征作为这棵树的分枝的依据,这里要注意m= M。这就是“随机”两层含义,一个是随机选取样本, 一个是随机选取特征。这样就构建出了一棵树,需要注意的是这里生成的树都是完全生长的树(尖于为 什么是要完全生长的树,我认为的原因是便于计算每个特征的重要程度,剪枝的话将无法进行计算)。一 棵树的构建方式如下图所示:25)图8-6每棵树的构建方式图2/3样本做训练1/3样本做测试t按照这种方法,可以构建出很多棵树,那么这么多棵树综合评判的结果可以作为最后的结果吗?当然不是的,随机森林真正厉害的地方不在于它通过多棵树进行综合得出最终结果,
28、而是在于通过迭代使得森林中的树不断变得优秀(森林中的树选用更好的特征进行分枝)。上面的一个森林相当于第一次迭代得到的森林。8.4.3选出优秀特征的方法随机森林的思想是构建出优秀的树优秀的树需要优秀的特征。那我们需要知道各个特征的重要程度。对于每一棵树都有个特征,要知道某个特征在这个树中是否起到了作用,可以随机改变这个特征的 值,使得“这棵树中有没有这个特征都无所谓”,之后比较改变前后的测试集误差率,误差率的差距作为 该特征在该树中的重要程度,测试集即为该树抽取2N/3样本之后剩余的样本(袋外样本)(由袋外样本做测试集造成的误差称为袋外误差)。在一棵树中对于m个特征都计算一次,就可以算出m个特征
29、在该树中的重要程度。我们可以计算出所有树中 的特征在各自树中的重要程度。但这只能代表这些特征在树中的重要程度不能代表特征在整个森林中的重要 程度。那我们怎么计算各特征在森林中的重要程度呢?每个特征在多棵数中出现,取这个特征值在多棵树中的重要程度的均值即为该特征在森林中的重要程度。如下 式:ntreeMDA AierrooBu errooB t2ntree 11其中ntree表示特征対在森林中出现的次数。“表示第t棵树中対属性值改变之后的袋外误差,。“冏2表示第t棵树中正常阿直的袋外误差。可以用下图来表示2-営本A:夕eirOOBierrOOBiTree=l1 .图8-7选出优秀特征的方法的图这
30、样就得到了所有特征在森林中的重要程度。将所有的特征按照重要程度排序,去除森林中重要程度低的部分特征,得到新的特征集。这时相当于我们回到了原点,这算是真正意义上完成了一次迭代。8.4.4选出最优秀的森林的方法按照上面的步骤迭代多次,逐步去除相对较差的特征,每次都会生成新的森林,直到剩余的特征数为 为止。最后再从所有迭代的森林中选出最好的森林。迭代的过程如下图所示:图8-8选岀最优秀的森林的方法图得到了每次迭代出的森林之后,我们需要选择出最优秀的森林(随机森林毕竟是集成学习,所以最后的森林不一定是最优的,一个诸葛亮不一定顶的上三个臭皮匠)。那么我们怎么比较这些森 林的好坏呢?这时我们需要引入一个指
31、标OOB来评价一个森林的好坏,上面的OOB用于评价套外样本在 树中的误差率,这里的OOB评价套外样本在森林中的误差率。(因为都是利用套外样本,所以名字都是(outofbag)。每个样本在多棵树中是套外样本,通过多棵树的预测这个样本的结果。预测方式如下图所示:图8-9预测方法图预测出所有所有样本的结果之后与真实值进行比较,就可以得到这个森林的套外误差率。选择套外误 差率最小的森林作为最终的随机森林模型,即本文的第一张图。8.4.5随机森林优缺点总结由于采用了集成算法,本身精度比大多数单个算法要好,所以准确性高。在测试集上表现良好,由于两个随机性的引入,使得随机森林不容易陷入过拟合(样本随机,特征
32、随 机)。在工业上,由于两个随机性的引入,使得随机森林具有一定的抗噪声能力,对比其他算法具有一定优 势。由于树的组合,使得随机森林可以处理非线性数据,本身属于非线性分类(拟合)模型它能够处理很高维度(feature很多)的数据,并且不用做特征选择,对数据集的适应能力强:既能 处理离散型数据,也能处理连续型数据,数据集无需规范化训练速度快,可以运用在大规模数据集上可以处理缺省值(单独作为一类),不用额外处理由于有袋外数据(OOB ),可以在模型生成过程中取得真实误差的无偏估计,且不损失训练数据量在训练过程中,能够检测到feature间的互相影响,且可以得出feature的重要性,具有(10) 由
33、于每棵树可以独立、同时生成,容易做成并行化方法(11)由于实现简单、精度高、抗过拟合能力强,当面对非线性数据时,适于作为基准模型缺点当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大随机森林中还有许多不好解释的地方,有点算是黑盒模型。在某些噪音比较大的样本集上, RF的模型容易陷入过拟合。9相尖性分析9.1典型相矢性分析(CAA) *9.1.1典型相矢分析的概念典型相尖分析(canonical corrrelatioin analysis )就是利用综合变量对之间的相对尖系来反映两组指标之间的相对尖系来反映两组指标之间的整体相尖性的多元统计分析方法。它的基本原理是:为了从总体上把握
34、两组指标之间的相矢矢系,分别在两组变量中提取有代表性的两个综合变量山和(分别为两个 变量组中各变量的线性组合),利用这两个综合变量之间的相矢矢系来反映两组指标之间的整体相尖性。9.1.2条件:典型相矢分析有助于综合地描述两组变量之间的典型的相矢矢系。其条件是,两组变量都是连续变量,其资料都必须服从多元正态分布。9.1.3相尖计算如果我们记两组变量第一组线性组合为:iY111, 12P11115 21q1Varui ai Var x1 n 1Var Vi 1 Var 八 11221典型相矢分析就是求|和使两者的相矢系数达到最大。U1,V1 Cov U1,V11C0V X,Y 11121典型相矢分
35、析希望寻求a和b使得 达到最大,单是由于随机变量乘以常数时不改变他们的相尖系数,为了防止不必要的结果重复出现,最好的限制是令閥,和V.V!(1 )实测变量标准化;(2)求实测变量的相尖阵R;XXxp3)求A和B;AXX1XY1YYYXBYY1YX1XXXY(4)求A和B的特征根及特征向量12LpA关于i的特征向量3i15ai25.,3ip 求R XXRxxRxyr11MMr1pMrn riqMMMXXXYIIrp1fpprpifpqYXvv1 1niLr1prnLriqMMMMMMLfqprqiLrqqpqpqB尖于i的特征向量(5)计算Vi和WiVibiiXibi2X2. bipXpWi 3
36、i1 Y1 3i2Y2 . SiqYqVi和Wi的第i对典型相尖系数ri i应用典型相尖分析的场合是:可以使用回归方法,但是两个或两个以上的因变量;特别是因变量或准则变 量相互间有一定的相尖性,无视它们之间相互依赖的尖系而分开处理,研究 就毫无意义。另一种有效用法是 检验X变量集合和丫变量集合间的独立,性。9.1.4典型相尖系数的检验典型相尖分析是否恰当,应当取决于两组原变量之间是否相尖,如果两组变量之间毫无相另性而言,则不 应该作典型相尖分析。用样本来估计总计的典型相尖系数是否有误,需要进行检验。在原假设为真的情况 下,检验的统计量为:n 1 p q 1 In o22 22近似服从自由度为p
37、q的2分布。在给定的显著性水平下,如果22 pq,则拒绝假设,认为至少第一对典型变量之间的相尖性显著。9.2协方差分析9.2.2协方差的概念协方差分析亦称“共变量(数)分析”。方差分析的引申和扩大。基本原理是将线性回归与方差分析结合起来,调整各组平均数和F检验的实验误差项,检验两个或多个调整平均数有无显著差异,以便控制 在某些约束条件下解出的,便是协方差模型中参数向量的最小二乘估计。在实验中影响实验效应(因变量)而无法人为控制的协变量(与因变量有密切回归尖系的变量)在方差 分析中的影响。例如,在研究某种教学方法(实验变量)对学业成绩(实验效应)的影响时,被试的原有 知识基础同时影响学业成绩,但
38、往往在实验中难以选取具备相同知识基础的被试参加实验,可用协方差分析 从学业成绩的总变异中将归因于被试知识基础差异的部分划分出去,便于确切地分析教学方法对学业成绩的 影响,其中被试的知识基础就是协变量。协方差是分析是研究方差分析模型与回归模型的一种线性模型:YXi X2eEeO2De n式中,Xi 是模型的方差分析部分,设计矩阵Xi中元素一般取值0或1。参数向量有一定的约束条件:X2是模型的回归部分,设计矩阵X2中变量是连续的。因为含有两种类型因素(连续型,属性型)的混合,故称之为协方差分析模型。但是这两部分不能同等对待,主要的还是方差分析部分,而回归部分只是因某些变量完全人为地控制而不得已引入
39、的。第一步,由Y X 2 Xi e求出的最小二乘估计T 1TXitXiXitYX2第二步,由Y XiX 2e,求出的最小二乘估计T 1TX2TX2X2TYX1由T 1TXitX2X2tYXiT 1TX2TX2X2TYX19.2.4意义当研究者知道有些协变量会影响应变量,却不能够控制和不敢兴趣时(当研究学习时间对学习绩效的 影响,学生原来的学习基础,智力学习兴趣就是协变量),可以在实验处理前予以观测,然后在统计时运 用协方差分析来处理。将协变量对因变量的影响从自变量中分离出去,可以进一步提高实验精确度和统计检 验灵敏度。方差是用来度量单个变量“自身变异大小的总体参数,方差越大,该变量的变异越大:
40、协方差是用来度量两个变量之间“协同变异”大小的总体 参数,即两个变量相互影响大小的参数,协方差的绝对值越大,两个变量相互影响越大。对于仅涉及单个变量 的试验资料,由于其总变异仅为“自身变异”(如单因素完全随机设计试验资料,“自身变异”是指由处 理和随机误差所引起的变异),因而可以用方差分析法进行分析;对于涉及两个变量的试验资料,由于每 个变量的总变异既包含“自身变异又包含了 “协同变异”(是指由另一个变量所引起的变异),须采用协 方差分析法进行分析,才能得到正确结论。9.3相矢系数分析9.3.1相矢系数的定义相尖性分析可以用来验证两个变量间的线性尖系,从相尖系数r我们可以知道两个变量是否呈现线
41、性尖 系。线性尖系的强弱,以及是正相尖还是负相尖。其中线性相尖系数的定义式:Cov X,YrX,YVar X Var Y其中,Cov (X,Y)为X与丫的协方差,VarX为X的方差,VarY为丫的方差。9.3.2适用场合当你有成对的数字数据时;当你画了一张散点图,发现数据有线性尖系时;当你想要用统计的方法测量数据是否落在一条线时。9.3.3实施步骤尽管人工可以进行相尖性分析,然而计算机软件可以使计算更加简便。按照以下的介绍来使用你的软 件。分别计算出相尖系数r,它介于-1到1之间。如果r接近0则两个变量没有线性相尖性。当r接近或者1,说明两个变量线性尖系很强;正的r值代表当y值很小时x值也很小,当丫值很大时r值也很大;负的r值代表当y值很大时x值很小,反之亦然。9.3.4示例下图一到图四给出了两个变量不同尖系时的散点图。图一给出了一个近似完美的线性尖r=-0.69;与图一相比较,数据散布在更宽系,r=0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 部编本二年级上册语文第二至七单元(内容含课文口语交际及语文园地)全部教案
- 城市规划学徒指导手册
- 油气勘探钻探施工合同
- 劳务派遣员工健康检查
- 汽车制造锅炉房施工合同
- 环保项目严禁参与虚假环保承诺
- 硫酸厂宿舍楼施工协议
- 科技园区研发创新车库改造协议
- 石油公司出纳人员聘用合同
- 室内运动场地坪施工协议
- 铁塔基础施工方案(完整版)
- 课堂教学观察量表—教师课堂教学行为观察量表
- 子儿吐吐(绘本) (2)
- 王浦劬《政治学基础》笔记详细版
- 信息资产管理制度管理办法
- 家长学校课程安排
- 厦门宏发继电器基础知识(课堂PPT)
- 储罐大修施工方案
- 2022年住宅室内装饰装修管理办法全文
- 经纬度数转换工具
- 监理质量管理体系
评论
0/150
提交评论