版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章6 5、聚类预报法。是利用聚类方法处理预报问题的方法。主要应用于处理一些出现异常(二)按照分析对象不同,可以分为QRQR型聚类R型聚类的结果,可以选择最佳的变量组合进行回归分析或者Qr2。rr2 kr2k为该类中变量的r2x作为该类的典型变量。X
x1p x2p
xn
xnp则
xijx
i
j1,21其 x
j1,2
x
min max
i j1,20,1之间。xxijx
i
j1,21其 x
j1,2 1 n
ijx
21
xiji j1,2pnp个变量,故每个样品都可以行分类时,通常采用距离来表示样品之间的亲疏程度。因此需定义样品之间的距离,即第jdij①dij
对于一切i,j②dij
当且仅当ij③
d
对于一切i,④dijdik
对于一切i,j第ij qdijqxikx qq1
dij1xikxjk
q2dij
xikx
qdijmaxxikx1k
i,j由明氏距离公式可知,当各变量的单位不同或虽单位相同但各变量的测量值相差很大的数据计算距离。
0时,可以定义第ijxikxikx
ikxi,j马氏距离第ijd2
XXS1XX XX分别为第ijp个指标所组成的向量, nn1k
x
xj
i,j1,2,距离,第i个样品与第j个样品之间的斜交空间距离定义为,1
p d
m2xikxjkxilxjlrkl k1l rklxkxl3设Cijxiyi之间的相似系数,则Cij
1xiaxjC
对一切i,j成立对一切i,j成立
1xiyi
xiyi之间关系越疏远。聚类时,关系密切的变量应归于一类,反之关系疏远的变pxixj的夹角为ijcos
xki k 2 2xkixkjk k 它是ij两个指标向量在原点处的夹角的余弦,当i=j时,夹角为0,故夹角余rijxixj
x
xj
k n
2n
2k
k
x 当i=jrij=1;当ijrij的取值在-1~1之1,表示两变量之间的相关程度越大。S1S2Spx1x2xpxixj3xikxjk
1
k①rgk k
,xjk②rck 1k
xjkminxik,xjk③
xikxikxk
i,j第二节系统聚类分析(HierachicalC1usterAnalysis)是在样品距离的基础上,定义类与类之间的系统聚类分析的基本思想是,把np维(p个指标)p个类和其余n2个样品之间的距离,这样一直持续下去,并类过程中,每一步所做的并31,8种。即最短距离法、最长距离法、中间距离法、dijxixjDij表示类Gi与Gj之间距离中最近者。即类Gp与GqDpq定义为;Dpq
xiGp,xj
1、计算样品之间的距离,得到nD0,这时每一个样品自成Dpqdij,显然该距离矩阵是一个对称矩阵;2D0Dpq,则将对应的两个样品Gp与Gq一个新类,记为类Gr,即
3、计算新类Gr与其他类Gk(kr)D1。其中新类Gr与其他类Gk(k
xrGr,xj
dij
dijxiGp,xj =minD,D
xiGq,xj D3……这样一直下去,直到所有的样品都归为一类为止。5表 515dij(采用绝对值距离5.2距离矩阵表(D02、D0D121,于是我们将G1与G2记为G6G1G2。计算新类G6
3D1D342,于是我们将G3与G4同样计算新类G7
5.4距离矩阵表(D24D2D573,将G5与G75.5距离矩阵表(D35、最后将G6和G85个样品分为G1G2、G3G4和G5三类;也可以把5G1G25.1相反的,类与类之间的距离定义为两类之间所有样品间距离最大者,即类Gp与Gq
Dpq
xiGp,xj
D0D121,于是我们将G1与G2合并成新的一类,记为G6G1G2。计算新类G6与当前各类的距离:
3、D1D342,于是我们将G3与G4计算新类G7
5.7距离矩阵表(D24D2D575,将G5与G7计算类G8D68maxd56d765、最后将G6和G85.25.2为G1G2和G3G4G5两类。样品之间最远距离,而是采用介于两者之间的中间距离,即当类Gp与Gq GGG,任一类 DD D DipDiqDpqDpqDir,具体如图5.3图 具体分类过程与前面最短和最长距离分类方法步骤相同,只是在定义的距离为中间距离。设Gp与Gq合并为一新类Gr
GG,它们各含有
nn x、xx
1nxnx。任一类Gx
p q 它与GrDir
D2npD2nqD2npnqD
设Gp与Gq合并为一新类
GG,它们各含有nnn
nn 样品。任一类Gknk d2 d n riGk, dij dijnknriG, q
2 由于类平均法公式中没有反映Gp与GqDpq的影响,所以又给出可变类平均法。此法定义两类之间的距离同上,只是将任一类Gk与GrDir定义改为:D2np1
nq1
使分辨能力提高,一般选取此法定义两类之间的距离同上,只是将任一类Gk与GrDirD21D2D2D 其中是可变的且1,一般选取nk类,表示为G1,G2Gkxit表示第Gt类中的第i表示类Gtxt表示Gt则Gt
i
xtkS
kS
x
xt
t1i
WardnD2表示类G与G
任一类G与新类GG,G D2ninpD2ninqD2 r nr nr式有不同的定义,所以可得到不同的递推公式。1969年维希特提出了统一的公式,这为编设G与G合并为一新类
GG,任一类G与新类GG,G D2D2
D2
D2 p
q
其中系数p、q、表 pqpqpqnnrpqnnrnnpq110pq0 ninpni ninini DkkD1D2DADBDD0。如果DA0DB0D2A表示将DA的每个元素进行平方,则DABD2AD2B则DAB0DADBABDAB0AB使空间扩BA使空间收缩。1准则B,确定的类中,各类所包含的元素都不要过分地多;准则C准则5.9图 根据数据情况将全部样品人为地凭经验分成k用密度法选择凝聚点。这里的密度是指以每个样品为球心,以某个正数d作为半径D,然后选出密度次之的样品点,并且它与D,则将其作为第二凝聚点,否则该样品点被取消。这样,按密度4、用前k4xij表示已标准化后的第ijjMAmaxSUMMIminSUMKxiK1SUMiMIMAk,则将第i个样品归入到第k类中去(1kK。x1x2,xnn个样品点,初始KG1,G2GKx1x2,xnn1n2nK。用lixixi与GjDijD2
x
xj
,,
iliSSjjS1S2,SK分别是类G1G2GK ilii1li
xt
,,
ilinil=D2ili1j1li ilD2silji1i1li
j3 AxAxAxA两x=
xAx
0,则可用特征函数表述即为:x=
xAx
0Ax0.8。0、1两值推广到模糊集合A为模糊集合,简称模糊集。A的程度很低。模糊集转换为普通集的方法AX上的任一模糊集,对任意01,记(01A是一个具有游移边界的集合,它随值的变小而增大,即当12,A1A2
AXA
1 0 1对于给定置信水平=0.6
A0.6=
1(1)AB=maxAx(2)AB=minAxAc11的矩阵。ABnppm阶的模糊矩阵,则模糊矩阵乘积运算C=A·Bnm阶矩阵,其元素为: Cij=k
,
0
A=
B=
= XYX分类关系。RXXYR满足反身性、对称R为一分类关系。这里,R;RRX上的一个分类关系的充分必要条件是
1
(3R模糊分类关系。RX上的一个模糊分类关系的充分必要条件是对每一个当模糊分类关系确定之后,对于给定的01,便可以相应地得到一个普通的分R,也就是说可以决定一个水平的分类。根据一定的来确定其分类关系,进而来实现分类的。例设X=x1x2x3x4x5
R
1RX (1)当=1R1
0 0 1x1x2x3x4 (2)当=0.8R0.8
0 0 1x1、x2,x3和x4 (3)当=0.6R0.6
0 1 1(4)当=0.4111 =111
1
15.13图 动态聚类谱系由动态聚类谱系图可知,选取不同的值可对样品进行不同的分类,得到合理的分类。1根据实际情况确定xx,xp
x1p x2p
2
xn
xnp
1r R,不一定具有传递性,为了获得模糊RR2R3Rn这样经过有限次自乘(褶积计算)RnRRnRn。RR2R4R8R2n。=1值的降低,由细到粗逐渐合并类,最后得 Zahnpn个样品点间形成的一切可能的联接图中,存在着一(MST(MSTMST上相互以较短的边长相联结,而不MST上则被较长的边所分开。长边的定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论