版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《数学地质》教案
地质工程系
2014年6月
目录
第一部分多元统计分析方法.................................1
第一节一元线性回归....................................1
第二节趋势面分析.....................................11
第三节聚类分析......................................20
第四节判别分析(DiscrimnantAnalysis)....................................32
第二部分MatLab地学运算基础............................48
第一节MATLABL操作基础...............................48
第二节MATLABL矩阵及其运算........................52
第三节MATLABL程序设计...............................56
第三部分人工神经网络原理及应用.........................65
第一节人工神经网络原理..............................65
第二节BP神经网络应用方法............................69
第一部分多元统计分析方法
一、学习目的意义
多元统计方法是数学地质的基础,熟练掌握常见的地质分析多远统计方法,
可以培养学生利用先进的技术手段解决生产、科学研究中遇到难题的能力,提高
工作效率。
二、重点、难点
1.回归分析方法及在预测和控制中的应用;
2.趋势面分析、剩余值分析及其在构造定量研究中的应用;
3.聚类分析、判别分析及其在地质分类中的应用;
第一节一元线性回归
1.基本概念
一元线性回归是处理两个变量x与y之间的关系,即根据由试验、分析取
得的数据提出两者之间的经验公式。两个变量之间的关系有线性和非线性两种,
线性回归讨论的是线性关系;有些非线性关系可以转化成线性关系处理。
设随机变量y与变量x间存在着某种相关关系,这里,x是可以控制或可以
精确观察的变量,如年龄、试验时的温度、施加的压力、电压等。换句话说,我
们可以随意指定n个值xl,x2,...,xn。因此,为方便计,我们干脆不把x看成
随机变量,而当作通常的自变量.
由于y的随机性,对于x的每一确定的值,y有它的分布。因此,若y某些
数字特征存在的话,则它们的值随x取确定值而确定。显然,我们可以通过一组
样本来估计数字特征(特别是数学期望),从而,我们可以解决如下问题:
(1)预测问题:在一定置信度下,估计出当x取某一值xO时,随机变量y
取值的情况。
(2)控制问题:在一定置信度下,控制自变量x的取值范围,使y在给定
的范围内取值。
这里的样本是指:对于x的取定的一组不全相同的值xl,x2,...,xn作独
立试验,得到n对观察值(xl,yl),(x2,y2),•••,(xn,yn),其中yi是在x=xi时
随机变量y所取的值,这n对观察值就是一组样本。
ixy=汽(七一元Xy—y)=文七y一'封
Z=1,=1H
3线性假设的显著性检验
回归分析的显著性检验,就是用统计分析的方法来检验x与y之间的线性关
系是否密切,也就是检验回归方程是否显著。
观察值yl,y2,...,yn之间所存在的差异,是由两个因素引起的:一个是变
量x的取值不同,另一个是试验误差等其它因素的影响。
F检验:
回归方程是否显著,或线性关系是否密切,判别标准是SD的大小,即SD
越小越好。同时,在总波动(ST)不变的条件下,SD小,SR就大,SR/SD也
就大;反之,SD大,SR就小,SR/SD也就小,这是一种直观的看法。
假设Ho:y与X无线性关系(b=0),可证统计量
F检验:
对确定的显著性水平1检验水平),查F分布表得到F(l,n-2),
若F>F(l,n-2),就拒绝原假设,即认为线性回归效果显著;
若FF(l,n-2),就接受原假设,即认为线性回归效果不显著。
F检验:
F=62.961,若取显著性水平为0.05,查得F(),05(1,16)=今49,故在在显
著性水平0.05下,拒绝假设H0,即认为线性回归效果是显著的。或可认为在95%
的置信度下,认为线性回归效果是显著的。
2.4一元线性回归应用举例一一预报和控制y的取值
所谓预报,就是对任一给定的x0值,可以利用经验公式来推断在这点的观察
值(试验值)y0大致在什么范围内,其置信水平为(l-a)0
置信区间上、下限所形成的曲线对称地落在经验直线的两侧,且呈喇叭形。
思考题:
背景知识:一项建筑工程在设计中需要考虑建筑地基土的承载力,而建筑
地基土的承载力受多种指标的影响,其中影响较大的指标是抗剪强度指标,即建
筑地基土的凝聚力C和内摩擦角6,这两个指标反映了抗剪强度(应力)的大小。
剪应力T随垂直压力P的大小变化而变化,它们之间的关系为经验公式:
T=C+P•tg<i>
式中C------凝聚力,
*------内摩擦角
垂直压力p/KPa剪应力VKPa
10025.6
20030.4
30035.3
40046.5
问题:某房产开发区对某建筑地基土样进行4次试验,其结果如下:
求地基土的内摩擦角6及凝聚力C,检验其效果,并预报当垂直压力p0=600
所对应的剪应力的范围,置信水平(ba)为0.95。
解;n=4
44
£pi=10\Xl=1.378x1O9
i=1i=I
444
Xpd=3.783X104,Xpi・=
i=Ii=Ii=1
1.378xIO5
Sp?=3xIO,ST?=4.99x1O3(Zpi)也
is1is1is1
4
106(Xl-=1.9x104
i=1
7=2.50x102T=3.445x101
4
4.99X103
£=1
72=6.25x104T2=1.19x103
Lpp=S/4-*Epi)2=2.5X105
i=1i-I
LTT=f%-十(右叼2二2.4X102,
i=I4i=1
444
LpT=Xp"A(El)i)(Xu=
i-1-i=1i=1
3.38x103
所以;tg@=7^=
Lpp
3.783x1炉一4x2.5xIO2x34.45八”「
3x*4x6.25x104=°-6676
所求内摩擦角牛二3.9°
凝聚力C=T-tg<P-7=
34.45-0.0676x2.5x102=17.55(kPa)
相关系数
EiPi\-npT
17R3xlfl4-4x2.5xlQ2x34.45
J3X|05-4X6.25X104.^4.99x103-4x1.19x103
0.997
而当显著水平a=0.05,n=4时查相关系数表
知
Yo.05=0.950Yo.oi=0.990
得Y>YO.O5且Y>YO.OI
所以,p与1的相关性是显著的,并且是高度显
著的。(注.•可信度高、效果好漪度高)
又:
b.4x123.38X1O3二一
I9。x/]_(।-----------z--------------U]
N2J2.5X105X2.4X102
9.86
当1-a=0.95时,号⑵:4.3027(查表得)
025(4-2)-0-J1+十+叫F=56
所以,置信水平为0.95时,垂直压力po二
600所对应的剪应力的范围为,58.11-56,
58.11+56J,亦[2.11,114.11;o
这就是说,当po=600时,在100次试验
中,剪应力T值平均有95次落在区间/2.11,
114.11/内。
当然,置信水平越高,预报区间就越长。
此例所得结果虽然预报区间长,不尽理想,但对生产实践仍具有指导意义,它
提供了一种估值方法和预报范围。此例之所以置信区间拉得如此宽,究其原因在
于试验的次数n=4太少,样本容量太小,造成如果结果,如果把样本容量提高到
n=20或n=50,则所得结果可信度将更高,置信区间将极大地缩短。
4.多元线性回归模型
设观察得到容量为n的样本(m个自变量,1个应变量):
X1PX]?,•・•,xlm;丫1
X2PX22,•一,x2m;丫2
xnPxn2,,,,»xnm;yn
Y1=Po+PiXH+P2x12+...+pmxIm+€I
丫2=Po~*-PlX21_,_P2X22+,--+PmX2m+e2
7n=Po+PlXnl+p2Xn2+-+PmXnm+£n
假定y与Xj,(j=l,2,...,m)之间存在着线性关系:
+x+2
尸0J#2*2+…+mm〜N(。,)
是随机项。
我们的任务是从样本数据来估计参数,即由下式:
Y1=Po+PlXll+P2X12+---+PmXlm+ei
Y2=Po+PlX21+p2X22+---+PmX2m+82
<
=+XX++X+£
YnPoPlnl+p2n2-PInnmn
估计参数0,1,2,•…,m;而1,2,…,n相互独立且服从相
同的分布N(0,2),(未知)。
AZyTBo+B1Xji+02X/2+...+PmX/m)]
/=1
5.应用实例-影响煤层瓦斯赋存规律的多地质因素回归分析研究
影响煤层瓦斯赋存及分布的因素是多种多样的,通过对瓦斯地质规律的研究
可知,影响淮南潘一矿13-1煤瓦斯含量和分布规律的地质因素主要有:煤层埋藏
深度、地质构造、煤层顶底板岩性、煤层厚度和煤的变质程度等。
为了研究各因素与瓦斯赋存的关系,便于建立预测数学模型,把地质构造、
顶底板岩性这些通常定性化描述因素,根据其本身的特性和对瓦斯赋存的影响进
行科学地量化,转化为定量因素。
(1)煤层埋藏深度
煤层的埋藏深度越深,煤层中的瓦斯向地表运移的距离就越长,散失就越困
难。同时,深度的增加也使煤层在上覆压力的作用下降低了透气性,有利于保存瓦
斯。
在研究区内新生界直接不整合在二叠系上石盒子组煤系之上,中间的地层全
部缺失,影响煤层瓦斯含量应与不整合面(即基岩面)距煤层以下的深度有较大关
系,因此煤层埋深因素取值为各钻孔13-1煤层顶板距基岩面的距离。
(2)地质构造
地质构造中的断层破坏了煤层的连续性,使煤层瓦斯排放条件发生了变化,
张扭性断层有利于瓦斯的排放,压扭性断层对瓦斯的排放起阻挡作用,成为逸散
屏障。褶曲类型和褶皱复杂程度对瓦斯的赋存有影响,封闭的背斜有利于瓦斯的
存储,是良好的储气构造。
研究区潘一井田位于潘集背斜南翼及东西部倾伏转折端南翼,井田内以斜切
张扭性断层为主,压扭性断层次之。由于井田内次一级褶皱构造不发育,所以在研
究区内考虑地质构造因素时,主要针对断层因素。据地质资料统计:研究区断层中
张扭性断层54条,压扭性断层21条。
由于区内断层众多,考虑到断层对瓦斯的赋存影响程度不同,在对断层因素
进行参数量化时,以落差大于10m,水平延伸大于500m,切割13-1煤层至基岩面的
断层作为统计依据,分别统计各钻孔距见煤点最近的张扭性正断层的水平距离作
为构造参数。
(3)煤层顶、底板岩性
煤层生成的瓦斯在漫长的地质年代有不同程度的遗散,而瓦斯的遗散与煤层
围岩有密切关系。当煤层的顶、底板岩性为致密完整的岩石,如泥岩、油页岩时,
煤层中的瓦斯比较容易保存;顶板为多孔隙或脆性裂隙发育的岩石,如砾岩、砂岩,
瓦斯就容易逸散。
研究区内13T煤层顶、底板岩性主要有泥岩、炭质泥岩、砂质泥岩、粉砂
岩和中砂岩。根据研究区顶、底板岩性特征,综合考虑含砂率和砂质颗粒粒度大
小对顶、底板岩性因素进行量化,把粒度最大,含砂率最高的中砂岩记为1,含砂
率最低的泥岩记为5,粉砂岩、砂质泥岩、炭质泥岩分别记为2、3、4。
(4)煤层厚度
煤层的厚度与瓦斯的分布有一定的关系,一般说来,同一煤层随着厚度的增
加,瓦斯生成量大瓦斯含量增加。区内钻孔13-1煤层厚度1・43飞-39m,平均
4•25m,煤层结构较复杂,半数以上见煤点有厂2层夹砰。煤厚因素取钻孔取煤的
真厚,包括煤的厚度和夹砰的厚度。
(5)煤的变质程度
在成煤的变质阶段,成煤的有机物在地层深处的高温、高压作用下,最着煤化
程度的加深,固定碳增加,挥发分因转化成瓦斯而减少,瓦斯生成量增多。煤的变
质程度可以用挥发分表示,所以在研究中以挥发分来表示变质程度因素。
(6)其它地质因素的影响
研究区内煤层煤质变化不大,在总体上对瓦斯含量的变化影响可以忽略。而
且煤系水义地质条件较为简单,未见地下水对煤层瓦斯赋存具有明显影响的块段,
因此在预测模型中可以忽略这些因素。解:样本选择和回归模型的建立
根据上述地质因素的分析筛选,确定煤层到基岩深度(xD、煤厚(x2)、离张
扭性正断层平距(x3)、顶板岩性(x4)、底板岩性(x5)、和挥发份Vdaf(x6)等六
个影响因变量瓦斯含量(y)的自变量。统计潘一矿历年勘探中具13-1煤瓦斯含量
测定值的钻孔资料,选取其中53个钻孔作为回归分析样本,各指标的数据见表
1(因篇幅关系只列出部分数据)。同时,选取不参加回归的15个不同深度、不同
顶底板岩性和不同构造特性的钻孔数据作为检验样本。
表1淮南潘矿13-1煤层瓦斯含量及控制因素
基岩深度/m煤厚扁离正断层平距/bn顶板岩性底板岩性dal瓦斯含量/«?•L
样号
x
x3A5%y
1307.272.0210.993337.005.34
2284.832.996.503339.805.57
3297.914.0515.005341.505.52
4253.73.0213.01354tt905.72
5238.784.238.514541.006.2
6240.393.127.512541.006.83
7232.063.083.021238.005.68
53438.664.861.15344a905.2
得到潘一矿13-1煤层瓦斯含量回归方程为:
y=10.2769+0.004k,+0.7155%+0.1037r3+
0.110女4+0.229与-0.3307X6
由于模型中的变量具有不同的计量单位,因此回归系
数的大小并不说明对因变量的影响程度。
通过结果表明,回归结果显著性水平较好,利用该模型计算煤层瓦斯含量确
定性系数:R=0.855881;复相关系数:『0.9251。说明瓦斯含量与上述因素线性关
系比较密切。通过对未参加回归计算的15个钻孔利用回归模型进行进一步检验,
煤层实测瓦斯含量和预测的瓦斯含量关系折线图,见图lo从图中可以看出,两条
折线基本一致,说明利用上述模型进行预测是可信的。
6.思考题
1、查阅资料,论述回归分析在地质学中的应用;
2、下载SPASS软件,思考用SPASS实现回归分析的方法。
第二节趋势面分析
1.趋势面分析的概念及类型
趋势面分析是拟合空间曲面(或超曲面)的一种统计方法,是回归分析的直接
推广。在地质上,趋势面分析可将地质变量(特征)区分为区域性变化分量和局
部性变化分量,从而研究地质变量(特征)的空间分布和变化规律。
(1)趋势:指事物发展或变化的主体,受总的规律的支配。在地质上往往由
区域构造、区域岩相等大区域因素所决定。
(2)局部异常:受局部因素支配,为事物发展的特殊部分。在地质上往往是注
意的重点。以成矿为例,元素的平均值是很低的,唯有成矿(富集)才能形成可开
采的矿。这些富集点往往被看作局部异常点。
(3)随机性变化:由随机因素形成的偏差(白噪声),包括取样和分析误差。
%地=尤区+X局+式随
工区一趋势部分
%偏一偏差部分
x局一局部偏差
X随一随机偏差
工地=入区+X偏
元偏=工局+X随
(4)趋势面:反映地质变量在空间趋势变化的曲面。一般指二元函数,如煤
层厚度、煤层顶底板标高、构造面高程等,这是一个真正的由面。但也有指三元
函数的,此时称为超曲面。
(5)趋势面分析:对于空间一组观察值,排除随机性干扰,找出反映主要变
化规律的趋势(面)方程,求出局部异常。利用得出的结果结合地质条件,分析趋
势变化和局部异常的地质意义,从而指导进一步的地质工作(勘探或找矿)或对地
质过程作出合理解释。
4=z,.一斗
⑸趋势面分析:对于空间一组观察值,排除随机性干扰,找出反映主要变
化规律的趋势(面)方程,求出局部异常。利用得出的结果结合地质条件,分析趋
势变化和局部异常的地质意义,从而指导进一步的地质工作(勘探或找矿)或对地
质过程作出合理解释。
趋势面分析一般作两种图,趋势图和偏差图(剩余图)。直接用原始数据插值
得到的称为实测图,实测图减趋势图就得到偏差图。
据用于拟合趋势面的函数划分:
(1)多项式趋势分析(常用)
(2)调和趋势分析(Fourier趋势面分析)
(3)其它函数趋势分析(指数、对数、察函数等)
根据多项式函数中自变量的个数,可分为一元、二元、三元趋势分析,每一
种又可分为一次、二次、三次、…等。
(1)一元趋势分析
反映平面上曲线的变化趋势。
23
z=bQ+blx+b2x+b3x
2
2=%+b[x+b2x
z=b()+b}x
(2)二元趋势分析
反映三维空间曲面变化趋势,是“真正的”趋势面分析。
z=bG+b1x+b2y
22
z=%+b[x+b2y-\-b3x+b4xy+b5y
z=b()-^-b}x+b2y+b3x+"孙+仇y
+3?+b[Wy+b^xy2+/79y3
一、二、三元趋势方程的次数、自变量个数(不含bO)与极值数关系表
次数自变量数极值最大数
曲线曲面超曲面
11230
22591
339192
4414343
5520554
6627835
•••♦•••••••••••
PPp(p+3)/2p-1
p(p2+6p+ll)/6
各种趋势图形
2.1二元一次趋势面方程及计算
设某一地质变量,在平面上有n个观测值与地理横坐标、纵坐标具有相
关关系,其表达式为:Z=f(x,y)=
构成趋势面分析的基本数据,一次趋势面方程为:
0=%+。1才+b2y(1)
各观察点的趋势值为:
zi=b^+bxxi+b2yi
2多项式趋势面分析的数学模型及计算
以二元二次趋势面方程为例,二元二次趋势面方程为:
Z=%+4七+4/+a%:+a%/+45y2
i=1,2,...^
各观察点的趋势值为:
22
i—1,2,
据最小二乘原理,要求所配曲面与实测数据的离差平方和:
2
e=X(z/-z/)
1=1
=Z[(4一%一4七一%势一么西2_九七巧一/丁;)[2=min(8)
i=i
字=0"=0,1,234,5)(9)
ob.
整理得六元一次方程组:"
Xn
t"z*"£
2z一d
yLX
zr=lZ
xn丁
riL
”l=lr'zx
z"E«3z2
仇
内
〃Za%
z2y/2Z-
r-lr'2
“"yf-lI-I
Z7Ann
z)z%
>/>yyJ匕z
Ef>fnH
yy.=l尸
2”
"/yzX"
3>2-442
y七Z
仇
Z毛A%%
7EZAJ.
尸3
l=l%I=1一
<==I〃""
2'y
?A3
犯JMvX2:2ZW4
uz-
Z-T.3.ZT-:
}27
tr”
”l=l•"%1
z、
222zz;
M.-必x4
%3-r4
-XrZL
/=l<=1l=lr=l
r
一r
“
”
"”
ZZZ22o
马
自
-ZAb马%'
——T
TEI2r/Tz.yi
一-
解方程组(10)得趋势面方程并可计算出各观察点的趋势值为:
22
豆=%+2七十4乂+2七+々%,+4乂(i=l,2・・・,〃)(11)
3.趋势面分析的拟合度
不同次数的趋势面对原始资料逼近程度显然是不一样的,趋势面对原始资料
的逼近情况,在数学上可用离差平方和的变化来表示:
M=」xioo%
cST
当Nc=ioo队则趋势值在所有数据点上和观察值完全吻合,这种拟合很少出
现。但当数据点数与趋势函数的项数(含bo)相同时,就会得到完全的拟合。这
样的拟合是没有什么必要的,因为趋势面分析的一个重要方面就是求偏差值。
拟合度只是一个参考指标,这是因为拟合度只与观察点的趋势值及偏差有
关。至于观察点分布是否合理,是否控制了测区,那是另一回事,拟合度不能反
映。拟合度一般取40〜60%即可。
4.实例分析
例1.在范围内,选择15个观测点测量某沉淀物的粒径,其数据如下表(坐
标单位:千米;粒径单位:毫米)。根据表中数据,求出一次趋势面方程,并计
算各点的一次趋势值和偏差值。
点123456789101112131415
Xi222455778101112121215
Yi3101318143611813361013
zi1.92.31.12.62.21.83.53.11.31.21.41.71.81.21.0
例2.趋势面分析在东欢坨井田构造研究中的应用
知识背景:1)趋势面分析方法由计算机来实现。趋势面反映的是区域曲面
(地形)的总体变化趋势,适用于查明区域的趋势;剩余面反映的是与大趋势对
应的局部变化,适用于查明局部异常。
知识背景:2)偏差值是用实际值减去趋势值。因此,对于断层而言,其一
盘表现为正异常,另一盘则表现为负异常,正、负异常带之间的零值线,基本上
就是断层的位置。正断层一般上盘表现为正异常,下盘表现为负异常,断层的倾
向则是由正异常带向负异常带。
在次数较高的偏差图中,由于趋势面拟合程度较高,这种规律则不太明显。
另外,在1次偏差图中,根据正、负异常条带两侧的正、负异常值的大小,可大
致推断断层的断距,一般情况下,正异常带中的最高值与负异常带中的最低值之
差,大致相当于断层的断距。
8煤底板标高二次趋势面(a)及二次偏差图(b)
8煤底板标高三次趋势面(a)及三次偏差图(b)
5、思考题
1、思考二元P次趋势面方程及计算方法?
2、尝试用VB实现二元p次趋势面方程的求解。
实测图(曲面样条函数插值)
14.00
12.00
10.00
8z二S
£288^
2.0010.0012.0014.00
二次趋势面图
二次趋势面偏差图(剩余图)
第三节聚类分析
1.概述
聚类分析是一种数字分类方法。对分类对象间的关系用某些相似性度量进行
刻划,根据相似性度量进行分类。也有称群分析、簇群分析、簇分析、点群分析、
丝分析等,在1975年(苏州)概率统计会上,决定使用聚类分析这一名称。
1.1两种不同的模式识别
有训练集:如判别分析,在己知样本分类的情况下设计判别函数。这些己
知分类的样本称为训练集,也称为有人管理或有教师的分类法。
无训练集:如聚类分析,在设计分类器时,所选用的样本预先不知所属的
类别,需要根据样本间的距离或其它相似性的程度来自动地进行分类,也称为无
人管理的分类。
1.2聚类分析的两种类型
根据分类对象不同,分为Q型(Q-mode)和R型(R-mode)o
Q型一一对样品进行分类。即把不同的物体(如岩石标本、样品等物种或
人种)进行比较,目的是要确定不同物体之间的关系,从而将物体进行归类分群。
R型一一对变量进行分类。即属于同一物种的各种属性,即各类变量(如
岩石厚度、岩石成分及各种化验观测数据)进行比较,目的是要不同变量之间的
关系,从而对变量进行分类。
1.3两种不同的聚类方法(步骤)
根据聚类的方法,分为系统聚类法和分解法两种。
系统聚类法(HierachicalClusteringMethods)是从少到多的聚类法,开始
各个样本都各自为一类,以后逐步归并,直至全部样本变成一类。
分解法则相反,开始时全部样本为一类,以后分解,直至各个样本自成一类。
例L在煤田地质勘探过程中,有时煤系含有多个煤层,如果标志层不明显,
只用宏观的标志进行煤层对比较为困难,这时就可用聚类分析进行煤层的数字分
类,从而达到对比煤层的目的。
做法是在一个煤田或勘探区内,选择若干个煤钻孔,对所有煤层进行工业
分析、光谱分析等取得一批实验观测数据(如下表)。
指标AgsQg煤灰成分
化睑号SiOFe2()3A1CaOMgOS0
22°33
143.466.3952.625.7015.249.955.829.60
237.037.836.105.2023.352.742.861.36
313.9010.1330.3633.5928.213.090.891.58
439.846.5671.904.0014.592.331.041.55
536.785.1253.581.8037.843.231.091.80
629.738.5155.807.8023.894.193.112.23
736.387.7867.905.4015.844.392.962.19
838.616.1751.063.8037.403.331.422.06
921.729.9553.6410.3025.942.722.661.31
(1)煤的灰分(Ag)表示出来为:
(2)如果每个煤层化验两个指标(变量),如煤的灰分[Ag)和硫分(SQg),
则Ag和SQg为各点的二维坐标,如下图:
A[%)
多维空间的点就不能用图形直观的表现出来。表示多维空间点与点之间的疏
密关系的量,称为相似性度量(相似性统计量),如相似系数,相关系数,距离系
数、离差平方和增量等。
2数据的规格化处理
为了使观测数据以等同的量级出现,必须规格化处理,通常的方法有:标准
化、正规化、均值化及对数变换等。
2.1数据标准化
设有n个样品,每个样品测量了m项指标(变量),得出如下原始数据矩阵,
为
-XllX12…X;
X=(x「)=泡】'22…X2m
••••••・・・・・・
_Xn!Xn2…Xnm.
f=l,2,(样品个数)
)=1,2,…,相(变量个数)
为表示第i个样品、第j个变量的观测值。
设变换后的数据记为为,则
zLj=----—(i=1,2,…,n,j=1,2,…,m)
Iw1n
其中可•=汽与,3=J—
〃i=iY〃一】i=i
写成矩阵形式为
则称为Z=(zJ为标准化数据。
注:若所取样品构成的变量服从正态分布,则标准化后的数据Z)~N(O,1)。
2.2.数据正规化
所谓数据正规化,就是通过极差变换,把原始数据矩阵中的任何一列
的最小值化为0,最大值化为1,其余介于0与1之间。记
Zij(1<j<m)
max{xj-min{xj
其中皿乂比卜方口卜)分别为第j个变量的最大值与最小值。
写成矩阵形式为:
Z11Z12
ZZ
Z„=(Zij/\=..2...1..............2..2.
_ZnlZn2
3.相似性度量
能够度量变量(或样品)之间相似性程度的数量指标,称为相似性度量(统
计量)。常用的有:相似系数、相关系数、距离函数、误差(距离)平方和增量
等。
3.1相关系数
在R型分析中,定义第j个变量和第1个变量之间的相关系数为:
Cov(Xj,xj
%】=(理论相关系数)
OjO:
Cov为协方差,5为标准差。
实际应用中,定义相关系数为:
Z(xij-K)(Xil-xj
i=l
0
£(Xij-又-Xj2
i=li=l
1n1:1
其中,玛=一ZXjj,氏=一ZXi](j,1=1,2,…,m)
ni=ini=i
相关系数矩阵为:
G62…rx,n
用一%rr
I\—22…2.n
・・・・・・•e•・・・
_rn.\加…"
为一mXm阶矩阵。
在Q型分析中,定义第i个样品和第k个样品之间的相关系数为:
m
E(Xij-xj(xkj-xk)
r=.j=i
ikn;
(X"-凡)?£(Xkj-4)2
V>i
1m1m
其中,X.=—yXj“xk=-yXkj(i,k=1,2,…,n)
m高m高
相关系数矩阵为:
\1ri2…rin-
rr…r
R=21222n
••••••••••••
_rnlrn2…rnn.
为一nXn阶矩阵。-14rV1。卜|大f关系密切c
3.2相似系数Sos。)
Q型:Q型中相似系数(cos。)用于样品间的比较,夹角。愈小,表示两个样品
愈相似;夹角夕愈大,表示两个样品愈疏远。下面讨论m=2情形。
若有n个样品,每个样品测得两个变量区,%),则每个样品可用在西办2坐
标系中的点表示出来。若任取A、B两个样品,则A、B在司以2坐标系中用相应
的A、B两点表示出来:.
设方、历的模长分别为a、b,夹角为。,贝ij:
cos。=cos(q-乙)=cosRcos%+sin用sin02
sin。]=^-,sin^=—,cos^)=—,cos^)=—,
abaa
cos9=
a-ba•b
推广到ID维空间,即每个样品测得m个变量(再,%2,…,4),,(再1,项2,…工加)、
X式知,占2,…,X6")为m维空间中的两个向量,由于(阳.,8)=|Ar.IIxkICOX0ik(内
积)
(x〃xj
COX0ik
州J/WIw
据内积定义即I阳」"柩及"x/二》/
7=1Vj=lVJ=1
代入(3)式中,得
m/|rn二m
cosOik=EXijX<j/Zxkji,k=l,2,…,n
/V>1
令sik=cos0ik(i,攵=1,2,…
由于cos盘为向量七和占的夹角,在标准化条件下,其取值范围是0,~360°,
因此相似系数(cos%)的取值范围为一1一1之间;在正规化条件下,其取值范
围是0~90,因此相似系数(cos%)的取值范围为0—1之间。
显然,s汝大,表示i,火两个样品相似系数愈大。
对n个样品可得
S11S12…Sln
^21S22S2n
S=(s)=
ik•••••••・♦•••
_SnlSn2…Snn_
为一nXn阶矩阵。
R型:
R型中相似系数(cos。)用于变量间的比较。
cosXijxii/1ExijSxii上片1,2,…,m
/Vi=
此时组成一个mXm阶矩阵。
在标准化数据下,由于云j一苞—0,q-%-1,则有:
n
Zxijxii
r"=1尸n=COS
Vi=li=l
即R型标准化数据的相关系数等于相似系数。
4系统聚类法(HierachicalClustingMetjods)
4.1一般步骤
系统聚类法首先认为n个样本(样品或变量)自成一类,此时各样本之间的相
似性度量为初始相似性度量矩阵;然后选择最相似的两类合并成一个新类,计算
新类和其它类的相似性度量,再将最相似的两类并成一类,这样每次减少一类(相
似性度量矩阵缩小一阶),直至所有的样品合并成一类为止。
它的一般步骤为:
1.开始时每个样本自成一类,共有n类,用数1,2,…,n分别标记这n类。
2.从相似性度量矩阵中我出最相似的两类,分别用p和q(p〈q)记这两类,
用Spq记它们之间的相似性度量。
3.将p、q合并,新类记为p(保留p行p列),删除矩阵中属于q的行与列
(q行q列),标记P的合并结果并刷新(更新)相似性度量矩阵中类P和所有其余
现存类之间的相似性度量。
4.重复第2步和第3步,总共讲行nT次,此时全部成员都包括在一个类
内。每次将合并的类和联接它们的相似性度量记录下来,得到聚类分析的一份完
整记录。
各种不同的系统聚类法的区别无非在于第3步中刷新相似性度量矩阵的方
法而已。所谓最相似的两类,对于距离类度量,是距离最小的两类;对于相关系
数和相似系数,是相关系数或相似系数最大的两类。
3.2系统聚类法各论
3.2.1.最短距离法(近邻连接法)
以两类中最相似的两个样本的相似性度量作为该两类的相似性度量。
一般公式:
1)对欧氏(斜交)距离
Smin
tr=(Spr,Sqr)
2)对相关系数和相似系数
Str=max(Sp「,Sqr)
递推公式:
1)对欧氏(斜交)距离
111I
Str-Spr+2Sa。-21spe
2)对相关系数和相似系数
3.2.2.最长距离法(远邻连接法)
以两类中最不相似的两个样本的相似性度量作为该两类的相似性度量。
一般公式:
1)对欧氏(斜交)距离
str=max(spr,sqr)
2)对相关系数和相似系数
s
tr=min(Sp〃sqr)
递推公式:
1)对欧氏(斜交)距离
11
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年厂房出租安全风险评估与报告协议4篇
- 个人信用贷款协议范本(2024年版)版B版
- 论文写作全攻略
- 2025年度国际贸易代理风险控制合同范本4篇
- 2025年度高端装备制造厂区租赁合同协议4篇
- 2025年度医疗设施场地租赁合同范本6篇
- 2025年度常年法律顾问服务合同企业劳动争议解决报价4篇
- 专项经济分析与信息咨询服务协议版B版
- 2024经济中介服务合同格式
- 2025年度环保设备销售与环保技术服务合同4篇
- 增强现实技术在艺术教育中的应用
- TD/T 1060-2021 自然资源分等定级通则(正式版)
- 《创伤失血性休克中国急诊专家共识(2023)》解读
- 仓库智能化建设方案
- 海外市场开拓计划
- 2024年度国家社会科学基金项目课题指南
- 供应链组织架构与职能设置
- 幼儿数学益智图形连线题100题(含完整答案)
- 七上-动点、动角问题12道好题-解析
- 2024年九省联考新高考 数学试卷(含答案解析)
- 红色历史研学旅行课程设计
评论
0/150
提交评论