版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
环境统计学授课教师:林红军授课时间:2010学年第二学期Presentation(EnvironmentalStatistics)环境科学系办公地点:校8幢123室,17幢616室E-mail:hjlin@,linhonjun@163.comCell679856绪论多元线性概率统计一元线性环境统计学基本概念基本原理常用的统计学术语随机事件概率数学特征概率分布统计推断回归模型最小二乘法显著性检验回归模型最小二乘法SPSS求解显著性检验环境应用第5章环境系统聚类分析聚类分析概述聚类要素的数据处理距离的计算系统聚类分析的常用方法SPSS计算方法环境应用环境系统聚类分析一聚类分析概述什么是聚类聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。什么是聚类早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物,男人和女人。环境中如水质分类,污染类型,处理方法聚类分析无处不在在环境上
环境问题如何归类和分析已成为环境科学的一项重要课题。根据确定的标准对环境问题进行分级、分类,需要用到聚类分析。根据对象间的相关程度进行类别的聚合。在进行聚类分析之前,这些类别是隐蔽的,能分为多少种类别事先也是不知道的。聚类分析的基本思想聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个差异很大。聚类分析的基本思想聚类分析原理介绍相似性Similar的度量(统计学角度)距离Q型聚类(主要讨论)主要用于对样本分类常用的距离有(只适用于具有间隔尺度变量的聚类):明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离)兰氏距离马氏距离斜交空间距离此不详述,有兴趣可参考《应用多元分析》(第二版)王学民相似系数R型聚类用于对变量分类,可以用变量之间的相似系数的变形如1-rij定义距离这里不详细介绍这种聚类度量方法二聚类要素的数据处理CODNH4+-NTP色度pH金属离子Cl-1000-10000mg/L1-40mg/L0-5mg/L100-500度5-910-200mg/L20-300mg/L总和标准差标准差标准化极大值标准化极差标准化数据处理方法例1以长江流域水环境数据为例,1993年1月份6个站点水环境监测指标实测值如下表所示。表11993年1月份各站点水环境监测指标实测值(单位:mg/L)各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花10.00.82.00.100.003高场0.160.002津市0.160.003长沙0.720.002中山桥13.000.019宣城0.020.005聚类要素的数据处理方法①总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即这种标准化方法所得到的新数据满足各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花10.00.82.00.100.003高场0.160.002津市0.160.003长沙0.720.002中山桥13.000.019宣城0.020.005各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花高场津市长沙中山桥宣城10.00.15130.06610.17540.06850.08820.15890.10740.15790.10960.05880.15730.15700.10530.10960.08820.13310.19010.09650.49320.05880.19670.28930.25440.20550.55880.20270.19010.21050.01370.14710.151366.1总和标准化
②标准差标准化,即由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有
③极大值标准化,即经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花10.00.82.00.100.003高场0.160.002津市0.160.003长沙0.720.002中山桥13.000.019宣城0.020.005各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花高场津市长沙中山桥宣城10.00.74630.22860.68970.13890.15790.78360.37140.62070.22220.10530.77610.54290.41380.22220.15790.65670.65710.37931.00000.10530.97011.00001.00000.41671.00001.00000.65710.82760.02780.26320.746313.4选出最大值极大值标准化各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花10.00.82.00.100.003高场0.160.002津市0.160.003长沙0.720.002中山桥13.000.019宣城0.020.005各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花高场津市长沙中山桥宣城0.26090.00000.50000.11430.05880.36960.1852-0.61110.20000.00000.34780.4074-0.66670.20000.05880.00000.5556-5.72221.00000.00000.91301.00001.61110.40001.00001.00000.55560.27780.00000.17650.26094.6极差的标准化相减1.2三距离的计算距离的示意图样品1样品2样品n三、距离的计算
常见的距离有
①绝对值距离②欧氏距离③明科夫斯基距离④
切比雪夫距离。当明科夫斯基距时,有
(3.4.8)
例1以长江流域水环境数据为例,1993年1月份6个站点水环境监测指标实测值如下表所示。表11993年1月份各站点水环境监测指标实测值(单位:mg/L)各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花10.00.82.00.100.003高场0.160.002津市0.160.003长沙0.720.002中山桥13.000.019宣城0.020.005各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花高场津市长沙中山桥宣城-0.6186-1.42590.1581-0.6257-0.4411-0.3144-0.8400-0.1581-0.3637-0.6065-0.3752-0.1368-1.1068-0.3637-0.4411-1.34870.3320-1.26492.0814-0.60651.20671.73841.58110.24762.20531.45010.33200.7906-0.9750-0.1103绝对值距离0.30420.58600.31620.26200.16541.6338欧式距离0.09250.34340.10000.06860.02740.7949标准差标准化各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花高场津市长沙中山桥宣城-0.6186-1.42590.1581-0.6257-0.4411-0.3144-0.8400-0.1581-0.3637-0.6065-0.3752-0.1368-1.1068-0.3637-0.4411-1.34870.3320-1.26492.0814-0.60651.20671.73841.58110.24762.20531.45010.33200.7906-0.9750-0.1103绝对值距离1.6338四系统聚类分析的常用方法最短距离法直接聚类法最远距离法聚类分析三方法1、直接聚类法
原理
先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。2、最短距离聚类法
原理最短距离聚类法,是在原来的m×m距离矩阵的非对角元素中找出,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。区代号人均耕地X1劳动耕地X2水田比生X3复种指数X4粮食亩产X5人均粮食X6稻谷比重X7G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17例2下表给出了某个地区九个农业区的七项指标。请做聚类分析。某个地区九个农业区的七项指标区代号人均耕地X1劳动耕地X2水田比生X3复种指数X4粮食亩产X5人均粮食X6稻谷比重X7G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17区代号人均耕地X1劳动耕地X2水田比生X3复种指数X4粮食亩产X5人均粮食X6稻谷比重X7G10.91251.00000.07310.15280.18331.00000.1427G21.00000.86620.00000.00240.00000.23620.0000G30.20000.14800.06820.43660.43910.07900.0709G40.43330.37940.00000.13170.17780.12560.0009G50.02500.03401.00001.00001.00000.46881.0000G60.02920.03290.60560.68940.65430.13400.5950G70.00000.00000.90380.81220.83540.12930.9974G80.90830.53180.06920.00080.09560.42680.0874G90.38330.25550.03500.00000.15390.00000.0040绝对值距离d9,4=0.51最小,所以把G4,G9归为一类,记为G10={G4,G9}3、最远距离聚类法
最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。最远距离聚类法的计算公式是(3.4.11)
区代号人均耕地X1劳动耕地X2水田比生X3复种指数X4粮食亩产X5人均粮食X6稻谷比重X7G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17例2下表给出了某个地区九个农业区的七项指标。请做聚类分析。某个地区九个农业区的七项指标
例题:对于前面的例子,最远距离聚类法的聚类过程如下:
(1)
在9×9阶距离矩阵中,非对角元素中最小者是d94=0.51,将第4区与第9区并为一类,记为G10,即G10={G4,G9}。按照公式分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离,得到一个新的8×8阶距离矩阵(2)在第1步所得到的8×8阶距离矩阵中,非对角线元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11={G5,G7}。按照公式(3.4.11)式分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,得到一个新的7×7阶距离矩阵如下(3)
在第2步所得到的7×7阶距离矩阵中,非对角线元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12={G2,G8}。再按照公式(3.4.11)分别计算G1,G3,G6,G10,G11与G12之间的距离,得到一个新的6×6阶距离矩阵如下(4)在第3步所得的6×6阶距离矩阵中,非对角元素中最小者为d3,10=1.23,故将G3与G10归并为一类,记为G13,即G13={G3,G10}={G3,(G4,G9)}。再按照公式(3.4.11)计算G1,G6,G11,G12与G13之间的距离,得到一个新的5×5阶距离矩阵如下
(5)在第4步所得的5×5阶距离矩阵中,非对角线元素中最小者为d1,12=1.52,故将G1与G12归并为一类,记为G14,即G14={G1,G12}={G1,(G2,G8)}。再按照公式(3.4.11)分别计算G6,G11,G13与G14之间的距离,得到一个新的4×4阶距离矩阵如下
(6)在第5步所得的4×4阶距离矩阵中,非对角线元素中最小者为d6,11=1.78,故将G6与G11归并为一类,记为G15,即G15={G6,G11}={G6,(G5,G7)}。再按照公式(3.4.11)分别计算G13,G14和G15之间的距离,得到一个新的3×3阶距离矩阵如下(7)在第6步所得的3×3阶距离矩阵中,非对角线元素中最小者为d13,14=3.10,故将G13与G14归并为一类,记为G16,即G16={G13,G14}={(G3,(G4,G9)),(G1,(G2,G8))}。再按照公式(3.4.11)计算G15与G16之间的距离,可得一个新的2×2阶距离矩阵如下(8)将G15与G16归并为一类。此时,各个分类对象均已归并为一类。综合上述聚类过程,可以作出最远距离聚类谱系图。
最远距离聚类谱系图G1G2G8G3G4G9G5G7G64计算类之间距离的统一公式最短距离和最远距离可以用一个公式表示
用下图表示二者关系:(3.4.12)
最短距离最远距离
两种不同的空间距离a1Ab1b2Ba2
当α、β、γ三个参数取不同的值时,就形成了不同的聚类方法在下表中,np是p类中单元的个数,nq是q类中单元的个数,nr=np+nq;β一般取负值。
系统聚类其他方法的公式方法名称参数D矩阵要求空间性质apaq
βγ最短距离1/21/20-1/2各种D压缩最远距离1/21/201/2各种D扩张中线法1/21/2-1/4≤β≤00欧氏距离保持重心法0欧氏距离保持组平均法
00各种D保持距离平方和法0欧氏距离压缩可变数平均法<10各种
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二四年度新能源汽车生产许可合同
- 2024年班主任家访工作总结
- 全新智能家居系统研发合作合同
- 癫痫的诊断与治疗
- 脉搏的护理操作
- 皮肤伤口护理
- 二零二四年度房屋买卖合同标的房价款和交付时间2篇
- 生态畜牧养殖示范园项目可行性报告 生态畜牧养殖项目实施方案
- 血液病染色体
- 二零二四年度土地使用权转让合同:商业用地购买与开发
- Unit 5 Fun Clubs(Section A 1a-1d)教学设计 2024-2025学年人教版七年级英语上册
- 《美丽的小兴安岭》课件
- 2024年建筑电工考试题库附答案
- 10.2 滋养心灵 课件-2024-2025学年统编版道德与法治七年级上册
- 空气动力学仿真技术:大涡模拟(LES):LES结果后处理与分析
- 2024-2030年中国备份软件行业市场发展趋势与前景展望战略分析报告
- 2024年碳排放管理员(高级工)职业鉴定考试题库及答案
- 对折剪纸课公开课件
- 中国人失掉自信力了吗(新)
- 安全管理人员安全培训考试题及答案考试直接用
- 加油站冬季施工方案
评论
0/150
提交评论