版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
§3.5系统聚类分析俗话说:“物以类聚,人以群分〞本节内容*一聚类分析的根本思想二聚类要素的数据变换处理三聚类分析的统计量四聚类分析方法一聚类分析的根本思想
聚类分析又称为簇分析,群分析,它是根据研究对象的特性进行定量分类的一种多元统计方法。根据分类对象不同分为样品聚类〔Q型聚类〕和变量聚类〔R型聚类〕。根本思想x年均气温
y0●●●●●●●●●●●年均降水量我们的研究对象的样品〔或变量〕之间存在着不同程度的相似性,根据所获得的多个观测指标寻找能度量样本〔或变量〕之间亲疏远近关系的统计量,然后根据这些统计量把这些样品〔或变量〕分成假设干类。技术路线如下:3聚类分析的步骤〔1〕数据的变换处理〔2〕聚类统计量的计算〔3〕选择聚类方法一聚类分析的根本思想*二聚类要素的数据变换处理三聚类分析的统计量四聚类分析方法表1聚类对象与要素数据
假设有n个聚类的对象,每一个聚类对象都有m个要素构成。它们所对应的要素数据可用表1给出。平均值标准差地级市人均GDPx1第三产比重%x2许昌13036720郑州24900040.2洛阳33600031.8南阳41900027.5平顶山52600025焦作63570023.2周口71300024.8安阳82500026.2新乡92200028.6商丘101500029.1信阳111400031.4驻马店121200030.7开封131800033.3三门峡143600023.5濮阳152100019.6漯河162600017.5鹤壁172900018济源185020019.7均值2651426.1标准差114206.076二聚类要素的数据变换处理1标准差标准化由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有地级市人均GDP第三产比重%人均GDP第三产比重%许昌130367200.3373-1.0066郑州24900040.21.9692.3177洛阳33600031.80.83060.9353南阳41900027.5-0.6580.2277平顶山52600025-0.0451-0.1838焦作63570023.20.8043-0.48周口71300024.8-1.1834-0.2167安阳82500026.2-0.13260.0137新乡92200028.6-0.39530.4087商丘101500029.1-1.00830.491信阳111400031.4-1.09590.8695驻马店121200030.7-1.2710.7543开封131800033.3-0.74561.1822三门峡143600023.50.8306-0.4306濮阳152100019.6-0.4829-1.0725漯河162600017.5-0.0451-1.4181鹤壁1729000180.2176-1.3358济源185020019.72.074-1.056均值2651426.100标准差114206.07611标准差标准化后数据2极差标准化经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。地级市人均GDP第三产比重%人均GDP第三产比重许昌130367200.48080.1101郑州24900040.20.96861.0000洛阳33600031.80.62830.6300南阳41900027.50.18320.4405平顶山526000250.36650.3304焦作63570023.20.62040.2511周口71300024.80.02620.3216安阳82500026.20.34030.3833新乡92200028.60.26180.4890商丘101500029.10.07850.5110信阳111400031.40.05240.6123驻马店121200030.70.00000.5815开封131800033.30.15710.6960三门峡143600023.50.62830.2643濮阳152100019.60.23560.0925漯河162600017.50.36650.0000鹤壁1729000180.44500.0220济源185020019.71.00000.0969均值2651426.1标准差114206.076极差标准化后数据3总和标准化
这种标准化方法所得到的新数据满足:4极大值标准化
经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。一聚类分析的原理和根本思想二聚类要素的数据变换处理*三聚类分析的统计量四聚类分析方法三聚类分析的统计量〔一〕距离系数〔二〕相似系数用于对样品进行聚类用于对变量进行聚类〔一〕距离系数1欧氏距离2绝对值距离3明科夫斯基距离4切比雪夫距离常用于Q型聚类分析,将每个样品看作m维空间中的一个点,样品之间的相似性程度用样品点之间的距离来衡量。1.欧氏距离
最常选用的距离,多维空间中的几何距离,以两变量差值平方和的平方根为距离。第i行和第j行的欧氏距离为:将所有行的欧氏距离都算出来,可以得到一个n×n的欧氏距离矩阵:D为对称阵,根据D可对n个点进行分类,距离近的点归为一类,距离远的点归为不同的类。郑州2济源18开封13洛阳3三门峡14焦作6漯河16周口7信阳11商丘10南阳4新乡9濮阳15许昌1鹤壁17平顶山5安阳8驻马店12d152.绝对值距离
以两变量绝对差值之和为距离:绝对值距离图示郑州2济源18开封13洛阳3三门峡14焦作6漯河16周口7信阳11商丘10南阳4新乡9濮阳15许昌1鹤壁17平顶山5安阳8驻马店12L1L23明科夫斯基距离
以两变量绝对差值的q次幂之和的q次根为距离:
q=1时为绝对距离,q=2时为欧氏距离。4切比雪夫距离1.夹角余弦2.相关系数〔二〕相似系数〔二〕相似系数1.夹角余弦它是指标向量〔xi1,xi2,…,xin)和〔xj1,xj2,…,xjn)之间的夹角余弦。如果把两两指标间的夹角余弦都计算出来,便可构成一个m×m阶的夹角余弦矩阵:2.相关系数〔二〕相似系数29名儿童的血红蛋白〔g/100ml〕与微量元素〔μg/100ml〕测定结果如下表:由于微量元素的测定本钱高、耗时长,故希望通过聚类分析〔即R型指标聚类〕筛选代表性指标,以便更经济快捷地评价儿童的营养状态。一聚类分析的根本思想二聚类要素的数据变换处理三聚类分析的统计量*四聚类分析方法四系统聚类方法1直接聚类法2最短距离法3最长距离法某地区9个农业区的7项经济指标数据
区代号人均耕地X1/(hm2·人-1)劳均耕地X2/(hm2·个-1)水田比重X3/%复种指数x4/%粮食单产x5/(kg·hm-2)人均粮食x6/(kg·人-1
)稻谷占粮食比重x7/%G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.179个农业区之间的绝对值距离矩阵如下
1直接聚类法原理先把各个分类对象单独视为一类,然后根据距离最小的原那么,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,那么把另一个也归入该类;如果一对分类对象正好属于已归的两类,那么把这两类并为一类。每一次归并,都划去该对象所在的行及与行序相同的列。经过n-1次就可以把全局部类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。G1G2G3G4G5G6G7G8G9G10G21.520G33.102.700G42.191.471.230G55.866.023.644.770G64.724.461.862.991.780G75.795.532.934.060.831.070G81.320.882.241.295.143.965.030G92.621.661.200.514.843.063.321.4000.510.830.881.231.521.783.10直接聚类谱系图
2最短距离法
原理最短距离聚类法,是在原来的n×n距离矩阵的非对角元素中找出,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式计算原来各类与新类之间的距离,这样就得到一个新的〔n-1〕阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。1·2·Gp·3·4dp3=min{d13,d23}=d13dp4=min{d14,d24}=d24G1G2G3G4G5G6G7G8G9G10G21.520G33.102.700G42.191.471.230G55.866.023.644.770G64.724.461.862.991.780G75.795.532.934.060.831.070G81.320.882.241.295.143.965.030G92.621.661.200.514.843.063.321.400D(1)表G10={G4,G9}0.51第一步,在9×9阶距离矩阵D〔1〕中,非对角元素中最小者是d94=0.51,首先将第4区与第9区并为一类,记为G10={G4,G9}。分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离,得到一个新的8×8的距离矩阵。d1,10=min{d14,d19}=min{2.19,2.62}=2.19d2,10=min{d24,d29}=min{1.47,1.66}=1.47d3,10=min{d34,d39}=min{1.23,1.20}=1.20d5,10=min{d54,d59}=min{4.77,4.84}=4.77d6,10=min{d64,d69}=min{2.99,3.06}=2.99d7,10=min{d74,d79}=min{4.06,3.32}=3.32d8,10=min{d84,d89}=min{1.29,1.40}=1.29第二步,在8×8阶距离矩阵中:
G1G2G3G5G6G7G8G10
G10G21.520G33.102.700G55.866.023.640G64.724.461.861.780G75.795.532.930.831.070G81.320.882.245.143.965.030G102.191.471.204.772.993.321.290D(2)表0.83G11={G5,G7}分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,得到一个新的7×7的距离矩阵。d1,11=min{d15,d17}=min{5.86,5.79}=5.79d2,11=min{d25,d27}=min{6.02,5.53}=5.53d3,11=min{d35,d37}=min{3.64,2.93}=2.93d6,11=min{d65,d67}=min{1.78,1.07}=1.07d8,11=min{d85,d87}=min{5.14,5.03}=5.03d10,11=min{d10,5,d10,7}=min{4.77,3.32}=3.32第三步,在7×7阶距离矩阵中:
G12={G2,G8}G1G2G3G6G8G10G11
G10G21.520G33.102.700G64.724.461.860G81.320.882.243.960G102.191.471.202.991.290G115.795.532.931.075.033.320D(3)表0.88分别计算G1,G3,G6,G10,G11与G12的距离,可得到一个新的6×6阶距离矩阵。d1,12=min{d12,d18}=min{1.52,1.32}=1.32d3,12=min{d32,d38}=min{2.70,2.24}=2.24d6,12=min{d62,d68}=min{4.46,3.96}=3.96d10,12=min{d10,2,d10,8}=min{1.47,1.29}=1.29d11,12=min{d11,2,d11,8}=min{5.53,5.03}=5.03第四步,在6×6阶距离矩阵中:
G1G3G6G10G11G12
G10G33.100G64.721.860G102.191.202.990G115.792.931.073.320G121.322.243.961.295.030D(4)表G13={G6,G11}1.07分别计算G1,G3,G10,G12与G13的距离,可得到一个新的5×5阶距离矩阵。d1,13=min{d16,d1,11}=min{4.72,5.79}=4.72d3,13=min{d36,d3,11}=min{1.86,2.93}=1.86d10,13=min{d10,6,d10,11}=min{2.99,3.32}=2.99d12,13=min{d12,6,d12,11}=min{3.96,5.03}=3.96第五步,在5×5阶距离矩阵中:
G1G3G10
G12G13G10G33.100G102.191.200G121.322.241.290G134.721.862.993.960D(5)表G14={G3,G10}1.20分别计算G1,G12,G13与G14的距离,可得到一个新的4×4阶距离矩阵。d1,14=min{d13,d1,10}=min{3.10,2.19}=2.19d12,14=min{d12,3,d12,10}=min{2.24,1.29}=1.29d13,14=min{d13,3,d13,10}=min{1.86,2.99}=1.86第六步,在4×4阶距离矩阵中:
G1G12G13G14G10G121.320G134.723.960G142.191.291.860D(6)表G15={G12,G14}1.29分别计算G1,G13与G15的距离,可得到一个新的3×3阶距离矩阵。d1,15=min{d1,12,d1,14}=min{1.32,2.19}=1.32d13,15=min{d13,12,d13,14}=min{3.96,1.86}=1.86第七步,在3×3阶距离矩阵中:
G1G13G15G10G134.720G151.321.860D(7)表G16={G1,G15}1.32计算G13与G16的距离,可得到一个新的2×2阶距离矩阵。d13,16=min{d13,1,d13,15}=min{4.72,1.86}=1.86第八步,在2×2阶距离矩阵中:
D(8)表G17={G13,G16}G13G16G130G161.8601.86第九步,综上聚类过程得到谱系图:最短距离聚类谱系图3最长距离聚类法最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。最远距离聚类法的计算公式是1·2·Gp·3·4dp3=max{d13,d23}=d23dp4=max{d14,d24}=d14G1G2G3G4G5G6G7G8G9G10G21.520G33.102.700G42.191.471.230G55.866.023.644.770G64.724.461.862.991.780G75.795.532.934.060.831.070G81.320.882.241.295.143.965.030G92.621.661.200.514.843.063.321.400D(1)表G10={G4,G9}0.51第一步,在9×9阶距离矩阵D〔1〕中,非对角元素中最小者是d94=0.51,首先将第4区与第9区并为一类,记为G10={G4,G9}。分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离,得到一个新的8×8的距离矩阵。d1,10=max{d14,d19}=max{2.19,2.62}=2.62d2,10=max{d24,d29}=max{1.47,1.66}=1.66d3,10=max{d34,d39}=max{1.23,1.20}=1.23d5,10=max{d54,d59}=max{4.77,4.84}=4.84d6,10=max{d64,d69}=max{2.99,3.06}=3.06d7,10=max{d74,d79}=max{4.06,3.32}=4.06d8,10=max{d84,d89}=max{1.29,1.40}=1.40第二步,在8×8阶距离矩阵中:
G1G2G3G5G6G7G8G10
G10G21.520G33.102.700G55.866.023.640G64.724.461.861.780G75.795.532.930.831.070G81.320.882.245.143.965.030G102.621.661.234.843.064.061.400D(2)表0.83G11={G5,G7}分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,得到一个新的7×7的距离矩阵。d1,11=max{d15,d17}=max{5.86,5.79}=5.86d2,11=max{d25,d27}=max{6.02,5.53}=6.02d3,11=max{d35,d37}=max{3.64,2.93}=3.64d6,11=max{d65,d67}=max{1.78,1.07}=1.78d8,11=max{d85,d87}=max{5.14,5.03}=5.14d10,11=max{d10,5,d10,7}=max{4.84,4.06}=4.84第三步,在7×7阶距离矩阵中:
G12={G2,G8}G1G2G3G6G8G10G11
G10G21.520G33.102.700G64.724.461.860G81.320.882.243.960G102.621.661.233.061.400G115.866.023.641.785.144.840D(3)表0.88分别计算G1,G3,G6,G10,G11与G12的距离,可得到一个新的6×6阶距离矩阵。d1,12=max{d12,d18}=max{1.52,1.32}=1.52d3,12=max{d32,d38}=max{2.70,2.24}=2.70d6,12=max{d62,d68}=max{4.46,3.96}=4.46d10,12=max{d10,2,d10,8}=max{1.66,1.40}=1.66d11,12=min{d11,2,d11,8}=min{6.02,5.14}=6.02第四步,在6×6阶距离矩阵中:
G1G3G6G10G11G12
G10G33.100G64.721.860G102.621.233.060G115.863.641.784.840G121.522.704.461.666.020D(4)表G13={G3,G10}1.23分别计算G1,G6,G11,G12与G13的距离,可得到一个新的5×5阶距离矩阵。d1,13=max{d13,d1,10}=max{3.10,2.62}=3.10d6,13=max{d63,d6,10}=max{1.86,3.06}=3.06d11,13=max{d11,3,d11,10}=max{1.78,4.84}=4.84d12,13=max{d12,3,d12,10}=max{2.70,1.66}=2.70第五步,在5×5阶距离矩阵中:
G1G6G11
G12G13G10G64.720G115.861.780G121.524.466.020G133.103.064.842.700D(5)表G14={G1,G12}1.52分别计算G6,G11,G13与G14的距离,可得到一个新的4×4阶距离矩阵。d6,14=max{d61,d6,12}=max{4.72,4.46}=4.72d11,14=max{d11,1,d11,12}=max{5.86,6.02}=6.02d13,14=max{d13,1,d13,12}=max{3.10,2.70}=3.10第六步,在4×4阶距离矩阵中:
G
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2017年内江市中考英语整体复习策略
- Unit 4 Natural Disasters Reading for writing 说课稿 -2024-2025学年人教版(2019)高中英语必修第一册
- 20万套太阳能组件生产项目可行性研究报告申请建议书
- 2025年割灌机软轴芯项目投资可行性研究分析报告
- 水电水利工程环境保护设计规范示范项目合同2篇
- 2025年度美团外卖外卖配送员职业素养提升服务合同4篇
- 2025年度个人股份转让与知识产权许可合同2篇
- 2025年钢化玻璃绝缘子项目可行性研究报告
- 6《蛋壳与薄壳结构》说课稿-2024-2025学年科学五年级下册苏教版
- 2025年度新能源项目投资合作居间服务合同范本4篇
- 骨科手术后患者营养情况及营养不良的原因分析,骨伤科论文
- GB/T 24474.1-2020乘运质量测量第1部分:电梯
- GB/T 12684-2006工业硼化物分析方法
- 定岗定编定员实施方案(一)
- 高血压患者用药的注意事项讲义课件
- 特种作业安全监护人员培训课件
- (完整)第15章-合成生物学ppt
- 太平洋战争课件
- 封条模板A4打印版
- T∕CGCC 7-2017 焙烤食品用糖浆
- 货代操作流程及规范
评论
0/150
提交评论