数据挖掘在-课件

上传人：为*** IP属地：贵州上传时间：2022-12-22 格式：PPT 页数：120 大小：1.39MB 积分：25 举报 版权申诉

已阅读5页，还剩115页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据挖掘在地震预测中的应用2019-12数据挖掘在2019-121数据挖掘在地震预测中的应用1、关联规则2、时间序列的相似性3、神经网络及其集成4、支持向量机5、粗糙集6、主成分分析7、因子分析8、数据挖掘在地震领域中的应用研究展望数据挖掘在地震预测中的应用1、关联规则21基于关联分析的地震相关地区查找1基于关联分析的地震相关地区查找3(1)地震的地区相关性寻找地震相关地区，进而预报相关地震是人们较为熟悉的地震预报方法之一。(1)地震的地区相关性寻找地震相关地区，进而预报4提出基于主从模式设计的并行关联规则挖掘算法FPM-LP(FastParallelMiningofLocalPruning)，以期实现高效发现地震相关地区的关联规则挖掘。

结果解释和说明：区域编号1571：新疆乌孜别里山一带；区域编号1098：云南丽江一带。规则“1571→1098”的支持度为40%，可信度为60%，说明在1960到2019的400多个月里，有大约40%的时间段，即160多个月新疆和云南同时发生了地震。而新疆、云南相伴发生地震的可能性为60%。(2)用FPM_LP算法寻找地震相关地区1571→1098support=40%,confidence=60%提出基于主从模式设计的并行关联规则挖掘算法FPM5(3)用FPM_LP算法寻找地震相关地区在三种不同数据组合实验中，每次的挖掘结果都发现云南与新疆之间的地震关联和新疆各地区之间的地震关联。经归纳，云南与新疆之间的地震关联大致如图中所示，地震关联地区用方框标明。

(3)用FPM_LP算法寻找地震相关地区在三种不同数6(4)用FPM_LP算法寻找地震相关地区事实上，从1970年到2019年，两地区地震的M-T图（震级与时间关系图，其中M为震级，T为地震发生时间）如下：每当新疆发生一次地震，在云南地区不超过1个月就会相伴发生一次地震，从1970年到2019年都有这样的规律。(4)用FPM_LP算法寻找地震相关地区事实上，从17地震时间序列相似性度量模型定义：设S和R为两个不同的地震时间序列，则S和R的相似性可用两序列中对应元素的相似性记分函数加权和来度量。相似性度量模型定义为：2基于序列相似性的地震相关性分析这里，(1)S’和R’分别是在指定时间范围内对S和R补充了空元素以后形成的稠密地震序列。如果将S’和R’中的空元素除去后则还原为S和R。(2)|S’|=|R’|；（即S’、R’两序列长度相等）(3)W(x，y)是权重函数，定义为:W(x，y)=max{x(t)，y(t)}；如果x(t)≥M或者y(t)≥MW(x，y)=min{x(t)，y(t)}；如果x(t)<M并且y(t)<M地震时间序列相似性度量模型定义：设S和R为两个不同的地震时8实验1：固定时间差为1年的粗粒度序列相似性分析选取1980年1月1日开始的5.0级以上地震转换成时间序列，地理位置按地理坐标进行5˚×5˚分块，时间间隔为1年，=1，相关地震支持数阈值Sup-min为10。得到部分实验结果如下表所示：区域1经度范围纬度范围(度)区域2经度范围纬度范围(度)相关次数452100-10525-30492120-12520-251841490-9530-35492120-12520-251641595-10030-35492120-12520-251537575-8035-40492120-12520-2514452100-10525-3041490-9530-351341385-9030-35492120-12520-2513488100-10520-25492120-12520-2513452100-10525-3037575-8035-4012实验1：固定时间差为1年的粗粒度序列相似性分析区域1经度范围9例，下图为区域452(位置在四川-云南境内，其经度范围100˚105˚，纬度范围25˚30˚)和区域492(台湾省周围，其经度范围120˚125˚，纬度范围为20˚25˚)相匹配的地区相关性分析M-T图。图中匹配的次数为18次，即在四川―云南境内的每一次5级以上地震几乎都可以在台湾省周围找到与之匹配的一次地震记录。例，下图为区域452(位置在四川-云南境内，其经度范围1010区域A经度(度)纬度(度)次数比例区域B经度(度)纬度(度)次数比例相关数11821121－12224－25926010127-282440.52912912019121－12223－246020.20411260100－10127-282440.504123907777－7839-404930.22511260100－10127-282440.455111889777－7840-416120.16711260100－10127-282440.4181028942122-12340-41547010127-282440.410100实验2：较小时空窗口的细粒度序列相似性分析采用自1972年1月1日开始的震级在3.0以上的地震数据，用WSM3S算法进行较小时空窗口的细粒度序列相似性分析。实验中具体参数为：地理位置按地理坐标进行1˚×1˚分块，时间间隔为10天，=1，地震相关支持数阈值Sup-min为100，无固定时间差。时间间隔为10天的地区相关性比较实验结果区域经度纬度次比例区域经度纬度次比例相关11821121－111以表3-3中第一条记录为例进行分析，算法发现块11821和块11260的地震相关次数为129次，说明它们很可能是地震相关地区。11821块处于我国台湾省台北市的下方，位于我国较大的一个地震频繁发生的地震带上，而11260块处于云南和四川交界处，位于另一个地震带上。从1980年到1985年这两块区域中每月取一个3级以上最大地震所得到的对应M－T图。以表3-3中第一条记录为例进行分析，算法发现块11821和块12

3.神经网络集成ΔMEm/EΣPb值k值Mmax

T2.01：主震-余震型2：震群型3：孤立型地震序列类型判断指标DOEERBF

提出了一种基于正交设计和均匀设计的异构RBF神经网络集成方法DOEERBF。

3.1地震序列类型判断3.神经网络集成ΔM1：主震-地震序列类型判13比较实验和结果单个RBFNN外推精度为68.33%，内符精度77.12%固定集成结构和训练参数外推精度65%，内符精度69.64%均匀设计确定集成结构和参数外推精度78.33%，内符精度81.36%比较实验和结果单个RBFNN14提出了一种自动确定神经网络集成结构和参数调整的构造选择性RBF神经网络集成算法CSERBF

前兆及地震学异常的持续时间和种类多少与未来地震震级大小有一定关系14项异常指标的持续时间+异常的数量未来地震震级CSERBF

3.2地震震级预测…提出了一种自动确定神经网络集成结构和参数调整的构造选15震级预报震级预报163.3基于特征加权的神经网络集成FWEART

地震序列类型判断中的应用3.3基于特征加权的神经网络集成FWEART

地震序列174.支持向量机SVM方法的基本思想：基于Mercer核展开定理，通过非线性映射φ，把样本空间映射到一个高维乃至于无穷维的特征空间，使得在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类和回归等问题。最优超平面的分类函数为

4.支持向量机SVM方法的基本思想：基于Merce18

4.1我国大陆强震预测的支持向量机方法

全球强震主要分布在环太平洋地震带和欧亚地震带。许多学者研究表明，我国大陆强震与全球主要板块边界的强震活动之间具有一定的关系，但是这种关系具有较强的非线性。将板板块边界的强震活动分为16个区域,取这16个区域在一年中的Ms≥7.0级地震次数Ni为支持向量机输入项；输出项为次年我国大陆是否发生7级以上强震。如果发生，取值为1；否则为0。4.1我国大陆强震预测的支持向量机方法19数据挖掘在-课件20表1使用支持向量机和BP神经网络对14个待检验样本的检验结果

预测年份19681969198219831984198519911992199319942019201920192019

中国大陆最大地震震级5.77.46.66.86.27.46.56.96.67.38.15.96.86.7

检验结果(SVM)

00000100011010

检验结果(BP)

10100011010

通过支持向量机对上述65个样本的学习，据此对学习样本的内符检验全部正确；对14个待检验样本的检验结果(表1)表明，有12个样本的检验结果正确，两个报错（1969、2019年），报准率为

12∕14=0.86。

使用BP神经网络模型进行外推检验，报准率为

11∕14=0.79。支持向量机的预测检验结果要优于BP神经网络。

表1使用支持向量机和BP神经网络对14个待检验样本的检验21

4.2.1地震时间序列预测方法（1）

依次取前13年中我国大陆每年的最大地震震级Mi+1,Mi+2,…,Mi+13，预测第14年的我国大陆最大地震震级Mi+14,(i=1,2,…m)。这样支持向量机的输入项为前13年中每年的最大地震Mi+1,Mi+2,…,Mi+13；输出项为1个，即为第14年的我国大陆最大地震震级Mi+14。4.2中国大陆强震时间序列预测的支持向量机方法4.2.1地震时间序列预测方法（1）4.2中国大22表1预测方法（１）的预测样本检验结果预测年份19911992199319942019201920192019201920002019201920192019中国大陆最大地震震级6.56.96.67.37.37.17.56.67.06.58.17.26.86.7

检验结果7.07.26.96.97.36.77.17.56.97.06.97.06.87.0

预测与实际震级之差-0.5-0.3-0.30.40.00.40.4-0.90.1-0.51.20.20.0-0.3

取预测与实际最大地震震级之差小于等于0.5为报准，则有12个样本的检验结果正确，2个报错。这样报准率为12/14=0.86。表1预测方法（１）的预测样本检验结果预测年23

4.2.2地震时间序列预测方法（2）

支持向量机的输入项为前13年中每年的最大地震震级Mi+1,Mi+2,……,Mi+13。还增加8个输入项，它们分别是全球地震活动第12和13年的年频次，第13年的年释放能量，第12和13年与前一年的释放能量的差分值，第13年的太阳年平均黑子数，第12和13年与前一年的太阳黑子数差分值。这样支持向量机的输入项共为21个；输出项为1个，仍为所预测的我国大陆第14年的最大地震震级。4.2.2地震时间序列预测方法（2）24表2预测方法（2）的预测样本检验结果

预测年份19911992199319942019201920192019201920002019201920192019中国大陆最大地震震级6.56.96.67.37.37.17.56.67.06.58.17.26.86.7

检验结果7.07.06.97.07.07.07.07.06.97.07.07.07.06.9

预测与实际震级之差-0.5-0.2-0.30.10.30.10.5-0.40.1-0.51.10.2-0.2-0.2

取预测与实际最大地震震级之差小于等于0.5为报准，则有13个样本的检验结果正确，1个报错。这样报准率为13/14=0.93，表2预测方法（2）的预测样本检验结果预测年25支持向量机与神经网络预测方法预测检验结果比较方法1(SVM)方法1(神经网络)方法2(SVM)方法2(神经网络)报准率12/14=0.869/11=0.8213/14=0.9310/11=0.91平均误差0.400.450.340.43均方差

0.500.590.420.51与神经网络预测方法比较，本文所用的支持向量机预测方法无论在报准率、预测的平均误差还是均方差这三个方面，都要优于神经网络方法。支持向量机与神经网络预测方法预测检验结果比较方法1(SVM26粗集(RoughSet,或粗糙集)理论是近年来发展起来的一种处理不确定和模糊信息的重要工具。

粗糙集的核心内容是属性重要性的度量和属性约简。其中，约简是应用粗集理论的基础，其内涵即为去掉多余的属性，或者说属性约简的目的就是发现不重要的属性并去掉它们。因此，粗集非常适合于用来处理地震预测指标的独立性问题。5.粗糙集粗集(RoughSet,或粗糙集)理论是近年来发27基于可辨识矩阵的属性约简方法ODMA（OptimizedDiscernibilityMatrixbasedApproach）使用约简算法分析地震预测参数的独立性

据中国震例库取测震学指标41项。1：地震条带；2：地震空区(段)；3：地震活动分布(时间、空间、平静或增强) ；4：前兆震(群)；5：震群活动；6：地震活动性指标(综合指标A值，地震活动熵、地震活动度、模糊地震活动度)；7：地震强度因子Mf值；8：震级容量维(D0值)；9：地震节律；10：应变释放(能量释放)；11：地震频度；12：b值；13：h值；14：地震窗；15：缺震；16：诱发前震；17：前震活动；18：震情指数(A(b)值)；19：地震集中度(集中度C、空间集中度C1、带状集中度Cb)；20：地震时间间隔；21：小震综合断层面解；22：P波初动符号矛盾比；23：地震应力降；24：环境应力值；25：介质因子(Q值)；26：波速(波速、波速比)；27：S波偏振；28：地震尾波(持续时间比、衰减系数、衰减速率p)；29：振幅比；30：地脉动；31：地震波形；32：断层面总面积(∑(t)值)；33：小震调制比；34：地震缺信量；35：地震非均匀度(GL值)；36：算法复杂性(Ac)；37：空区参数(sH)；38：有震面积数（A值）；39：E、N、S三项指标；40：h值；41：D值。

5.1地震预测指标独立性的粗集约简方法

基于可辨识矩阵的属性约简方法ODMA（OptimizedD28使用ODMA分析

地震预报指标与地震的关系

决策表的构造111项预测指标

(41项测震学预报指标,70项前兆指标)地震预报情况结果41项测震学预报指标中17项指标是绝对必要彼此独立的70项前兆指标中只有12项指标是绝对必要彼此独立的使用ODMA分析

地震预报指标与地震的关系决策表的构造29应用ODMA算法的属性约简结果得到下列五组属性约简集：{1,2,3,4,6,10,11,12,13,14,15,17,26,28,29,31,33}{1,2,3,4,6,10,11,12,13,14,15,17,21,26,28,29,33}{1,2,3,4,6,10,11,12,13,14,15,17,20,26,28,29,33}{1,2,3,4,6,10,11,12,13,14,15,17,18,26,28,29,33}{1,2,3,4,6,10,11,12,13,14,15,16,17,26,28,29,33}。5组中都不出现的属性5，7，8，9，19，22，23，24，25，27，30，32，34，35，36，37，38，39，40和41为冗余属性。在每组均出现的核属性1，2，3，4，6，10，11，12，13，14，15，17，26，28，29和33则为属性核，为最有必要属性。应用ODMA算法的属性约简结果得到下列五组属性约简集：305.2基于粗集约简的支持向量机集成方法

使用RRESVM判断地震序列类型1:ΔM2:Em/EΣ3:P4:b值5:k值6:Mmax

7:T2.05.2基于粗集约简的支持向量机集成方法

使用RRESVM判31使用RRESVM判断地震序列类型使用RRESVM判断地震序列类型32

在地震活动性分析中有许多预报指标，如b值、η值、C值、D值、Mf值等。这些指标都从不同侧面反应了地震活动时间、空间和强度特征。目前这类参数较多，同时它们之间还可能存在着一定的相关性。另外在实际预报中，这些参量的变化各有所异。这些都给实际预报带来困难。

主成分分析是一种数据约减的有效方法，它可以把描述样本特征的多个有一定相关性的指标化为少数几个综合指标的一种统计分析方法。6.主成分分析法在地震活动性分析中有许多预报指标，如b值、η值、33

选择与地震活动强度有关的一些参量：3级以上地震频次N(ML≥3.0)、b值、η值、A(b)值、Mf值、Ac值这6个参量进行主成分分析。

图1为6.0级地震发生前后震中周围200km范围内的一些地震活动性参数随时间变化曲线，可以看到，6.0级地震前地震频次N、Mf值、A(b)值等出现相对较为明显的异常，另一些参数的异常变化则不明显。6.11979年江苏溧阳6.0级地震震中附近地区地震活动参数的主成分分析

选择与地震活动强度有关的一些参量：3级以上地震频次34数据挖掘在-课件35

在实际预报中，我们如何将上述反应地震强度异常特征的指标用一个综合指标来表示，本文根据主成分分析得到的主成分Z

i和相应的权值（贡献率）ei计算定义综合指标:这里将根据累计贡献率Em＞85％确定最小主成分个数m(m<p)。在实际预报中，我们如何将上述反应地震强度异常特征的指36表1各参量在各主成分中的系数（特征向量）、特征值与贡献率

主成分1主成分2主成分3主成分4主成分5主成分6NbηA(b)MfAc0.490860.107420.617120.40315-0.33684-0.301125-0.39253-0.343520.72342-0.234430.017800.3863690.35066-0.50609-0.17319 0.520430.173900.538343-0.085370.66996-0.01406 0.15064-0.330040.641899-0.507070.221170.12543 0.633030.49057-0.1918700.466460.341380.22335-0.297030.711600.146222特征值2.97511.60550.70730.44630.19580.0701贡献率%49.58526.75811.7887.43813.26311.1685累计贡献率%49.58576.34288.13095.56898.832100.00表1各参量在各主成分中的系数（特征向量）、特征值与贡献率37溧阳6.0级地震前后震中附近地区地震强度综合指标W随时间的变化溧阳6.0级地震前后震中附近地区地震强度综合指标W随时间的变386.2一些中强以上地震前综合指标W随时间的变化取N3、b、、A(b)、Mf、Ac、C、D8个参量

6.2一些中强以上地震前综合指标W随时间的变化39

因子分析法是主成分分析方法的推广和深化，也是一种数据约减的有效方法，它是把一些可能有一定相关性的变量归结为少数几个综合因子的一种多元统计分析方法。因子分析从一组观测数据出发，通过研究其相关矩阵的内部结构，找出对变量起支配作用的几个互不相关的因子。在尽量减少原始数据信息损失的前提下，用少数几个公共因子去代替数量较多且有一定联系的原始变量，从而达到揭示原始变量之间的内在联系、合理解释原始变量与主要因子关系的目的。

7.因子分析法因子分析法是主成分分析方法的推广和深化，也是一种数42

选择九江5.7级地震前与地震活动强度有关的6个参量，即地震频次N(ML≥3.0)、b值、η值、A(b)值、Mf值和Ac值进行因子分析。图1为6.0级地震发生前后震中周围200km范围内的一些地震活动性参数随时间变化曲线，可以看到，6.0级地震前地震频次N、Mf值、A(b)值等出现相对较为明显的异常，另一些参数的异常变化则不明显。7.1江西九江5.7级地震前地震活动参数的因子分析

选择九江5.7级地震前与地震活动强度有关的6个参量43

计算反映地震活动时、空、强特征的综合指标根据各公共因子得分和相应的权值（贡献率）ei，本文定义反映地震活动时、空、强特征的综合指标为：计算反映地震活动时、空、强特征的综合指标45表1各因子的特征值与贡献率特征值贡献率%累计贡献率%因子1因子2因子3因子4因子5因子62.9553049.255149.25511.2882321.470770.72580.8557814.263184.98880.585299.754994.74380.212443.540798.28450.102931.7155100.0000表2正交旋转后的因子载荷

因子1因子2因子3因子4NbηA(b)MfAc0.94671 0.020380.07004-0.02899-0.23335 0.14261-0.068460.95097-0.06585 -0.97681-0.057940.142440.91365 -0.014620.09388-0.284220.743870.389250.32979-0.289970.151260.063170.98146-0.06206表1各因子的特征值与贡献率特征值贡献率%累计46

九江5.7级地震前后6参数因子分析综合指标Wfa随时间的变化

九江5.7级地震前后8参数因子分析综合指标Wfa随时间的变化

九江5.7级地震前后6参数因子分析综合指标Wfa随时478、数据挖掘在地震领域中的应用研究展望

8、数据挖掘在地震领域中的应用研究展望488.1数据挖掘在地震预报中的可能应用前兆干扰因素的排除

(数据清洗、属性约简、关联规则)地震异常的识别

(分类、聚类、离群数据挖掘、关联规则)异常地震活动异常识别

(关联规则、序贯模式、分类、聚类、神经网络、SVM)地震综合预报(分类、聚类、神经网络、粗集)地震序列类型判定和强余震预报的研究地震序列的相似性研究如前震序列的相似性研究地震序列类型判定的研究(分类树、神经网络、SVM)地震预报知识的学习和地震异常的发现

(分类、聚类、关联规则、离群数据挖掘)地震主要预报指标的提取和无用指标的排除

(属性约简)8.1数据挖掘在地震预报中的可能应用前兆干扰因素的排除(49前兆干扰因素的排除（数据清洗）

数字化动水位的固体潮汐效应扣除固体潮汐的影响前兆干扰因素的排除（数据清洗）

数字化动水位的固体潮汐效应扣50聊古一井气氡影响因素分析气象因素影响聊古一井气氡影响因素分析气象因素影响51数据挖掘在-课件528.1数据挖掘在地震预报中的可能应用前兆干扰因素的排除

(数据清洗、属性约简、关联规则)地震前兆异常的识别

(分类、聚类、离群分析、关联规则)异常地震活动的识别

(关联规则、序贯模式、分类、聚类、神经网络、SVM)地震综合预报(分类、聚类、神经网络、粗集)地震序列类型判定和强余震预报的研究

地震序列的相似性研究

如前震序列的相似性研究

地震序列类型判定的研究(分类树、神经网络、SVM)地震预报知识的获取

(关联规则、决策树、神经网络、SVM

)地震主要预报指标的提取和无用指标的排除

(粗糙集

)8.1数据挖掘在地震预报中的可能应用前兆干扰因素的排除(538.2数据挖掘在地震波数据的

实时处理中的可能应用

1、地震波的识别（在干扰中识别地震波信号）2、地震震相的识别3、天然地震与人工地震（爆破、核爆、矿爆等）的识别4、风扰、海浪、汽车等干扰的识别

••••••••••••8.2数据挖掘在地震波数据的

实时处理中的可能应用154上海地震台网地震记录图(2019年5月20日18时16分江苏昆山0.7级地震)上海地震台网地震记录图55台阵定位结果

(2019年5月20日18时16分江苏昆山0.7级地震)台阵定位结果562019年9月15日汤加6.0级地震O：23:04:37.0Epc:22.39S,175.04WMs:6.0(资料来源IRIS)

台阵16个子台记录波形2019年9月15日汤加6.0级地震台阵16个子台记录波形57PS聚束波形10m2019年9月15日汤加6.0级地震震中距83.2度PS聚束波形10m2019年9月15日汤加6.0级地震582019-12-15浙江桐乡爆破2019-11-20常熟1.6级地震地震与爆破的识别2019-12-15浙江桐乡爆破2019-11-20常熟1.598.3数据挖掘在地震工程中的可能应用

1、建构筑物抗震性能评估2、强地震的长期预测3、地震震害预测4、地震震害损失评估5、地震安全性评价

••••••••••••8.3数据挖掘在地震工程中的可能应用1、建构筑物抗震60

目前，在地震预测中使用的数据处理方法仍然主要是一些常用统计方法。数据挖掘在地震预测以及地学领域的应用还是初步的。数据挖掘在地震预测以及地震领域有着广泛的应用前景。目前，在地震预测中使用的数据处理方法仍然主要是一些常61更新地震监测预报设施二期工程

谢谢！更新地震监测预报设施二期工程谢谢！62数据挖掘在地震预测中的应用2019-12数据挖掘在2019-1263数据挖掘在地震预测中的应用1、关联规则2、时间序列的相似性3、神经网络及其集成4、支持向量机5、粗糙集6、主成分分析7、因子分析8、数据挖掘在地震领域中的应用研究展望数据挖掘在地震预测中的应用1、关联规则641基于关联分析的地震相关地区查找1基于关联分析的地震相关地区查找65(1)地震的地区相关性寻找地震相关地区，进而预报相关地震是人们较为熟悉的地震预报方法之一。(1)地震的地区相关性寻找地震相关地区，进而预报66提出基于主从模式设计的并行关联规则挖掘算法FPM-LP(FastParallelMiningofLocalPruning)，以期实现高效发现地震相关地区的关联规则挖掘。

结果解释和说明：区域编号1571：新疆乌孜别里山一带；区域编号1098：云南丽江一带。规则“1571→1098”的支持度为40%，可信度为60%，说明在1960到2019的400多个月里，有大约40%的时间段，即160多个月新疆和云南同时发生了地震。而新疆、云南相伴发生地震的可能性为60%。(2)用FPM_LP算法寻找地震相关地区1571→1098support=40%,confidence=60%提出基于主从模式设计的并行关联规则挖掘算法FPM67(3)用FPM_LP算法寻找地震相关地区在三种不同数据组合实验中，每次的挖掘结果都发现云南与新疆之间的地震关联和新疆各地区之间的地震关联。经归纳，云南与新疆之间的地震关联大致如图中所示，地震关联地区用方框标明。

(3)用FPM_LP算法寻找地震相关地区在三种不同数68(4)用FPM_LP算法寻找地震相关地区事实上，从1970年到2019年，两地区地震的M-T图（震级与时间关系图，其中M为震级，T为地震发生时间）如下：每当新疆发生一次地震，在云南地区不超过1个月就会相伴发生一次地震，从1970年到2019年都有这样的规律。(4)用FPM_LP算法寻找地震相关地区事实上，从169地震时间序列相似性度量模型定义：设S和R为两个不同的地震时间序列，则S和R的相似性可用两序列中对应元素的相似性记分函数加权和来度量。相似性度量模型定义为：2基于序列相似性的地震相关性分析这里，(1)S’和R’分别是在指定时间范围内对S和R补充了空元素以后形成的稠密地震序列。如果将S’和R’中的空元素除去后则还原为S和R。(2)|S’|=|R’|；（即S’、R’两序列长度相等）(3)W(x，y)是权重函数，定义为:W(x，y)=max{x(t)，y(t)}；如果x(t)≥M或者y(t)≥MW(x，y)=min{x(t)，y(t)}；如果x(t)<M并且y(t)<M地震时间序列相似性度量模型定义：设S和R为两个不同的地震时70实验1：固定时间差为1年的粗粒度序列相似性分析选取1980年1月1日开始的5.0级以上地震转换成时间序列，地理位置按地理坐标进行5˚×5˚分块，时间间隔为1年，=1，相关地震支持数阈值Sup-min为10。得到部分实验结果如下表所示：区域1经度范围纬度范围(度)区域2经度范围纬度范围(度)相关次数452100-10525-30492120-12520-251841490-9530-35492120-12520-251641595-10030-35492120-12520-251537575-8035-40492120-12520-2514452100-10525-3041490-9530-351341385-9030-35492120-12520-2513488100-10520-25492120-12520-2513452100-10525-3037575-8035-4012实验1：固定时间差为1年的粗粒度序列相似性分析区域1经度范围71例，下图为区域452(位置在四川-云南境内，其经度范围100˚105˚，纬度范围25˚30˚)和区域492(台湾省周围，其经度范围120˚125˚，纬度范围为20˚25˚)相匹配的地区相关性分析M-T图。图中匹配的次数为18次，即在四川―云南境内的每一次5级以上地震几乎都可以在台湾省周围找到与之匹配的一次地震记录。例，下图为区域452(位置在四川-云南境内，其经度范围1072区域A经度(度)纬度(度)次数比例区域B经度(度)纬度(度)次数比例相关数11821121－12224－25926010127-282440.52912912019121－12223－246020.20411260100－10127-282440.504123907777－7839-404930.22511260100－10127-282440.455111889777－7840-416120.16711260100－10127-282440.4181028942122-12340-41547010127-282440.410100实验2：较小时空窗口的细粒度序列相似性分析采用自1972年1月1日开始的震级在3.0以上的地震数据，用WSM3S算法进行较小时空窗口的细粒度序列相似性分析。实验中具体参数为：地理位置按地理坐标进行1˚×1˚分块，时间间隔为10天，=1，地震相关支持数阈值Sup-min为100，无固定时间差。时间间隔为10天的地区相关性比较实验结果区域经度纬度次比例区域经度纬度次比例相关11821121－173以表3-3中第一条记录为例进行分析，算法发现块11821和块11260的地震相关次数为129次，说明它们很可能是地震相关地区。11821块处于我国台湾省台北市的下方，位于我国较大的一个地震频繁发生的地震带上，而11260块处于云南和四川交界处，位于另一个地震带上。从1980年到1985年这两块区域中每月取一个3级以上最大地震所得到的对应M－T图。以表3-3中第一条记录为例进行分析，算法发现块11821和块74

3.神经网络集成ΔMEm/EΣPb值k值Mmax

T2.01：主震-余震型2：震群型3：孤立型地震序列类型判断指标DOEERBF

提出了一种基于正交设计和均匀设计的异构RBF神经网络集成方法DOEERBF。

3.1地震序列类型判断3.神经网络集成ΔM1：主震-地震序列类型判75比较实验和结果单个RBFNN外推精度为68.33%，内符精度77.12%固定集成结构和训练参数外推精度65%，内符精度69.64%均匀设计确定集成结构和参数外推精度78.33%，内符精度81.36%比较实验和结果单个RBFNN76提出了一种自动确定神经网络集成结构和参数调整的构造选择性RBF神经网络集成算法CSERBF

前兆及地震学异常的持续时间和种类多少与未来地震震级大小有一定关系14项异常指标的持续时间+异常的数量未来地震震级CSERBF

3.2地震震级预测…提出了一种自动确定神经网络集成结构和参数调整的构造选77震级预报震级预报783.3基于特征加权的神经网络集成FWEART

地震序列类型判断中的应用3.3基于特征加权的神经网络集成FWEART

地震序列794.支持向量机SVM方法的基本思想：基于Mercer核展开定理，通过非线性映射φ，把样本空间映射到一个高维乃至于无穷维的特征空间，使得在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类和回归等问题。最优超平面的分类函数为

4.支持向量机SVM方法的基本思想：基于Merce80

4.1我国大陆强震预测的支持向量机方法

全球强震主要分布在环太平洋地震带和欧亚地震带。许多学者研究表明，我国大陆强震与全球主要板块边界的强震活动之间具有一定的关系，但是这种关系具有较强的非线性。将板板块边界的强震活动分为16个区域,取这16个区域在一年中的Ms≥7.0级地震次数Ni为支持向量机输入项；输出项为次年我国大陆是否发生7级以上强震。如果发生，取值为1；否则为0。4.1我国大陆强震预测的支持向量机方法81数据挖掘在-课件82表1使用支持向量机和BP神经网络对14个待检验样本的检验结果

预测年份19681969198219831984198519911992199319942019201920192019

中国大陆最大地震震级5.77.46.66.86.27.46.56.96.67.38.15.96.86.7

检验结果(SVM)

00000100011010

检验结果(BP)

10100011010

12∕14=0.86。

使用BP神经网络模型进行外推检验，报准率为

11∕14=0.79。支持向量机的预测检验结果要优于BP神经网络。

表1使用支持向量机和BP神经网络对14个待检验样本的检验83

4.2.1地震时间序列预测方法（1）

依次取前13年中我国大陆每年的最大地震震级Mi+1,Mi+2,…,Mi+13，预测第14年的我国大陆最大地震震级Mi+14,(i=1,2,…m)。这样支持向量机的输入项为前13年中每年的最大地震Mi+1,Mi+2,…,Mi+13；输出项为1个，即为第14年的我国大陆最大地震震级Mi+14。4.2中国大陆强震时间序列预测的支持向量机方法4.2.1地震时间序列预测方法（1）4.2中国大84表1预测方法（１）的预测样本检验结果预测年份19911992199319942019201920192019201920002019201920192019中国大陆最大地震震级6.56.96.67.37.37.17.56.67.06.58.17.26.86.7

检验结果7.07.26.96.97.36.77.17.56.97.06.97.06.87.0

预测与实际震级之差-0.5-0.3-0.30.40.00.40.4-0.90.1-0.51.20.20.0-0.3

取预测与实际最大地震震级之差小于等于0.5为报准，则有12个样本的检验结果正确，2个报错。这样报准率为12/14=0.86。表1预测方法（１）的预测样本检验结果预测年85

4.2.2地震时间序列预测方法（2）

支持向量机的输入项为前13年中每年的最大地震震级Mi+1,Mi+2,……,Mi+13。还增加8个输入项，它们分别是全球地震活动第12和13年的年频次，第13年的年释放能量，第12和13年与前一年的释放能量的差分值，第13年的太阳年平均黑子数，第12和13年与前一年的太阳黑子数差分值。这样支持向量机的输入项共为21个；输出项为1个，仍为所预测的我国大陆第14年的最大地震震级。4.2.2地震时间序列预测方法（2）86表2预测方法（2）的预测样本检验结果

预测年份19911992199319942019201920192019201920002019201920192019中国大陆最大地震震级6.56.96.67.37.37.17.56.67.06.58.17.26.86.7

检验结果7.07.06.97.07.07.07.07.06.97.07.07.07.06.9

预测与实际震级之差-0.5-0.2-0.30.10.30.10.5-0.40.1-0.51.10.2-0.2-0.2

取预测与实际最大地震震级之差小于等于0.5为报准，则有13个样本的检验结果正确，1个报错。这样报准率为13/14=0.93，表2预测方法（2）的预测样本检验结果预测年87支持向量机与神经网络预测方法预测检验结果比较方法1(SVM)方法1(神经网络)方法2(SVM)方法2(神经网络)报准率12/14=0.869/11=0.8213/14=0.9310/11=0.91平均误差0.400.450.340.43均方差

0.500.590.420.51与神经网络预测方法比较，本文所用的支持向量机预测方法无论在报准率、预测的平均误差还是均方差这三个方面，都要优于神经网络方法。支持向量机与神经网络预测方法预测检验结果比较方法1(SVM88粗集(RoughSet,或粗糙集)理论是近年来发展起来的一种处理不确定和模糊信息的重要工具。

粗糙集的核心内容是属性重要性的度量和属性约简。其中，约简是应用粗集理论的基础，其内涵即为去掉多余的属性，或者说属性约简的目的就是发现不重要的属性并去掉它们。因此，粗集非常适合于用来处理地震预测指标的独立性问题。5.粗糙集粗集(RoughSet,或粗糙集)理论是近年来发89基于可辨识矩阵的属性约简方法ODMA（OptimizedDiscernibilityMatrixbasedApproach）使用约简算法分析地震预测参数的独立性

5.1地震预测指标独立性的粗集约简方法

基于可辨识矩阵的属性约简方法ODMA（OptimizedD90使用ODMA分析

地震预报指标与地震的关系

决策表的构造111项预测指标

地震预报指标与地震的关系决策表的构造91应用ODMA算法的属性约简结果得到下列五组属性约简集：{1,2,3,4,6,10,11,12,13,14,15,17,26,28,29,31,33}{1,2,3,4,6,10,11,12,13,14,15,17,21,26,28,29,33}{1,2,3,4,6,10,11,12,13,14,15,17,20,26,28,29,33}{1,2,3,4,6,10,11,12,13,14,15,17,18,26,28,29,33}{1,2,3,4,6,10,11,12,13,14,15,16,17,26,28,29,33}。5组中都不出现的属性5，7，8，9，19，22，23，24，25，27，30，32，34，35，36，37，38，39，40和41为冗余属性。在每组均出现的核属性1，2，3，4，6，10，11，12，13，14，15，17，26，28，29和33则为属性核，为最有必要属性。应用ODMA算法的属性约简结果得到下列五组属性约简集：925.2基于粗集约简的支持向量机集成方法

使用RRESVM判断地震序列类型1:ΔM2:Em/EΣ3:P4:b值5:k值6:Mmax

7:T2.05.2基于粗集约简的支持向量机集成方法

使用RRESVM判93使用RRESVM判断地震序列类型使用RRESVM判断地震序列类型94

主成分分析是一种数据约减的有效方法，它可以把描述样本特征的多个有一定相关性的指标化为少数几个综合指标的一种统计分析方法。6.主成分分析法在地震活动性分析中有许多预报指标，如b值、η值、95

选择与地震活动强度有关的一些参量：3级以上地震频次N(ML≥3.0)、b值、η值、A(b)值、Mf值、Ac值这6个参量进行主成分分析。

选择与地震活动强度有关的一些参量：3级以上地震频次96数据挖掘在-课件97

在实际预报中，我们如何将上述反应地震强度异常特征的指标用一个综合指标来表示，本文根据主成分分析得到的主成分Z

i和相应的权值（贡献率）ei计算定义综合指标:这里将根据累计贡献率Em＞85％确定最小主成分个数m(m<p)。在实际预报中，我们如何将上述反应地震强度异常特征的指98表1各参量在各主成分中的系数（特征向量）、特征值与贡献率

主成分1主成分2主成分3主成分4主成分5主成分6NbηA(b)MfAc0.490860.107420.617120.40315-0.33684-0.301125-0.39253-0.343520.72342-0.234430.017800.3863690.35066-0.50609-0.17319 0.520430.173900.538343-0.085370.66996-0.01406 0.15064-0.330040.641899-0.507070.221170.12543 0.633030.49057-0.1918700.466460.341380.22335-0.297030.711600.146222特征值2.97511.60550.70730.44630.19580.0701贡献率%49.58526.75811.7887.43813.26311.1685累计贡献率%49.58576.34288.13095.56898.832100.00表1各参量在各主成分中的系数（特征向量）、特征值与贡献率99溧阳6.0级地震前后震中附近地区地震强度综合指标W随时间的变化溧阳6.0级地震前后震中附近地区地震强度综合指标W随时间的变1006.2一些中强以上地震前综合指标W随时间的变化取N3、b、、A(b)、Mf、Ac、C、D8个参量

6.2一些中强以上地震前综合指标W随时间的变化101

102

103

7.因子分析法因子分析法是主成分分析方法的推广和深化，也是一种数104

选择九江5.7级地震前与地震活动强度有关的6个参

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘在-课件

文档简介

温馨提示

最新文档

评论

数据挖掘在-课件

文档简介

温馨提示

最新文档

评论

相关文档