下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘中趋势模型的建立与分析于晨捷袁晓洁马涛(天津南开大学计算机科学与技术系,天津 34%)5,./16:789:;28#9.摘 要 当今,数值型数据在数据挖掘中被广泛应用,然而, 多分析是基于布尔类型数据的。所以,文章介绍了一种新的模型去描述数值型数据,以便可以挖掘到隐藏的趋势信息。关键词数据序列数值型数据数据挖掘文章编号 %!,$33%,(!)$,%?$,3文献标识码 &中图分类号 A3%!#$%&(%)#* +#, -#+./$)$ 0 %12 34252#% 3,2. )# 6+%+ 3)#)#*7 !12#8)27+# 9)+8)23+ :+(B;C/DE.;2E F G.C8E;
2、D H91;29; /2I ;9:26J7,K/2L/1 M21N;DO1E7,1/2P/I/7O,Q8/2E1E/E1N; N/68;O /D; P1I;67 8O;I 12 I/E/ .1212J,:P;N;D ./27 /2/67O1O .;E:IO /D; R/O;I 2 R6;/2 N/68;O#:1O C/C;D 12EDI89;O / 2;P .I;6 E I1O9D;E; Q8/2E1E/E1N; I/E/ O E:/E 1E 9/2 .12; :1II;2 ED;2I 12FDS ./E12#2/=&,$:I/E/ O;Q8;29;,Q8/2E1E/E1N; I/E/,I/E
3、/ .1212J% 前言当 今世界,数据每天都在迅猛地增长 ,如何有效地使用这些数据却成为了一个问题, 常出现数据丰富而知识缺乏的现象。数据挖掘正是为解决这类问题而发展起来的一门技术,它是将隐藏在大型数据库中原来未知的数据模式发掘出来。典型的理论有特征规则挖掘、关联规则挖掘、分类规则挖掘、聚类规则挖掘、 势分析、 间序列分析等。通过查阅大量文献资料可发现,目前的数据挖掘技术偏重于发现数据库中不同离散化属性值之间的关系,而对数值型属性之间变化趋势的相互影响分析不够 ,因此无法发现类 似下述这 种知识 ,如:价格下降多少,销售量才能上升多少;某种股票换手率变化了某个值会导致股票价格有什么变化等。采
4、取以往的数据挖掘技术处理该问题时非常牵强 ,通常做法是, 一些连续 化的数值 型数据进 行聚类操作,将之转 化成布尔 型的数据,再对 之进 行关联规则 等经 典数据挖掘的操作。而有些情况下,要考虑的数值型数据又有随时间成不均匀变化的情况,例如:在股票交易中,当分析股票之间的关系 时,由于每一支股票都有自己的价格 变化区 间(股票& 的价格可能一直在 %! 元之间浮动,而股票 ( 的价格可能在 )* 元之间浮动),所以无法对所有的股票按照同样的情况进行聚类操作。同样实际中人们真正关心的是股票的价格涨了 多少(一般用百分数表示),而不是当天的价格是多少,因此研 究数 值 属性上的 变 化 趋势显
5、得尤 为 重要,例如,在第 ! 个交易数据和第 !+% 个交易数据已知的情况下,要根据这种变化的趋势去预测第 !+! 个交易数据。基于上述考虑,笔者决定用一种新的模型去描述有关数值型数据的变化情况, 模型有效地解决了上面遇到的问题,并为在数值型数据上进行关联规则挖掘提供了很大的方便。! 模型的建立这一模型主要是对数值型属性字段的数据进行处理,以变化趋势来取代原始数据, 清楚起见, 行如下定义:定 义 %: 定 #$%,%!, ,%&, ,%,(, 为 所研究的数值 型的数据按 时间顺 序排列的序列,其中 %& 为 第 & 个元素的值。同样可以规定 !#$%!)*,%!)*+%,%!,%!+*,
6、%,%!+*(,表示以第! 个元素作为中心,与之相临的前 * 个元素和后 * 个元素组成的序列(后面的研究都是以这个序列作为出发点)。由上面的定义可以看出,上述操作将实际数值型的元素按照时间的顺序组织成了序列的形式。例如:在股票交易中,人们很关心股票每日的收盘价,所以可以将一支股票的收盘价按照交易日的 顺 序 组织 成序列的形式 #$%,%!, ,%&, ,%,(,其中 %& 为第 & 个交易日的收盘价。同样在研究股票收盘价的时候也是应该有一个界限标定实际研究的范围,所以一般在原始的序列 上采用滑动窗口技术将之演化成若干个 !, 样为后面模型的描述奠定了基础。定义 !: 定 *,-.! 为以第
7、 ! 个元素为中心,在前 * 个元素(包含 %!)中出现的最大值; 定 *,-/! 为以第 ! 个元素为中心,在后 * 个元素(包含 %!)中出 现 的最大 值 ; 定 *,01! 为 以第 ! 个元素为中心,在前 * 个元素(包含 %!)中出 现 的最小 值 ; 定 *,02! 为 以第 ! 个元素 为 中心,在后 * 个元素(包含 %!)中出 现的最小值,即:*,-.!- ./0 %&!)*!&!*,01!- .12 %&!)*!&!*,-/!- ./0 %&!&!&+*,02!- .12 %&!&!+*基金项目:教育部骨干教师资助计划基金资助作者简介:于晨捷,硕士生,主要研究领域为数据库
8、、数据挖掘。袁晓洁,副教授,主要研究领域为数据仓库、数据挖掘。马涛,硕士生,主要研究领域 为数据库、数据挖掘。 %?$!#$ 计算机工程与应用很多时候, 际研究中关心的总是在某一段时间中出现的数据的最小值 点和最大值 点, 了顺应这 一要求,所以作出了上面的定义。下面还是以股票数据为例加以说明:在进行股票交易时 , 是希望以一段时间 内的最低价买 入,而在这 段时间的最高价时卖出,根据上面定义,可以看出:!#$% 为前 ! 个交易日中收盘价的最高值,!#&% 为后 ! 个交易日中收盘价的最高 值 ,!#% 为 前 ! 个交易日中收 盘 价的最低 值 ,!()% 为 后 ! 个交易日中收盘价的最
9、低值。而实际中经常关心的是在第 % 个交易日之前(或之后)! 个交易日中出 现 的最高(低) 比第 % 个交易日的收盘价高(低)出来的百分率。所以需要引入下面的定义。定 义 %: 定 !#$% 为 以第 % 个元素 为 中心,在前 ! 个元素(包含 *%)中出 现 的最大 值 与当前 值 的差 值 比率; 定 !#&% 为以第 % 个元素为中心,在后 ! 个元素(包含 *%)中出现的最大值与当前值的差 值 比率; 定 !(% 为 以第 % 个元素 为 中心,在前! 个元素(包含 *%)中出现的最小值与当前值的差值比率; 定 !()% 为以第 % 个元素为中心,在后 ! 个元素(包含 *%)中出
10、现的最小值与当前值的差值比率,即:!#$%& !#$% +*,!#$%!#&%& !#&% +*,!#&%!(%& !(% +*,!(%!()%& !()% +*,!()%因为对于一般的数值型数据,不容易运用关联规则对之进行数据挖掘,所以考虑对 数值 型数据进 行差值计 算,然后将所得到的差值比率进行聚类,再运用关联规则进行数据挖掘。例如:在股票数据中,!#$% 为前 ! 个交易日中收盘价的最高值 比当前收 盘 价高出的比率;!#&% 为 后 ! 个交易日中收 盘 价的最高 值 比当前收 盘 价高出的比率;!(% 为 前 ! 个交易日中收 盘价的最低 值 比当前收 盘 价低出的比率;!()%
11、为 后 ! 个交易日中收盘价的最低值比当前收盘价低出的比率。然后,可以对得到的比率值进 行聚类 操作,将之分成离散的等级 (例如:分成、(、)、*),以便后面对之进行挖掘操作。但是,在通常情况下,实际 关心的不 仅仅 是在第 % 个交易日之前(或之后)! 个交易日中出 现 的最高(低) 比第 % 个交易日的收 盘 价高(低)出来的百分率, 包括对应 的最高(低) 产 生的周期(即出现时 所对应的 , 的值)。所以需要进行下面的定义。定义 +: 定 -!#$% 为以第 % 个元素为中心,在前 ! 个元素(包含 *%)中出现最大值时所对应的产生变化的时间间隔; 定 -!#&% 为 以第 % 个元素
12、 为 中心,在后 ! 个元素(包含 *%)中出 现最大 值时 所 对应 的 产 生 变 化的 时间间 隔; 规 定 -!(% 为 以第 % 个元素 为 中心,在前 ! 个元素(包含 *%)中出 现 最小 值时 所 对应的产生变化的时间间隔; 定 -!()% 为以第 % 个元素 为 中心,在后 ! 个元素(包含 *%)中出 现 最小 值时 所 对应 的 产 生 变 化的时间间隔,即:-!#$%&,-.(%+.),/0121 *.& ,34 *,%+!,!%-!#&%&,-.(.+%),/0121 *.& ,34 *,%!,!%/!-!(%0,-.(%+.),/0121 *.& ,-. *, %+
13、!,!%-!()%&,-.(.+%),/0121 *.& ,-. *,%!,!%/!通过上面的定义,可以得到在实际研究中所关心的另一个主要数据,即对应的最高(低) 出现的相对时间。例如:在股票交易中,-!#$% 为 前 ! 个交易日中收 盘 价的最高 值 所出 现 的 时间 与当前交易 时间 相差的交易日数;-!#&% 为 后 ! 个交易日中收盘 价的最高值 所出现 的时间 与当前交易时间 相差的交易日数;-!(% 为 前 ! 个交易日中收 盘 价的最低 值 所出 现 的 时间 与当前交易 时间 相差的交易日数;-!()% 为 后 ! 个交易日中收 盘价的最低值所出现的时间与当前交易时间相差的
14、交易日数。 样,得到了实际中所关心的相对时间。但是,在随后进行数据挖掘的时候,通常是将最大(小)差值的比率和所出现的时间当作一个密不可分的因素来考虑,所以通常用下面的数对形式表现这两者之间的关系。定义 5: 定 *%,!+,34617821 为 由 !#$% 和 -!#$% 组 成的数 对 ,即:*%,!+,34617821 &9!#%,-#%1,并由符号 %! 表示; 规 定 *%,!:,3437;12 为 由 !#&% 和 -!#&% 组 成的数 对 ,即:*%,!:,3437;12 &2!#&%,-!#&%1,并由符号 #%! 表示; 定 *%,!:,-.37;12 为 由 !(% 和
15、-!(% 组 成的数 对 ,即:*%,!+,-.617821 &9!(%,-!(%1,并由符号 $%! 表示; 定 *%,!+,-.37;12 为 由 !()% 和 -!()% 组成的数对,即:*%,!+,-.37;12 &9!()%,-!()%1,并由符号%! 表示。由上面的定义,就可以将研究的重点从元素转到 %!,#%!, $%! 和 %! 上来了,即上面在定 义 3 所描述的序列 402*,*!, ,=,, ,*.,1可以 转 化成下面的四个由 %!,#%!,$%! 和 %! 组 成的序列:02!,!,,!,.!,1#&9#!,#!,#,!,#.!,1$&9$!,$!,$,!,$.!,1
16、%&9%!,%!,%,!,%.!,1可以将原始序列 402*,*!,=,,*.,1与序列 #、$ 放在同一张图中显示出来(如图 )。基于该模型,可将数值型属性序列转化为变化趋势序列,使不同的数值型属性的变化趋势具有可比性, 样再利用已有的经典数据挖掘算法,即可发现数量型属性之间的趋势变化关系,从而为应用部门提供决策支持。% 模型的分析和应用该模型主要用于 发现隐藏在数 值型数据内部的知 识和 隐藏在其中的发展趋势,它同以往的对数值型数据聚类然后再进行挖掘的方式相比,有较大的优点。例如在前面所描述的例子中 :当分析股票之间 的关系时 ,由于每一支股票都有自己的价格变化区间(股票 的价格可能一直在
17、 ?! 元之 间 浮 动 ,而股票 ( 的价格可能在 5? 元之 间 浮 动 ), 时 就无法有效地对所要分析的数据(股票价格) 行分类操作。而且如果对于同一支股票来说,它的价格也会随着时间的推移在某个价格的上下徘徊, 样就无法有效地找出潜藏在数值型数据内部的潜在发展趋势,而实际研究中又不能将股票的价格波动仅仅分成上升和下降两类来进行考虑, 样就无法找到股票的总体发展趋势,无法找到描述买入点和卖出点所对应的时间和出现规律。而使用上述模型进行分析的时候,情况会产生较大的不同,具体分析如下所示(在此仍以大家熟知的股票作为示例): ()操作中,可以将序列 =A、=A#、=A$、=A% 与其它序列作计
18、算机工程与应用 !#$BB图 -序列 ( 与序列 !、 在同一张图中的显示为重点研究的对象,这样就可以根据得到的序列找到买入点和卖出点出现的规律,可以在股票的运动中正确地预测到买入点和卖出点出现的时机。(!)可以将每支股票的当天价格和在某个人为定义的区间内股票价格在这天前后出现的极大值(极小值)进行比较,找到它们之间相差的比率和产生这个极大(小)值时与当天之间的时间偏移量。这样,就可以将两支股票价格经过处理得到的序列 %&!(或 %&、%9;9;1 3?93A9?; 2B5: C:A4:; :A ?D 9A:8 9; 5321: E3A3C3: (7IJK G?;D:2:;: 3;31:8:;A ?D K3A3,L3M9;1A?; K#G#,N(0,-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 非营利组织暑期志愿者服务方案
- 科研机构团队合作评价改革方案
- 厨房洗涤槽市场发展预测和趋势分析
- 超市员工培训与发展方案
- 啤酒屋服务行业营销策略方案
- 市政交通标线施工合同
- 信息技术EPC工程实施方案
- 京东金融案例
- 环保设施机房打眼施工方案
- 医用灌肠器产业运行及前景预测报告
- 大学生数媒个人职业生涯规划
- 延安红色文化资源开发利用研究
- 心理健康与职业生涯第11课《主动学习高效学习》第一框教案《做主动的学习者》
- 专题08 上海卷作文(课件)-2022年高考语文作文评析+素材拓展+名师下水文
- 建筑垃圾清运及处置 投标方案(技术方案)
- MOOC 设计原理与方法-东南大学 中国大学慕课答案
- 《勿忘国耻.强国有我》国家公祭日主题班会课件
- UML课程设计-网上购物系统
- 围手术期管理规范
- 2024年-会计师事务所审计保密协议
- 《中外舞蹈史》考试复习题库(含答案)
评论
0/150
提交评论