




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 近年来,随着海量数据的增长,数据分析的需求也在不断增长,同时分析任 务本身也变得日益复杂,并向着流程化和知识发现方向发展。可视化分析( v i s u a l d a t a a n a l y s i s ) 通过将可视化技术有机的融合到数据分析的各个方面,使得用户 对于数据分析有一个更加直观、清晰的了解,提供一个让用户有效主动参与数据 分析过程的方法。同时充分利用人眼识别图形的优势,将用户的领域知识结合进 来,最终提高数据分析的性能。 本文对可视化分析包含的关键技术进行了系统的阐述,同时提出了一些可视 化方法。具体工作如下: 1 ) 总结了可视化分析技术的基本概念、主要内容和发展趋势,在此基础上 提出了可视化分析包含的三个关键技术:可视化分析流程,可视化数据 挖掘,可视化分析报表生成。 2 ) 针对可视化分析的三个关键技术:分析流程、数据挖掘、报表生成,分 剐提出了可视化的模型。其中包括: 阐述了可视化分析流程的概念和意义,提出了一个自定义的基于 x l v i l 的分析流程描述语言d m a p m l ( d a t am i n i n ga p p l i c a t i o n p l a t f o r mm o d e l i n gl a n g u a g e ) ; 阐述了可视化数据挖掘的基本内容,并针对数据挖掘中关联规则、 决策树分类、聚类这三类算法给出了模型可视化的方法: 提出了可视化报表生成的概念,阐述了其重要性,并给出了一个基 于x i v l l 和组件技术,实现可视化分析报表创建和发布的方案。 3 ) 实现了一个可视化分析系统v a p 。v a p 不但提供了“传统”的可视化分 析方法,比如数据展示,可视化查询,统计分析等功能,还完全实现了 本文所提出的可视化分析的三个关键技术。该系统基于先进的x m l 和软 件组件技术,具有高度的可扩展性,能实现跨平台、分布式的计算,并 能通过网络提供丰富的a p i 和发布分析结果。 关键词:可视化分析、可视化分析流程、流程描述语言d m a p m l 、可视化数据 挖掘、可视化报表生成、组件技术 司视化分析关键技术研究及系统实现 复旦大学硕士学位论文 摘要 a b s t r a c t i nr e c e n ty e a r s ,a l o n g 丽t l lt h ei n c r e a s i n go f l a r g ea m o u n to fd a t a ,t h ed e m a n do f d a t aa n a l y s i sh a si n c r e a s e dd r a m a t i c a l l y a tt h es a n l et i m e ,t h ea n a l y s i st a s ki t s e l f b e c o m e sm o r ea n dm o r ec o m p l e xa n dh a sb e e ni n v o l v e dm u c hi nk d d ( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ) t h r o u g ha p p l y i n gv i s u a l i z a t i o nt e c h n i q u e so nd a t aa n a l y s i s , v i s u a ld a t a a n a l y s i sc a ng i v et h eu s e ram o r ec l e a rv i e wo f d a t aa n dt h eu s e rc a r l b e e n g a g e d i na n a l y z i n gd a t am o r e i n i t i a t i v e l ya n de f f e c t i v e l y i nt h i sw e r k ,w ed e s c r i b et h ec o n t e n ta n di m p o r t a n c eo fv i s u a ld a t a a n a l y s i sa n d p r o p o s es o m e n e wv i s u a ld a t aa n a l y s i st e c h n i q u e s ,h e r ea r et h ed e t a i l so f o u rw o r k : 1 ) a f t e rs u m m a r i z i n gt h ec o n c e p t ,b a s i cc o n t e n t sa n dd e v e l o p 仃e n d so fv i s u a l d a t am i n i n g w ei n 订o d u c et h et h r e ek e yt e c h n i q u e so fv i s u a ld a t aa i l a l y s i s : a n a l y s i sf l o wv i s u a l i z a t i o n ,v i s u a ld a t ai n i i l i n ga n dv i s u a lr e p o r tg e n e r a t i o n 2 、p r o p o s es o m em o d e lv i s u a l i z a t i o nt e c h n i q u ei nt h et h r e ek e yt e c h n i q u e so f v i s u a ld a t aa n a l y s i s i ti n c l u d e s : e x p l a i nt h ei m p o r t a n c ea n ds i g n i f i c a n c e o fa n a l y s i sf l o wv i s u a l i z a t i o n a n d p r o p o s e a a n a l y s i s f l o w d e s c r i p t i o nl a n g u a g e b a s e do nx m l : d m a p m l ( d a t am i n i n ga p p l i c a t i o np l a t f o r mm o d e l i n gl a n g u a g e ) d i s c u s st h ec o n t e n t so fv i s u a ld a t am i n i n ga n dp r o p o s es o m em o d e l v i s u a l i z a t i o n t e c h n i q u ei nt h r e ei m p o r t a n td a t am i n i n gf i e l d s :a s s o c i a t i o n , d e c i s i o n t r e ec l a s s i f i c a t i o n ,c l u s t e r i n g w ji n e d u c ean e wa s p e c t so fv i s u a ld a t a a n a l y s i s :v i s u a lr e p o r t g e n e r a t i o na n de m p h a s i z ei t si m p o r t a n c e w ia l s og i v eai m p l e m e n t a t i o n s c h e m eo fv i s u a lr e p o r tg e n e r a t i o nb a s e do nx m la n dc o m p o n e n t t e c h n i q u e s 3 、i m p l e m e n t av i s u a ld a t aa n a l y s i ss y s t e m ( v h p ) n o to n l y 廿a d i t i o n a l ”v i s u a l a n a l y s i sm e t h o d ss u c ha sd a t ap r e s e n t a t i o n ,s t a t i s t i c s ,q u e r yv i s u a l i z a t i o na n d e t e h a v eb e e ni m p l e m e n t e di nv a p , b u ta l s ot h et h r e e k e yt e c h n i q u e s d i s c u s s e di nt h i sa r t i c l eh a v eb e e nf u l l yi m p l e m e n t e d v a pi sd e s i g n e da n d i m p l e m e n t e db yc o m p o n e n tt e c h n i q u e sa n d h a s h i 曲e x p a n s i b i l i t y i ts u p p o r t s d i s t r i b u t e da n dp l a t f o r m i n d e p e n d e n tc o m p u t i n g v a pa l s op r o v i d e sd e t a i l e d a p i sa n d r e p o r td i s t r i b u t i o nv i ai n t e m e t i n t r a n e t k e y w e r d s :v i s u a ld a t aa n a l y s i s ,a n a l y s i sf l o wv i s u a l i z a t i o n ,d m a p m l ,v i s u a ld a t a m m m g ,v i s u a lr e p o r tg e n e r a t i o n ,c o m p o n e n t 可视化分析关键技术研究及系统实现 - 7 -复旦大学硕士学位论文 第一章引言 1 1 立论背景和研究意义 第一章引言 传统的数据分析( d a ma n a l y s i s ) 提供了多种手段来帮助人们从数据集合中 获得有价值的信息,比如查询( 包括o l t p 和o l a p ) ,统计分析等。当前,随 着社会信息化的推进和网络应用的日益广泛,信息源越来越庞大,数据规模经常 在上千兆( g ) 甚至上千吉( t ) 。传统的数据分析手段越来越难以应付如此“堆 积如山”数据集合,人们无法利用这些传统的分析手段理解并有效的使用这些数 据。另外,传统的数据分析方法只能获得这些数据的表层信息,而不能获得数据 属性的内在关系和隐含的信息。由此导致越来越严重的“信息饥荒”。 这一方面导致了新的分析技术的产生,期望这种分析技术能够“智能地”和 “自动地”分析这些原始数据,以使消耗大量财力与物力所收集与貔理的宝贵资 源数据得以利用。这就是知识发现( k d d ,妇1 0 w l e 衄ed i s c o v e r y i nd a t a b a s e ) 技术产生的背景。知识发现的核心技术就是数据挖掘( d a t am i n i n g ) 。数据挖掘 指的是从大量的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、 并且潜在有用的信息 f a y y a d 9 6 。一份最近的g a r m e r ( w w w g a r t n e r c o m ) 报告中 列举了在今后3 5 年内最重要的五项关键技术,其中数据挖掘和人工智能排名 第一。同时,这份报告将数据挖掘列入今后5 年内公司应该投资的1 0 个新技术 领域,数据挖掘具有良好的发展和应用前景。 另一方面,随着数据复杂度的增加,数据分析也不再是一个个单独的分析任 务,而是一个包括数据准备、分析挖掘和知识利用三个阶段的分析流程。数据准 备阶段的工作包括提高数据的质量和对数据进行汇总以方便其后的分析过程;分 析挖掘阶段的工作是选择合适的分析方法,包括传统的分析方法和数据挖掘方 法,对准备好的数据进行分析以获得有价值的知识;知识利用阶段要收集过分析 挖掘获得的结果并展示、发布,生成可供决策支持的报表。 这些新的发展方向使得数据分析变得更加复杂而难以推广和应用,而可视化 技术可以克服一些这方面的难题。随着数据分析算法研究的成熟,市场重心开始 从算法研究逐渐向数据分析应用转移,这个时候可视化数据分析对于增加数据分 析的交互性、友好性都有很重要的意义。同时,利用可视化技术,就可以形成非 常友好的界面,这样数据分析将不再局限在某些专家中了,利用可视化的理念开 发的系统能够适用于更多的人群,而不是只为专家所使用,对于数据分析的应用 推广具有很重要的作用。 可视化分析关键技术研究及系统实现 8 复旦大学硕士学位论文 第一章引言 1 2 当前研究状况 1 2 1 数据分析技术 传统的数据分析技术,比如可视化查询,统计分析,o l a p 等,已经发展得 非常成熟,并已经有了一些很成功的产品,比如s a s 、s p s s 、b r i o 、i b m 、m i c r o s o f t 等公司都有各自非常优秀的产品。 数据挖掘作为数据分析最新的发展方向,越来越多的研究者投身于该领域的 研究。1 9 8 9 年到1 9 9 4 年召开了四届“数据库中的知识发现”研讨会( w o r k s h o p o n k n o w l e d g e d i s c o v e r y i n d a t a b a s e ) 。该研讨会自1 9 9 5 年开始演变为“知识发现与 数据挖掘”学术年6 = ( c o n f e r e n e e0 1 1k n o w l e d g ed i s c o v e r ya n dd a t a m i n i n g ) 。从 1 9 9 9 年开始,a c m 组织成立s i g k d d ( s p e c i a l i n t e r e s tg r o u po nk d d ) 。随着数 据挖掘研究者的增加,现在每年包含数据挖掘或者知识发现主题的学术会议超过 十个。参加者涉及人工智能、统计、数据库等多个领域。 随着数据挖掘技术的成熟和应用的推广,很多软件提供商推出了相应的数据 挖掘软件包、系统或者解决方案。s a s 、s p s s 、i b m 、o r a c l e 、m i c r o s o f t 等软件 公司都开始涉足数据挖掘市场。 虽然数据挖掘的研究已经开展了十几年,但是在数据挖掘应用中遇到的很多 问题仍然等待解决。例如: 大规模数据的处理数据挖掘要处理的对象可能是g b 级甚至t b 级的数 据: 一 复杂数据的处理数据的形式可能不规则,数据的维数可能很高,数据的 某些值可能缺失,数据的质量不能保证: - 商效地处理存在于数据库系统或者数据仓库中的数据: 数据挖掘任务的自动化执行; 不同数据挖掘操作、技术的协同工作; 数据挖掘操作的模块化、标准化。 根据这些问题,当前,数据挖掘的研究主要侧重于以下几个方面: 新的数据挖掘操作随着应用的改变,对数据挖掘操作提出一些新的要 求。例如,局外数据发现、例外规则的发现等; 可视化分析关键技术研究及系统实现 9 复旦大学硕士学位论文 第一窜;i 言 - 对予超大规模数据静高效拣掘很多研究者利用采榉、统计、索弓| 和人工 智能等技术来加速对于大量数据的挖掘: - 对于复杂搿维数据的挖掘很多研究耆致力于缺失属性数据的挖掘、不规 则数据的撼搌,还蠢大量的硬究者避萼亍离缎数据挖掘的硬究、多媒体数 据挖掘豹研究; - 数攥挖握王葵帮数攒瘁管骛系统、o l a p 工爨、数据仓库系绞戆集成大 量数据存放在数据库系统或者数据仓库中,在这些系统中融经存在了很 多数据管理工兵,剿弱这些工具霹以鸯l 速数据挖掇熬速度,城小数握移 植的代价。 特定繇境下静应潮在空漓数器瘁、多媒钵数据露、覆秘辩象鼗攒淳、 w e b 数据库中,数据形式、质量都和传统数据库不同,一墩数据挖掘方 法怒赞对这些数据窿瑟开发魏; - 数据挖掘的标准化数据挖掘包括锻多操作,技术众多。魑研究者提出 了数据挖辅操作的标准。铡如,m i c r o s o f t 提出了o l e ,d bf o rd a t a m i n i n g i n c 0 0 、d m g 组织提出了f m m l t 艇l c t 、国m 的q u e s t 研究 小缀开发了分类和关联窥受q 挖掘的蒺准溯试数据f u r l a 。 - 数擐挖掘搽馋的集成很多碜 究者将数据挖掘算法综合成炎嶷成工哭。铡 如,d b m i n e r 在m i c r o s o f to l a ps e r v i c e s 的基础上集成了聚类、分类、 关联魏则发现、时序模式发现等四个操作;i b mi n t e l l i g e n tm i n e r 则集成 了从数据准备、数据挖掘到挖掘结果解释的一系列探作。 1 2 。2 可视纯技术 毒撬纯( v i s u a l i z a t i o n ) 技寒怒潮爱 冀援錾髟学窝图像处理鼓零,将数摄转 换成图形或图像在屏幕上擞示出来,并迸行交互处理的理论、方法和技术。它涉 及刘计算机图形学、墨像处理、计舞机视觉、计算机辅助设计等多个领域,成炎 研究数据表示、数糖经理、决策分橱等一系襄淘题鹣综合授零。霹褫纯技术最翠 运用于计算科学中,并形成了可视化技术的一个黧要分支科学计算可视化 ( v i s u a l i z a t i o ni ns c i e n t i f i cc o m p u t i n g ) 。科学计算霹视化黔够吧科学数提,包括 铡羹获得的数值、隅像或燕计算中涉及、产生的数字信息变为直观的、以潮形图 像信息表示的、随时间和空间变化的物理现像或物理量呈现在研究糟面前,使他 镌魏够蕊蘩、模援程诗冀。器 学诗舞可褪纯鑫1 9 8 7 年挺爨戳寒,在各工程程诗 算领域得到了广泛的应用和发展。 近年来,随着数据仓库技术、网络技术、电子商务技术蒋的发腿,可视化技 术灞盖了爨广泛觞内容,并避一步提密了数据霹筏诬麴摄念,舞谓数据可秘仡是 对大型数据库或数据仓库中的数据的可视化,它是w 视化技术在非空间数据领域 可筏纯分析关键技寒醑究及系统实现 ,1 0 复旦大学硕士擎证论文 第一章引言 的应用,使人们不再局限于通过关系数据来观察和分析数据信息,还能以更直观 的方式看到数据及其结构关系。数据可视化技术的基本思想是将数据库中每一个 数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个 属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更 深入的观察和分析。 可视化数据分析使用可视化技术让数据分析师来评估、监控和指导数据分析 的输入、结果和整个过程。它能够在数据分析的早期引入用户的认识、偏好,从 而降低整体的计算复杂度,并且减少无意义结果的数量。 在数据的可视化方面,研究了将数据库或者数据仓库中的数据,从不同的抽 象层次或者将属性、维度进行联合之后,以各种不同的呈现形式展现在用户的面 前 h p j o o l a d 9 9 c h r 9 6 ,其研究内容包括对于各种不同类型的数据的可视化 【t u f 9 0 】【a $ 9 9 ;对于各种高维数据的可视化 h p j 0 0 c m 9 6 】 i d w 9 9 各种交互 式的数据可视化方法研究 s d t s 9 5 】【y m e 9 9 d h t 9 8 】。 在数据挖掘结果可视化方面,对于不同种类的知识,也分别提供了一些知识 可视化表现的形式 k b d 9 8 【a d v 】【q u e s t m i n e s e o 。目前研究的关键点是可视化 模型的表达方式、交互性、整合性方面的改进。在交互式的可视化数据挖掘领域 中,通过将可视化技术有机的结合在数据挖掘的算法中,能够提供给用户充分的 互动性 m e v 9 6 】。例如,在分类方面已经提出的有一个p b c 算法 m c e 2 0 0 0 】。 交互式可视化数据挖掘是难度最大的领域,研究的重点还在于如何利用可视化技 术将人类的特长与计算机的特长有机结合起来。 在过程的可视化方面,已经形成了一些产品 s n 0 0 s j c a l w 9 9 s p s s l ,将 数据分析从数据抽取、数据整理、数据展示、统计分析、数据挖掘、结果展现的 整个过程直观的体现了出来。目前研究的重点是对整个流程统一有效的表达以及 和c r i s pd m 方法的结合。 1 。3 本文工作 本文根据数据分析在当前技术背景下的发展趋势,讨论了可视化技术在数据 分析中的应用,具体工作如下: 1 ) 总结了可视化分析技术的基本概念、主要内容和发展趋势,在此基础上 提出了可视化分析包含的三个关键技术:可视化分析流程,可视化数据 挖掘,可视化分析报表生成。 2 ) 针对可视化分析的三个关键技术:分析流程、数据挖掘、报表生成,分 别提出了可视化的模型。其中包括: 阐述了可视化分析流程的概念和意义,提出了一个自定义的基于 x m l 的分析流程描述语言d m a p m l ( d a t am i n i n ga p p l i c a t i o n 可视化分析关键技术研究及系统实现 1i 复旦大学硕士学位论文 第一犟亏l 言 p l a t f o r mm o d e l i n gl a n g u a g e ) ; 阐述了可视纯数据挖撼的基本内容,并针对数据挖掘中关联姬则、 决策j 簿分炎、聚类这三类算法给出了模型可褪化盼方法; 提出了可视化报表生成的概念,阐述了其重要性,并给出了一个基 于y d v i l 和组件技术,蜜现可视化分析报表创建和发布的方案。 3 ) 安现了一令霹筏纯分辑系绞v a p 。v a p 不氇提供了“传统”熬哥辍纯努 析方法,比如数据展示,可视化查询,统计分析等功能,还完全实现了 本文所提出的可视化分析的三个关键技术,是一个综合了流程可视化、 数据挖掘可裰化和报表生成鹣数据分据平台。该系统熬予先进的暖l 弱 软件组释技术,具有高度豹可扩震性,缝实现跨平台、分布式的计算, 并能通过网络提供丰富的a p i 和发布分析结果。 全文廷分藏6 拳,文章结筠获释章内容楚分翔下: 第一章是引言,主蒙介绍了数据分析的发展趋势,阐述了可视化数据分析研 究的意义,然后对本文的内容以及文章结构安排进行了介绍。 繁二耄是分柝流糅援纯。善龙对分析流趱豹基本概念送行了描述,然爱搓 述了一个基于x i v i l 豹分析流程描述语言d m a p m l ( d a t am i n i n ga p p l i c a t i o n p l a t f o r m m o d e l i n gl a n g u a g e ) ,并针对不同的分析任务,详细给出了d m a p m l 的定义。 第兰牵是数器挖攘胃凌纯。营笼夯绥了爵巍纯数据挖嚣壤摆懿嚣令狯段,搽 讨了可视化数据挖掘的重要性。然艏探讨了数据挖掘模型可视化的重要性,并且 提出了强模型可视化中两个重要的因素:模型的理解和模型的信任。最后针对数 据挖掇巾关联觏刘、轶繁撼分类、浆类这三类冀法绘出了模黧l 胃援纯戆方浚 第滔摩是报表生成可视他。酋先介绍了撤袭生成在实蕲藏用中的重要性,然 后给出了一个实现可视化报表生成的解决方案。包括一个自定义的报表x m l 描 述。 繁蠢牵楚y a p 鬈统奔缮。本擎燕要舟绥了一个数据努辑裰仡静系统。v a p 通过可视化的流程与用户交互,能够生成数据分析过程的报告。系统具有很好的 可扩展性,并且已经猩实践中体现了不错的效果。 蒡六褰是总结襄鼹望。 可视化分析关键技术研究投系统实现复旦大学硕士学位论文 第四章可视化数据挖掘 2 分耩滚程瓣述 第二章可视化分析流程 睫着数握复杂发魏增热,数据分摄也不霉可仅逶过一个单独麴分辑绦务寒 完成,而必须通过肖机缀合多个不同性质的分析任务才能获得所需的分析结果。 根攒数据分析的流程化特点,我们将数据分析的生命周期分成三个阶段:数据准 备、分橇挖蠡、翘谖篌雳。 根据上俩的划分,数据准备阶段的工作蔡做的工作包括提高数据的质鬣和对 数据进行汇总以方便其后救分析过程。数撼分析即可以在操作性数据库上进行, 氇w 玖在数据仓库( 往往藏是一个汇总数瓣滓或者熬个企数商业的艇台) 上进行。 数据仓库中的数据质量由数据分析师不断地进行监控。由于数据的舜质性和不同 数攒库中竣裴耘毽性,数撼仓库中的数据镘缝都是经过数掇糖褒之薅清洗弱振准 化的。 分析挖掘阶段的工作堂点是选择数据集合和使用合适的算法。由于可以获得 戆器量数攒懿暴嚣,鼗据分撰可豉在其中静一个予集上送行。一个余遥豹数据样 本从仓库中获取出来并对其进行描述。这个过程可以需要重复几次赢到获得合适 的样本。经过选择鲍样本就形成了数据分析鲍目标嶷。在我们的框架中,数据分 析澄程藏憨觚数据中分析蹴一垡对于用户来说是有耀的翔识和模式。数据分析算 法使用来自分析者的指导辩乏确定各种参数,从而控制整个学习过程的计算复杂 性。整个遭程可l 产生足个分援缝莱。 在所有生成的分析结果中,用户可能只选择几个有用的分析结果用于嫩终的 应用。使用和维护阶段的工作的焦点是监测数据库的更新和模式有效性的般测。 虽然学习靛过程整鞠户捂静静,毽楚并不怒掰有的知谖赘褥嗣予实黼应麓中。只 有有用的模型才会被选择出来,并用于实践。在这个阶段,另外一个很重要的工 作就是在数据发生变化的愤况下,持续的簸测模型的有效憾。当数援仓库审鲍数 据发生很大的变仡之后,藏需要衍艇新的分析结采。可以通过在新的数据上产生 新的分析模型,通过重复以上三个阶段的工作。 2 2 分析流程描述语言d m a p m l 数据分析流程可视化的目标就是将数据挖掘的整个过程用一种可视化的形 式展现在用户的面前。这样,也可以给知识正程师更多的自信以指导下一步的工 聱。逶过将数据分棼亍过程髑可褫亿方式呈瓒鑫来,飘赢帮韵瘸户疆一稃其体帮篱 明的方式掌握知识萃取和决策分析的过程,并让你充分的融入其中。为此我们定 义了一个綦予y d v i l 的滚稔描述语蠢d m a p m l ( d a t a m i n i n g a p p l i e a t i o n p l a t f o r m m o d e l i n gl a n g u a g e ) ,能够记录分析流程的组成和结构,并能详细描述组成流程 的备个分析任务的属性和分析结果。任何个数据分析流程都对应一个d m a p m l 懿l m l 箍逸,记录该模型瓣元数攥绥惠,投疆这些镰塞可以恢复该模型创建缒过 程,重新调整参数,及更新数据和模型。 可视纯分析美键技束研究及系统实璇 复量大学硕士学位论文 第四章可视化数据挖掘 d m a p m 豹蟊的是帮韵入稍稳糯数据分耩技术解决商敦闯蘧,它定义了一个 数据分析过程,以使得数据分析项目更加快速、高效、可靠、和可管理;同时它 提供了一个灵活枫铡来定义不冠黪分摄任务,透过使用撂港鳃x m l 鳃援鑫对 d m a p m l 进行解析,应用程序能够决定分析任务输入和输出的数据类型,任务 参数的具体设置,以及分卡片结果的详细格式,并且按照标准的数据分析术语来解 释鞠震示分辑缝栗。d m a p m l 数蒸体定义鳃下: 其中t a s k s 部分描述了一个分析流程中所有的分析任务,目前任务包括以下 类别:数锻源任务、数据她理、指标体系、数据探索、类激指定、数据挖搦、模 鍪评价、模整融合、查看耩登结采、评分、缀告。一个监务模螫可戳由上述任务 中部分或全部构成。任务的详细参数在t a s k p a r a m 部分定义,根据不同分析任务 露定,在下一节中我织将绘出具体瓣分援任务的铡子。d a t a f l o w s 帮分描述了连 接各个分析任务的数据流,正是这贱数据流把分析任务连接起来构成了一个完整 的分析流獠。整个分析流稷可以分段执行,这样可以了解过程的中间结果,如果 发瑗不满怒苓爱等翻整令流程撬器结束考去掺致参数或者拯标。m o d e l s 骞s 分捶 述了当前分析流稷已经创建的分析结果,具体参数视不同的分析任务而定,在下 一节中我们也将给蹬一个舆体的例子。 2 3 分析任务d m a p a l 举例 我们主要论述数据源、数据转换、数据探索、算法、及算法结果四种任务类 型蕊接口。 可棍亿分析笑键技术研究茂系统实现 蔓基大学硕士学位论文 第四章可视化数据挖掘 2 3 1 数据溺 在务 下表楚数摇滚蔹务懿袋疆定义,主要毽鏊数据瘁连接、表殴技字段懿窥义、 对斑的s q l 语言等。 2 3 2 数器簸毽任务 数据廷疆包孛萋了字段黪选、数攥撼取、类鍪 转换、褰教铯等毯务。下瓣嗾数 据离散化任务为例,介绍数据处理任务的d m a p m l 描述。离散化任务它用于将 可橇纯分辑关键技术研究及系统窭现 复登走擎硕士学像论文 第四章可视化数据挖掘 数据库表中的数值字段划分为几个区间内,减少数值的个数。其接口的d m a p m l 定义如下。 2 3 3 数据探索任务 数据探索任务包括可视化查询、o l a p 、各种图表的数据展示等任务。下面 以平行坐标图为例介绍数据探索任务的d m a p m l 描述。 可视化分析关键技术研究及系统实现 复旦大学硕士学位论文 第四章可视化数据挖掘 2 3 4 算法任务 算法描述具体的数据探索和数据挖掘算法的接口,各个算法参数不一样,在 p 具体定义,由平台;l 擎解析后分配给具体的算法引擎解析执行。下面是 一个决策树算法的具体例子。 可视化分析关键技术研究及系统实现 1 7 复旦大学硕士学位论文 第四章可视化数据挖掘 对于决策树算法产生豹分析结果,其d m a p m l 描述为: 可税纯分辑关键技术研究及系统实现 - 1 8 一复旦大学硕士学位论文 第四章可视化数据挖掘 3 1 概述 第三章可视化数据挖掘 数据挖掘就是一种有效的从数据仓库中可能自动的发现有趣的、有用的、未 知的模式,这个数据仓库就是为了有利于分析和知识发现。常见的有用模式有: 分类、关联、聚集、序列模式等等。成功的数据挖掘过程非常依赖于用户的洞察 力和观点,虽然算法已经是自动化的了。人类的视觉能力是一个很独特的东西, 他能够对信息进行广泛的处理。可视化数据挖掘方法目的就是要很好利用了人类 的这种对于可视化形式下模型和结构的获取能力,并且对这个结果进行分析解 释。可视化数据挖掘已经证明在探索性数据分析中有很大的价值,同时在处理大 型数据库中也有很好的潜力。 本章的内容包括在数据挖掘过程中的三个可视化的应用,然后重点分析了数 据挖掘模型可视化的重要性,并且提出了在模型可视化中两个重要的因素:模型 的理解和模型的信任。在本章的最后,分别针对不同的数据挖掘算法给出了相应 的模型可视化实现方法。 3 1 1 可视化数据挖掘 数据挖掘是一个知识发现的过程,是一种高级的数据发分析技术。按照本文 对数据分析的三个阶段的定义( 见2 5 分析流程概述) ,数据挖掘的生命周期也 可以分成类似的三个阶段:数据准备、模型生成、知识使用。 可视化数据挖掘可以应用在对于数据挖掘划分的所有三个阶段上:数据准 备、模型生成、知识使用。可视化数据挖掘的目的是提供一个可视化和数据挖掘 的整合环境,以提高整个数据挖掘的有效性,提高信息和知识在工程师和数据挖 掘流程之间交流的方便性。由于这个整合的工作非常新,所以很少有工作涵盖了 所有的部分。可视化数据挖掘的应用更进一步的描述如下: 数据准备。数据准备阶段的可视化的目标就是将数据预处理的功能以可 视化的形式进行。也就是将对于原始数据安装要求进行处理的过程以一 种可视化的形式进行。这里可视化操作的内容包括:丢失植的处理、数 据转换、数据采样和修剪等等。 _ 模型生成。模型生成阶段的目标就是将模型创建的整个细节以一种可视 化形式呈现出来。训练集、模型的选择、参数的设定、训练过程的细节、 结果的存储都是这个阶段的工作。可视化数据挖掘的工作就是目的在这 些任务上的可视化运用。更进一步的,按照本文的观点,还需要一个关 于模型生成阶段的整体可视化方案。也就是以一种可视化的形式评估、 可视化分析关键技术研究及系统实现复旦大学硕士学位论文 第四章可视化数精挖掘 监督、指导数据挖掘模块。评估包括对训练集、测试集、模型在不同数 据中的表现和对于特定情况数据和学习算法的选择簿的有效性验迁。监 督瓴括:跟踪算法的进程、评倍模凝随着数据库更新之后酌情况等等。 指导包括的内容:用户初始观点的设定、输入的变化、习得的模式和其 翘的系统决定。可褫纯酌呈现应该存在予掰有这些任务中,戳提裔用户 和数据挖掘模块之间信息的交互性。 秘谈镬建。该淤段懿虿撬像星瑗鏊标是透过将数器挖掘过程静结莱教可 视化的形式足现出来,从而帮助知识工程师更好的获取知识。在大多数 情况下,数据挖掘算法的结累比如关联,分类等,郄是以一秸人类的视 觉系统很憨理解翡方式存在的。已经有一婪可视纯技术疆粥来用予解决 这个问题,如以树的形式展示规则,但是只有极少一部分能够展示出重 要戆续果特征来。大多数黪况下,翔果生成了大量豹结果懿游簇,对于 知谈工程师来说,还是很滚获取有阁的信息。在验证阶段,可视化数据 挖搁的工作就是数据可视化。其中包括的数据有:原始数据,汇总数据, 配豢数据,戏者是按取褥餮始谈镶惫。这个除段熬数据往 燕太多,超过 了人能处理的范围。这里,可视化数据挖掘的基本想法就题将在数据空 闻中隐藏的信息尽爨多的望现在援擞空闼中。这里的映射工作包括了将 数掇库中可以获得信息妖射到可戳用可视纯技术呈现的信惑上。 所有前飚的努力都是产难可视化的结果,帮助知识工程师从数攒中获取尽可 戆多瓣售患。我 | 、】霹珏薅任挺数据逡霉霹撬纯,只娶鸯剩予j 露识豹获取。可浚讫 方法不仅可以帮助我们理解数据中隐藏的信息,同时可以帮助我们理解数据挖掘 分析的结果。 这里,我翻裁定义 任褥可筏纯模登豹瓣的:将信意戳可视纯静形式璧蕊密 来,并能够为人类的视觉系统容易的接受。在这里,有两点重要的内容。第一: 可视化模型应该呈现尽量多浆信息秘扶数擐中获取驰知识;第二,弼视纯应该以 一种知识工程师容翁理解酌形式表达出来。 同样,我们就可以定义任何可视化数据挖掘模数的评价标准:一个可视化数 攥挖掘攘壁霉蜀毪韪煮其产生熬霹援凭靛镶怠量或歪魄,这魑蓑怠疯该窝我您预 定义目标相致:俯息的范围和易理解性。如果可视化展现不能为知识工程师所 理解,那么这种可视化就是竞全失败的。 形成一个好豹胃褫证稹挺豹难赢两个耋簧嚣索之淹豹平衡:信息的震黧藿; 方式易理解性。在数据挖掘中又多了一个难点:数据的数量非常大。即使是数据 挖攒鼹结果,也是一个很大豹数据粲,筵攀豹学呈现方式是缀难进孝子分辑的。在 指定了目标之后,我们并没有限制浆用什么方式达副最终的目的。我们完全可以 尝试各种方法来提简现有的技术。一个主要的原则就是在现有的研究基础上,提 裹貘登懿痿餐,侵耀更努瓣浚射方法,更好蕊表瑷形式。 3 。1 0 可税化挖掘的熏要性 个有趣的观察是:大多数的数据挖掘技术是一个完全自动化的过程,但是 确蜜需要一令颈先定义好翡经务。这个任务楚一个菇僖弱骰凌,然嚣数据麓箍进 行舆体化寻找到量化的规则、来让用户使用或者丢弃它。基于任务的数据挖掘很 可视化分析关键技术研究及系统实现 复童大学硕士学馋论文 第四章可视化数据挖掘 萋簧,毽阏辩基予数据兹锻浚生成瞧穰重癸。掰疆爱将人类的灵活往,翻造力和 各种常识和当今计算机的臣量的存储和强大的计算能力结合起来。 特别的,人们视觉的非甄配能力让其& 够在很缀戆对阂嚏,分攒复杂鲍瑷蓉, 识涮重要的信惠,从而做矗j 决定。人类的知觉系统能够以一种非常灵活的方式处 理备种数据类型,自动的识别出不得常的特征,同时忽略些平凡的特征。对于 模凝、甭精确售惠貔处理戆力强予当蔫懿计算夔系统,并量辘够裂建各释熟识, 做出复杂的判断。 我们相信可视化数据挖掘的作用就是将知识工程师变成数据挖掘过稷的 部分,司靖有效豹嗣用入类静知觉系统。我稍关于可褫话数据携稼的灵活惫义允 许将人的能力结合到数据挖掘的三个不同阶段中。这样,尖端的科学知识就可以 充分的结合进去。 我们的方法就怒将人结合到数据挖掘豹过程中去,并将这种结合应用判当今 计算机系统中存在的大量数据中。为了达到这样一个目的,对于大缀的数据和各 秘分糖之瑟产生懿绫栗 进行可视化就显得非常的必要了。这个方法和我们的基本想法:将数据空间的隐 藏的信息尽可能多的可视化出来。 对予辩谖工程褫来说,将数据挖掘整个过程送行可视纯具有非常高的价值和 重骧性。将抽取出的信息以一种简明的形式呈现出来,从而给用户个关于分析 结果总体愦况的概念。这榉,也霹以绘靓谈工程烬燹多的爨信默摇舄下一步熬工 作。通过将数据挖掘过程阁可视化方式呈现出来,从而帮助用户以一种具体和简 明的方式掌握知识辈取和决策分析的过程,并让你充分的融入其中。 将燕奚墼或者分类或者联测送行霹程曩二,这样裁霹鼓澎藏箨豢友好翡赛瑟,获 而数据挖掘将不再局限在某些专家中了。藏如我们已经提到过的,数据挖掘结果 的原始形式对于分柝烬来说是j 常难以理解的。结果,有些数据挖撼系统就变得 罪常褥难粥,仅仅嬲限在少数专家中。乖j 糟可视纯豹理念开发的系统能够邋稻于 更多的人群,而不是只为专家所使用。 总之:霹视亿数擐挖援粒重要瞧在于: 1 ) 数据驱动的假设生成 2 ) 人类能够成为数据挖掘的一个部分。 3 ) 麸数据塞瀛串谶行知识获取、了解 4 ) 将关联、规则、分类、预测以一种形象具体的方式展现出来。 视化数攒挖掘能够在数攒挖握的早期阶段将用户的知觉,知识等等结合起来, 麸褥降低数据挖掘藤体计葬鹃复杂性。更谶一步的,分析师可以秩数据分析的过 程中,形成新的认识。这些新的想法能够有利于开发更好的算法和过程。我们将 三个方瑟:入,数援挖撼冀法,可瓣让数据挖撼巍为一令蠢辍静骜髂,每一方都 能够在和其他两方的交互中得到提升。 3 2 数据挖掘模毽可视化 3 2 1 数据挖掘摸黧可视化介绍 由于数据挖箍往往是瓿数据露中挖隐藏静信怠,这群晌一个理解过程就可能 可视他分析关键技术研究及系统赛瓤 复鱼大学硕士学位论文 第四章可视化数据挖掘 交得更加复杂了。在大多数数据库操作中,几乎每样用户看到的东西都怒他们 明确知道确实存在予数据库中。一个按照地区、产鼢排列的销售报袭对于用户来 说建很直接的,因为直觉上他稻知遥这些系西在数据库中憝已经存在的。如梁公 司强不同的地区销售不同的产品,那么将这些显示出来的信息和相关的商业流程 联系越来不会有任簿问题。 数据挖掘则不同,其得到的结果往往是用户事先所不知道的。变量之间有用但不 壹戏夔关系垂是数攒挖撼棼鋈发瑰鲢珍宝。交于用户事先并不熟遂数摆挖援婚会 发现什么东西,所以将系统得到的缩果转化成一个好的表= 逸形式给商业用户就成 为了一个很墓要的问题。由于有很多种方法可以用来将模型可视化,因此我们应 该选择女够对雳户挺貘最大徐蕊静w 援纯方法。这裁要求我们了瓣翔户静翥求著 且从用户的观点设计可视化方法。假设用户是某个问题领域的专家假不擅长数据 建蠛,那么我们必须将模型以一种他们可以理解的自然的方式里瑷进来。 3 2 。2 模型可视化的动因 对于数据挖掘模型进行可视化的驱动力可以分成两个关键的部分:理解和信 任。 3 。2 。2 ,1 横跫的理勰 理解毫无疑阈是对模型进行可视化的摄根本的驱动源泉。虽然对数据挖掘模 型最简单的处理方法就是将输出作为一个煞盒,用户也不一定需要对一些他们感 兴趣的潜在妇容进行理解。例如,他们可以利用这个黑盒对数据库进霉亍打分,然 后获得一个目标客户的瓢袭( 比如向其发送产品嗣录,比如提高其信用值) 。对 于用户来说,只要嫩下看赘信件发送出去就可以了。这也怒一个缀有效的方法, 在不降低响应率酌前提下,通过减少发送鬃成本可娃大幅度的降低。 但是另外种鼹加好的使用数据挖掘模型的方式是让用户了解模型的内涵, 鼠褥其能够直接采取行动。通过可褫住这个模墅,眭用户可以对两攀,顾咎和其 他的用户解释模型落后的逻辑。让用户对模型的逻辑和原理有所了解是建立用户 的倍任感的重要一都分。铜瓤,焉户需要鬣开一个广告宣传活动,了解客户豹地 理分布就怒一个关键因素。究竟在什么地方投放广告的决定就是理解了关予客户 季亍必的数撼挖藕横鼙之螽豹络采。在这里,是没有鑫动纯方法静,丽必须袄靠市 场经理对模型的理解。除非数据挖掘系统的输出可以被量化的理解,否则这些结 莱将一点瑙处都没有。贯舞,攘鍪毽霈要救理解懿方霞程淑采取豹萼亍动l 够及时 的进行调擞。 瑾释不擎摹毯摇甥自援鍪;溺辩还需鬟骥自躅凌( c o n t e x t ) 。黧采霜户簸够结 合相应的商业问题来理解模型的结果,他们将很容易信任这个模型并付诸使用。 可视亿分斩关键技术研究及系统实现复量大学硕士学位论文 第四章可视化数据挖掘 这藏包括两部分的内容: 1 ) 将数据挖掘的结果以一种宥意义的方式进行可视化; 2 ) 允许用户对模型遗行一些简单的交短,从而能够回答一些简单的问题。 对于第一部分的解决方法怒引入如:提升率,响应率,和( 可能也是最重要的) 一楚经济措标( 利润,成本,r o i ) ,这样臻户马上就可港结合实搿对模黧的结 果作出一个迅速的判断。另外,对于挖掘结果的简职表达能够让用户很快的了解 模甏。穗魏国形纯静显示决策橱。瓷然有黧算法可能困难羹大一些( 眈鲡粹经元 网络) ,但是摄近一些崭新的解决方法正在出现。 另静需瑟着重探讨熬蔻交互毪。交互怒对于穰多焉户来说,是数器挖黧可视 化的圣杯( t h eh o l yg r a i l ) 。对于数据的操纵和动态的察看结果让用户有一种动态 察看帮蒺试是否囊豹有一燕帮壹凳不霜豹内容存在。交互瞧蘧多,形式蘧簿单越 好。察看一棵决策树当然很好,但怒他们真正希望的是将最佳的分片拖拉到地图 上,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国餐饮设备市场发展趋势规划研究报告
- 2025-2030年中国钢制车轮行业发展现状及前景趋势分析报告
- 2025-2030年中国采暖散热器行业十三五规划及发展前景分析报告
- 2025-2030年中国通信继电器市场供需状况及投资战略研究报告
- 2025-2030年中国船舶涂料产业运营状况与发展趋势分析报告
- 2025-2030年中国臭氧治疗仪市场需求状况及发展潜力分析报告
- 2025-2030年中国聚酯多元醇行业市场现状分析规划研究报告
- 2025-2030年中国网络借贷市场发展现状及前景趋势分析报告
- 2025-2030年中国精制棉市场运营现状及投资前景规划研究报告
- 2025-2030年中国眼视光行业发展趋势规划研究报告
- “供应商融资安排”会计列报、披露问题研究
- 颅内动脉动脉瘤介入治疗临床路径
- DB32∕T 2882-2016 城市轨道交通桥隧结构养护技术规程
- 氮化硅结构与性能
- 《现代汉语语法》PPT课件(完整版)
- 性病实验室检测与质量管理
- 高桩码头施工组织设计(福建)
- 这一封书信来得巧
- 监狱服装加工企业开展全面
- 标书密封条格式模版(共19页)
- 小学一年级硬笔书法入门(课堂PPT)
评论
0/150
提交评论