




已阅读5页,还剩86页未读, 继续免费阅读
(计算机应用技术专业论文)基于dmx语言的数据挖掘算法包原型系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
d i s s e r t a t i o nf o rm a s t e rd e g r e e ,2 01 1 s c h o o lc o d e :l0 2 6 9 s t u d e n t n o :51 0 8 1 2 0 1 0 4 0 e astc h i n an o r m a lu n i v e r si t y d e s i g n a n d i m p l e m e n t a t i o no f d a t a m i n i n g a 1 9 0 r i m mp a c k a g ep r o t o t y p es y s t e mb a s e d o nd m xo n ul v i 天 d e p a r t l n e n t : m 萄o r : r e s e a r c hd i r e c t i o n q 型凼昼墨曼墅q 地q ! q 醒垫亟鲤! i 曼丛i q 坠 a c l v i s o r : m a s t e rc 2 u l d i d a t e : a s s o c i a t ep r o s u nl e i l iy o u o c 伯b e r ,2 0 1 0 华东师范大学学位论文原创性声明 郑重声明:本人呈交的学位论文针对推荐系统中信息共享需求下隐私保护机制的 研究与实现,是在华东师范大学攻读硕髟博士( 请勾选) 学位期间,在导师的指导下 进行的研究工作及取得的研究成果。除文中已经注明引用的内容外,本论文不包含其他 个人已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在 文中作了明确说明并表示谢意。 作者签名:纽 日期:垒p ,o 年,f 月a 1 ,日 华东师范大学学位论文著作权使用声明 针对推荐系统中信息共享需求下隐私保护机制的研究与实现系本人在华东师范 大学攻读学位期间在导师指导下完成的预征博士( 请勾选) 学位论文,本论文的研究成 果归华东师范大学所有。本人同意华东师范大学根据相关规定保留和使用此学位论文, 并向主管部门和相关机构如国家图书馆、中信所和“知网 送交学位论文的印刷版和电 子版;允许学位论文进入华东师范大学图书馆及数据库被查阅、借阅;同意学校将学位 论文加入全国博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要 汇编出版,采用影印、缩印或者其它方式合理复制学位论文。 本学位论文属于( 请勾选) ( ) 1 经华东师范大学相关部门审查核定的“内部”或“涉密”学位论文宰, 于年月日解密,解密后适用上述授权。 ( ) 2 不保密,适用上述授权。 导师签名垫:盘导师签名丝:二覆本人签名弛 3 。卜 年f 月上r 日 “涉密”学位论文应是已经华东师范大学学位评定委员会办公室或保密委员会审定过的学位 论文( 需附获批的华东师范大学研究生申请学位论文“涉密”审批表方为有效) ,未经上 述部门审定的学位论文均为公开学位论文。此声明栏不填写的,默认为公开学位论文,均适用 上述授权) 。 奎自硕士学位论文答辩委员会成员名单 姓名职称单位备注 杨宗源教授华东师范大学信息学院计算机系主席 章炯民副教授华东师范大学信息学院计算机系 叶建中副教授华东师范大学信息学院计算机系 基于d m 语言的数据挖掘算法包原型系统的设计与实现 摘要 随着近年来计算机信息技术的飞速发展,数据挖掘技术在企业管理决策等活动中 扮演着越来越重要的作用。相当多的大型企业其内部或者与其他商业伙伴间海量的数 据需要在数据挖掘技术与平台下成为有意义有价值的知识信息。2 0 世纪8 0 年代数据 挖掘技术开始萌芽,经过了9 0 年代的高速发展,现在各种数据挖掘平台技术、商用 软件以及数据挖掘算法已经层出不穷,特别是数据挖掘商用软件的出现和不断完善, 使得大型企业在企业管理和决策活动中有着更为有利的依据。在对海量的业务数据进 行不断的挖掘并发现内在的模式、规律和趋势后,企业在市场上的决策也有了更加明 确的方向,也极大的降低了不必要的战略风险。 但是,目前存在着大型企业能够享用计算机信息技术和数据挖掘技术飞速发展的 最新研究和应用成果,而中小企业普遍不能够获得满足其自身业务需求的相关系统与 软件技术,如w a r e h o u s em i n e r 、e n t e r p r i sm i n e r 这种业界领先的集成度相当高的数据 挖掘软件的价格和适用程度对它们而言都不合适,同时中小企业随着其企业战略的发 展与变化,对自身适用的这类软件的结构灵活性、功能开放性和操作独立性的需求也 十分迫切。因此,如何在开源平台下设计并实现一种具有功能开放性、操作独立性和 结构灵活性等特点的数据挖掘软件来满足中小企业对其内部大量业务数据进行数据 挖掘以期发现有用的知识的需求,正是文中所研究的课题的目标和意义所在。 诚然,近年来t e r a d a t a 、s a s 、i b m 和o r a c l e 等公司都推出并不断完善了自己的 商用数据挖掘软件,这些软件在功能和性能上已经接近完美,从数据仓库的构建到前 端数据挖掘工具的应用,已经能够很好地满足用户的实际需求。但是如何能统一并规 范一种数据挖掘语言仍然是目前业界普遍关注的难点热点课题。其中,微软公司所 提出的o l ed bf o rd a t am i n i n g 规范和d m x 数据挖掘语言已成为该课题的具有代表 性的解决方案之一,它代表着数据挖掘技术沿着标准化的进程正日趋成熟。 文中从相关理论基础着手,从基于数据仓库的数据挖掘理论、方法与技术引出 o l ed bf o rd a t am i n i n g 规范和d m x 语言的发展历程,阐述了当下热门的数据挖掘 技术研究课题。然后从中小企业对数据挖掘软件的实际需求出发,叙述了文中对设计 与实现基于d m x 语言的数据挖掘算法包原型系统所采用的技术手段和框架的特点与 优势。接着文中从软件设计方法的角度详细叙述了基于d 凇语言的数据挖掘算法包 原型系统的设计与实现过程。最后,文中把该原型系统与当下主流的微软s s a s 中的 数据挖掘工具平台的结构特性上作了优劣分析并比较,并对进一步的工作目标和深入 研究的内容进行了展望,以期对数据挖掘平台与技术的各方面的工作做一个抛砖引玉 的作用。 关键词:数据挖掘,o l e d bf o r d a t a m i i l i n g 规范,d 凇语言 基于d m x 语言的数据挖掘算法包原型系统的设计与实现 a bs t r a c t w i mt l l er a p i dd e v e l o p m 饥to fc o m p u t 盯i i l f 0 皿a t i o nt l l i l o l o g yi i l c e my e a r s ,讹m i i l i l l g t e c h n o l o 科p l a y sm o 他勰dm o 他i i i l p o r t 柚tr o l ei l la 甜v i t i 懿姒c h 勰e n t e 印r i s em 姐a g 锄e n td e c i s i o n m 舔sd a 协w i t h i i lm a n ym 萄0 r 锄t e 叩r i so ri i lt i l e 证i i l t e m c t i w i lb u s i i l e s sp a m l e r sn e e db e 咖l s f o l l n c d 缸。懈e 如ll m o w l e 电e 锄di l l f o l 胁a t i b y 讹m “n gt e c h n o l o g ) ,锄dp l a t f - o m l d a t a m 证i i l gt e c h n o l o g ys p m u t e di i l1 9 8 0 s ,锄da f i e rr a p i dd e v e l o p m e n ti i l1 9 9 0 s ,k i n d so f 幽【协m i n i n g p l a t f o 珊t e c l l i l o l o g i e s ,b l l s i l l e s ss o f t w a 聆d a 协m i i l i i l ga l g o r i n l 】叮s 印1 e r g ei i l d i e s s l y ,e s p e c i a i i yt i l e 锄e 玛ta n dc o n s t a n tp e r f e c t i o no fd a 协m i l l i i l gb 吣i i l e s ss o f t 、a 陀。矗e r sm 旬o re m e r p r i s e sm o r e a d v 锄t a g e o u sc r i t e r i o nw h d e a l i n gw 曲饥t e r p f i s em 觚a g 锄t 锄dd i s i o na c t i v i t i e s w h 饥 d i s c o v e r i n gi i l l l e rp a t t 锄s ,d i s c i p l i i l e s 锄dt e n d 印c i e sa f t e rc o n t i l l u o u sm i n i i l go nm a 鹳b u s i l l e s sd a t a e n t e r p r i s ed e c i s i o n si nm a r k e tb e c 咖e sm o r es p e c i f i c ,a n da tt h es 锄et i i n eu 珈舱c e s s a 巧蚰r a t e g yr i s k r e d u s 母e a t l y - h o w e v 仃,w h i km 旬o r 朗t e i p s e se x i s t e d 咧0 yt l l e 纳i to fn e w e s t 陀s e a r c h 锄da p p i i c a t i o no f 伽p u t e ri i l f o 珊a t i o n 锄dd a t am i n i n gt h n o l o 勖0m i i l o re n t e r p r i s e sc 锄o tg e tr e i a t e ds y s t e i na n d s o f t 、v a r et e c h i l o i o g yw h i c hm a t c ht i l e i rb u s i i l e s sr e q u 岫n e n t d a t am i i l i l l gs o f t 、 ,a r e ss u c h 弱w 打e h o 吣e m i n e r 龃de n 帅r i s em i l l w m c ha r el e a d 粥i i l 吐l e i rc l 舔s 锄dh i g l l l yi l l t e g 豫t e d ,i st o oe x p e n s i v e 锄d i i l a p p r o p r i a t et o 吐l e m ,锄dm i i l o r t 唧r i s 懿聆q u hm u c h 0 ns o 矗w a r ea r c h i t e c t u r ef l e x i b i l 咄o p 锄e 鹤 觚dp l a t f 0 咖i l l d 印_ e i l d ,、 ,i t l lt l l ed e v e l o p m t 锄d 也m s i t i o no f e n t e r p r i s es 臼a t e g y t h e 陀f o r e ,h o w t od e s i g n 锄di i l l p l e m e n tad a t am i i l i i l gs o f i 、忱t h a th 嬲h i g h 叩咖e s s ,p l a t f o mi l l d e p d e n c e 锄d e x p 锄s i b i l i 够f e a t u r e st os a t i s 矽m i l l o r 即舱r p r i s e s r e q u e n ta b o u ti l l l l e rl a 唱es c a l ed a t ap r o c e s s i r 培 a n dl m o w l e d g ed i s c o v e r i i 玛i i lo p 饥s o u r c ep l a t f 0 锄i sa l s om em a 证t o p i co f t l l i sp a p e r i nr e c e my e a r s ,c o m p a i l i e sl i l 【er 黝d a 地s a s 锄do r a c l ec o m eu pw i t ha n dc o n t i i l u o u s l yp e r f e c t 吐l e i rd a t am i i l i i l gs o f h v a ,锄dm e s ea r ea h n o s tp e r f e c ti i lf i 】l l c t i o na n dp e r f o n n a n c e ,锄dn l e ys a t i s 6 r r e q u h m 锄to fu s c r sv e r yw e l i 舶md a t aw a r e h o u s ec o n s 咖c t i o n 锄dt h ea p p l i c a t i o no f 丘o n t dd a t a m i i l i i 培t o o l s h o w e v e rt ou n i 黟柚ds 咖d a r d i z ea 出【协m i n i i l gl 锄g u a g eb e c o m e sa s e a r c ha p o r i a 狮d h o t s p o to f 砌嘲阱a m o n gt h 锄,s p e c i 6 c a t i o no l ed bf o rd a t am i i l i i l gr a i s e db ym i c r o s o f 觚dd m x d a _ t a m i i l i i l gl a n g u a g eh a v e b e e nt a k e n a sr e p r e s e n t a t i v e s ,w h i c hr e n e c t s 吐l em a t u r i 锣o ft h e s t a n 捌i z a t i o no fd a t am i n i i l gt e c h n o l o g y 1 h i sp a p e rs t a r t sw i t hr e l a t e dr a t i o n a l e ,e l i c i t so l ed bf o rd a t am i n i n gs p e c i f i c a t i 矗o md a t a m i n i n gp r i l l c i p l e ,m e t l l o da n dt e c h n o l o g ) ,o fd a t aw a r e h o l l s ea i l dt l l ed e v e l o p m e n th i s a d 巧o fd m x l 趾g u a g e 柚ds t a t e sp r e s e n th o t 聆s e a r c h 州e c t0 nd a t am i i l i l l gt e c l l i l o l o 缈1 1 1 e nb 嬲e do nt h e t u a l r e q u i r 锄铋to fd a l am i i l i i l gs o 丘w a r e sb ym i i l o r 饥t e 叩r i s e s ,m i sp a p e r c o 硼t sn l ef e a t l l r e s 柚d 缸i v 础g e so fn l et e c h o l o g i c a lm e 勰u r ea n d 丘锄e 、v o r ku s e di i ld e s i 印i l l g 锄di r n p l 锄e n t i i l gad m x l a n g u a g eb 舔e d 讹m i i l i n ga l 鲥廿1 i i lp a c k a g ep r o t o 咖es y s t 锄a f t e rm a ti te x p o u i l d sn l ep r o c e s so f d c s i g i l i 】唱a n di m p l e m 朗t i i l gt l l ed m sl 锄g u a g eb a s e dd a t am i l l i i l ga l g o r i n l mp a c k a g ep r o t o 够p es y s 钯m 丘d mn l e 觚g l eo fs o f t w a r ed e s i 弘印p r o a c l l a tl a s t ,l i s p 印盯觚a l y z e st 量l ea d v a n t a g 器锄d d i s a d v a 1 1 t a g e si i lm a i ns 打u c t l l r a lp r 叩e 啊b yc o n n 傲锄o n gn l i sp r o t o t y l ) es y s t e i n 弧d 廿l ed a t a ,m i n i i l g p l a t f o r n lo fm i c m s o f ts s a s ,觚dp r o s p e c t st l l eg o a lo f n l e 缸t l l e rw o r k 觚dr e s e 盯c hc o n t 明t ,i no m e r t 0 s e n r e 嬲ac a t a l y s tf o rw o r ko nd a t am i i l i i l gp l a t f o m 锄dt e c i l i l o l o g yi i la ur e s p e c t s 1 ( e y w o r d s :d a t am i l l i i l g ,o l ed bf o rd a t am i l l i i l gs p e c i 丘c a t i o i l ,d m xl 孤g u a g e 基于d m x 语言的数据挖掘算法包原型系统的设计与实现 第l 章 1 1 1 2 1 3 第2 章 2 1 目录 绪论1 论文研究背景和选题意义1 1 1 1 数据挖掘的商业化需求1 1 1 2 数据挖掘研究方向的演变2 论文的研究目标和工作内容3 论文的组织结构和论文的工作成果4 相关理论基础。6 数据挖掘的理论、方法和技术6 2 1 1 基于数据仓库的数据挖掘理论、方法和技术的发展现状6 2 1 2 数据挖掘语言的产生与发展8 2 1 3o l ed bf o rd a t am i l l i n g 规范与d m x 数据挖掘语言9 2 2 采用的软件设计模式1 2 2 2 1 分层软件设计模式1 3 2 2 2m v c 软件设计模式1 3 2 3 s p r i r 喀框架与控制反转1 5 2 3 1 s p 血g 框架的核心组件1 6 2 3 2控制反转1 7 第3 章基于d m x 语言的数据挖掘算法包原型系统的设计。1 9 3 1 系统总体框架的设计1 9 3 1 1系统的设计原则1 9 3 1 2 系统的体系结构1 9 3 1 3系统的扩展性设计2 0 3 2视图层中表示组件的设计:2 1 3 - 3 业务层中功能组件的设计2 2 3 3 1词法分析组件的设计2 3 3 3 2语法分析和语义分析生成组件的设计2 3 3 3 3 语义执行组件的设计2 4 3 4 数据层中数据挖掘模型实例化调用的设计2 5 第4 章 基于d h d ( 语言的数据挖掘算法包原型系统的实现一2 6 4 1 开发环境和工具2 6 4 1 1n e t b 锄s 6 5 开发平台2 6 4 1 2 m y s q l 数据库管理系统2 6 4 1 3 开发语言与实现技术2 6 4 2 系统总体框架的实现2 7 4 3 视图层中表示组件的实现。2 8 4 4 业务层中功能组件的实现3 0 4 4 1词法分析组件的实现3 2 4 4 2语法分析和语义分析生成组件的实现3 4 4 4 3 语义执行组件的实现3 5 4 5 数据层数据挖掘模型实例化调用过程的实现3 7 第5 章 基于d m x 语言的数据挖掘算法包原型系统的实践与评估4 0 基于d m x 语言的数据挖掘算法包原型系统的设计与实现 5 1 基于d m x 语言的数据挖掘算法包原型系统的应用实践。4 0 5 2使用图形用户界面进行数据挖掘4 2 5 3使用d m x 语言进行数据挖掘4 4 5 4 与s s a s 的数据挖掘工具平台的比较4 5 5 5与w e k a 开源数据挖掘平台的比较4 7 第6 章总结与展望4 9 6 1 总结。4 9 6 2进一步的工作。5 0 附录l 基于d m x 语言的数据挖掘算法包原型系统的主要实现代码5 l 附录2 作者攻读硕士学位期间发表的论文5 9 参考文献6 0 致谢。6 3 基于d m x 语言的数据挖掘算法包原型系统的设计与实现 第1 章绪论 1 1 论文研究背景和选题意义 1 1 1 数据挖掘的商业化需求 随着信息科学技术的高速发展,传统文件系统的劣势和缺陷在不断的显现出 来,传统的文件系统对数据的安全性以及保密性也难以采取有效的措施。就在这 种背景与压力下,数据库系统应运而生了,数据库系统的主要特征是统一管理数 据和共享数据。美国通用电气公司在1 9 6 4 年成功开发了世界上第一个真正的数 据库系统,该公司把其命名为i n t e 辨舰dd a t as t o r e ,也即i d s 。该数据库系统已 经得到了广泛的发展和应用,并由此奠定了网状型数据库系统的基础,甚至已经 成为数据库系统发展史上的一座里程碑【l 】。 随着最终用户对数据的理解和需求的不断深化改变,最终用户越来越关心如 何才能更快更全面更方便地查询到自己所需要的并且易于理解的信息,这就要求 数据库系统能够在设计上严格从数据查询的角度入手,但传统的紧缩而分割的数 据库系统显然是难以满足这种高层次的查询需求的。因此,最终用户希望系统的 设计者能够在业务型数据库的基础之上为自身再建立一层以高级查询为目的地 专用数据库,这就是我们现在所知的数据仓库【2 】【3 】,现在符合商业标准的通过e t l ( e x 仃a c t i o n t r a n s f o 肿a t i o n l 0 a d i n g ) 过程而建立的数据仓库不仅仅支持标准 o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) ,也即对海量数据以多维模型进行组织以 便可以多角度多层次地分析和发现模式和趋势,同时,数据仓库还能支持各种各 样的前端工具,其中就包括文中所关心的及其重要的数据挖掘工具。 早在2 0 世纪的8 0 年代后期数据挖掘技术就已经出现,而到了9 0 年代,数 据挖掘技术以及平台又有了突飞猛进的发展,到目前为止各类对数据挖掘技术与 平台的研究和应用可谓层出不穷。与此同时,底层数据存储技术也在迅猛地发展, 尤其是在计算机集成系统中硬件成本的不断下降但硬件性能却不断提升的事实, 使得企业原始数据的积累量迅速膨胀。而针对这些日益难以处理但又不能轻易抛 弃的庞大的数据资源,用户非常迫切地需要一种强有力的系统或工具来挖掘这些 数据中有价值的信息甚至是知识,从而解决当前普遍存在的数据丰富但是知识却 相当匮乏的尴尬现状。因此,数据挖掘技术,即用平凡的方法在海量的数据中查 询发现有价值的知识的技术,俨然会成为信息科学技术自然发展与演化的必然结 果【4 】【5 1 。也正是这种需求现状以及应用背景导致了数据挖掘技术在工业界正渐渐 基于d m x 语言的数据挖掘算法包原型系统的设计与实现 地走向标准化和产品化并不断完善自身的功能与性能。在数据挖掘技术研究不断 深入的同时,技术人员也在逐渐把较为成熟的产品,例如数据挖掘算法,加入到 一些具有开放体系的软件系统中去,从而提供了某种工具和方式从过去积累的海 量的原始数据和商业数据中挖掘出有意义和价值的信息与价值。传统的商业数据 库系统融合了现阶段高速发展的数据挖掘技术,使得原来令人望而生畏的数据挖 掘过程不再仅限于只有专业的数据分析师才能驾驭,也即把专业性极强的数据挖 掘过程从一种少数人才能使用的高端功能下降为普通用户也能使用的低端功能。 总的来说,高速发展的数据挖掘技术及其平台软件为各种层次的用户在不同系统 平台上统一地挖掘和发现海量数据中蕴含的知识信息提供了正确而有效的途径。 特别是在商业领域,商业智能中就包括数据挖掘的概念,数据挖掘技术的飞速发 展也为提升企业综合竞争力做出了相当大的决策战略上的贡献。 但是任一种事物的发展都要辩证的去看待,对于大量的中小型企业来讲,这 种数据挖掘技术和平台非对称的高速发展是利弊共存的。当前很多商用的大型的 数据挖掘平台和软件都是面向大型企业客户的商用软件,他们价格高昂、平台要 求相对严格、融合度开放性却相对较差,例如t e r a d a t a 公司的w l r e h o u s em i n e r 、 s a s 公司的e n t e r p r i s em i n e r 等。这些大型商用软件所共有的先天缺陷造成了中 小型企业对数据挖掘的需求无法得到充分的满足。目前而言,可行性较高的方案 是中小企业可以通过寻求价格低廉甚至开源免费、平台独立、结构开放的数据挖 掘软件来部署或者二次开发自己的企业内部数据挖掘工具平台,从而来满足企业 自身的发展需要。 1 1 2数据挖掘研究方向的演变 随着数据挖掘概念与技术及其平台在学术界、工业界甚至商用领域的影响越 来越大及越来越深刻,数据挖掘领域各种课题的研究也正在向着更加深入和更加 实际的技术方向发展,近年来数据挖掘领域的研究方向比较多,概括起来主要有 以下几种。 ( 1 ) 数据挖掘语言的形式化描述【6 】。 改课题研究希望通过某种形式化的语言来规范和约束数据挖掘行为,其中主 要以类s q l 数据挖掘语言的研究为主,即研究专门用于知识发现的数据挖掘语 言是否可以像s q l 语言一样走向形式化和标准化。 ( 2 ) 寻求数据挖掘过程中的可视化方法【7 1 。 基于d m 语言的数据挖掘算法包原型系统的设计与实现 该课题研究希望使数据挖掘的整个过程能够被用户方便的理解,也即便于在 数据挖掘的过程中进行可视化的人机交互。 ( 3 ) 网络环境下的数据挖掘技术( w 曲m i n i n g ) 【8 】【9 】。 该课题研究希望能够在因特网上建立d m k d ( d a t am i n i n g 锄dk m o w l e d g e d i s c o v e 珂) 服务器,并且与数据库服务器配合,实现网络环境下的数据挖掘。 ( 4 ) 各种非结构化数据挖掘( d a t am i n i n gf o ra u d i o & v i d e o ) 【1 0 j 。 该课题研究希望对文本数据、图形数据、视频图像数据、声音数据乃至综合 多媒体数据加强挖掘能力,希望在正确性和性能上得到突破。 当然,当下对数据挖掘技术的研究绝对不仅限于此,近年来国内外对数据挖 掘技术的热点研究课题还包括了交互式发现、知识的维护更新、网站的数据挖掘 ( w 曲s i t cd a t am i n i n g ) 、生物信息或基因( b i o i n f oh r :i a t i c s g e n o m i c s ) 的数据挖 掘及其文本的数据挖掘( t e x t i j a lm i n i n g ) 等【l l 】【1 2 】。这些纷繁而又复杂的数据挖 掘研究课题既是相互穿插又是相互包含的,他们相互促进也同时相互制约着彼此 的发展,形成了整个数据挖掘领域蓬勃发展的总趋势。 文中所关心的是已成为数据挖掘技术最重要发展趋势之一的数据挖掘语言 及其规范的研究,以及在此基础上开放式、平台独立的数据挖掘技术与平台的研 究。关系数据库已经主宰数据库市场几十年了,广泛认为关系型查询语言对于关 系数据库成功起了重要的作用。同样的,针对一个通用的数据挖掘语言的研究与 应用将有助于数据挖掘系统平台的标准化开发与应用,从而有利于灵活和有效的 知识发现。 1 2 论文的研究目标和工作内容 文中着眼于国内中小企业对数据挖掘系统平台的迫切需求之上,考虑到国内 中小企业本身并不具备对大型商用数据挖掘产品的强大购买力,以及对本身大量 存积的业务数据进行分析决策的需求,以通用的软件设计方法开发一种开源低成 本的结构与平台独立面向中小规模数据量的基于d m x ( d a t am i n i n ge x t e n s i o n ) 【1 3 】语言的数据挖掘算法包原型系统,并以此为基础实现了中小型企业最为关心 的几种数据挖掘算法以供调用。其中,该基于d 凇语言的数据挖掘算法包原型 系统具有良好的接口设计,以便企业开发人员在后期可以二次开发优化企业内部 的数据挖掘平台,这是文中研究内容的重点所在。 具体地,文中借鉴s s a s ( s q ls e r v e r a n a l y s i ss e n ,i c e s ) 【1 4 】【1 5 】【1 6 j 中基于o l e 3 基于d m x 语言的数据挖掘算法包原型系统的设计与实现 d bf o rd a t am i n i n g 规范【1 刀【1 8 】的数据挖掘平台的部分设计框架( 主要集中在数据 层数据挖掘模型建模设计) ,提出了改进该数据挖掘平台的开放性和易扩展性等 功效的开源平台下的设计与实现方案,以期将该基于d 懈语言的数据挖掘算法 包原型系统能够更好地应用于目前中小企业所关注的具体的数据挖掘算法中。文 中的工作内容包括以下几点: ( 1 ) 数据挖掘语言与规范的标准化探讨。 对数据挖掘语言的产生与发展及其分类做详细的探讨,阐述数据挖掘语言发 展的趋势和对数据挖掘理论技术以及信息技术的影响,同时指出各种不同的数据 挖掘语言的优劣,并适时地引出微软针对数据挖掘语言提出的o l ed bf o rd a t a m i n i n g 规范和d m x 语言,同时也对该规范和语言的发展过程和在工业界的地位 作了详细的阐述。 ( 2 ) 为实现该基于d m x 语言的数据挖掘算法包原型系统进行技术选择与定型。 针对文中所要实现的基于d m x 语言的数据挖掘算法包原型系统的特点和结 构,分析并选择最适合本系统的技术路线来设计和实现之,以达到使得该系统能 够支持后期二次开发和模块插件化的初衷。 ( 3 ) 基于d m x 语言的数据挖掘算法包原型系统的设计与实现。 分层次分模块设计该基于d m x 语言的数据挖掘算法包原型系统,并适当地 使用框架技术使得该系统最大限度的解耦各个模块,从而支持后期二次开发和模 块插件化。此工作内容为重点。 ( 4 ) 以数据挖掘算法应用于原型系统并与常用数据挖掘平台和工具分析与比较。 着眼于国内中小企业的数据挖掘需求,实现国内中小企业最为关心的数据挖 掘算法之一关联规则挖掘算法以供企业分析用户直接调用并以实践验证评 估该基于d 凇语言的数据挖掘算法包原型系统的良好扩展性。同时,与s s a s 中数据挖掘平台和w b k a 数据挖掘工具作优劣分析和比较,从而总结得出该原型 系统在扩展性、易用性等方面的优势。 1 3 论文的组织结构和论文的工作成果 文中各个章节安排如下: 第一章为绪论,主要阐述了数据挖掘语言和平台技术的研究课题的背景,同 时也指出了文中的研究目标和工作内容以及工作重点。其中最重要的是指出了数 据库、数据仓库、数据挖掘平台技术以及数据挖掘语言规范和标准的相互联系和 4 基于d m x 语言的数据挖掘算法包原型系统的设计与实现 演变历程。 第二章主要阐述了相关的理论知识,其中包括数据挖掘的理论基础和平台技 术理论,同时介绍了数据挖掘语言的规范化思路。此外该章还阐述了文中设计实 现的基于d 凇语言的数据挖掘算法包原型系统相关的软件设计方法和框架技 术。其中最重要的是数据挖掘语言标准是如何产生、演化并走上规范化的道路的, 并列举分析其中最为重要的微软对于数据挖掘语言所做的贡献,即o l ed b 矗w d a t am i i l i n g 规范和d m x 语言。此外,软件设计方法和框架技术的探讨阐述了 该基于d m x 语言的数据挖掘算法包原型系统之所以具有模块插件化和二次开发 能力的原因。 第三章展开讨论该基于d m x 语言的数据挖掘算法包原型系统的设计过程, 其中包括系统总体框架设计、视图层组件的设计、各个业务层功能组件的设计以 及数据层数据挖掘建模方案的设计。其中最主要的是对各个业务层功能组件的设 计,功能组件模块最大程度上的插件化并且支持后期二次开发则是该原型系统最, 大的特点。 第四章阐述数据挖掘算法包原型系统的案例实现。该章首先介绍文中针对该 基于d m x 语言的数据挖掘算法包原型系统的结构和特点所选取的开发环境、实:i 现技术以及开发语言。然后对视图层组件、各个业务层功能组件以及数据层数据 挖掘建模方案的实现进行了详细的阐述,其中,对该原型系统的扩展性的实现是 本章最重要的部分。 、 第五章有侧重地介绍了三个不同类型的数据挖掘算法的实现过程,然后介绍 了如何通过用户图形界面和d m x 语言调用这些数据挖掘算法应用于数据挖掘算 法包原型系统,并以之与微软s s a s 中的数据挖掘平台以及其他开源数据挖掘平 台作了有意义的比较。其中,该基于d 懈语言的算法包原型系统与s s a s 中数 据挖掘平台的结构上的比较是本章的重点。 第六章总结了文中所阐述的工作内容并指出了今后进一步所要作的工作。 论文的工作成果在于通过把通用的规范化的数据挖掘调用方式,即d m x 语 言,与开源的具有良好扩展性的数据挖掘工具平台有机结合,使得中小企业用户 在可以方便地以形式化语言调用数据挖掘功能的同时,又可以对企业内部数据挖 掘基础平台进行方便地重构、扩展或者二次开发。这同时也是现今数据挖掘工具、 平台和软件的总体发展趋势。 5 基于d m x 语言的数据挖掘算法包原型系统的设计与实现 第2 章相关理论基础 2 1 数据挖掘的理论、方法和技术 2 1 1 基于数据仓库的数据挖掘理论、方法和技术的发展现状 ( 1 ) 数据挖掘理论与方法 数据挖掘是在2 0 世纪8 0 年代,人工智能( a n i f i c i a li n t e l l i g e n c e ,a i ) 研究 项目经历了挫折和失败后,人工智能转入到实际的应用时而提出来的。因此,它 是一个较为新颖的,面向商业应用领域的人工智能研究。知识发现( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ,k d d ) 【1 9 】【2 0 】和数据挖掘是数据库领域中及其重要的两个研 究课题。目前,知识发现和数据挖掘已经成为研究的热点和焦点。 数据挖掘是从大量数据中提取或“挖掘”知识的过程。数据挖掘是知识发现的 一个子过程或者是一个步骤。如图2 1 所示,知识发现的整个过程包括数据清理、 数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。 r 一一一。一一一。1 - - 。- 1 。一。- i : : : v i l ii : l :数据挖掘j q 知识 图2 1k d d 流程图 由此种观点可以得出,典型的一个基于知识发现的系统是由如下几个主要成 6 基于d m x 语言的数据挖掘算法包原型系统的设计与实现 分构成的: ( 1 ) 数据库、数据仓库或其他信息库:指可以在其之上进行数据清理以及集 成的一组数据库、数据仓库、电子表格或其他的信息库。 ( 2 ) 数据库或数据仓库服务器:指能够根据用户的请求提取相关数据的一组 子系统。 ( 3 ) 知识库:指包括了领域知识、用于指导搜索或评估结果模式的兴趣度的 子系统。 ( 4 ) 数据挖掘引擎:指主要进行特征化、关联、分类、聚类等分析的子系统。 ( 5 ) 模式评估模块:指可以与各个模块交互,以便将分析聚焦于有趣的模式 上的子系统。 ( 6 ) 图形用户界面:指可以在用户和系统之间进行通信,允许用户与系统交 互,指定数据挖掘查询或任务,并能够以可视化的方式浏览数据库和数据仓库模 式及数据结构的子系统【2 1 1 。 另一方面,从数据仓库的观点看,数据挖掘其实可以看作o l a p 分析的更 高级的阶段。通过结合一些更高级的数据理解技术,数据挖掘比数据仓库的 o l a p 分析处理要更深入更适宜决策性的要求。 数据挖掘涉及到众多的学科知识,比如说软件体系结构、数据库技术、数理 统计学、高性能计算、机器学习、模式识别、神经网络、数据可视化、信息检索、 数字图像处理及空间数据分析等。文中着眼于软件结构与数据库技术,而不涉及 其他学科技术。即使用数据库作为数据源,不考虑底层算法性能以及空间利用等 情况,并弱化数据可视化等要求。 ( 2 ) 数据挖掘技术的发展 数据挖掘能够从随机的、不完全的、模糊的、大量的、有噪声的实际大量甚 至海量的原始应用数据中挖掘隐藏与其中的、但是人们事先不知道的、却又是潜 在的有价值的信息和知识的过程。随着商业级数据库规模的不断飞速的增长,使 得数据仓库的广泛应用以及数据挖掘算法的研究也在不断的深入,数据挖掘已经 逐步成为一种成熟、稳定的技术。过去几年中,人们在这一领域取得了重大的进 步,发现了许多新的数据挖掘技术,并实现了一些先进的数据挖掘系统。目前, 业界比较有影响的典型数据挖掘系统有:t e r a d a t a 公司的w a r e h o u s em i n e r 、s a s 公司的e n t e r p r i sm i n e r 、i b m 公司的i n t e l l i g e n tm i n e r 、o r a c l e 公司的d a t am i n e r 等】【2 3 】【2 4 】。但与国外相比,我国国内对数据挖掘与知识发现领域的课题研究要 7 基于d m 语言的数据挖掘算法包原型系统的设计与实现 晚一些。近几年来,国内的许多科研单位、高等院校和公司企业都陆续开展了数 据挖掘与知识发现的基础理论及其应用研究。其中不但包括对数据挖掘算法的优 化和改造,还包括对非结构化数据挖掘的探讨以及w 曲数据挖掘的研究等。 2 1 2 数据挖掘语言的产生与发展 数据挖掘语言及规范化研究目前为止已经经历了两个相对独立的阶段。第一 个阶段是研究机构和公司自行研究和开发的阶段,该阶段的成果包括韩家炜等人 研制的d m q l ( d a t am i n i n gq u e 巧l a n g u a g e ) 【2 5 1 ;i m i e l i n s k i 和肌a n i 提出的 m s q l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 班级工作管理经验介绍
- 油墨基础知识
- 无锡学院《企业内部控制》2023-2024学年第二学期期末试卷
- 郑州汽车工程职业学院《数据分析与应用》2023-2024学年第一学期期末试卷
- 重庆旅游职业学院《情绪行为异常儿童教育》2023-2024学年第二学期期末试卷
- 武汉音乐学院《舞蹈创编(一)》2023-2024学年第二学期期末试卷
- 中央民族大学《高级德语II》2023-2024学年第一学期期末试卷
- 南京工业职业技术大学《刑法与刑事诉讼理论与实务》2023-2024学年第二学期期末试卷
- 中国美术学院《基础笔译》2023-2024学年第二学期期末试卷
- 《交通工具图标识别》课件
- 2022《煤矿安全规程》
- 精选常熟市化工企业名单
- 超详细大鼠的解剖图谱
- GB/T 17048-2017架空绞线用硬铝线
- 物资需求预测方法
- 体育通识题试题附答案
- 尾矿库巡坝工岗位安全操作规程
- 仪表-ind560技术说明书METTLERTOLEDO未经书面许可不得翻印、修改或引用
- 《城乡规划法》课件
- 《新能源汽车故障诊断和维修研究(论文)8200字》
- 八大浪费管理培训教材课件
评论
0/150
提交评论