(计算机应用技术专业论文)支持向量机在sap+bi中的应用研究.pdf_第1页
(计算机应用技术专业论文)支持向量机在sap+bi中的应用研究.pdf_第2页
(计算机应用技术专业论文)支持向量机在sap+bi中的应用研究.pdf_第3页
(计算机应用技术专业论文)支持向量机在sap+bi中的应用研究.pdf_第4页
(计算机应用技术专业论文)支持向量机在sap+bi中的应用研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)支持向量机在sap+bi中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

支持向量机在s a pb i 中的应用研究 计算机应用技术 研究生谭卫星指导教师彭宏 在如今这个知识经济虼年代里商业竞争曰趋激烈,越来越多企业的生存与 发展都取决与商务决策的正确性和及时性。只有对变幻莫测的商业市场做快速 正确的反应,企业才能具有竞争优势并保持可持续发展。丽日益扩展的生产服 务范围与日益膨胀的数据信怠使企业决策者对商务环境的理解变得更加困难, 企业必须不断地创新。以规模取胜转变到以速度取胜。这蝗都要求管理者能够 迅速做出正确酶决策。错误的决策会导致企监在采购、生产、销售和服务等方 面的失误。某一环节的判断失误将产生连锁反应,造成企业重大的损失。商务 智能系统正是由此应运两生。它是帮助企业提高决策能力和运营能力的概念、 方法、过程以及软件的集合,其主要目标是将企业所掌握的信息转换成竞争优 势,提高企业决策能力、决策效率、决策准确性。商务智能给领导者的决策提 供了精确的数字依据,以提升组织的经营效率、知识价值与竞争优势。为企业 提供各种决策信息以及商业问题的解决方案。从而减轻了管理者从事低层次信 息处理鞠分析的负担,使得健们专注于最需要决策智慧和经验的工作。因此提 高了决策的质量和效率。随着信息管理系统近几年在中国的发展,尤其很多企 韭由于经过几年e r p 系统的运行。企业拥有了大量的经营及客户数据。为了进 一步获得市场的竞争优势,必须把这些尘封在各个数据库中的各种结构的数据 充分刹用起来,为决策提供依据。 商务智能是指运用数据仓库,联机分析和数据挖掘技术来处理和分析商业 数据的技术。网前对于商业智能的应用仅停留在数据集成及前端展现上,随着 信息科学技术的发展,将一些新的数据挖掘方法应用到商务智能平台中已经威 为一种趋势。 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是数据挖握中的一项新投 术,是借助于最优化方法解决机器学习问题的新工具。它较完美的结合了最优 化、判别分析、聚类、回归、分布估计等,能非常成功地处理回归问题和分类 等问题。 因此本文将支持向量机集成到了s a pb i 中,并分别应用了其分类机和回归 机对实际问题进行了解决。 关键词:数据挖掘,数据仓库,商务职能,支持向量机,s a pb i 。 t h e a p p l i c a t i o no fs u p p o r tv e c t o rm a c h i n e i ns a pb i c o m p e e rs o f t w a r e & t h e o r y m d c a n d i d a t e :w e i x i n gt a ns u p e r v i s o r :h o n gp e n g i nt h i si n f o r m a t i o ne c o n o m yt i m e ,c o m m e r c ec o m p e t ei sb e c o m i n gs e v e r i t y , m o r ea n dm o r ec o r p o r a t i o n se x i ta n dd e v e l o p m e n ti sd e c i d e db ya c c u r a t ea n d t i m e l y b u s i n e s sd e c i s i o n e n t e r p r i s ec a nk e e pd e v e l o pa n dp r e d o m i n a n c eo n l yi ff a s ta n d a c c u r a t e l yr e a c t i o n t h ea m p l i a t i v ep r o d u c t i o ns e r v i c ee x t e n s i o na n db u l g yd a t a m a k ed e c i s i o nm o r ed i f f i c u l t y , s oe n t e r p r i s em u s ta m p l i a t i v ef r o ms c o p et o s p e e d l e a d e rm u s tq m c e ya n d a c c u r a t e l yd e c i s i o n i n c o r r e c td e c i s i o nm a k es t o c k , p r o d u c t i o n ,s a l ea n ds e r v i c em i s p l a y o n et a c h ei n c o r r e c td e c i s i o nb r i n gc a t e n a t i o n r e a c t i o na n dc o m ei n t ob e i n gf a t a ld a m n i f y s ob u s i n e s si n t e l l i g e n c ec o m ei n t ob e i n g , i ti st h ea g g r e g a t et h a th e l pe n t e r p r i s et oi m p r o v ed e c i s i o nc a p a b i l i t ya n dm a n a g e c a p a b i l i t yc o n c e p t ,m e t h o d ,p r o c e s sa n ds o f t w a r e i m p r o v i n gd e c i s i o nc a p a b i l i t y , d e c i s i o ne f f i c i e n c ya n dd e c i s i o nv e r a c i t y , c o n v e r td a t ai n t oi n f o r m a t i o ni si t so b i e c t b u s i n e s si n t e l l i g e n c ep r o v i d ea c c u r a t en u m e r a lg i s tt o l e a d e r , i no r d e rt oi m p r o v e o r g a n i cm a n a g ee f f i c i e n c y , k n o w l e d g ev a l u ea n dc o m p e t es u p e r i o r i t y i tc a r lp r o v i d e d e c i s i o ni n f o r m a t i o na n ds o l u t i o no f r e s o l v i n gb u s i n e s sp r o b l e m ,t h e r e b yl i g h t e n i n g b u r d e nf o rm a n a g e rt od e a lw i t ha n da n a l y s i sl o w e ri n f o r m a t i o n ,c a t h e x i sd e c i s i o n a n dw i s d o m ,s oi m p r o v ed e c i s i o nq u a l i t ya n d e f f i c i e n c y d u et oi n f o r m a t i o n m a n a g e rs y s t e md e v e l o pi nc h i n af e wy e a r s ,e s p e c i a l l ye r ps u c c e s s f u la p p l i c a t i o n e n t e r p r i s ea c c u m u l a t eal o to fm a n a g e ra n dc l i e n td a t a i no r d e rt og a i nc o m p e t e s u p e r i o r i t y , w em u s ts u f f i c i e n td e a lw i t ht h o s ed a t a t op r o v i d eg i s tf o rd e c i s i o n b u s i n e s si n t e l l i g e n c ei st oh a n d l ed a t aw a r e h o u s e ,o l a pa n dd a t am i n i n gt o a n a l y z eb u s i n e s sd a t a f o rb u s i n e s s i n t e l l i g e n c ea p p l i c a t i o n i sr e s to nd a t a i n t e g r a t i o na n df r o n te x h i b i t d u et oi n f o r m a t i o na n ds c i e n c et e c h n i q u ed e v e l o p m e n t , i ti sak i n do fc u r r e n tt h a t i n t e g r a t et h en e wd a t am i n i n gm e t h o di n t ob u s i n e s s i n t e l l i g e n c ew o r k b e n c h s u p p o r tv e c t o rm a c h i n ei san e wt e c h n o l o g yo fd a t am i n i n g ,i ti sa l s ot h en e w t o o lw i t hr e c u r r i n gt oo p t i m a lm e t h o dt or e s o l v ep r o b l e mo fm a c h i n el e a r n i n g i t i n t e g r a t eo p t i m i z a t i o n , d i s t i n g u i s h ,c l u s t e r i n g ,r e g r e s s i o na n de s t i m a t e i t c a n s u c c e s s f u lt od e a lw i t hr e g r e s s i v ea n dc l a s s i f i e dp r o b l e m 。 s oi nt h i sp a p e r , w ei n t e g r a t es v mi n t os a pb ia n dt os o l v ea p p l i e dq u e s t i o nb y ;v ra n ds v c k e yw o r d s :d a t am i n i n g ,d a t aw a r e h o u s e ,b u s i n e s si n t e l l i g e n c e , s u p p o r tv e c t o rm a c h i n e ,s a pb i 西华大学硕士学位论文 声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得 的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果,也不包含为获得西华大学或其他教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示谢意。 本学位论文成果是本人在西华大学读书期间在导师指导下取得的,论文成 果归西华大学所有,特此声明。 僦名:霉星螂撕拥 导师签名: 加孑年f 月7 日 西华大学硕士学位论文 第一章绪论 1 1 论文选题背景 在激烈的市场竞争中,信息对于企业的生存和发展起着至关重要的作用。 表达信息的数据随着时间和业务的发展不断膨胀。如何利用好企业中海量的数 据,成为信息技术发展到一定阶段时,企业信息化建设的一个新问题。 随着信息技术在企业中的广泛应用,极大的方便了信息的传递和存储,大 幅降低了企业获取决策信息的成本。这些长期积累的数据是资源,是财富,更 是一种急待我们去消化的知识。企业信息化发展到一定程度,在应用如e r p 过程中,大量不同数据产生并积累形成大量的报表信息,不同应用所形成的信 息更容易形成信息孤岛。如何才能充分应用不同业务部门的详细数据进行综合 分析,以往企业都是耗费大量的人力资源去做这些工作。在商务智能的帮助下, 企业决策者就可以从质量,收入、产量、营销等基本面上,通过在线分析处理、 数据挖掘等技术,对企业经营过程进行跟踪,及时服务于管理层决策的目的。 同时,中国企业在长期的实践中【1 】,营销模式一直以粗放式营销为主,盲目 的不科学的对产品进行定价,大规模的无针对性的投放广告,造成企业花费了巨 大的营销开支却收效甚微。而通过数据挖掘分类技术,建立企业目标客户挖掘 模型更能帮助企业识别潜在的目标客户群,并提高市场营销活动的响应率。通 过从营销数据仓库中随机抽取一定数量的客户记录作为构造分类器的训练样 本数据集,客户记录若干条属性,组成一个特征向量,每条记录还有一个特定 的类标号与之对应,经过合适的分类算法生成分类规则,最后运用分类规则对 新的客户数据进行分类和预测,从而挖掘出企业的目标客户。通过数据挖掘的 回归技术,确定对商品住宅价格影响因素,建立各因素对商品住宅价格影响机 制的定量分析模型。从而能更客观地对商品住宅价格进行有效的分析和预测。 1 2 国内外研究现状 商务智能( b u s i n e s si n t e l l i g e n c e ,简称b i ) 的概念【2 】最早是g a r t n e rg r o u p 的h o w a r dd r e s n e r 于1 9 9 6 年提出来的,我国学者将之翻译为”商业智能”或” 商务智能”,本文选用”商务智能”作为b u s i n e s si n t e l l i g e n c e 的中文翻译。近年 来,商务智能技术日趋成熟,越来越多的企业决策者意识到需要商务智能来保 西华大学硕士学位论文 持和提升企业竞争力。在美国,5 0 0 强企业里面已经有9 0 以上的企业利用企 业管理和商务智能软件帮助管理者做出决策。国外己经有很多成功实施商务智 能的案例。我国的商务智能处于导入期,商务智能应用的程度和实际效果都与 国外企业有很大差距。近年来,国内外商务智能供应商和高等院校都开展了广 泛的商务智能的基础研究和应用研究。本人通过对国家图书馆的多库目录检索 系统、清华同方全文数据库检索系统等,对国内商务智能的研究现状进行了分 析和总结。 1 2 1 文献统计 1 2 1 1 论著统计分析 为了对近年来国内商务智能论著情况有一个比较全面的了解,本人分别以 ”商务智能”和”商业智能”( 它们指的都是b u s i n e s si n t e l l i g e n c e ,b i ) 为检索题, 通过对国家图书馆的多库目录检索系统进行题名检索,得到近年来相关论著及 博硕论文分布情况:国内商务智能专著只有2 0 0 4 年的两本,译著在2 0 0 4 年 2 0 0 7 年间有三本。相对于最早1 9 9 5 年出版、截止2 0 0 7 年已经出版2 3 本的 西文专著( 含一本日文专著) 要少得多。国外2 0 0 3 年2 0 0 7 年间出版的商务 智能专著数量极多,说明经过一段时间的发展,国外商务智能的基础研究和应 用研究都比较热。而我国从2 0 0 2 年起仅有少量的博士论文,关于商务智能的 专著也屈指可数,我国商务智能仅处于导入期,对商务智能的系统研究还有大 量工作要做。 1 2 1 2 论文统计分析 笔者利用清华同方中国期刊全文数据库检索系统( w 曲) ,分别以“商业 智能“、“商务智能“为检索题进行篇名检索,通过内容分析,除去内容重复 的和明显不符合我们主题的文章,得到2 2 1 篇文章( 论文、简讯等) ,从检索 结果来看,1 9 9 8 年的两篇简讯可以说是国内较早关于商务智能的文章。中国 学术期刊全文数据库在1 9 9 8 年2 0 0 7 年期间,收录了有关“商务智能“和“商 业智能“的论文一共2 0 0 篇,文章数量年代分布呈现前几年缓慢增长,近几年 明显递增的特征。因此可以将国内商务智能发展规划为两个阶段: 初始阶段( 1 9 9 8 年2 0 0 3 年) :这个阶段国内商务智能初露端倪,这段 时期的文章多是关于商务智能软件和国外商务智能研究的简单介绍和综述。 西华大学硕士学位论文 明显增长阶段( 2 0 0 4 年2 0 0 7 年) :这阶段论文有显著增长。不少论文 讨论商务智能在各行业和各领域的应用,但是关于商务智能的较高水平和较深 层次的学术研究论文还极少。 总的来说,我国关于商务智能基础研究的论文数量极少,部分论文的质量 不高,只是肤浅的介绍式论述,论文内容不新颖,重复性较高,算得上是严格 意义上的学术论文数量更是屈指可数,尤其缺乏高质量的、深入的关于功能、 体系结构、方法等方面的论文,而应用方面只是应用了商务职能的报表功能。 1 2 2 国内商务智能应用研究 商务智能的应用领域非常广泛,典型的有电信、银行、保险、医疗、零售、 政府等,以及所有建立了数据仓库的用户。从商务智能应用的实施企业及论文 内容来看,我国的商务智能应用还处于起步阶段,仅在信息化程度偏高的电信、 银行、保险、医疗等有少量应用。 1 2 3 商务智能的研究热点 从商务智能的研究成果分析来看,当前商务智能的研究热点主要有: ( 1 ) 集成的商务智能体系研究; ( 2 )新数据挖掘方法在商务智能中的应用研究( 本论文重点) ; ( 3 ) 商务智能网络的研究; ( 4 ) 决策支持工具的研究; ( 5 ) 企业建模方法研究; ( 6 ) 信息的收集与获取研究。 1 2 4 商务智能的发展趋势 通过对已检索文章分析,商务智能将呈以下发展趋势: ( 1 ) 应用领域的探索和扩张; ( 2 ) 应用行业将更广泛,制造业、零售业将是商务智能应用的热点; ( 3 ) 与领域、行业知识的结合; ( 4 ) 实时商务智能系统的研究和应用; ( 5 ) 不同领域的理论、技术的融合; ( 6 ) 商务智能系统可视化、交互性; ( 7 ) 从单独的商业智能向嵌入式商业智能发展: 西华大学硕士学位论文 ( 8 ) 新的数据挖掘方法在商务智能中的应用。 1 3 本论文主要研究内容及组织结构 一、本论文的主要工作: 1 ) 查阅相关资料,了解国内外商务智能研究现状和发展趋势,深入研究 了数据挖掘新方法一支持向量分类机和支持向量回归机解决问题的方法,并将 其应用到了商务智能中。 2 ) 深入研究了s a pb i 工作平台,以及s a pb i 提供的方案中的数据挖掘 方法及提供的第三方接口。 3 ) 深入研究了支持向量机核函数的选择原则和核函数的性能评价策略。 4 ) 结合实例,在s a pb i 工作平台上利用第三方数据挖掘方法一支持向量 分类机,对轿车精细化营销方案的实施。 5 ) 结合实例,在s a pb i 工作平台上利用第三方数据挖掘方法一支持向量 回归机,对房地产价格进行预测方案的实施。 二、本论文的组织架构: 本论文主要研究了数据挖掘新方法一支持向量机在s a p 商务智能中的应 用,本论文共分为6 章:第一章介绍了本论文的选题背景及国内外研究现状, 第二章,详细说明了商务智能和s a p 商务智能的概念及研究范围,第三章, 详细研究了支持向量分类机,支持向量回归机,支持向量机核函数的选择原则, 支持向量机性能评价策略。第四章,结合实例说明了支持向量分类机在s a p 商务智能中的应用实现。第五章,结合实例说明了支持向量回归机在商务智能 中的应用实现,第六章,对前四章的总结。 西华大学硕士学位论文 第二章商务智能与s a pb i 概述 2 1 商务智能 商务智能是在企业进行信息化建设进入一定的发展阶段,面临如何充分利 用企业的信息资产更好地从信息化建设中获取投资回报的一种必然选择,是继 e 肿之后企业信息化建设的又一个热点问题。 2 王。王商务智能的定义 商务智能【2 】是企业利用现代技术收集、管理和分析结构化和非结构化的商 务数据和信息,创建和累计商务知识和见解,改善商务决策水平,采取有效的 商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧 和能力。商务智能又称为决策支持或知识发现,它是有数据仓库,数据挖掘, 前端展现三部分组成。 1 ) 数据仓库( 数据准备) 阶段 数据仓库阶段又分为三个步骤,数据抽取、数据转换和数据装载。数据抽 取的目的就是确定为实现挖掘目标所需要的数据,即数据源。数据转换一般可 能包括消除噪声、推导计算缺值数据、消除重复纪录、完成数据类型转换、消 减数据维数或降维等。 ,2 数据挖掘阶段 数据挖掘阶段,主要是确定挖掘的任务,如数据总结、分类、聚类、关联 规则发现或序列模式发现等。确定了挖掘的任务后,就要决定使用什么样的挖 掘算法,如决策树,神经网络,支持相量机等。+ ,一 3 ) 前端展现阶段 数据挖掘阶段发现出的模式,经过用户和机器的评价,可能存在冗余或无 关的模式,这时需要将其剔除。如果有的模式不满足用户要求,需要将整个发 现过程退回到发现阶段之前。最终结果是要面向客户,有时要对发现的模式进 行可视化,或则将结果转化为用户易懂的另一形式,这就需要前端展现工具。 2 1 2 事务处理系统与商务智能系统的区别 l ) 商务智能系统与事务处理系统的之间的差异如下表所示。 西华大学硕士学位论文 表2 - 1 事务处理系统与商务智能系统的比较 t a b l e2 :l c o m p a r et r a n s a c t i o n p r o c e s s i n gs y s t e mw i t h b u s i n e s si n t e l l i g e n c e 事务处理系统 裔务智熊系统 流程自动化决策支持 设计目标为效率 设计目标为效果 对商务设定结构适应商务变化 对事件作出反应该测事件 创造最优化的交易环境 创造最优化的查询秘分析环境 事务处理系统把结构强加于商务之上,不管谁来进行一项交易活动,都会 遵循磊样的程序和规则,而且一旦一个事务处理系统设计出来,轻易不会改变。 而商务智能则能适应商务,因为它是一个学习型系统,能不断适应商务不断变 化的需求。在商务智能系统中,变化越多越好。如果商务智能不能变化以解决 新的问题,就不能满足商务的需求。从技术的角度讲,商务智能系统中变化的 是数据、数据挖掘模型、元数据、报告。商务智能的真正挑战在于设计和管理 好个数据挖掘模型。 2 1 3 商务智能系统对数据的处理 商务智能系统对数据处理有独特的一套完整的解决方案,它是将数据仓 库( d w ) 、在线分析处理( 0 l a p ) 和数据挖掘( d m ) 等结合起来应用到商业 活动中,从不同的数据源收集数据,经过抽取( e x t r a c t ) ,转换( t r a n s f o r m ) 和加载( l o a d ) ,送入到数据仓库或数据集市,然后使用合适的查询和分析工 具、数据挖掘工具和在线分析处理工具对信息进行处理,将信息转变成为辅助 决策的知识,最后将知识呈现于用户面前,以实现技术服务于决策的鹭的。商 务智能的支持技术主要包括e t l ( 数据抽取,转换与加载) 技术和数据仓库与数 据集市技术、o l a p 技术、数据挖掘技术与数据的发布与表示技术。 2 2 数据仓库与数据集市 2 2 i 数据仓库 数据仓库( d a t aw a r e h o u s e ) 是指从多个数据源收集酶信息,以一种一致 的存取方式保存所得到的数据集合。在构造数据仓库时,要经过数据的清洗、 西华大学硕士学位论文 数据的抽取转换、数据的集成和数据加载等过程。面向不同的需求,对数据进 行清洗以保证数据的正确性,然后对数据进行抽取,转换成数据仓库所需形式, 并实现加载到数据仓库。数据仓库是一种语义上一致的数据存储,充当决策支 持数据模型的物理实现,并存放企业战略决策所需信息。 2 2 2 数据集市 数据集市( d a t a m a r t ) 是聚焦在选定的主题上的,是部门范围的。根据数 据的来源不同,数据集市分为独立的和依赖的两类。在独立的数据集市中,数 据来自一个或多个操作的系统或者外部信息提供者,或则来自在一个特定的部 门或地域局部产生的数据。依赖的数据集市中的数据直接来自企业数据库。 2 3 数据分析 2 3 1 在线分析处理 在线分析处理( 简称o l a p ) 又称多维分析,由e fc o d d 在1 9 9 3 年提出, 它对数据仓库中的数据进行多维分析和展现,是使分析人员、管理人员或执行 人员能从多种角度对从原始数据中转化来的、能够真正为用户所理解的,并真 实反映企监维持性的信患进行快速、一致、交互地存取,从两获得对数据很深 入了解的一类软件技术。它的核心是“维“这个概念,因此o l a p 也可以说 是多维数据分析工具的集合。进行o l a p 分析的前提是已有建好的数据仓库, 之后邸可利用o l a p 复杂的查询能力、数据对比、数据抽取和报表来进行探 测式数据分析了。 2 。4 数据挖掘 数据挖掘 3 1 ,又称为数据库中知识发现( k n o w l e d g ed i s c o v e r yf r o m d a t a b a s e ,k d d ) ,它是一个从大量数据中抽取挖掘出未知的、有价值的模式 或规律等知识的复杂过程。根据g a r t n c r 的h p c 研究表明,“随着数据捕获、 传输和存储技术的快速发展,用户将更多地需要采用新技术来挖掘市场价值, 采用更为广阔的并行处理系统来创建新的商业增长点”。数据挖掘技术将在未 来的商业领域中扮演越来越重要的角色。目前在国内外已有许多领域成功采用 了数据挖掘遮一工兵辅助决策,如市场营销、零售业、金融、医疗保险、政府 部门及科学研究等,已充分显示了这一信息技术的优越性。例如:将数据挖撅 谣华大学硕士学位论文 技术应用到轿车营销管理中,从日常经营的海量数据中挖掘出有用的经营决策 信怠,从而准确地预测市场走向,最快地满足客户的个性纯需求,必然能够取 得更好的经营效果,增强企业自身的核心竞争力。 2 4 1 数据挖掘的定义 2 4 1 1 数据挖掘的技术定义 从技术的焦度看,数据挖掘( d a t am i n i n g ) 嗣就是从大量的、不完全的、 有噪声的、模糊的、随机的实际应用中,提取隐含在其中的、人们事先不知道 的、但又是潜在的信息和知识的过程。 2 4 1 2 数据挖掘的商务定义 从商务应用焦度看,数据挖掘是一种新的商业信息处理技术。其主要特点 就是对大量的商务数据进行分析和其他模型化处理,从中提取辅助商务决策的 关键性知识,即从大量经过处理后的数据中发现相关的模式。 数据挖掘是利用统计学和机器学习等技术,探求那些符合市场、客户行为 的模式。如今可以将数据挖掇技术与数据仓库相结合,剩用s a p b i 平台,使 数据挖掘技术自动化,并以适当的形式将挖掘结果展示给企业经营管理人员。 简而言之,数据挖掘其实是一类深层次的数据分析方法。 2 霹2 数据挖掘在商务智能中的地位 在企业数据仓库中存储了大量的数据,对这些数据的分析利用仅靠入工处 理,或则仅通过报表、查询的方式来进行分析是不够的。简单的报表查询不能 发现数据中更深层次的内在规律。随着现代统计手段与计算机技术的结合,人 们创造了更多的方法对数据进行分桥。数据挖掘就是一种强大的分折方法。它 不仅能通过分析历史数据缛出新见解,还具有对来来趋势和行为的预测能力。 它能使组织能够实现从回顾性分析到前瞻性决策的关键性跨越。 2 4 4 敦据挖掘的分步实现 2 。4 。4 王数据挖掘的步骤分为如下三步 1 ) 确定业务目标 在进行数据挖掘工作前,要清楚地知道数据挖掘目标。事先明确挖掘的业 务露标,确定达到叠标的评价方法,这将大大减少挖掘工作的难度和挖掘量。 2 ) 数据准备 西华大学硕士学位论文 建立挖掘目标后,为实现这个目标选择数据。这些数据如果不是数据仓库 中的数据,数据可能存在重名、错误、格式不一致等问题。因此在数据挖掘前 要增强数据的质量,以保证给挖掘工具提供正确的数据,这对数据的挖掘结果 有重要的影响。建议使用数据仓库的e t l 工具将数据导入数据仓库后再进行 数据挖掘。 3 ) 选择挖掘工具 对数据仓库中的数据进行挖掘,根据业务目标选择适当的挖掘工具和方 法。用选择的数据挖掘工具在选定的数据集中发现知识。通常,把数据集随机 分成两部分:培训集和测试集。首先,要对数据挖掘模型进行开发,或则是对 数据模型的培训,利用培训的数据集,构造和评估模型,确定模型和各个参数。 接着,在用测试数据,去测试数据挖掘模型的质量,比较数据挖掘工具的输出 结果与真实结果的差异。 找出关键的数据属性,精确的构造出模型是这部分工作的关键。 4 ) 结果分析 利用数据挖掘模型生成分析结果,解释并评估结果。如果挖掘错误,则寻 找原因,重建数据挖掘模型。 2 4 5c r i s p d m 模型1 目前已经有很多成熟的数据挖掘方法论,为实际应用提供了理想的指导模 型。在众多方法中,值得一提的就是c r i s p - d m 。c r i s p d m ( c r o s s i n d u s t r y s t a n d a r dp r o c e s sf o rd a t am i n i n g ) 是公认的、较有影响的方法论之一。 c r i s p d m 强调,d m 不单是数据的组织或者呈现,也不仅是数据分析和统计 建模,而是一个理解业务需求、寻求解决方案到接受实践检验的完整过程。 c r i s p d m 将整个挖掘过程分为以下6 个阶段: ( 1 ) 业务理解( b u s i n e s su n d e r s t a n d i n g ) :业务理解是对现有企业应用系 统的了解。 ( 2 ) 数据理解( d a t au n d e r s t a n d i n g ) :数据理解是对现有企业应用系统的 了解; ( 3 ) 数据准备( d a t ap r e p a r a t i o n ) :数据准备就是从企业大量数据中取出 一个与要探索问题相关的样板数据子集; 西华大学硕士学位论文 ( 4 ) 挖掘建模( m o d e l i n g ) :建模是根据对业务问题的理解,在数据准备 的基础上,选择一种更为实用的挖掘模型,形成挖掘的结论; ( 5 ) 模型评估( e v a l u a t i o n ) :评估就是在实际中检验挖掘的结论; ( 6 ) 模型部署( d e p l o y m e n t ) :如果达到了预期的效果,就可将结论发布。 c r i s p d m 模型中的数据理解、数据准备、建模、评估并不是单项运作的, 而是一个多次反复、多次调整、不断修订完善的过程,如图2 1 所示。 f i g2 ic r i s p d mm o d e l 图2 1c r i s p d m 模型 2 4 6 数据挖掘方法6 1 一1 ( 1 ) 应用普遍的数据挖掘方法 1 ) 遗传算法。其基本原理是:类比生物进化过程,每一代同时存在许多 不同的种群个体( 染色体) 。这些染色体的适应性以适应性函数厂( x ) 表征,染色 体的保留与淘汰取决于它们对环境的适应能力,优胜劣汰。适应性函数厂( x ) 的 构成与目标函数密切相关,往往是目标函数的变种。遗传算子主要有3 种:选 择( 复制) 算子、交叉( 重组) 算子和变异( 突变) 算子。遗传算法可起到产生优良后 代的作用,经过若干代遗传,将会得到满足要求的后代( 问题的解) 。 2 ) 粗集方法。其基本原理是:将数据库中的行元素看成对象,将列元素 西华大学硕士学位论文 看成属性。设r 为等价关系,定义为不同对象在某个( 或几个) 属性上取值相同。 那些满足等价关系的对象构成集合,称为该等价关系r 的等价类。设e 为条 件属性上的等价类,设y 为决策属性上的等价类,则e 和y 存在3 种情况: y 包含e 称为下近似;y 与e 的交非空,称为上近似;y 与e 的交为空,称 为无关。对下近似建立确定性规则,对上近似建立不确定规则( 含可信度) ,对 无关情况则不存在规则。 3 ) 决策树方法。决策树方法是以信息论原理为基础,利用信息论中互信 息( 信息增益) 寻找数据库中具有最大信息量的字段,建立决策树的一个结点。 然后再根据字段的不同取值建立树的分支,在每个分支集中重复建立树的下层 结点和分支。这种方法实际上是依循信息论原理对数据库中存在的大量数据进 行信息量分析,在计算数据特征的互信息或信道容量的基础上提取出反映类别 的重要特征。 4 ) 神经网络方法。其原理是:模拟人脑的神经元结构,以m p 模型和h e b b 学习规则建立起前馈式网络、反馈式网络和自组织网络3 大类多种神经网络模 型。 ( 2 ) 数据挖掘的主要任务 1 ) 分类2 ) 估值3 ) 相关性分组或特性关系规则4 ) 聚类5 ) 偏差检测 6 ) 概念描述: ( 3 ) 数据挖掘方法的分类 1 ) 直接数据挖掘2 ) 间接数据挖掘 2 5s a pb i 平台介绍 s a pb i 是s a p 提供的独立的数据仓库和商务智能解决方案,同时也是 s a pe r p 、s a pc r m 等众多系统的重要组件。这一解决方案为充分挖掘、利 用企业的信息资产,提高i t 投资回报率提供了端到端的解决方案。同时也提 供了利用此数据仓库平台集成个人开发数据挖掘模型的第三方接口。 s a p 商务智能平台提供了分析和管理数据的技术框架,同时也集成了分 析与应用数据的工具,数据挖掘就是其中之一。 2 5 1s a p 商务智能的组成 西华大学硕士学位论文 f i g2 2s a pb u s i n e s si n t e l l i g e n c ef o r m 图2 2s a p 商务智能的构成一 s a p 商务智能主要有企业数据仓库、商务智能平台和业务浏览器套件组 成,下边就结合图2 2 分别介绍。 1 2 西华大学硕士学位论文 ( 1 ) 企业数据仓库: s a pb i 的企业数据仓库将数据转化成有价值的信息,为商务智能解 决方案构建数据基础。构建企业级的数据仓库为公司的决策者提供面向嚣 标的评测的信息和知识,将公司引向成功。对来自任何源系统、任何时期 的数据,s 船商务镪能数据仓库提供了对数据进行集成、转换、合并、 清理、存储及加工等功能。 ( 2 ) 商务智能 商务智能平提供了s a pb i 的技术基础架构及基于企业数据仓库的各种 分析、挖掘技术和功能,是对企业数据仓库的应用和深化。 ( 3 ) 业务浏览器套件 业务浏览器是s a pb i 为公司战略分析和决策支持提供灵活的报表和分析 工具的组件,这些工具包括查询、报表和分析功能。 在此文中主要探讨一下,s a pb i 中提供的数据挖掘方法以及第三方数据 挖掘方法熬集成接躁 2 5 3s a p 数据挖掘工作台1 雀s a p 数据挖掘工作台中,集成了多种数据挖掘方法,可以进行挖掘模 型的创建。同时也提供了分析进程设计器对分析的完整过程进行定义。分析过 程还可以放到系统的处理链中,与数据的抽取,报表运行等其他系统操作一起, 鲁动执行。同时,在工作台中还提供了第三方数据挖掘方法的接口,用于集成 第三方数据挖掘方法( s a p 系统没有的) 。 2 。5 4s a p 商务智能现有的数据挖掘方法 。 1 ) 决策树2 ) 聚类分析3 ) 特性分析4 ) 计分分析 5 ) a b c 分析 , 西华大学硕士学位论文 数据挖粥工作台 ,建塞i 孽爹棼鼢囊镁丢谶。; 一一r 一 ”h 。h j f i g2 3d a t am i n i n gm e t h o d si ns a pb u s i n e s si n t e l l i g e n c e 图2 3s a p 商务智能现有的数考 挖掘方法 1 4 西华大学硕士学位论文 第三章支持向量机 支持向量机( s u p p o r t v e c t o r m a c h i n e ,s v m ) 是数据挖掘中的一项新技术, 是借助于最优化方法解决机器学习问题的新工具。它较完美的结合了最优化、 判别分析、聚类、回归、分布估计等,能非常成功地处理回归问题和分类等问 题。 支持向量机与其它数据挖掘方法相比具有以下特点【1 2 】: 1 ) 支持向量机是基于结构风险最小化( s g m ,s t r u c t u r a l r i s km i n i m i z a t i o n ) 原则, 保证学习机器具有良好的泛化能力。 2 ) 解决了算法复杂度与输入向量密切相关的问题。 3 ) 通过引用核函数,将输入空间中的非线性问题映射到高维特征空间中,在 高维空间中构造线性函数判别。 4 ) 支持向量机是以统计学理论为基础的,与传统统计学习理论不同,它主要 针对小样本情况,且最优解是基于有限的样本信息,而不是样本数趋于无 穷大时的最优解。 5 ) 算法可最终转化为凸优化问题,因而可保证算法的全局最优性,避免了其 它数据挖掘方法无法解决的局部最小问题。 6 ) 支持向量机有严格的理论和数学基础,避免了其它数据挖掘方法实现中的 经验成分。 3 1 支持向量分类机 支持向量分类机是从线性可分情况下最优分类超平面发展而来的,基本思 想可用两类线性可分情况说明。如图3 1 所示,正号和圆圈代表两类样本点, 并且是线性可分的。支持向量分类机学习的结果是寻找最优的超平面,不但能 将两类样本正确的分开,而且使分类间隔( m a r g i n ) 最大。分类间隔是指两类 中离分类超平面最近的样本且平行于分类超平面的两个超平面间的距离【3 2 1 。 西华大学硕士学位论文 f i g 3 c l a s sh y p e r p t a n ei nl i n e a r i t y 圈3 1 线性可分情况下分类超平面 考虑线性可分的分类闻题,设训练集为t = 瓴,y ,) ,( 聋,魏) 毒缸罗) 7 其中x ;g 茗= 冀“,y i y = - 1 ,l ,i 一1 , 2 ,;。 设超平面( w - x ) + 6 = 钆则训练集对超平面的几何间隔为赢。寻找最大 间隔的超平面问题可描述为如下原始最优化问题: 觋独删= 扣2 幽) 葶,t , y i 袋拶,砖书妨l ,i = 1 , 2 ,;, 根据w o l f e 对偶定理,原始最优化闯题等价的对偶阀题是: m i n去y ;) ,j 搿j 口( 一x ) 一搿, ( 3 2 g f = l ,= l卢l m 嘶= 0 , l 赫l 西华大学硕士学位论文 口0 ,i = 1 , 2 ,z 。 得最优解口= ? ,口:,口:) r ; , 计算w - - z y ,口0 选择口的一个正分量口; i = 1 , 并据此计算6 。= y ,一y ,口? ( 而x j ) ; 构造分划超平面( w x ) + b + = 0 ,由此求得决策函数 , 厂( x ) = s g n ( ( w z ) + 6 = o ) ,或厂( x ) = s g n ( z 口? y f ( 石f x j ) + 6 ) ( 3 - 3 ) 对于线性不可分问题,有两种方法可以处理。一种是通过引进松弛变量 占= ( s 。,占2 ,s ,) r 而放松约束;另一种是引进从输入空间r ”到h i l b e r t 空间h 的变换 xc r “一日, 矽:x 争( 工) 把训练集t = ( 五,y 。) ,o :,y 2 ) ,( 而,y ,) ) ( x x 】,) 。映射为 t = ( 矽( x 。) ,y 。) ,( ( x :) ,y :) ,( 矽( x a y ,) ) 。一般是这两种方法同时使用。 引入松弛变量s = ( g 。,占:,s ,) r 方法等价的对偶问题为: m i n 去y f y j 口f 口,( x f x ) 一口, ( 3 4 ) 口厶f=l,=l i = l f yy l 口,:0 , 一- 0 口f c ,i = 1 , 2 ,l 。 西华大学硕士学位论文 其中,c ( c 0 ) 为惩罚因子。 3 1 2 多分类l 毹题 基本s v m 只能够对两个类别进行分类,在多类别情况下需要将两类s 扩展到多类别分类器。圉前研究主要有两个方向,一是将多类问题转化为两类 问题,通过多个两类分类器的组合,实现多类分类,二是改变支持向量分类机 中原始最优化问题,使得它能同时计算出多类分类决策函数。目前应用比较多 麓方法都是基于前蔼一种思想,主要方法有鳓【1 1 】: ( 1 ) 一类对余类( o n e a g a i n s t - r e s t ) :对于每一个类别i ( o f 蔓n ) 构造一 个嚣类分类器g ,解决n 类问题时,需要n 个s v m 。i ) l l 练每个时,类别f 为的样本为正例,其余n 1 类样本为负例。 ( 2 ) 成对分类( o n e a g a i n s t o n e ) :为每两个类别训练一个两类分类器,解决 n 类润题时,需要n ( n 1 ) ,2 个s v m 。测试样本的类别国n ( n 1 ) ,2 个分 类器“投票“决定。 3 ) 层次支持向量祝( h - s v m s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论