已阅读5页,还剩82页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
d i s s e i t a t i o ns u b m i t t e dt oz h e j i a n g u n i v e r s i 锣o f 1 e c h n o l o g y f o rt h ed e g r e eo fm a s t e r r e s e a r c ho fd a t am i n i n gf o r s u p p o r t i n g c r o s s m a r k e t i n go f f i n a n c i a lp r o d u c t s c a n d i d a t e :h o n gy i a d v i s o r :h u a n gh o n g c o n e g eo fc o m p u t e r s c i e n c ea n d1 e c h n o l o g yo fz h e j i a n g u n i v e r s i 锣o ft e c h n o l o g y a p r i l2 0 1 0 浙江工业大学 学位论文原创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究 工作所取得的研究成果。除文中已经加以标注引用的内容外,本论文不包含其 他个人或集体已经发表或撰写过的研究成果,也不含为获得浙江工业大学或其 它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和 集体,均已在文中以明确方式标明。本人承担本声明的法律责任。 作者签名; 澎氢殳 日期:矽口年厂月羽 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权浙江工业大学可以将本学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 l 、保密口,在年解密后适用本授权书。 2 、不保密叼。 ( 请在以上相应方框内打“”) 作者签名: 导师签名: 膨极 梆 日期:弘d 年y 月落日 日期:扔绛f 月“日 浙江工业大学硕士学位论文 支持金融产品交叉营销的数据挖掘研究 摘要 当今,国内外金融企业为了取得更大的竞争优势,正在将市场营销理念从“产品 导向”转变为“客户导向。交叉营销可通过向客户提供一整套产品或者服务的解决 方案,达到降低营销成本、扩大销售业绩、增加企业利润、增强客户的忠诚度的目的, 因此成为近年来国内外很多学者研究的热点之一。但是,由于金融领域的数据分析具 有量大、不确定性因素多等特点,导致当前的交叉营销大多是在缺乏对客户和产品的 科学分析的情况下开展的,制定的交叉营销方案假设条件较多,没有针对性,效率比 较低,实际应用价值不高。 作者认为要进行有效的交叉营销,客户细分和产品关联分析是两个重要的环节。 通过对客户的科学分类,可以分析各种类型客户的消费特点,形成针对客户群的营销 策略,奠定交叉营销的基础;通过产品关联分析,可以明确各类产品的潜在联系,结 合客户的历史交易记录,可以形成产品组合交叉营销方案。进一步将客户聚类分析和 产品关联分析相结合,可以形成个性化的、实用高效的交叉营销方案。 本文首先介绍了数据挖掘技术的理论基础,并阐述了该技术在金融领域中的研究 和应用的现状,分析了存在的不足之处;在比较多种常用算法的基础上,选择k - m e a i l s 算法建立了客户细分模型,选择优化的关联规则a p r i o r i 算法建立了产品关联模型。 为了保障客户细分模型产生的聚类结果的稳定性、合理性以及提高算法本身的执行效 率,采用了d 趾p e l l e g 和a n d r e wm o o r c 对k _ m e a 潞算法的改进方法;接着将两个模 型有效结合,构建了一个支持交叉营销的数据挖掘模型,提出了支持金融产品交叉营 销的总体思路和技术解决方案;最后基于提出的数据挖掘模型和技术方案,设计了支 持金融企业实施交叉营销的决策支持系统原型,并进行了模拟应用。 关键词:数据挖掘,交叉营销,聚类,关联,决策支持 浙江工业大学硕士学位论文 r e s e a r c ho fd a t am i n i n gf o rs u p p o r t i n g c r o s s m a r k e t i n go ff i n a n c i a lp r o d u c t s a b s t r a c t t o d a y ,f i n 锄c i a le n t e 印r i s e sa th o m ea 1 1 da b m a da r et i y i n gt 0 咖s f o n nt l l e i rc o n c 印t o fm a d ( e 1 抽g 舶m ”p r o d u c t 耐e n t a t i o n t 0 c u s t o i i l e ro r i e n t a t i o n ”i no r d e rt oa c m e v e 班a t e rc o m p e t i t i v ea d v 锄t a g e c m s s m a r k e t i i l gc o u l dp r o v i d eas e to fs o l u t i o i l so f p r o d u c t so rs e r v i c e st 0c u s t o m e r sf o rt l l ep u 印o s et 0r e d u c em em a r k e 血gc o s t ,e x p a i l ds a l e , i i l c r e 嬲ep r o 矗t ,a i l de r l h a n c ec u s t o m e r s l o y a l t ) r w h e r e f o r e ,t l l er e s e a r c ho f c r o s s m a r k e t i n g b e c o m e so n eo f h o t s p o t sf o rm 锄ys c h o l a r sa th o n l e 趾da b r o a di nr e c e n ty e a r s h o 、耽v e r , b e c a u s e 句 1 a i l c i a ld a t ah a v et 1 1 ec h 龇a c t e r i s t i c ss u c h 弱l a 玛eq u a n t i 够,u n c e 蚵n 够,e t c ,l e c u r r e n tc r o s s m a r k e t i i l ga c t i v i t i e sa r ec 删e do u tu n d e rm el a c ko fs c i e n t i f i c 趾a l y s i so f c u s t o m e r s 锄dp r o d u c t s t h ec r o s s m a r k e t i n gs c h e m e sa r ep r o p o s e db 嬲e do nm a n y 嬲娜n p t i o i l s ,t l l u sa r eo fl e s sr e l 伽l c e ,l o we m c i e n c y ,a n dh a v el e s sp r a c t i c a lv a l u e t h ea u t h o rb e l i e v e st h a tt 0c 锄可o u te f j f i c i e mc r o s s m a r k e t i n gs h o l l l db eo nt h eb a s i s o fm e 铆oi i i l p o r t 姐t 邪p e c t sw l l i c ha r ec u s t o m e rs e g m e m a t i o n 砒l dp r o d u c t sa s s o c i a t i o n 删y s i s c u s t o m e rs e g m e n t a t i o nc 觚h e l pe n t e 印r i s e s 锄a l y z e 廿l ev 撕o l l st ) r p e so f c u s t o m e r s c o n s 啪p t i o nc h 龃a c t e r i s t i c s ,砒l df o mm 破e t i n gs n a t e 西e sf o rd i 丘e r e n t c u s 幻m e rg r o u p sa l l de s t a b l i s ht l l eb a s i sf o rc r o s s - m 砌i l l g p r o d u c t s 嬲s o c i a t i o na n a l y s i s c a nh e l pe n t e 印r i s e su n d e r s t 锄d 廿l ep o t e n t i a lr e l a t i o 蛐b e t 、j i 旧e nm ev 撕o u st y p e so f p r o d u c t s ,a n dm a k es 仃a t e 西e s t 0 i m p l e m e n tc r o s s m a r k e t i n ga c c o r d i i l g t 0c u s t o m e 耐 h i s t o r i c a lr e c o r d so fn 铷a c t i o i 塔 f i r 鸭恤et 1 1 e o r e t i c a lb a s i so f 胁m i i l m gt e c h i l o l o g yi si i l 仃o d u c e 也l es t a m so f r e s e 砌舡1 da p p l i c a t i o no ft l l ed a t am 试n gt e c h n o l o g yi nt h ef i l l a l l c i a l 锄t c 叩r i s e si s d e s 面b e d ,锄d 圮e x i s t h 培p r o b l e m sa r c 趾a l y z e d 1 1 l ek - m e a i l sc l u s t e r i n ga l g o t h mi s c h o s e nt oe g t a b l i s h 血ec u s t o m e rs e g m e n t a t i o nm o d e l ,a i l dm eo p t 捌嬲s o c i a t i o nr u l e a p r i o r ia 1 9 0 r i 廿m li sc h o s e nt oe s t a b l i s ht 1 1 ep r o d u c t 嬲s o c i a t i o nm o d e la n e rc o m p a r i n g m a i l ya l g o r i t h s d a np e l l e g 锄da n d r e wm o o r e si d e ao fi m p r 0 v i n gm ek - m e a i l s c l u s t 耐n ga j g o r i t l l mi sa d o p t e di i lo r d e rt 0i n c r e a s i n gt l l es t a b i l i t ) r 锄dt :h er a t i o i 讲i 够o ft 1 1 e i i 浙江工业大学硕士学位论文 c l u s t e f i i 培r e s u l t sf o rc u s t o m e rs e g m e n t a t i o na n dt 0i m p r o v e 廿l ee 伍c i e n c yo ft l l ea j g o r i t i l m t h e i l ,t l l ec u s t o m e r g m e n t a t i o nm o d e l 趾dm ep r o d u c t s 豁s o c i a t i o n 缸2 l l y s i sm o d e la r e c o m b i n e dt o g e 也e rt 0s u p p o nc r o s s m 砌缸i n g ,锄dat e :h n o l o g ) rs o l u t i o n 踟p p o n i n g c r o s s - m a r k e t i i l gf o r 圮f i i l a n c i a lp r o d u c t si sp u tf 0 埘枷f i n a j l y ,ad e c i s i o n m a 虹n g s u p p o r t i n gs y s t 锄b 嬲e do nu 1 ep r o p o s e ds o l u t i o ni sd e s i g n e d 锄das h i l u l a t i v e 印p l i c a t i o n p r o c e s s i sd e s c r i b e d k e yw o r d s :蛐g ,c r o s s m 酞e t i n g ,c l u s t e r i n ga n a l y s i s ,a s s o c i a t i o n 锄a l y s i s , d e c i s i o n n l a k i i l gs u p p o r t i i i 浙江工业大学硕士学位论文 目录 第l 章绪论1 1 1 研究背景及意义l 1 2 国内外研究现状2 1 3论文的研究内容和目的。4 1 4论文的组织结构5 第2 章数据挖掘技术的发展7 2 1 数据挖掘技术概述7 2 2 数据挖掘聚类算法研究1 2 2 2 1 聚类算法概念及分类1 2 2 2 2 常用聚类算法的比较14 2 3 数据挖掘关联规则研究1 8 2 3 1 关联规则的概念及分类。1 9 2 3 2 常用关联规则算法分析2 0 2 4 常用数据挖掘软件介绍2 2 第3 章数据挖掘在金融产品交叉营销中的应用方案2 4 3 2 3 3 3 4 第4 章 支持金融企业交叉营销要解决的主要问题2 4 3 1 1 客户细分2 6 3 1 2 产品关联分析。2 6 3 1 3 如何将客户细分和产品关联分析的结果用于支持交叉营销2 7 数据处理及工具:选择2 9 数据挖掘算法及选用3 1 支持金融企业交叉营销应用的技术方案3 2 金融客户细分模型的建立3 5 4 1 金融客户细分的基本流程。3 5 4 2 金融数据仓库的建立过程3 7 4 2 1 源数据处理方法。3 7 4 2 2 数据仓库的结构4 0 4 3 4 4 第5 章 聚类分析k - l 队n s 算法以及改进方法的借鉴 金融客户细分模型的确定4 9 金融产品关联模型的建立! ;:1 5 1 金融产品关联分析5 2 5 2 金融产品关联分析的基本流程5 3 i v 浙江工业人学硕士学位论文 5 3 关联规则a p 砒。砌算法及优化方法的借鉴5 4 5 4 金融产品关联模型的确定及应用方法5 7 5 4 1 金融产品关联模型的确定。5 7 5 4 2 金融产品关联模型的应用方法。5 9 第6 章支持交叉营销的数据挖掘模型的建立6 l 6 1 客户细分模型和产品关联模型分析6 l 6 2 支持交叉营销的数据挖掘模型的数据仓库结构6 l 6 3 支持交叉营销的数据挖掘模型的知识库结构6 2 6 4 支持交叉营销的数据挖掘模型的决策机制6 4 6 5 支持交叉营销的数据挖掘模型的应用流程6 4 第7 章金融产品交叉营销决策支持系统的设计。“ 7 1 模块设计6 6 7 2 数据库设计6 7 7 3 用户界面设计。6 9 7 4 系统应用模拟7 l 第8 章总结与展望。 8 1 本文总结 7 4 7 4 8 2 迸一步工作的展望7 5 参考文献。 致谢 攻读学位期间参加的科研项目和成果。 v 7 6 7 9 8 0 浙江工业人学硕士学位论文 1 1 研究背景及意义 第1 章绪论 随着市场经济的发展,企业间的竞争日趋激烈。我们知道,以前一个比较好的新 产品或者新服务,可以迅速发展起来,成就一个商业帝国,并能够持续辉煌下去。而 今天几乎已经找不到所谓的“处女市场 了,任何产品在上市之初,都能发现有成千 上万的“同道”已经在虎视眈眈【l j 。研究表明,一个企业将一种产品或服务推销给一 个老客户的成本远低于吸收一个新客户的成本,而一个客户如果购买了一个企业四个 以上的产品或服务后,其客户的流失率几乎是零。因此,今天,几乎所有的企业都在 思索如何采用先进的技术,稳定老客户,开发新客户,打破业绩的瓶颈,增强企业的 市场竞争力。 伴随着数据挖掘技术的诞生并普及,很多企业意识到数据挖掘能够从已有数据中 发现未知规律,并且为科学的商业决策提供有力的依据。在金融行业中,数据挖掘的 一些算法非常适合建立各种应用模型,比如各种聚类算法适合用于对客户进行细分, 关联规则可用于对产品进行关联分析。因此,数据挖掘得到了广泛的商业应用。 随着居民个人和家庭财富的不断增加,产品零售业务已成为金融行业的重心和主 战场。因此,金融企业对稳定老客户和挖掘新客户提出了更高的要求,迫切需要将市 场营销理念从“产品导向”迅速转变为“客户导向”1 2 】。在这种背景下,一种新兴的 营销模式交叉营销,深受企业的欢迎。交叉营销可通过向客户提供一整套产品或 者服务的解决方案,达到降低营销成本、扩大销售业绩、增加企业利润、增强客户的 忠诚度的目的。分析表明,在金融产品营销领域,交叉营销具有得天独厚的实施条件, 因为消费者在购买金融产品或服务时必须提交真实的个人资料数据,这些资料为进一 步分析顾客的需求提供了基础数据【3 】。比如,信用卡账单和保险缴费通知等与客户交 流的手段除了提供特定金融产品本身的服务外,还可以通过附加额外的信息变身为交 叉营销的有效途径之一。 交叉营销的实质是在拥有一定营销资源的情况下向自己的顾客或者合作伙伴的 顾客进行的一种营销方法。这种营销方法最大的特点是充分利用现有资源,在同一个 企业的不 使企业的 战略意义 则a p r i o r i 算法建立了产品关联模型。为了保障客户细分模型产生的聚类结果的稳定 性、合理性以及提高算法本身的执行效率,采用了d 锄p e l l e g 和加协e wm o o r e 对 k - i n e 趾s 算法的改进方法;接着将两个模型有效结合,构建了一个支持交叉营销的数 据挖掘模型,提出了支持金融产品交叉营销的总体思路和技术解决方案;最后基于提 出的数据挖掘模型和技术方案,设计了支持金融企业实施交叉营销的决策支持系统原 型,并进行了模拟应用。 1 2国内外研究现状 随着计算机、数据库、网络等技术的迅速发展,人们积累的数据越来越多,已经 被淹没在数据和信息的汪洋大海中。据不完全统计,全球每年产生的数据,比较孤立、 无用的,甚至有些成为信息垃圾。因此,人们需要有新的、更有效的方法对各种大量 的数据进行分析、提取并挖掘其潜能。数据挖掘正是在这样的应用需求环境下产生并 迅速发展起来的,它的出现为智能地把海量的数据转化为有用的信息和知识提供了新 的思路和手段,比如商业银行、证券公司、保险公司可以通过相互提供服务便利来实 现外部合作,如服务渠道的合作、信息沟通的合作【4 】。 目前,数据挖掘和知识发现正成为计算机科学和技术应用的一大研究热点。研究 重点从挖掘算法的研究改进逐步转向实际应用。人们针对特定领域开发了许多专用的 数据挖掘工具,并建立了各种智能应用系统,比如客户关系管理、天文学、气象、生 2 浙江工业大学硕士学位论文 物医学、d n a 分析、金融、零售业和电信业务的数据挖掘工具等【5 】。国外比较有影响 的典型数据挖掘系统有s a s 公司的e 唧r i m j i l e r 、i b m 公司的i n t e l l i g e n tm i n e r 、s g i 公司的m i n e r s e t 、s p s s 公司的c l e m e m m e 、l e q u e s ti 沁s e 砌l 公司的s e c 5 、还有 c o v e r s t o 巧、e l o r a 、幻w l e d g ed i s c o v e 巧w - o r k b e n c h 、d b m 抽e r 和q u e s t 等。 从研究规模和应用普及化程度来看,数据挖掘技术在以下几个领域取得了显著的 应用成果。 ( 1 ) 在电信业中的应用 现在,电信领域已经迅速地从单纯地提供市话和长话服务演变成丰富多彩的综合 业务服务,比如提供语音、传真、寻呼、图像、电子邮件和w e b 数据传输等。在激烈 的电信市场竞争和迅速的业务扩张中,电信业正在利用数据挖掘技术来对电信数据进 行多维分析、多维关联和序列模式分析等方式帮助理解商业行为、发展模式、探索潜 在客户等,更好地利用已有数据资源提高服务质量【6 】。 ( 2 ) 在金融领域中的应用 多数银行和金融机构都提供丰富多样的储蓄、信用、投资、保险等服务。他们产 生的金融数据通常比较真实、完整、可靠,这对系统化的数据分析和数据挖掘相当有 利。在具体的应用中,采用多维数据分析方式来分析这些数据的一般特性,观察金融 市场的变化趋势。同时,企业使用数据统计,分类或聚类分析,序列模式分析等工具 进行客户细分和市场细分,探索多方位营销模式。交叉营销模式,正是目前金融领域 利用数据挖掘技术研究最热的一种营销模式【刀。 ( 3 ) 在零售业中的应用 零售业也是数据挖掘的主要应用领域之一,这是因为零售业同样积累了大量的销 售数据,如顾客购买史记录、货物进出、消费与服务记录以及流行的电子商务“购物 车 记录等,这些都为数据挖掘提供了丰富的数据资源。零售数据挖掘有助于划分顾 客群体,使用分类技术和聚类技术,可以更精确地挑选出潜在的顾客,进一步识别顾 客购买行为,分析顾客购买模式以及消费趋势。最经典的例子,就是超市的“啤酒和 尿布 的货架摆放方式,促进零售业的交叉营销1 8 】。因此,在零售业中采用数据挖掘 技术,通过关联分析,为货物摆放、客户群体捆绑提供了科学的依据。 以上领域的研究与应用折射到本文对支持金融产品交叉营销的数据挖掘的研究, 毫无疑问数据挖掘技术应用的价值在于帮助金融企业分析影响其业务的关键因素一 一客户分析和产品分析。正如中国工商银行北京分行主管信息化的一位人士分析道: 浙江工业大学硕士学位论文 “在银行信用卡和保险行业,用d m ( 数据挖掘) 可以将市场分成有意义的群组和部 门,也可以预测存( 贷) 款的趋势,优化存( 贷) 款的策略,从而协助市场经理和业 务执行人员更好地策划有促进作用的活动和设计新的市场运动 【9 1 。他认为信息挖掘 技术是金融信息化必不可少的一步。因此可以说,金融领域的数据挖掘研究,是具有 时代意义的,也是金融企业向更高层次发展的必要过程。 从以上国内外研究和应用现状的分析来看,我们不难得出以下结论:国外数据挖 掘技术的商业应用比国内要普遍,用户主要集中在大型银行、保险公司、电信公司和 销售业等领域。经济的全球化,居民个人和家庭逐渐成为社会财富的主体,这使得金 融产品零售业务成为中国金融行业的主战场,也使中国金融行业在市场竞争中面临着 前所未有的机遇和挑战。中国金融企业,特别是商业银行、证券公司、保险公司,迫 切需要将市场营销理念从“产品导向 迅速转变为“客户导向 。在这场划时代的金 融改革中,数据挖掘技术将成为协助中国金融行业成功转型的一把利刃。 1 3论文的研究内容和目的 本文对支持金融企业开展交叉营销所需要的数据挖掘技术的理论和方法进行了 研究,内容包括以下几个方面: ( 1 ) 金融客户聚类算法的研究和客户细分模型的建立 为了实现有针对性的交叉营销,首先要对客户进行分类,以便在此基础上进一步 分析各类客户的消费特征,预测消费行为。预测的结果成为策划和组织交叉营销的基 础。由于金融产品有其自身的特点,导致客户在购买金融产品时的消费行为与购买其 他产品时的消费行为存在差异,因此对金融客户的分类除了根据业务专家的经验外, 对海量的客户及其交易数据进行数据挖掘是一个更有价值的途径,利用数据挖掘的聚 类分析,可以获得更多未知的客户分类知识,并给出更好的统计学检验结果,使得客 户的分类对金融产品交叉营销更为有效。 ( 2 ) 金融产品间的关联分析方法研究和产品关联模型的建立 不同的金融产品之间也可能存在某种关联。如可以从借记卡转账来归还信用卡的 借款;客户在银行办理了汽车贷款业务后,将要求提供汽车保险服务等。因此,在实 施交叉营销的过程中,客户交易的数据除了可以用来分析企业的经营情况外,还可以 用来分析客户购买的产品组合情况。通过使用数据挖掘的关联分析,可以找到产品间 4 浙江工业大学硕士学位论文 的关联关系,分析推断客户购买某种产品或者服务后,再购买另外一种产品或者服务 的可能性。这对金融企业实施交叉营销提供了有力的支持。 ( 3 ) 支持交叉营销的数据挖掘模型的构建及相应决策支持系统的设计 客户类别与金融产品之间也存在着某种关联,比如:客户有驾照,他很可能会购 买汽车,也许会办理汽车购车贷款,一旦购买了汽车,就会购买汽车保险。从金融企 业的客户交易数据中发现客户类别与金融产品的此类联系,就需要应用前两个步骤中 产生的客户细分模型和产品关联模型的结合,构建支持交叉营销的数据挖掘模型,形 成综合分析机制,判断客户响应的可能性。首先通过客户细分模型,得到客户细分结 果,可以制定群体策略( 即对不同的群体采用不同的策略) ,接着通过产品关联模型, 得到产品关联分析结果,可以在群体策略的基础上制定个体策略( 即对不同的个体采 用不同的策略) 。同时,通过设计相应的决策支持系统,为企业提供交叉营销辅助决 策工具,能够有效地降低市场推广的费用,同时能够更加有针对性地面对目标客户, 实现以最小的成本投入获得最佳营销效果的目的。 1 4论文的组织结构 第l 章:绪论。阐述了本文的研究背景及意义、国内外研究现状、研究内容和目 的以及本文的组织结构。 第2 章:数据挖掘技术的发展。首先描述了知识发现和数据挖掘技术的基本概念。 然后比较了常见的多种聚类算法和关联规则算法,为本文的算法选择奠定了基础。最 后,比较了目前国内外常用的数据挖掘软件,为本文的支持交叉营销数据挖掘模型的 建立和决策支持系统的设计提供了思路。 第3 章:数据挖掘在金融产品交叉营销中的应用方案。首先简述了支持金融企业 交叉营销要解决的主要问题( 客户细分、产品关联分析、以及如何将客户细分和产品 关联分析的结果用于支持交叉营销) ,然后介绍了数据处理方法及工具选择,并阐述 了数据挖掘算法及选用,最后给出了支持金融企业交叉营销应用的技术方案,为客户 细分模型和产品关联模型的建立作了充分的准备。 第4 章:金融客户细分模型的建立。首先描述了客户细分的基本流程,然后介绍 了数据仓库的建立过程,包括源数据的处理方法和数据仓库结构,接着基于d a i lp e l l e g 和a m d r e wm 0 0 r e 改进的聚类分析k - m e a n s 算法建立了客户细分模型,并进行了确认。 模型建立过程中,详细阐述了k - m e 锄s 算法的基本思想和步骤,指出了存在的不足之 5 浙江工业大学硕士学位论文 处,研究并应用了d 趾p e l l e g 和a 州h wm o o r e 对k - m e a 璐算法的改进方法。 第5 章:金融产品关联模型的建立。首先分析了金融产品的关联特性,然后描述 了产品关联分析的基本流程,接着采用优化的a p r i o r i 算法建立了产品关联模型,并进 行了确认及应用方法的介绍。模型建立过程中,详细阐述了a p r i o r i 算法的基本思想和 步骤,指出了存在的不足之处,研究并应用了基于减少搜索事务个数的a p r i o r i 算法的 优化方法。 第6 章:支持交叉营销的数据挖掘模型的建立。结合第4 章和第5 章等章节,首先 对客户细分模型和产品关联模型进行了分析,然后建立了支持交叉营销的数据挖掘模 型,给出了该模型的数据仓库结构、知识库的结构、决策机制和模型的应用流程。 第7 章:金融产品交叉营销决策支持系统的设计。结合第3 章至第6 章的客户细分 模型和产品关联模型的理论基础,分别从系统的模块设计、数据库设计、用户界面设 计三个方面,设计了金融产品交叉营销决策支持系统,并给出了一个系统的应用模拟。 第8 章:总结与展望。给出了本文总结和进一步工作的展望。 6 浙江工业人学硕士学位论文 第2 章数据挖掘技术的发展 一般来说,广义的数据挖掘( d a t am i m n g ) 称作数据库中的知识发现k d d ( 1 n o w l e d g e d i s c o v e 巧i nd a t a b 嬲e s ) 【1 0 1 ,即从大量的、不完整的、有噪声的、模糊 的和随机的数据中,提取隐含在其中的、人们事先不知道的,但又是可信的、潜在的 和有价值的信息和知识的过程。然而,狭义的数据挖掘是一个利用各种分析工具在海 量数据中发现模型和数据之间关系的过程,是知识发现过程中的一个步骤。 不管是广义的数据挖掘概念,还是狭义的数据挖掘概念,旨在海量的数据中挖掘 潜在的规律,获得价值,都是受到各种不同领域的研究者关注。也正因为不同领域的 研究者关注的焦点不一样,导致了很多不同的术语名称。比如:“知识发现 ( 1 d ) 、 “数据挖掘( d a t am i 血g ) ,“知识抽取( i n f - o m l a t i o n t i o n ) 、“信息发现 ( i n l o 姗a t i o nd i s c o v e 巧) 、“智能数据分析”( i n t e l l i g e n td a :t a a n a l y s i s ) 、“探索式数据 分析”( e x p l o m t o 巧d 砒l 加l a l y s i s ) 、“信息收获 ( i n f o 衄a t i o nh a r v e s t i n g ) 和“数据考 古”( d a c a 觚h e d o g y ) 等等。其中,最常用的术语是“知识发现 和“数据挖掘”【l l 】。 通常,数据挖掘主要流行于统计界、数据分析、数据库和管理信息系统界,而知 识发现则主要流行于人工智能和机器学习界。 2 1 数据挖掘技术概述 知识发现能将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新 和知识经济的发展作出贡献。该术语于1 9 8 9 年出现,f a y y a d 定义为“l d 是从数据 集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”。 数据集是一组事实,如关系数据库中的记录。模式是一个用语言来表示的一个表达式, 它可用来描述数据集的某个子集。作为一个模式要求它比对应数据子集的枚举要简 单,信息量要少,但能够高度概括。过程在i d 中通常指多阶段的处理,涉及数据 准备、模式搜索、知识评价以及反复的修改求精,同时该过程要求是非平凡的,意思 是要有一定程度的智能性、自动性,仅仅给出所有数据的总和或者随机选取一部分都 不能算作是一个发现过程【1 2 1 。 7 浙江工业人学硕士学位论文 另外,知识发现识别出的模式要求有效、新颖、有用和可理解。其中,有效性是 指发现的模式对于新的数据仍保持有一定的可信度,新颖性要求发现的模式应该是新 的,潜在有用性是指发现的知识将来有实际效用,最终可理解性要求发现的模式能被 用户理解。总的来说,有效性、新颖性、潜在有用性和最终可理解性综合在一起称为 兴趣性。 作为一个k d d 的工程而言,k d d 通常包含一系列复杂的挖掘步骤。下图2 1 描述 了一般的知识发现过程【1 3 】。 一、 、,一一 一 数据 一i 选择 选择后 _ 1 预处理r 处理后 的数据的数据 , 、一 t 。 转化 ,、 ,、上、 、,一 、- 一一、,一一 知识 模型转化后 叫解释、评估| 卜叫数据挖掘 卜- 一 的数据 图2 1 知识发现过程 对知识发现过程的定义或者描述,并非绝对的、唯一的,很多学者提出了不同的 定义或者描述。比如说,f a y y a d ,p i a t e t s k y s h 印砷和s m ) 恤等总结出的k d d 包含的5 个最基本步骤如下【1 4 】: ( 1 ) 选择:在第一个步骤中我们往往要先知道什么样的数据可以应用到我们的 k d d 工程中,这就要求对数据有选择,并非所有的数据都符合实际应用。 ( 2 ) 预处理:当采集到数据后,下一步必须要做的事情是对数据进行预处理, 尽量消除数据中存在的错误以及缺失信息。 ( 3 ) 数据转换:转换数据为数据挖掘工具所需的格式。这一步可以使得结果更 加理想化。 ( 4 ) 数据挖掘:应用数据挖掘工具,进行数据挖掘。 ( 5 ) 评估:了解以及评估数据挖掘结果。 8 浙江工业大学硕士学位论文 随着f a ) 驴d ,p i a t e t s k y s h 印的和s i i 啪等人总结出的k d d 的5 个基本步骤,各种 不同的k d d 过程模型( k d dp m c e s sm o d e l ) 也在此基础上发展以及完善起来。整体来 说,k d d 过程模型包含“学术模型 ( a c a d e i i l i cr e s e a r c hm o d e l ) 和“工业模型”( h l d u 缸a l m o d e l ) 两大类。比如,对应上述的) d 的5 个基本步骤,f a ) 删等人提出的“9 步骤模 型 简述如下: ( 1 ) 学习某个应用领域:包括应用中的预先知识和目标。 ( 2 ) 建立目标数据集:选择一个数据集或在多数据集的子集上聚焦。 ( 3 ) 数据预处理:去除噪声或无关数据,去除空白数据域,考虑时间顺序和数 据变化等。 ( 4 ) 数据转换:找到数据的特征表示,用维变换或转换方法减少有效变量的数 目或找到数据的不变式。 ( 5 ) 选定数据挖掘功能:决定数据挖掘的目的。 ( 6 ) 选定数据挖掘算法:用l d 过程中的准则,选择某个特定数据挖掘算法, 比如汇总、分类、回归、聚类等,用于搜索数据中的模式。 ( 7 ) 数据挖掘:搜索或产生一个特定的感兴趣的模式或一个特定的数据集。 ( 8 ) 解释:解释某个发现的模式,去掉多余的不切题意的模式,转换某个有用 的模式,以使用户明白。 ( 9 ) 发现知识:把这些知识结合到运行系统中,获得这些知识的作用或证明这 些知识。用预先、可信的知识检查和解决知识中可能的矛盾。 从某种意义上来说,知识发现的核心是数据挖掘。数据挖掘是一个过程,它从大 量数据中抽取出有价值的信息或者知识以便提供决策依据。随着数据挖掘技术的不断 发展,其应用领域也不断拓广。数据挖掘的对象已不再仅仅是传统意义上的数据库, 也可以是文件系统,或组织在一起的数据集合,还可以是数据仓库。与此同时,数据 挖掘也有了越来越多不同的定义,但这些定义尽管表达方式不同,其本质都是近似的, 概括起来主要是从技术角度和商业角度给出数据挖掘的定义。 从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的 实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的和有用的信 息和知识的过程。它是一门广义的交叉学科,涉及数据库技术、人工智能、机器学习、 神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高性能计算、数 据可视化、文本数据挖掘、w 曲信息挖掘、空间数据挖掘等多学科领域。数据挖掘技 9 浙江工业大学硕+ 学位论文 术是数据库技术、统计技术和人工智能技术发展的产物”】。从使用的技术角度,数 据挖掘方法丰富多彩,比如: ( 1 ) 决策树方法:利用树形结构来表示决策集合,这些决策集合通过对数据集 的分类产生规则。国际上最有影响和最早的决策树方法是i d 3 方法,后来出现了基于 i d 3 改进的算法,以及其它的决策树方法。比如决策是否对某客户或者某群体客户, 实施相应的市场营销策略。 ( 2 ) 规则归纳方法:通过统计方法归纳,提取有价值的i f m e n 规则。规则归纳 技术在数据挖掘中被广泛使用,其中以关联规则挖掘的研究开展得较为积极和深入。 很多企业利用关联规则识别或者预测客户的连带消费能力,最大程度地提高企业利 润。 ( 3 ) 神经网络方法:从结构上模拟生物神经网络,以模型和学习规则为基础, 建立3 种神经网络模型:前馈式网络、反馈式网络和自组织网络。这种方法通过训练 来学习的非线性预测模型,可以完成分类、聚类和特征挖掘等多种数据挖掘任务,在 某些领域具有很大的优势。 ( 4 ) 遗传算法:模拟生物进化过程的算法,由繁殖( 选择) 、交叉( 重组) 、变异( 突 变) 三个基本算法组成。为了应用遗传算法,需要将数据挖掘任务表达为一种搜索问 题,从而发挥遗传算法的优化搜索能力。 此外还有粗糙集方法、k 2 最邻近技术、可视化技术等。不同的技术方法,各有 各的优势,同时也各有各的不足之处【1 6 】。 从商业角度看,数据挖掘是一种深层次的商业信息分析技术。它按照企业既定业 务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律 性并进一步将其模型化,从而自动地提取出用以辅助商业决策的相关商业模式。近年 来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛 使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广 泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。比 较普遍的就是伴随着因特网和电子商务的大潮兴起的、基于数据挖掘技术的客户关系 管理c l 己m ( c u s t o n l e rr e l a t i o n 蛳pm a i l a g e m e n t ) 在企业管理中的作用。客户关系管理, 这个概念最初由g a 咖e rg r o u p 提出来,并在最近开始在企业电子商务中流行。c i u m 的主要含义就是通过对客户详细资料的深入分析,来提高客户满意程度,从而提高企 业的竞争力,它主要包含以下几个主要方面( 简称7 p 【1 刀) : l o 浙江工业人学硕士学位论文 ( 1 ) 客户概况分析口r o :f i l i n 曲:包括客户的层次、风险、爱好、习惯等; ( 2 ) 客户忠诚度分析( p e 璐i s t e n c y ) :指客户对某个产品或商业机构的忠实程度、 持久性、变动情况等; ( 3 ) 客户利润分析( p r o 丘t a b i l i t ) r ) :指不同客户所消费的产品的边缘利润、总利润 额、净利润等; ( 4 ) 客户性能分析( p e r f o n n 锄c e ) :指不同客户所消费的产品按种类、渠道、销 售地点等指标划分的销售额; ( 5 ) 客户未来分析( p r o s p e c t i n 曲:包括客户数量、类别等情况的未来发展趋势、 争取客户的手段等; ( 6 ) 客户产品分析( p r o d u c t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度专业技术人员聘用协议样本
- 2024年专业吊装作业协议格式
- 2024年套房精装修协议模板
- 2024年规范租车操作详细协议模板
- 办公厂房租赁协议模板(2024年度)
- 2024专用学校物资采购协议模板
- DB11∕T 1693-2019 餐厨垃圾收集运输节能规范
- DB11∕T 1682-2019 城市轨道交通视频监视系统测试规范
- 不动产项目出售协议(2024年度)
- 2024年赛事执行协议样本
- 《狼和小羊》PPT课件.ppt
- 神明—EZflame火焰检测系统
- 新《固废法》解读(专业版)
- 个人简历求职简历课件.ppt
- 副神经节瘤图文.ppt
- 业务流程绘制方法IDEF和IDEFPPT课件
- (完整版)垃圾自动分拣机构PLC控制毕业设计.doc
- 小学四年级音乐课程标准
- 我的一次教研经历
- 工业厂房中英文对照施工组织设计(土建、水电安装)范本
- PCR仪使用手册
评论
0/150
提交评论