(计算机应用技术专业论文)基于数据挖掘的crm需求预测模型研究及应用.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的crm需求预测模型研究及应用.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的crm需求预测模型研究及应用.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的crm需求预测模型研究及应用.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的crm需求预测模型研究及应用.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)基于数据挖掘的crm需求预测模型研究及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘的c r m 需求预测模型研究及应用 摘要 客户关系管理是当前企业管理的热点问题,为了提高客户满意度,进而提升利润水 平,企业必需掌握完善的客户信息,把握准确的客户需求,最终达到使自己的产品更具 有吸引力、使自己的企业更具有竞争力的目的。要实现这一目标,就需要从大量数据记 录中提取出隐含有用的信息,就需要先进的数据分析方法和需求预测模型,而数据挖掘 与传统预测方法相比具有操作便捷和结果易于理解的优点,基于数据挖掘的c r m 需求 预测模型的应用研究能帮助企业解决利润增长的瓶颈问题,因而越来越受到研究者的重 视。 本文出于客户需求预测模型急需改进的迫切性,在对构建c r m 过程中最有价值的 环节:描述客户、预测客户需求进行了研究。本课题以概率学为理论基础,针对国内目 前的预测要求和企业情况,采用数学建模的方法提出了新的预测模型,该模型分为客户 需求预测模型和产品竞争分析模型。同时,基于预测模型的数据需要,综合分析了典型 聚类算法的优缺点后选择了合适的算法,并采用面向对象和并行的方法改进了聚类挖掘 的c h a m e l e o n 算法。经过实验证明,这些模型和改进有很强的实用性和高效性,可 应用到各种存在预测和竞争的研究工作或实践操作中。最后设计实现了一个示范应用系 统,来验证和展示设计的系统功能,以便于项目推广和应用 关键词:数据挖掘,聚类,客户关系管理,需求预测 s t u d ya n da p p l i c a t i o no fd e m a n d f o r e c a s tm o d e li nc r m b a s e do nd a t am i n i n g c a iy e a n e n d , c i t e nl k h a o a b s t r a c t c r m 逸ah o ts p o to fp r e s e n tb u s i n e s sa d m i n i s t r a t i o n ,i no r d e rt oi m p r o v ec u s t o m e r s a t i s f a c t i o n ,a n dt h e np r o m o t et h el e v e lo fp r o f i t s , e n t e r p r i s e sm u s tg r a s pp e r f e c tc u s t o m e r s i n f o r m a t i o na n dh o l da c c u r a t ec u s t o m e rd e m a n d t h e nm a k eo n e so w np r o d u c t sa t t r a c t i v e , m a k eo n e so w ne n t e r p r i s ec o m p e t i t i v ep u r p o s et oa c h i e v ef i n a l l y s h o u l dr c a l i z ct h i sg o a l 。i t n e e di m p l yu s e f u li n f o r m a t i o nb yd r a w i n go u tf r o mal a r g ea m o u n to fd a t a , n e e da d v a n c e dt h e m e t h o do fd a t aa n a l y z i n ga n dt h em e t h o do fd e m a n df o r e c a s t ,a n dt h et e c h n o l o g yo fd a t a j 皿i | i i n gh a sm o r ea d v a n t a g e st h a nt h et r a d i t i o n a lm e t h o db e c a u s ei ti sc o n v e n i e n ta n de a s yt o u n d e r s t a n d ,t h ea p p l i c a t i o ns t u d yb a s e do nd e m a n df o r e c a s tm o d e lo fc r mc a l lh e l pt h e e n t e r p r i s e st os o l v et h eb o t t l e n e c kp r o b l e mo fp r o f i t sa n di n e a s e ,s oi ti sp a i da t t e n t i o nt o m o r ea n dm o r eb yr e s e a r c h e r b e c a u s et h em o d e lo f c u s t o m e rd e m a n df o r e c a s tn e e dt ob ei m p r o v e du r g e n t l y ,t h i sp a p e r h a sc a r r i e do nr e s e a r c ht od e s c r i b ec u s t o m e ra n dp r e d i c tc u s t o m e rd e m a n di nw h i c ht h em o s t v a l u a b l el i n kh o wt os t r u c t u r i n gc r m t h i ss u b j e c tr e g a r d ss t u d y i n gi np r o b a b i l i t ya st h e t h e o r e t i c a lf o u n d a t i o n , a c c o r d i n gt od o m e s t i ce n t e r p r i s e 。ss i t u a t i o na n df o r e c a s td e m a n da t p r e s e n t ,a d o p tt h em o d e l i n gm e t h o do fm a t h e m a t i c st op r o p o s et h en e w f o r e c a s tm o d e l ,w h i c h i sd i v i d e di n t oc u s t o m e rd e m a n df o r e c a s tm o d e la n dp r o d u c tc o m p e t i t i o na n a l y s i sm o d e l m e a n w h i l e ,n e e d e do nt h eb a s i so ft h ed a t ao ff o r e c a s tm o d e l ,c h o s et h es u i t a b l ea l g o r i t h m a f t e ra n a l y z i n gt h ea d v a n t a g e sa n dd i s a d v a n t a g e so ft h e t y p i c a lc l u s t e r i n ga l g o r i t h m s y n t h e t i c a l l y ,a n dh a si m p m v e dc h a m e l e o na l g o r i t h mb yt h em e t h o d so fo b j e c t - o r i e n t e d a n dc o n c u r r e n td e s i g n i n g p r o v et h r o u g ht h ee x p e r i m e n t ,t h e s em o d e l sa n di m p r o v i n gh a v e v e r ys t r o n gp r a c t i c a b i l i t ya n de f f i c i e n c y ,c a l la p p l yi tt ov a r i o u sk i n d so fr e s e a r c hw o r ka n d p r a c t i c cw h i c hi n c l u d i n gc o m p a r i s o no rc o m p e t i t i o n i nt h ee n d ,w ed e s i g na n dr e a l i z ea d e m o n s t r a t i o na p p l i c a t i o ns y s t e mt op r o v ea n ds h o wt h es y s t e m a t i cf u n c t i o no ft h ed e s i g n ,i n o r d e rt op r o m o t i o na n da p p l i c a t i o n k e y w o r d s :d a t am i n i n g , c l u s t e r i n g , c r m ,d e m a n df o r e c a s t 中北大学学位论文 1 1 研究背景与意义 1 引言 随着市场经济的发展和经济的全球化,世界经济形势以及企业的生存环境发生了巨 大的变化,经济活动全球化的趋势加速,顾客的需求日益多样化、个性化,企业面临着 越来越残酷的市场竟争。要想赢得竞争、赢得客户,在激烈的竞争中取胜,从事商品生 产和销售的单位或个人必须就必须在最快的时间内,以最低的成本将产品提供给客户, 这使得对市场的变化和本身业务的发展前景进行估计、进行正确及时的客户需求预测及 由此产生的可靠的决策,成为现代企业成功的关键要素。管理的关键是决策,而决策的 前提是预测,在决策实旖过程中,为使决策目标能顺利实现,就必须通过预测来减少不 确定性,增强对未来的预见性。也就是说,企业管理决策的正确性,关键在于预测的可 靠性和科学性。 客户需求预测是在对影响市场供求变化的诸因素进行系统的调查和研究的基础上, 运用科学的方法,对未来客户的需求以及有关的各种因素的变化,进行分析、预见、估 计和判断。没有准确的客户需求预测,就不可能有正确的经营决策和科学的计划。然而, 准确的预测又是困难的,一方面因为客户需求受到诸多因素的影响,对多因素、大量数 据进行分析,己经超出了人脑所能解决的范围,必须借助于信息技术;另一方面,因为 客户需求预测要基于大量的数据,这些数据大部分来源于市场调研和销售过程的销售记 录,因而一般具有较强的实效性和复杂性,因此有效地采集市场调研数据并对其进行处 理、转换是对其进行分析的前提,对数据处理的及时性和产生规则的多样性也有较高的 要求,传统的统计分析方法已经不能很好的满足客户需求预测的信息处理需要。这主要 表现在对大型数据库处理的速度较慢和产生的信息数量较少两个方面,从而造成了对数 据的浪费。因此,吸收新的数据处理方法成为客户需求预测的一个要求“】。 随着信息时代的到来,国际以及国内的信息科学取得了不断的发展,产生出了诸多 新的成果和理论,这些成果和理论具有广泛的指导意义和价值。如何将这些理论有机地 与实践相结合,也成为一项十分有意义的研究课题。目前国内大多数商业企业的信息系 统一直停留在基本数据的收集层面,但智能系统还比较落后,甚至有些企业还没有意识 l 中北大学学位论文 到它的重要性。有了信息不会分析,它就只是一种简单的原始数据,不能成为可供企业 分析、支持决策的信息。而数据库、数据仓库、数据挖掘等技术的特点恰好可以解决海 量数据中提取有效信息的问题,并且随着这些技术的发展和完善以及在c r m 系统中的应 用,基于数据挖掘的分析方法也应该服务于客户需求预测。 因此探求更高效精确的数据挖掘技术,并将研究成果应用于需求预测将大有可为。 应用数据挖掘方法对交易数据库进行分析,提高客户需求预测的准确率无疑是十分有意 义豹。 1 2 国内外研究现状 1 2 1 数据挖掘 数据挖掘( d a mm i n i n g ,简称:d m ) ,又称数据库中的知识发现( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ,简称:k d d ) ,是指从大型数据库或数据仓库中提取隐含的、未知的、特 殊的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领 域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。1 。 数据挖掘技术可以使很多机构发现分析人员发现不了的隐含的关系、模式、出入意 料但有价值的事实、趋势、例外和异常等,从而对各自的行业有了更深的了解。这表明, 虽然数据挖掘是一门新兴学科,但它有着巨大的潜在价值。 目前,国外数据挖掘的发展趋势其研究方面主要有:对知识发现方法的研究进一步 发展,如注重对b a y e s 方法以及b o o s t i n g ,y 法的研究和提高,传统的统计学回归法在k d d 中的应用,k d d 与数据库的紧密结合。在应用方面包括:k d d 商业软件工具不断产生 和完善,注重建立解决问题的整体系统,而不是孤立的过程。用户主要集中在大型银行、 保险公司、电信公司和销售业。国外很多计算机公司非常重视数据挖掘的开发应用,m m 和微软都成立了相应的研究中心进行这方面的工作。许多著名的计算机公司开始尝试着 k d d 软件的开发,比较典型的如s a s 公司的e n t e r p r i s em i n e r , m m 公司的h t d l i g e n tm i n e r , s g i 公司的s e t m i n e r , s p s s 公司的c l e m e n t i n e ,还有k n o w l e d g e d i s c o v e r y w o r k b e n c h ,d b m i n e r , q u e s t 等。w e b 数据挖掘产品有n e tp e r c e p t i o n s , a c c r u ei ns i g h t 和a c c r u eh i tl i s t , c o m m e r c et r e n d s 等哪。 2 中北大学学位论文 与国外相比,国内对k d d 的研究稍晚,目前进行的大多数研究项目是由政府资助进 行的,如国家自然科学基金、8 6 3 计划、“九五”计划等。1 9 9 3 年国家自然科学基金开 始对数据挖掘研究进行支持。国内从事数据挖掘研究的人员主要在大学,也有部分在研 究所或公司。所涉及的研究领域很多,一般集中于学习算法的研究,数据挖掘的实际应 用以及有关数据挖掘理论方面的研究。到目前为止,国内还没有成熟的数据挖掘产品。 当前,d m 研究正方兴未艾,预计今后还会形成更大的高潮。但是,d m 将首先满足 信息时代用户的急需,因此,研制开发大量基于d m 的决策支持软件工具产品将是首要 的任务。 目前有很多通用的数据挖掘系统趋向于提供适用于各种商业应用的横向解决方案 ( h o r i z o n t a ls o l u t i o n ) ,而不是针对某个特定应用的解决方案。对某个特定领域的一些数 据或应用可能需要特定的算法来查找模式,丽通用的数据挖掘系统对这些特定领域的数 据有其固有的局限性,有可能不能满足要求。因此,研制基于某个特定领域的数据挖掘 工具将显得尤为重要二专用的数据挖掘系统能够提供纵向解决方案( v e r t i c a ls o l u t i o n ) , 把特殊领域的业务逻辑和数据挖掘系统集成起来,将数据分析技术与特定领域知识结合 以完成特定的任务。目前的应用领域多集中于生物医学、d n a 分析、金融、零售业和 电信部门等。 1 数据挖掘的概念和特征8 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含 在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一种 从大型数据库或数据仓库中提取隐藏的预预4 住信息的新技术。它能发现潜在的模式,找 出最有价值的信息和商业行为,进而辅助科学研究。数据挖掘技术从一开始就是面向应 用的,应用范围较广,数据挖掘的对象数据可以是结构化的,如关系型的数据:也可以 是半结构化的,如文本、图形和图像数据。发现知识的方法可以是数学的,也可以是非 数学的;可以是演绎的,也可以是归纳的。已有的知识可以被用于信息管理、查询优化、 决策支持、过程控制等,还可以用于数据自身的维护,因此数据挖掘是- - i 1 广义的交叉 学科,包括了数据库、人工智能、数理统计、并行计算方面的技术。通过上面对数据挖 掘定义的描述,本文归纳出数据挖掘具有以下三个特点: 1 ) 数据挖掘是对数据库进行的一种操作 3 中北大学学位论文 数据挖掘的主要对象是数据库。所有交付给电脑的数据在数据库中按一定的规则进 行存储,所反映的信息的结构、组织与特点也表现在数据库的结构上。对于不同类型的 数据库结构,管理人员所希望与所能够了解到的信息往往是不同的,因而采用的处理方 法也不尽相同。本文的主要研究对象为关系型数据库,同时兼顾其它类型的数据库形式 下的数据挖掘研究。 2 ) 数据挖掘是要发现隐含的、预先未知的信息 信息的一个重要特性就是具有“新鲜”和“让人震惊”的感觉。一个决策系统中, 先前未知信息的引入降低了该系统的熵值,从而降低了对决策执行结果了解的不确定 性,因此也就降低了决策的风险。只有新颖的信息才能够为决策者的决策提供新依据。 3 ) 数据挖掘出来的信息是有价值的 数据挖掘产生的信息,应该是具有潜在价值的。这包含了几个方面:首先,数据挖 掘的对象应该是有潜在价值的。其次,数据挖掘的过程应该是能够过滤掉数据中没有价 值的信息。最后,数据挖掘产生的信息应该是具有潜在价值,能够为决策、推理提供支 持的信息。同时,应该注意到数据的合法性以及时效性。 另外,数据挖掘的另一个重要特点是数据挖掘所处理的数据库往往是一个大量或者 海量数据库。这就促使数据挖掘技术通常是在一定的运算效率的约束下进行,以保障信 息的时效性和挖掘的可行性。 2 数据挖掘的功能嘲 数据挖掘通过预测未来趋势及行为,做出预先的、基于知识的决策。数据挖掘的目 标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。 1 ) 自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题 如今可以迅速直接由数据本身得出结论。数据挖掘能够把握分析对象发展的规律,对未 来的趋势做出预见。例如:对未来经济发展的判断。 2 ) 关联规则和序列模式的发现 数据关联是数据库中存在的一种重要的可被发现的知识。若两个或多个变量之间的 取值之间存在某种规律性,就称为关联,关联分析的目的是找出数据库中隐藏的关联网。 例如:每天购买啤酒的入也有可能购买香烟,比重有多大,可以通过关联的支持废和可 4 中北大学学位论文 信度来描述。与关联不同,序列是一种纵向的联系。 3 ) 分类 按照分析对象的属性、特征,建立不同的分组来描述事物。 4 ) 聚类 聚类的任务是将相似的事物分成一类,差异较大的事物分在不同的类中。锣如:将 申请人分为高度风险申请者,中度风险申请者,低度风险申请者。聚类与分类的区别是 聚类并不依赖于事先确定好的组别。 5 ) 偏差的检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差的意义。偏差包括很 多潜在的知识,如分类中的反常实例、不满足规则的特例等。对分析对象的少数的、极 端的特例的描述,揭示内在的原因。偏差检测的基本方法是,寻找观测结果与参照值之 间有意义的差别。 数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索调 用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实 际问题的求解,试图发现事件之间的关联。 在数据挖掘中互相联系,发挥作用。 3 数据挖掘的分类和方法忉 数据挖掘涉及的学科领域和方法较多, 同时数据挖掘的各项功能不是独立存在的, 有多种分类法。根据开采任务分类,可分为 预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型 发现、异常和趋势发现等等;根据开采对象分类,有关系数据库、面向对象数据库、空 闯数据库以及环球两w e b :根据开采方法分类,可粗分为:机器学习方法、统计方法、 神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法f 决策树、规则归 纳等) 、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析( 多元回归、自 回归等) 、判别分析、聚类分析、探索性分析等。数据库方法主要是多维数据分析或o l a p 方法,另外还有面向属性的归纳方法。 数据挖掘在处理商业问题上建立了六种模型:分类、回归、时问序列、聚类、关联 分析、序列发现。其中分类和回归主要应用于预测,关联分析和序列发现用来描述数据 库中存在的规则,聚类则可以用来预测或描述。 5 中北大学学位论文 数据挖掘方法通常可以分为两种类型。一种建自上而下的方法,称之为有监督的数 据挖掘( d i r e c t e dd a t am i n m g ) 方法,当明确知道要搜索的目标时,可以使用这种方法。很 多情况下,有监督的数据挖掘会以预测模型的形式表现出来,因为需要明确知道想要预 测的目标是什么。无监督的数据挖掘( u n d i r e c t e dd a t a m i n i n g ) 方法是从下而上的方法,这 种方法实际上就是让数据来解释自己。无监督的数据挖掘方法是在数据中寻找模式,然 后把产生的结果留给使用者去判断其中哪些模式是重要的。 这两种方法并非互相对立。数据挖掘的结果,通常是两种方法的结合。即使使用有 监督的数据挖掘技术,构建一个预测模型的时候,在数据中搜索有用的模式也是值得的。 也许这些模式可以有助于增加对新客户进行细分的认识,为有监督的建模方法提供参 考。 4 数据挖掘的过程 数据挖掘过程一般由三个阶段组成:数据准备、数据挖掘及解释评估。数据挖掘可 以描述为各个阶段的反复。数据准备是数据挖掘的第一个阶段,是非常重要的一阶段。 数据准备的好坏将影响数据挖掘的效率和准确性以及最终数据挖掘模式的特性。这个阶 段又可以细分为数据集成、数据选择、预处理和数据转换4 个步骤: 1 ) 数据集成是将多维数据库运彳亍环境中的数据进行合并处理,解决语义模糊性,处 理数据中的遗漏和清洗脏数据。 2 ) 数据选择就是从企业大量数据中取出一个与要分析的问题相关的样板数据子集, 面不是运用全部企业数据。通过对数据样本的精选,不仅能减少数据处理量,而且使数 据更加具有规律性。 3 ) 数据预处理,就是为了克服目前数据挖掘工具的局限性,为进一步的分析做准备, 并确定将要进行的数据挖掘类型。 4 ) 数据转换,根据挖掘的需要,进行离散值数据与连续值数据间的相互转换,数据 值的分组分类,数据项之间计算组合等操作。 数据挖掘是运用选定的数据挖掘方法,从数据中提取用户需要的知识。首先,决定 如何产生假设,是让数据挖掘系统为用户产生假设,还是用户自己对于可能包含的知识 提出假设。前一种称为发现型的数据挖掘:后一种称为验证的数据挖掘,在问题进一步明 确后,在数据结构和内容迸一步调整的基础上,就可以建立模型。 6 中北大学学位论文 解释评价,从上述过程中将会得到一系列的分析结果、模式和模型,多数情况会得 出对目标问题多侧面的描述,这时就要综合它们的规律性,提供合理的决策支持信息。 评价的一种办法是直接使用原先建立模型样本和样本数据来进行检验;另一种办法是另 找一批数据并对其进行检验,己知这些数据能反映客观实践的规律性;否则另一种办法 是在实际运行的环境中取出新鲜数据进行检验。 1 2 2 客户关系管理 客户关系管理( c u s t o m e r r e l a t i o n s h i pm a n a g e m e n t ,简称c a m ) 是一种旨在改善企业 与客户之间关系的新型管理机制。它可以运用到企业的市场营销、销售、服务与技术支 持等与客户相关的商务领域。围绕客户进行全方位的深度挖掘。其宗旨是:提高客户的 满意度,改善客户关系,进一步提升企业的市场竞争力“。 c a m 是一种用于改善企业与客户之间关系的管理机制。目标在于通过提供快速、周 到、优质的服务来吸引和保持更多的客户,通过优化面对客户的工作流程以减少获取客 户和保留客户的成本。解决诸如:如何留住老客户、争取新客户,如何获取市场和客户 的消费信息,挖掘和分析这些数据,从中得出有用的、正确的结论来为市场和客户提供 更好的产品和服务等问题。c a m 的管理核心是:通过对“过程”、“客户状态”、“客 户满意度”和“客户成本”的评估、检测、控制等管理办法,运筹帷幄,不断地提升企 业在市场中的竞争力,支撑和延伸长期客户关系,不断创新和挖掘新的销售服务机会, 使企业最终实现销售收入、利润及股东价值的持续增长“。 c a m 管理理念及其价值被越来越多的企业所重视,虽然国内a 姒起步较晚,但却 依然显示出强劲的发展势头,其显著的价值提升能力已经得到业界的认同,即将进入发 展的蓬勃期并将形成新的追踪熟潮。根据一份最近的研究报告显示,在受调查的企业中 有2 3 以上期望在未来的五年内改变其客户关系的管理模式,而有3 4 以上的企业计划集 成“面对客户”的信息管理系统及其组织的其它部分。 当前,国内c r m 市场处于启动期。一方面,国; - c r m 软件商开始进入中国,并加 大开拓中国市场的力度,国内的软件商也己经推出或正在开发c a m 软件。另一方面,国 内企业的c r m 方面的需求越来越强烈,一些先进企业开始进行c r m 系统的运用。国内 c r m 市场是2 0 0 3 年才开始启动。但无论从产品结构、区域结构、行业结构,还是从销售 7 中北大学学位论文 渠道来看,整个市场体态都还不健全。市场区域主要集中在北京、上海、广州等经济技 术发达地区“”。 c r m 的应用行业以邮电、金融等经济实力较强、信息化程度较高的行业为主。这些 用户一般都是国家重点行业,拥有强大的资金后盾,而且信息化建设已初具规模。随着 经济格局的变化,将给这些行业带来巨大的冲击,在感受新机遇的同时也感受了竞争的 压力。在这双重的压力下,企业的经营格局将发生根本的变化,最终将走向全面以客户 为中心的经营道路和策略上,以获取最大效益。 目前国内只有尚在实施的c r m ,还没有己经完成的,在c r m 的几个主要模块一一 销售自动化、营销自动化和客户服务中,目前实施的只有营销模块中的客户信息管理、 渠道管理和客户服务中的c a l lc e n t e r 。同时,国内尚未真正出现提供c r m 服务能 力的软件商和咨询公司,但随着c r m 价值的进一步体现,它的发展前景十分乐观“”。 总之,c r m 的实质就是通过供应链客户端的延伸,针对特定市场区段的客户来进行 专门化的销售和服务,实现对客户资源的保值增值。作为企业管理的新理念与新机制, c r m 的研究与应用成为了全球最热衷的市场之一。 1 2 3 需求预测 需求预测对企业做出产品开发和投资决策都是十分重要的。需求预测一定要建立在 科学的基础之上,以正确的理论和翔实的资料为依据。只有这种科学的需求预测对企业 决策才有指导意义。需求预测所依据的是表示某种产品需求量及影响需求量的各种因素 之间关系的需求函数。其结果是否可靠取决于所建立的计量经济模型是否正确,以及所 用的数据是否可靠。需求预测通常由协会成专业咨询公司进行。国内需求预测还处于起 步阶段,目前急需真正为企业服务的行业协会,也需要可靠的咨询公司。需求预测应该 是一个大有作为的行业“”。 对事件未来发展变化的预测是非常重要的。之所以重要是因为它是决策的依据,准 确的预测是做出正确决策的前提。然而预测又是很难的,主要是由于市场需求变化频繁, 技术更新加快以及产品的寿命周期缩短,使市场需求涉及到的不确定性因素增多。也正 是由于市场需求预测的重要性和艰难性,促使国内外研究者对预测问题进行不懈的研究 和探索。主要集中在以下两个方面:一是研究预测理论和方法,到目前为止已研究了几 8 中北大学学位论文 百种预测方法,并且还在不断利用新的理论研究新的预测方法;另一方是研究预测支持 系统,即人们将预测理论、计算机和人工智能等技术结合起来,用于预测和分析的计算 机支持系统。 从国外看,预测理论和方法的研究都取得了一定的成果。比如,k v l a h o s 以电子产 品为背景。提出了市场需求的面向对象模型及其模拟方法;j a ek y ul e e 等人运用人工神 经网络对时间序列预测进行判断调整;q i s p i e g l e r 等人研究与开发了零售需求及库存预 测的模拟系统嘲。 近几年来,国内学者也在预测理论研究及其应用方面进行了不懈的努力,并取得了 一定的成果。譬如,唐小我等人提出了市场需求的组合预测模型;阎春宁提出市场经济 下的需求预测的随机模型;赵黎明等人将神经网络方法用于市场需求预测;汤兵勇等人 研究了市场需求的协调预测模型等等胁】。 然而,从国内外的研究情况来看,对预测问题的研究多集中于定量的数学统计分析。 己有的预测方法一般是以确定性的数学分析为理论基础而发展起来的,因而当影响预测 量的因素相对明显和固定时,这些预测方法是比较有效的。当今社会,市场需求变化频 繁,同时技术更新加快以及产品的寿命周期缩短,使市场需求涉及到的不确定性因素增 多,这些情况使得经典的预测方法受到了挑战。尤其是预测市场需求时,其内外部环境 如消费者的行为、宏观经济政策、行业特征等等都是复杂的、多变的、不确定性的。 当然,由于不同的预测方法提供不同的有用信息,并且预测精度、侧重点也往往不 同。如果筒单地选择一种预测方法或将一些预测误差较大的方法舍弃掉,都可能丢弃一 些有用信息,而造成资源浪费。在预测实践中现已发现一种更为科学的做法:将不同的预 测方法采用定的结构和参数进行适当的组合,从而进行预测的组合预测方法。 自从j m b a t e 和cw g r a n g e r 首次提出组合预测方法以来,组合预测的研究己经 取得很大的进展。组合预测相对于单独运用某种预测方法具有更高预测精度的优势。组 合预测方法思想的基本出发点就是在难以获得完全的信息集的前提下进行预测,或者对 于给定的信息集难以做到最优利用的情况下进行预测,也就是说承认构造真实模型的困 难,将各种单项预侧看作不同的信息片段( p i e c e so f i n f o r m a t i o n ) ,通过信息的集成分散单 个预测特有的不确定性和减少总体不确定性,从而达到提高预测精度的目的嘲。 组合预测方法主要是综合利用不同的单项预测方法所提供的信息选择侧重点不同 9 中北大学学位论文 的几种预测方法,并且寻找用于组合各单项方法预测结果的权系数是组合预测方法的关 键所在。近年来组合预测成为预侧研究者关注的热点。 l o g i t 组合预钡4 模型采用l o g i s t i c 函数,允许定性影响因素的存在,可以方便地预测 趋势变化问题,可以用于预测财务状况的好坏,市场价格的变化趋势,进行决策方案的 选择等等。 基于以上分析,以及人们对预测重要性的逐步认识,与市场需求预测相关的理论和 方法都将得到更深入地研究。 1 3 主要内容 本文的主要思路是,在对客户需求预测、数据仓库、数据挖掘进行全面、深入研究 的基础上,根据需求分析和系统功能设定,对基于数据挖掘的客户需求预测系统进行总 体结构设计和功能模块的设计,然后在此系统基础上根据客户需求预测的相关主题进行 了客户需求预测模型的设计、数据仓库的设计和数据挖掘系统的设计。 本文的研究工作以概率学作为整个工作的理论基础,以合理的假设为前提,用尽量 少的参数模型来拟合尽量多的实际数据,使得研究工作的实施和应用变得更为简单,并 大大减少了成本。本文涉及到的基本假设简述如下: 1 市场是极大丰富、完全成熟的状态,并存在广泛的竞争,即非垄断状态。 2 市场中企业和客户都呈现一定的概率分布,使得样本数据的研究具有广泛的代表 性。 3 最相似企业的竞争最激烈,最相似客户的需求最接近。 4 市场和需求在长期运作过程中是动态均衡的,呈现一定的规律性,即符合- - - - j k 定 律的历史再现性。 本文的研究内容主要包括以下几部分: 1 第一部分关于本文研究的背景、意义、国内外研究的现状及研究的思路和主要内 容。通过分析时代背景、技术背景和学术背景,提出构建基于数据挖掘的c r m 客户需求 预测系统在市场经济时代、信息时代对企业的重要性和迫切性,并简要阐述了研究工作 的思路和内容。 2 第二部分为本文所用技术的综述研究,分别为数据挖掘中的聚类研究和并行化研 1 0 中北大学学位论文 究。 3 第三部分详细介绍了数据挖掘技术中的聚类方法,通过综合比较经典算法的优缺 点明确了本文侧重研究的算法,并针对c h a h 位i e o n 算法的不足之处进行了改进和并行 化研究。同时对算法进行了面向对象的重新设计和实现,并实验论证了算法效率和结果。 4 第四部分为客户需求预测模型的建立及分析,主要包括客户描述建模、特征客户 模板获取建模、寻求最相似历史客户建模和新产品竞争力预测建模。 5 第五部分为实例分析。即一个客户需求预测系统的总体设计和实现,在客户关系 管理系统的基础上进行系统的总体设计,包括对各分系统的功能描述和相互通信的接 口。挖掘系统根据挖掘目标从数据库中提取数据项,进行数据清洗、转换,最后生成聚 类结果,作为预测模型的输入;需求预测系统应用预测模型进行客户需求、产品竞争力 的预测;入机交互系统则为用户操作过程提供理解和参与的平台。 6 第六部分为课题总结和展望。对本文所做工作进行总结,并对下一步研究工作做 了简要的阐述。同时探讨在新技术冲击下市场营销模式的变化,及在课题研究过程中对 当前各种相关问题的一些思考。 1 1 中北大学学位论文 2 1 聚类算法综述 2 1 1 聚类算法概述 2 聚类算法及并行化研究 聚类是数据挖掘中的一个非常重要的研究课题,广泛应用于各个领域,在商务上, 聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并用购买模式来刻画不同 的客户群的特征。在生物学上,聚类能用于推导植物和动物的分类。对基因进行分类。 获得对种群中固有结构的认识。聚类在地球观测数据库中相似地区的确定,汽车保险单 持有者的分组,以及根据房子的类型、价值和地理位置对一个城市中房屋的分组上发挥 作用。聚类也能用于对w e b 文档进行分类,以发现信息。另外,随着聚类技术的不断完 善,近年来聚类技术在仿真领域得到了广泛的应用。一般地,聚类在仿真领域的应用主 要是作为仿真模型的预处理阶段来使用。例如,优惠策略预测仿真,就是利用聚类技术 实现优惠策略的仿真,根据聚类进行模拟计费和模拟出账,其仿真结果可以揭示优惠策 略中存在的问题,并进行相应的调整优化,以达到优惠促销活动的收益最大化。并且, 聚类技术在军事、电信和医疗诊断也有广泛的应用。 聚类分析是数据挖掘中一种非常有用的技术。它可作为特征和分类算法的预处理步 骤,这些算法再在生成的簇上进行处理,也可将聚类结果用于进一步关联分析。可以作 为一个独立的工具来获撂数据分布的情况,观察每个簇的特点,集中对特定簇做迸一步 分析。 聚类算法是一种非监督机器学习算法,与监督学习算法不同,用户事先对数据集 的分布没有任何的了解。聚类算法的目的就是将集中的数据人为地划分成若干类,以揭 示这些数据分布的真实情况。它对未知数据的划分和分析起到非常有效作用并能达到合 理的效果。研究和运用聚类是完成数据挖掘任务的重要手段,因此对聚类的研究具有重 要的理论价值和现实意义。 聚类能更好地应用到现实生活中是很必要的。这些新算法正努力把静态的聚类推向 动态的、适应性强的、带约束条件的及与生活联系紧密的聚类。同时对目前可有效处 1 2 中北大学学位论文 理二维和小的数据集的聚类方法进行强化和修改,以使其能处理大的和高维的数据,这 也是努力的一个方向。 俗话说:“物以类聚,人以群分”。聚类就是利用计算机技术来实现这一目的的一 种技术。其输入是一组未分类的记录,且事先不知道如何分类,也可能不知道要分成几 类。把相似性大的对象聚集为一个簇。通过分析数据,合理划分记录集合,确定每个记 录所属的类别。聚类的标准是使簇内相似度尽可能大、簇问相似度尽可能小跚。 聚类是把一些数据根据其相互间内在的相似性面分成若干个聚类。与分类有一个明 显的不同:分类中,数据的类别是己知的,用这些数据来构建模型,并用该模型来预测 未知数据的类别;而在聚类中,所有数据的类别都是未知的,根据对象间的相似性或相 异性来对数据进行分组,把相近的对象归入同一个组,丽差异较大的对象归入不同的组。 2 。1 2 聚类算法分类 聚类属于无监督学习( u n s u p e r v i s e dl e a r n i n g ) 。聚类算法可以分为以下几种:划分聚 类、层次聚类、密度型聚类、网格型聚类和其他聚类啪1 。 1 划分聚类 划分聚类算法把数据点集分为k 个划分,每个划分作为一个聚类。它一般从一个初 始划分开始,然后通过重复的控制策略,使某个准则函数最优化,而每个聚类由其质心 来代表( k m e a n s 算法) ,或者由该聚类中最靠近中心的一个对象来代表( k - m e d o i d s 算 法) 。划分聚类算法收敛速度快,缺点在于它倾向于识别凸形分布大小相近密度相近的 聚类,不能发现分布形状比较复杂的聚类,它要求类别数目k - y 以合理地估计,并且初 始中心的选择和噪声对会对聚类结果产生很大影响。 主要的划分聚类算法有k m e a n s 、f c m 、e m 、k - m e d o i d s 、c l a r a 、c l a k a n s 等。 常见的k m e d o i d s 算法有p a m ( p a r t i t i o n i n ga r o u n dm e d o i d s ) 算法、c l a r a ( c l u s t e r i n g l a r g ea p p l i c a t i o n ) 算法、c l a r a n s ( c l u s t e r i n gl a r g ea p p l i c a t i o n b a s e du p o n r a n d o m i z e ds e a r c h ) 算法。 2 分层聚类 分层聚类算法把数据对象分组而形成一个聚类树。分层聚类算法有两种途径:自底 向上的聚结法( a g g l o m e r a t i v e ) 和自顶向下的分裂法( d i v i s i v e ) 。纯粹的分层聚类算法的缺 1 3 中北大学学位论文 点在于一旦进行合并或分裂之后,就无法再进行调整。现在的一些研究侧重于分层聚类 算法与循环的重新分配方法的结合。 分层聚类算法分为两大类:聚结型和分裂型。聚结型算法采用自底向上的策略,首 先把每个对象单独作为一个聚类,然后根据一定的规则,把这些聚类合并成为越来越大 的聚类,直到最后所有的对象都归入到一个聚类中,或者直到满足了终止条件( 如得到 了指定数目的聚类) 。大多数分层聚类算法都属于聚结型算法,它们之间的区别在于类 间相似度的定义不同。聚结型聚类算法主要有c u r e 、a 山m l e o n 、 a g n e s ( a g g l o m e r a t i v en e s t i n g ) 、d i a n a ( d i v i s i v ea n a l y s i s ) 、b i r c h 、r o c k 等与 聚结型算法相反,分裂型算法采用自顶向下的方法,首先把所有的对象都归入到一个聚 类中,每一步都把类进行二分,把现有的聚类逐渐分裂成为越来越小的一些聚类,直到 最后每个对象都成为一个单独的聚类,或者直到满足一定的终止条件,如己得到聚类的 数目与所期望的数目相同,或者最近两个聚类问的距离达到了一定的阈值。 d i a n a ( d i v i s i v ea n a l y s i s ) 是一种分裂型算法。一般情况下不使用分裂型方法,因为在较 高的层很难进行正确的拆分。 主要的分层聚类算法有b i r c h 、c u i 匝、r o c k 、c h a m e l e o n 、气m o e b a 、c o b w e b 、 c l u s t e r i n gw i t hr a n d o mw a l k s 算法等。 3 密度聚类 很多算法中都使用距离来描述数据之间的相似性,但是,对于非凸数据集,只用距 离来描述是不够的。对于这种情况,要用密度来取代相似性,这就是基于密度的聚类算 法。基于密度的算法从数据对象的分布密度出发,把密度足够大的区域连接起来,从而 可以发现任意形状的类。此类算法除了可以发现任意形状的类,还能够有效去除噪声。 常见的基于密度的聚类算法有d b s c a n 、d b c l a s d 、o 阿c s 、d e n c l u e 等。 4 网格聚类 基于网格的聚类算法,把空间量化为有限个单元( 即长方体或超长方体) ,然后对量 化后的空间进行聚类。此类算法具有很快的处理速度。缺点是只能发现边界是水平或垂 直的聚类,而不能检测到斜边界。此类算法具有很快的处理速度。时间复杂度一般由网 格单元的数目决定,而与数据集的大小无关。此外,聚类的精度取决于网格单元的大小。 此类算法不适用于高维情况,因为网格单元的数目随着维数的增加而成指数增长。 1 4 中北大学学位论文 所有基于网格的聚类算法都存在下列问题:一是如何选择合适的单元大小和数目, 单元数目太少时,精度就会很低,而单元数目太多时算法的复杂度就会变大;二是怎样 对每个单元中对象的信息进行汇总。在s t i n g 算法中,每个单元都保存一系列统计信息, 包括均值、方差、最大值、最小值、分布类型等,而c l i q u e 算法中,仅记录每个单元 中的对象数目。 基于网格的聚类算法主要有s t i n g 、w a v ec l u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论