数据仓库论文_第1页
数据仓库论文_第2页
数据仓库论文_第3页
数据仓库论文_第4页
数据仓库论文_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库与数据挖掘技术随着信息时代的不断进步社会正处于数据技术飞速发展的良好状态。但是在数据信息极度膨胀的同时并非所有的数据都可被利用大量的数据浪费造成各种损失所以有必要将这些数据转化为有用的信息。而传统的数据处理方法越来越不能满足使用要求迫切需要一种从大量数据中搜索集中并去伪存真的技术。20世纪80年代后期至今高级数据分析一一数据挖掘DataMining简称DM发展起来是开发信息资源的一套科学方法、算法以及软件工具和环境是集统计学、人工智能、模式识别、并行运算、机器学习、数据库等技术为一体的一个交叉性的研究领域。1数据挖掘1.1 数据挖掘定义及实现过程数据挖掘就是用来发现隐含的、事先未知的、

2、潜在的有用知识提取的知识可以表示成概念、规律、模式等形式。其挖掘对象不仅可以是数据库也可以是文件系统或组织在一起的数据集合更主要的是数据仓库。简单的说数据挖掘是提取或“挖掘”知识。目前数据挖掘是可以从统计学、数据库和机器学习等三个方面进行定义。从统计学的角度数据挖掘是指分析所观察的数据集以发现可信的数据间的未知关系并提供给数据拥有者可理解的、新颖的和有用的归纳数据。从数据库的角度来看数据挖掘是指从存储在数据库、数据仓库或其他信息仓库中的大量数据中发现有趣的知识的过程。从机器学习的角度数据挖掘定义为从数据中抽取隐含的、明显未知的和潜在的有用的信息可以理解为数据挖掘是一个从已知数据集合中发现各种模

3、型、概要和导出值的过程。表示的是典型的数据挖掘系统的结构。过程表述如下从数据库或数据仓库等资源库中收集数据并进行信息的初步筛选根据用户对数据信息的要求由服务器提取并传输有用的数据为了对已经采集到的数据进行更有效的分配数据挖掘引擎对数据进行特征化、关联、分类等操作然后将精确划分的数据信息进行模式评估从而使搜索仅限制在感兴趣的模式上通过图形用户界面用户可以方便的与数据挖掘系统之间通信实现对数据的使用。1.2 数据挖掘分类数据挖掘是一个交叉性的学科领域涉及数据库技术、统计学理论、机器学习技术、模式识别技术、克视化理论和技术等。由于所用的数据挖掘方法不同、所挖掘的数据类型与知识类型不同、数据挖掘应用的

4、不同从而产生了大量的、各种不同类型的数据挖掘系统。掌握数据挖掘系统的不同非类可以帮助用户确定最适合的数据挖掘系统。典型的数据挖掘系统的结构根据所挖掘数据库类型的不同来分类有关系型数据挖掘系统、对象型数据挖掘系统、对象-关系型数据挖掘系统、事务型数据挖掘系统、数据仓库的数据挖掘系统等等。2根据所挖掘的知识类型来分类分为特征化、区分、关联、分类、聚类、孤立点分析异常数据和演变分析、偏差分析、相似性分析等分类。3根据所采用技术的分类有自动数据挖掘系统、证实驱动挖掘系统、发现挖掘系统和交互式数据挖掘系统。4根据数据挖掘方法来分类如面向数据库的方法、面向数据仓库的方法、机器学习方法、统计学方法、模式识别

5、方法、神经网络方法等。5根据数据挖掘应用的分类有金融数据的数据挖掘系统、电信行业的数据挖掘系统、DNA序列数据挖掘系统、股票市场数据挖掘系统、WWW数据挖掘系统等等不同的应用通常需要集成对于该应用特别有效果的方法。因此普通的、全功能的数据挖掘系统并不一定适合特定领域的数据挖掘任务。1.3 数据挖掘任务数据挖掘任务有6项关联分析、时序模式、聚类、分类、偏差检测、预测3。关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现并且概率很高的时候就存在某种管理可以建立起这些数据项的关联准则。通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。数据库中的数据可以划

6、分为一系列有意义的子集即类。在同一类别中个体之间的距离较小而不同类别的个体之间的距离偏大。聚类增强了人们对客观现实的认识即通过聚类建立宏观概念。分类是数据挖掘中应用最多的任务。分类是找出一个类别的概念描述它代表了这类信息的整体即该类的内涵描述。一般用规则或决策树模式表示。该模式能把数据库中的元组影射到给定类别中的某一个。数据库中的数据存在很多异常情况。从数据分析中发现这些异常情况也是很重要的应该引起足够的重视。偏差检测的基本方法是寻找观察结果与参照之间的差别。观察常常是某一个领域的值或多个域值的总汇。参照是给定模型的预测、外界提供的标准或另一个观察。预测是利用历史数据找出变化规律建立模型并用此

7、模型来预测未来数据的种类、特征等。近年来发展起来的神经网络方法如BP模型实现了非线性样本的学习能进行非线性函数的判别。分类也能进行预测但是分类一般用于离散数值回归预测用于连续数值神经网络方法预测两者都可用。2数据仓库概述数据仓库对不同的使用者、不同的操作范围它有不同的意义。被誉为数据仓库之父的W.H.Inmom将数据仓库DataWarehouse定义为4是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合用于支持管理决策。对于数据仓库的概念可以从两个层次予以理解首先数据仓库用于支持决策面向分析型数据处理它不同于企业现有的操作型数据库其次数据仓库是对多个异构的数据源有效集成集成后按照主题

8、进行了重组并包含历史数据而且存放在数据仓库中的数据一般不再修改。数据仓库与数据挖掘在期货行业的应用为了解决期货公司数据收集难的问题,一些有能力的期货公司对数据仓库进行建设非常有必要。数据仓库的概念起源于W.H.Inmon的研究,他把数据仓库定义为面向主题的、集成的、非易失的,随时间变化的数据集合,而且可以支持各种投资管理决策的数据库系统。期货行业数据包括国内外期货品种历史数据、品种基本数据、期货公司营业部交易结算数据、客户交易数据、国内外宏观经济数据等,数据仓库系统能帮助期货公司充分地利用这些信息资源。建立期货公司数据仓库系统,主要实现以下功能和目标:第一,建立数据仓库系统的目标数据库,集成期

9、货公司的相关数据。对各个营业部交易数据、行情数据、其他业务系统数据进行定期抽取,把异地系统的数据经过抽取转换,集中到公司总部的数据仓库中,为各种分析提供全局、一致的数据基础,从而提高决策信息的及时性、准确性、全局性和一致性。第二,在数据仓库数据的基础上,建立日常的投资决策支持查询系统,包括报表查询和动态信息查询,解决现有OLTP(联机事务处理)系统中的投资决策支持查询和报表能力的不足。第三,实现重要专题分析。专题分析是针对特定范畴的决策支持领域进行的分析,常见的专题分析包括客户关系管理分析、账户分析、交易数据分析、财务分析、经营状况分析、风险分析、利润/成本分析以及市场分析等。要求充分利用期货

10、公司的丰富数据,能够从多个角度动态分析这些专题。第四,以数据仓库数据和专题分析为基础,把一些信息和分析结果公布在网站上,为公司网站和CALLCENTER提供信息服务,为客户提供个性化服务。第五,逐步实现深层次的数据挖掘和投资决策分析,研究品种、市场行情、客户、利润等数据中蕴含的内在关系。数据挖掘在期货业的技术应用方向主要有客户分析、品种分析、客户管理、交易数据分析、风险分析、投资组合分析等。数据仓库与数据挖掘技术在金融业的应用我国经过近几年的信息化建设,各行各业已经积累了大量的数据,但现有的数据中存在着一些不规范的数据和“垃圾”数据,如何在海量的数据中寻找有用的数据,是我们现阶段计算智能面临的

11、挑战。通过建立数据仓库和应用数据挖掘技术,对银行的储蓄卡,信用卡,存折,按揭,借贷信息的挖掘,可以发现以下重要信息,为银行的发展提供重要的决策支持:1,银行的优质客户分析,可以对不同类型的客户提供针对性的服务2,及时发现恶意客户的欺诈行为3,发现客户的消费习惯,如消费时间、地点甚至商品类别4,预测业务的发展趋势5,客户关系,保证客户的忠诚度数据仓库与数据挖掘技术在客户关系管理(CRM)系统中的应用1数据仓库企业实施CRM的基础数据仓库是企业CRM的中央存储系统。数据仓库体系结构属于基础设施的建设,只有稳固的数据仓库基础设施才能支撑灵活多样的数据仓库应用。客户关系管理(CustomerRelat

12、ionshipManagement,CRM)是指企业用CRM软件提供的科学的分析工具和方法来分析企业销售市场与客户之间的关系。CRM软件是选择在企业销售市场中有价值客户及其关系的一种商业策略,分析这些客户的销售动态。CRM要求以“客户为中心7“一切为客户着想”的商业哲学和企业文化来支持有效的市场营销与服务流程。如果企业拥有正确的领导、策略和企业文化,CRM应用将为企业实现有效的客户关系管理。企业在长期的运营过程中,积累了大量的数据。但这些分散在各个业务系统中的数据是面向业务的,不是面向决策的。因此,首先必须对这些分散的数据进行抽取、清洁、转换和加载,形成企业数据仓库,并根据不同的主题,产生相应

13、的数据集市,如一般客户分析数据集市,大客户分析数据集市等,这种多数据集市的建设有利于分析不同客户的行为特点。近年来,各企业客户需求逐渐趋向多元化,如果不对客户信息进行收集、整理、分析和归类,客户经理就无法知道谁是能为企业创造利润的高、中端优质客户,竞争的关键就在于怎样发现优质客户和如何避免优质客户的流失;其次,通过OLAP、数据挖掘方法对这些数据进行深入分析,并以企业管理人员容易理解的方式展示出来。在CRM系统中,系统结构采用B/S框架结构,数据库集中,客户端采用浏览器访问,访问的浏览器采用IE6以上。通过CRM系统将数据仓库中客户每天的销售记录作为数据源,运用科学的分析方法可以对客户进行分析

14、。单体分析:分析某一客户的相关信息,分析的内容为该客户的销售数量、金额、收益,并与企业的平均销售数量、金额、收益作比较。群体分析:客户某一群体的销售数量、金额、收益。市场分析;便于领导及时、直观、准确地了解市场的发展及变化情况,以便宏观调控。通过将客户记录作为数据仓库中的数据源,经营决策者利用CRM提供的模块功能,就能够分析市场,以及抓住客户销售心理,从而正确指导销售,提升企业市场竞争力,最终赢得客户和市场,“与客户共创成2数据挖掘企业CRM系统的核心随着市场体制改革的日益深入,各企业为了保持较高的客户获取和保持率,并维持可赢利性,需要经常扩展和现有客户的关系、降低行销费用。这就需要对基于数据

15、仓库的CRM系统进行更深入的挖掘,这时数据挖掘技术的使用便成为企业CRM系统制胜的关键。以下给出几种应用:(1)客户获得对大多数行业来说,企业的增长需要不断地获得新的客户。新的客户包括以前没有听说过企业产品的人、以前不需要产品的人和竞争对手的客户。数据挖掘能够辨别潜在客户群,并提高市场活动的响应率。(2)交叉销售现在企业和客户之间的关系是经常变动的,一旦一个人或者一个公司成为企业的客户,企业就要尽力保持这种客户关系。客户关系的最佳境界体现在3个方面:最长时间地保持这种关系;最多次数地和客户交易;保证每次交易的利润最大化。因此,企业需要对已有的客户进行交叉销售(Cross-selling)。交叉

16、销售是指企业向原有客户销售新的产品或服务的过程。交叉销售是建立在双赢的基础之上的,客户因得到更多符合其需求的服务而获益,企业也因销售增长而获益。在企业所掌握的客户信息,尤其是以前购买行为的信息中,可能正包含着这个客户决定下一次购买行为的关键因素。数据挖掘可以帮助企业寻找影响客户购买行为的因素。(3)客户保持现在各个行业的竞争都越来越激烈,企业获得新客户的成本正不断地上升,因此保持原有客户就显得越来越重要。客户分为3类:第一类是无价值或低价值的客户;第二类是不会轻易走掉的有价值的客户;第三类是不断地寻找更优惠的价格和更好服务的有价值的客户。传统的市场活动是针对前两类客户的,而现代客户关系管理认为,特别需要用市场手段来维护的客户是第三类客户,这样做会降低企业运营成本。数据挖掘可以发现易流失的客户,企业

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论