版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘在电子商务中的应用一、引言在信息和知识经济时代,随着网络技术的迅猛发展和社会信息化水平的提高,传统的贸易正经历一次重大的变革,电子商务显示出巨大的市场价值和发展潜力。电子商务是商业领域的一种新兴商务模式,它是以网络为平台、现代信息技术为手段、以经济效益为中心的现代化商业运转模式,其最终目标是实现商务活动的网络化、自动化与智能化。电子商务的产生改变了企业的经营理念、管理方式和支付手段,给社会的各个领域带来了巨大的变革。当电子商务在企业中得到应用时,企业信息系统将产生大量数据,这些激增的电子化数据意味着人们面临“数据丰富而知识贫乏”的问题。出现了“数据爆炸但知识贫乏”的现象,如何才能不被信息的汪洋大海所淹没,从中及时发现有用的信息和知识因此,需要有新一代的技术和工具来对海量数据进行合理及更高层次的分析,做出归纳性推理,从中挖掘出潜在的模式,提取有用的知识,帮助电子商务企业决策者调整市场策略,进行商业预测,做出正确的决策,从而提高信息利用率,降低风险,给企业带来巨大的利润。数据挖掘就是为顺应这些需要应运而生发展起来的数据处理技术。八十年代末兴起的数据挖掘(DataMining)技术,就是从这样的商业角度开发出来的。数据挖掘技术可以为新的商业处理信息,把历史积累的大量数据进行抽取、转换、分析和其他模型化的挖掘和处理,从中发现隐藏的规律或模式,提取辅助商业决策的关键性数据,为决策提供支持。利用数据挖掘技术,能对数据进行充分挖掘,发现数据所蕴涵的有用知识,帮助企业业务决策和战略发展,从而使企业在市场竞争中获得优势地位。因此数据挖掘在电子商务系统中的应用成为当前研究的重要课题。电子商务是现代信息技术迅速发展的必然产物,也是未来企业模式的必然选择。数据挖掘技术引入电子商务,给企业的商务活动提供全面支持,为客户提供个性化服务,增强企业的商务智能。数据挖掘是电子商务取得更多成就的必然方向,它将数据转化为知识,是数据管理、信息处理领域研究、开发和应用的最活跃的分支之一。它帮助决策者寻找数据间潜在的关联,发现被忽略的因素,是解决数据爆炸而信息贫乏问题的一种有效方法。数据挖掘的一个重要分支—关联规则挖掘,主要用于发现数据集中项之间的相关联系。由于关联规则挖掘技术形式简洁、易于解释和理解并可以有效地捕捉数据间的重要关系,从大型数据库中挖掘关联规则问题己成为数据挖掘中最成熟、最重要、最活跃的研究内容。二、11.1数据挖掘的历史及研究现状数据库技术的迅速发展以及数据库管理系统的广泛应用,积累的数据越来越多。爆炸式增长的数据背后隐藏着许多重要的信息,为了更好地利用这些数据,就要进行更高层次的分析。数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但是不能发现数据中存在的关系和规则,无法根据现有的数据对未来的发展进行预测,缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。挖掘数据背后的知识可以用数据库管理系统来存储数据、用机器学习的方法来分析数据,两者的结合促成了数据库中的知识发现(KDD:KnowledgeDiscoveryInDatabases)的产生。实际上,数据库中的知识发现是一门交叉性学科,涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算和专家系统等多个领域。从数据库中发现出来的知识可以在信息管理、过程控制、科学研究和决策支持等多个方面应用1989年8月在美国底特律召开的第一届国际人工智能联合会议的专题讨论会上首次出现在数据库中的知识发现KDD这个术语,它泛指所有从源数据中挖掘模式或联系的方法,包括了最开始的制定业务目标到最终的结果分析。随后在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、数据分析算法、知识表示和知识运用等问题。随着参与人员的不断的增多,KDD国际会议发展为年会。1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,而且有30多家软件公司展示了他们的数据挖掘软件产品,很多软件己经在北美、欧洲等国家得到应用。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了很多次,会议规模由原来的专题讨论会发展成国际学术大会,研究重点也逐渐从发现方法转向了系统应用,注重了多种发现策略和技术的集成以及多个学科之间的相互渗透。从大型数据库中发现信息或知识已经成为数据库和机器学习领域的一个重要的研究课题,同时很多公司都意识到数据挖掘在提高公司决策能力、增加企业收益、提高企业竞争力等方面将起到重要的作用。数据挖掘发现的知识可以应用于信息管理、决策支持、过程控制等领域,数据挖掘也使数据库领域、机器学习、统计学、知识工程与知识管理、人工智能等领域的专家都对它产生了浓厚的兴趣与爱好。数据挖掘是KDD最核心的部分,是采用机器学习、统计等方法进行知识学习的阶段数据挖掘算法的好坏直接影响到所发现知识的好坏。目前大多的研究都集中在数据挖掘算法和应用上。人们往往因为不严格区分数据挖掘和数据库中的知识发现,而把两者混淆使用。通常在科研领域中称之为KDD,而在工程领域中则称之为数据挖掘。促进数据挖掘诞生、发展和应用有许多原因,主要有以下四种:(1)大规模数据库,尤其是数据仓库的出现,使数据挖掘技术有了赖已生存的基础(2)先进的计算机技术,尤其是网络技术和并行处理体系的发展,使大量办公室人员得以摆脱繁重的日常信息处理工作,提高了工作效率的同时也节省了时间,有多余的时间和精力对激增的数据进行高层次的分析,从中寻找对企业战略发展有重要意义的商业规律和市场趋势。(3)经营管理的需要。企业经营管理者迫切希望能够利用数据挖掘技术从企业积累的大量历史数据中找到有价值的信息,来应对日趋严重的竞争压力。(4)数据挖掘的精深计算能力。大规模数据挖掘需要复杂和精深的计算能力,这些精深的计算能力主要是基于统计学、集合论、信息论、认识论和人工智能等各种学科理论而促进数据挖掘诞生和发展的中坚力量正是这些精深的计算能力。因此,数据挖掘是信息技术发展到一定阶段的必然产物,是拥有了大规模数据库、高效的计算能力、经营管理的压力和有效的计算方法后的产物,是从数据库或其他信息库中存放的大量数据中挖掘有用知识的一个过程。数据挖掘(DataMining,简称DM),也称知识发现,是从海量数据中提息的工具,被描述为从数据中抽取出隐含的、具有潜在用途的、人类可理解的挖掘通过发现有用的新规律和新概念,提高人们对大量、看似不相关数据的更解、认识以及应用。数据挖掘技术是目前国际上数据库和信息决策领域最前沿之一,同时也是学术界和商业界共同关注的热点问题。2.1数据挖掘的概念数据挖掘是一种综合了数据库、人工智能以及统计学等多个学科技术的信息处理法。通过对历史积累的大量数据的有效挖掘,试图从这些数据中提取出先前未知但有效有用的知识。Bhavani(1999)定义数据挖掘为:TheproeessofdiseoveringmeaningfulnewcorrelationPatterns,andtrendsbysiftingthroughlargeamountofstoreddata,usingpatternreeognititechnologiesandstatistiealandmathematicaltechnologies。(数据挖掘是从大量存储的数据中利用模式识别、统计和数学的技术,筛选发现新的有意义的关系、模式和趋势的方法。)也就是说,数据挖掘(DateMining)就是从大量的、不完全的、有噪声的、模糊的随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的并最可理解的信息和知识的非平凡过程。我们可以把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可是结构化的(如关系数据库中的数据),也可以是半结构化的(如文本、图形、图像数据还可以是分布在网络上的异构型数据。数据挖掘就是从大量的原始数据中提取或者“挖掘知识的过程。数据挖掘与传统的数据分析(如查询、报表、联机分析处理)不同在于,数据挖掘在没有明确假设的前提下去挖掘信息、发现知识的。数据挖掘所得到的信息应具有先前知、有效和可实用三个特征。先前未知的信息是指事先没有预料到的信息,也就是说数挖掘是要发现那些不能单靠直觉发现的信息或知识,甚至有可能是违背直觉的信息或识,挖掘出的信息越是出乎意料,可能就越有使用价值。而且它又是一个非平凡的过程即挖掘过程不是线性的,而是反复和循环的,所挖掘到的知识也不是通过简单的分析就容易得到,很有可能是隐含在表面现象的内部,所以它需要应用一些专门处理大数据量数据挖掘工具,经过大量的数据比较分析才能取得。鉴于数据、数据挖掘任务和数据挖掘方法的多样性,给数据挖掘提出了许多挑战性课题。目前数据挖掘研究人员、系统和应用开发人员所面临的主要挑战有数据挖掘语言设计、高效而有用的数据挖掘方法和系统的开发、交互和集成的数据挖掘环境的建立以应用数据挖掘技术解决大型实际应用问题。2.2数据挖掘的功能数据挖掘的功能主要是从数据库中发现隐含的、有意义的知识[11]。数据挖掘的任务要是:描述性挖掘和预测性挖掘。数据挖掘的功能以及它们可以发现的知识类型有以下种:1.通过概念性描述发现广义知识(Generalization)广义知识指对数据的概括、精炼和抽象,是对类知识的概念性描述。概念性描述是某类对象的内涵进行描述,并概括此类对象的有关特征。概念性描述分特征性描述和区性描述,特征性描述主要对某类对象的共同特征进行描述,区别性描述主要是对不同类象之间的区别进行描述。在生成一个类的特征性描述时只涉及该类对象中所有对象的性,而生成区别性描述的方法却很多,如决策树方法、遗传算法等等。概念性描述对类特征进行描述的方法和实现技术很多,如数据立方体、面向属性的纳等。数据立方体还可以看作是“多维数据库”、“实现视图”、“OLAP”等。该方法的本思想是实现一些常用的代价较高的聚集函数的计算,例如计数、求和、求平均值、求大值等,并把这些实现的视图存储在多维数据库中。因为很多的聚集函数需要经常重复计算,因此在多维数据立方体中存放预先计算好的结果就能保证快速响应,并能灵活地供不同角度和不同抽象层次上的数据视图。另一种广义知识发现方法是加拿大SimFraser大学提出的面向属性的归纳方法。这种方法和SQL语言表示的数据挖掘查询相类似先收集数据库中的相关数据集,然后在相关的数据集上应用一系列的数据推广技术进行据推广,包括属性的删除、概念树的提升、属性阈值的控制、计数及其他聚集函数的传等。2.通过关联分析发现关联知识(Association)数据关联也是数据库中存在的一类重要的可以被发现的知识。如果在两个或多个变之间取值时存在某种规律,这种规律就称为数据关联。数据关联有简单关联、时序关联因果关联等。关联知识是反映事件与事件之间依赖或关联的知识。如果两项或多项属性之间存在联,那么其中一项的属性值就可以依据其他属性的值进行预测。关联分析的目的是分析数据库中所隐含的关联网。最著名的关联规则发现方法是R.Agrawal提出的Apriori算法关联规则的发现分两步,第一步:迭代识别所有的频繁项目集,要求频繁项目集的支持高于用户设定的最低值;第二步:从频繁项目集中构造可信度高于用户设定的最低值的则,识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。3.通过分类和聚类方法发现分类知识(Classification&Clustering)分类知识是反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识基于决策树的分类方法是最为典型的分类方法。它从实例集中构造决策树,再根据练子集(又称为窗口)形成决策树。如果该树不能对所有对象给出正确的分类,那么选一些例外加入到窗口中,重复该过程一直到形成正确的决策集,最终结果是一棵树,其结点是类名,中间结点是带有分枝的属性,该分枝对应属性的某一可能值。常用的分类术还有贝叶斯分类和贝叶斯网络、神经网络、遗传算法、粗糙集和模糊逻辑等。聚类方法是把数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的似度,而不同簇中的对象差别较大。聚类与分类不同,它要划分的类是未知的。相似度根据描述对象的属性值来计算的。聚类分析广泛应用于模式识别、数据分析、图像处理市场研究。在电子商务上,聚类分析能帮助市场分析人员从客户基本库中发现不同的客群,并且用购买模式来刻画不同的客户群的特征。利用聚类分析还可以将市场按顾客的费模式相似性分为若干细分的市场,制定有针对性的市场策略,提高销售业绩。聚类技有划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。4.通过预测方法得到预测型知识(Prediction)预测型知识指根据时间序列型数据,由原始数据和当前的数据去推测未来的数据,是以时间为关键属性的关联知识。目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。1968年B和Jenkins提出了一套比较完善的时间序列建模理论和分析方法,这些经典的数学方法过建立随机模型(如自回归模型、自回归滑动平均模型、求和自回归滑动平均模型和季7调整模型等)进行时间序列的预测。由于大量的时间序列不是平稳的,其特征参数和数分布随着时间的推移也发生变化,仅仅通过对某段原始数据的训练,建立单一的神经网预测模型,还不能完成准确的预测任务。因此,提出了基于统计学和基于精确性的再训方法,当发现现存预测模型不再适用于当前的数据时,需要对模型重新训练,获得新的重参数,建立新的模型。也有许多系统借助并行算法的计算优势进行时间序列预测。5.通过偏差检测得到偏差型知识(Deviation)数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差型知就是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如分类中的反常实例、满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。所有这些知识可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以足不同用户不同层次决策的需要。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。2.3数据挖掘的体系结构数据挖掘是一个复杂的过程,因此数据挖掘的结构也比较复杂。典型的数据挖掘体结构是一个三层的结构,如图2-1所示,从下向上分别是:数据层,数据挖掘引擎,用界面[13]。1.数据层。数据挖掘的对象是数据。为了便于挖掘,各种来源的数据经过预处理(据的清洗、数据的集成、数据的过滤等)以后,都将存于一个统一模式的数据库或者数仓库内。这个模式的设计综合考虑挖掘任务、实施算法、数据的特点等各种因素,可以挖掘能够最优化。2.数据挖掘引擎。数据挖掘引擎内集成了数据挖掘的算法。它根据知识库、挖掘据库或者数据仓库中的数据得到许多模式,然后对这些模式进行评估、筛选,最终可以到有意义的且用户感兴趣的模式。3.用户界面。用户界面是人机交互的界面。用户界面将这些模式用直观的且易于户理解的方式表现给用户。另外,用户可以(有时也必须)通过用户界面指导模式评估挖掘引擎、数据的组织模式。2.4数据挖掘的过程数据挖掘是一个多步骤的处理过程,该过程从大型数据库中挖掘先前未知的、有效的可实用的信息,并使用这些信息做出决策或丰富知识。这个过程是交互和迭代的,其中多过程需要用户的参与。数据挖掘过程主要包括四个步骤如图2-2所示:问题定义/确定业务对象、数据准备数据挖掘、结果表达和分析。虽然我们把各个步骤按顺序排列,但数据挖掘过程并不是性的。要取得好的结果就要不断反复和重复这些步骤]。图2-2数据挖掘视为知识发现过程的一个步骤1.问题定义清晰地定义业务问题和认清数据挖掘的目标是进行数据挖掘的第一步,也是最重要步。要想充分发挥数据挖掘的价值,首要的条件是要对用户的目标有一个清晰明确的定义因此,在挖掘之前要明确业务的目标和需求。2.数据准备确定好挖掘目标后,就要开始为挖掘准备相关的数据。准备数据就是根据挖掘需求集资料,并建立可挖掘的数据库。准备数据所花费的时间在整个数据挖掘过程中是最多的这一阶段主要分为两步:第一步根据挖掘目标建立合理的数据库模式即数据选取;二步是对数据进行预处理。根据用户的挖掘目标,搜索所有与业务对象相关的内部和外部数据信息,并从数据中提取与挖掘相关的数据。它与对数据进行采样和选择预测变量是有区别的,这里只是略的除去一些冗余或无关的数据。为了进一步的分析数据,提高挖掘效率,去除无用或关的信息,整理不完整的、含噪声的和不一致的信息,确定将要进行的挖掘操作的类型我们必须对数据进行预处理。数据预处理就是对选取出的数据进行加工,把这些不完整的、含噪声的和不一致的据转化为完整的、不含噪声的和一致的数据。数据预处理一般包括数据清理、数据集成、数据变换、数据归约等阶段。(1)数据清理。主要用来填充缺漏的值,光滑噪声并识别离群点,去掉数据中的噪声并纠正数据中的不一致。(2)数据集成。数据的来源有可能包括多个数据库、数据方或者普通文件。来自多数据源的数据被数据集成整合成一致的数据存储的形式,如数据仓库。其中可能会存在式集中的错误、数据冗余和重复、数据值冲突的问题。使用元数据、相关分析等有助于据的顺利集成。元数据可以帮助避免模式集中的错误,而相关性分析技术可以检测到冗余(3)数据变换。将数据转换成适合于挖掘的形式。数据转换可能涉及如下内容:平滑:数据库中有可能存在各种错误数值(如身份证号码有可能被粗心的数据录入员录入为联系方式)和空缺值。这些都可能会最终影响模型的质量,因此必须要通过采分箱、聚类和回归等技术来修正错误和填充空缺的数值。聚集:对数据进行汇总或聚集。例如,根据每日的收入金额,可以计算出月和年的入金额。这一步通常是用来为多粒度数据分析构造数据立方体。数据泛化:可以使用概念分层,把低层或“原始”数据替换为高层概念。例如,分10的属性如产品名称,可以泛化为较高层的概念如小商店或超级市场。同样的,货币属性金额,可以映射到较高层概念如低档、中档和高档。规范:满足有些算法和工具对数据范围有要求,需要对原始数据按一定的进行比例放,使它有一个特定的区间,如神经网络要求所有的变量都在0-1之间。属性构造:一般情况下有些数据需要从原始数据中衍生出一些新的属性来提高数据掘的效率和可靠性。(4)数据归约。在海量数据上进行复杂的数据分析和挖掘需花费很长的时间,这分析是不现实和不可行的。使用数据归约技术可以得到数据集的归约表示,它虽小得多但仍接近保持原数据的完整性。这样,在归约后的数据集上挖掘将更有效,并可以产生同或几乎相同的分析结果。数据归约的策略如下:数据立方体聚集:聚集操作主要用于数据立方体结构中的数据。属性子集选择:可以检测并删除不相关、弱相关或冗余的属性或维。维度归约:使用编码机制减小数据集的规模。数据归约:用替代的和较小的数据表示替换或估计数据,如聚类、抽样和使用直方等。离散化和概念分层产生:用区间值或较高层的概念来替换属性的原始数据值。数据散化是一种数据归约形式,对于概念分层的自动产生是有用的。离散化和概念分层产生数据挖掘有力的工具,允许挖掘多个抽象层的数据[11]。3.数据挖掘根据对问题的定义明确挖掘的任务和目标,首先选择合适的数据挖掘算法进行挖(如关联模式、序列模式、聚类模式、分类模式等),然后建立并选取合适的模型和参数利用已知数据对模型进行训练和测试,最后应用该模型从而得到挖掘结果。挖掘数据的程就是按照人们设计的“模型”对数据进行处理、分析、预测的过程。当然,一种算法工具不可能单独完成所有数据的挖掘,通常也很难一开始就能决定选择哪种算法是最适所面临的问题,因此需要建立不同的模型(参数或算法),从中选择最好的。4.挖掘结果的表述和评价这个阶段分为结果表述和结果评价两个步骤。将挖掘出的结果以一种易于理解的形表示出来,并进行分析和评价。具体包括消除无关的、多余的模式,过滤出要呈现给用的信息。利用可视化技术将有意义的模式以图形或逻辑可视化的形式表示,转化为用户以理解的语言。成功的应用数据挖掘技术可以把原始数据转换为更简洁、更易理解、可确定义关系的形式,此外还可以解决发现的结果与以前知识的潜在冲突及利用统计方法模式进行评价,从而决定是否需要重复以前的操作,以得到最优、最适合的模式。我们可将分析所得到的知识集成到业务信息系统的组织结构中去,实现知识的同化。综上所述,数据挖掘是一个多种专家合作的过程,也是一个在资金上和技术上高投的过程,这一过程要反复进行。在反复过程中,不断地趋近事物的本质,不断地优化问的解决方案[16]。2.5数据挖掘的主要技术11数据挖掘的研究融合了多个不同学科领域的技术与成果,使目前的数据挖掘出现多种多样的技术。利用这些技术方法可以检查那些异常形式的数据,利用各种统计模型和数学模型对这些数据进行解释,找出隐藏在这些数据背后的市场规律和商业机会[17][18]。1.分类分析分类是找出一个类别的概念描述,它代表了这类数据的整体特点,即该类的内涵描述,一般用规则或决策树模式表示。在电子商务中通过数据挖掘对顾客进行细分,如发现在线订购儿童用品的客户中有70%是25~35岁生活在大中城市的年轻妈妈。得到分类,针对这类客户的特点展开商务活动,有针对性的提供个性化服务。2.关联分析关联分析的目的是挖掘隐藏在数据间的相互关系。关联分析常用的技术有关联规则和序列模式。关联规则用于寻找在同一个事件中出现的不同项的相关性,比如商场销售分析,利用关联规则可以找到在一次购买活动中所购不同商品的相关性。关联规则典型算法—Apriori算法,从事务数据库中挖掘用户访问模式,是一种最有影响的挖掘布尔关联规则频繁项集的算法。序列模式用于寻找事件之间在时间上的相关性,比如对股票涨跌的分析。3.聚类分析将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程称为聚类。由聚类所生成的簇是一组数据对象的集合,同一个簇中的对象彼此相似,个体之间的距离较小;不同簇中的对象相异,个体之间距离则偏大。常用方法包括k-means算法、分层凝聚法(HierarchicalAgglomerativeMethods)及采用估算最大值法(RstimationMaximizationAlgorithm)。在电子商务中,聚类分析可以帮助市场分析人员从客户信息库中发现不同的客户群,通过购买模式来分析不同的客户群的特征。根据顾客的消费模式相似性可以将市场划分为12若干细分的市场,从而制定有针对性的市场策略,提高销售业绩。4.神经网络神经网络是仿照生理神经网络结构建立的非线性预测模型,通过学习进行模式识别。为解决复杂度很大的问题神经网络提供了一种相对来说比较有效的简单方法,近几年越来越受到关注。神经元网络模拟人脑神经元结构,以MP模型和Hebb学习规则为基础,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理基于电子商务Web的数据挖掘技术研究和全局集体的作用、高度的自学习、自组织和自适应能力等优点。神经网络经常用于分类和回归两类问题,是建立在可以自学习的数据模型的基础之上。它可以分析大量复杂的数据,完成对于人脑或其他计算机来说非常复杂的模式抽取及趋势分析。神经网络很适合非线性数据和含噪声数据,所以广泛应用于市场数据库的分析和建模方面。5.决策树决策树是一种树型结构的预测模型,其中树的每个结点表示属性,叶子结点表示所属的不同类别。树的最高层结点是根结点。根据决策树的结构对数据集中的属性值进行测试,从决策树的根结点到叶结点的一条路径就形成了对相应对象的类别预测,进行反复修剪后转化为规则。决策树是通过一系列的规则对数据进行分类的过程。决策树方法主要应用于数据挖掘的分类方面。6.遗传算法遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。其基本思想是:随着时间的更替,只有适合的物种才能得以进化。将这种思想用于数据挖掘就是根据遗传算法获得最适合的模型,并据此对数据模型进行优化。也就是说,模仿生物进化的过程,反复进行选择、杂交和突变等遗传操作,直到达到最优解。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉(重组)选择两个不同个体(染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。7.统计分析法在数据库或者数据集的各项之间建立两种关系,即能用函数公式表示确定关系的函数关系和不能用函数公式表示但有相关确定关系的相关关系,可采用回归分析、相关分析、主成分分析等方法对它们的进行分析。13在电子商务等各个领域中,人们将多种数据挖掘技术结合,利用多种数据挖掘技术来实现不同需求以达到最佳效果。2.6数据挖掘的应用领域数据挖掘工具的出现,使数据挖掘技术在各个领域中得到了广泛的应用。它的应用主要体现在以下几个方面[11][19][20]:1.科学研究在信息量极为庞大的军事、航天、生物技术等领域中,实验和观测所获得的数据量非常庞大,传统的数据分析工具已不能满足海量数据的分析,这就需要一种强大的智能性自动数据分析工具。这种需求推动了数据挖掘技术在科学研究领域的应用发展,并取得了一些重要的成果,如在自然科学、生物科学、社会科学等领域中获得了很多的重要应用成果。2.商品零售业零售业是数据挖掘的主要应用领域,特别是日益增长的电子商务上的商业方式的方便和流行,数据量的不断迅速膨胀,积累了大量的销售数据,如顾客购买历史记录、货物的运输、消费与服务记录等。大量的数据增加销售的难度,而销售的目的是能够获得最大的利润,因此销售什么样的商品、采用什么样的销售策略能够使利润最大化成为商家最关心的问题。通过数据挖掘(关联规则挖掘)能够有助于识别顾客的购买行为,发现顾客的购买模式和趋势,设计更好的商品运输与分销策略以减少商品成本,改进服务质量取得顾客的支持和满意,从而提高商品销量比率,促进利润达到最大化。3.金融投资业大部分银行和金融机构都提供多种多样的银行服务(如用于商业或个人用户的支票、存款)、信用服务(如交易、抵押和各种货款等)和投资服务(如共同基金)等,有的还提供了保险服务和股票投资服务。在这些服务过程中会产生相对较完善、可靠和高质量的数据,大大方便了系统化的数据分析和数据挖掘。利用数据挖掘对已有数据进行处理,通过挖掘到的模式进行市场预测,选择最佳的投资方向,降低金融投资的风险,如进行银行业务过程中,可以根据客户的收入水平、偿还与收入比率和学历水平等来进行贷款偿还预测和客户信用政策分析,尽量降低银行的贷款风险,同时对信用度不同的客户调整贷款发放政策。金融数据的分析还可以帮助侦破洗黑钱和其他金融犯罪活动。4.电信业电信业己经迅速地从单纯的提供市话和长途服务演变为提供综合电信服务,如语音、传真、移动电话、图形、E-mail、计算机、Web数据传输以及其他数据通信服务等。利用数据挖掘技术分析电信网络运行过程中存在的警告信息,从而得到一些有价值的信息,将挖掘到的信息用于网络故障的定位检测和严重故障的预测,有效地管理电信网络。数据挖掘技术还可以帮助理解商业行为、确定电信模式、捕捉盗用行为、识别异常模式、更好地利用资源和提高服务质量。5.保险业随着社会保障体系的日益健全,保险业取得了蓬勃的发展。保险是一项有风险的业务,进行风险评估是保险公司的一个重要工作。在保险公司建立的表单及索赔信息数据库的基础上,利用数据挖掘技术来进行风险分析,寻找风险较大的保单,得到一些较实用的控制风险的规则,来指导保险公司的工作。另外,在保险业中应用数据挖掘技术,有利于保险公司开展业绩评价、财务预算、市场分析、风险评估和风险预测等,大大提高企业防范和抵抗经营风险的能力和水平,同时也给管理人员提供了科学的决策依据。当然,数据挖掘的应用在其他领域也非常广泛。如:在医疗方面,数据挖掘可用于病情和病例的分析,以及处理药方的管理等;在司法方面,数据挖掘可以用于案件的调查、案例的分析和犯罪监控,还可以用来分析犯罪行为特征等;在工业部门方面,数据挖掘可以进行故障的诊断、生产过程的优化等,比如制造行业在质量的控制、制造过程中找出能影响产品质量的最大因素和提高作业流程的效率等方面;在互联网方面,对检测网络入侵信息数据的挖掘可以发现异常的访问模式,从而有效地防止黑客的攻击等等。第五章面向电子商务数据挖掘的分析与应用很多领域尤其是在商业领域已经应用数据挖掘技术。可以说,是商业领域对数据挖掘的大量需求导致了数据挖掘技术的研究热潮。数据挖掘技术是伴随着数据库技术和人工智能技术而发展起来的一种新型的交叉信息技术。一种新的商业模式——电子商务,它积累了巨大的数据量,因而加大了对数据挖掘的需求。随着电子商务的迅猛发展,数据的安全性和保密性要求也越来越高,所有这些都致使企业对数据挖掘提出了更高的要求。5.1面向电子商务数据挖掘特点电子商务具有一些独特的特点,面向电子商务的数据挖掘和传统商业领域中的数据挖掘相比有以下几个特点[64][65]:1.面向电子商务数据挖掘的任务主要表现在客户关系管理方面。由于Internet的存在,电子商务使企业和客户之间的交流更加方便、频繁和便捷,因此,企业更多的需求是如何通过电子商务的数据挖掘掌握更多客户的信息动态,以便改进企业与客户交流的方式和提出新的交流内容等。2.电子商务本身是一个信息化非常完全的系统,所积累的数据通常存储在电子商务系统的数据库中,这些数据库一般是分布式的,而用户主要是从网络上获取这些数据,因此对电子商务使用的数据挖掘主要是分布式数据挖掘。3.电子商务数据挖掘的目的是提高企业竞争力,但是电子商务领域中的数据挖掘提高企业竞争力的方式通常是对电子商务系统的改进。比如给客户推出个性化页面,把用户最感兴趣的信息放在首页,从而更能吸引用户,当然,也存在一些其他的情况,比如挖掘出某些比较受客户欢迎的特征产品,企业可能增强此类产品的设计和生产。总体上来看,电子商务对数据结果的应用通常是针对电子商务系统的。38数据挖掘部分是一个独立的三层结构。最底层是数据层,主要是数据库和其他数据源这些数据源是电子商务系统的关系数据库系统、专业知识和其它的数据源,它们是最原始的数据。中间层是挖掘层,主要是可挖掘的数据库(通常是多维数据库)和挖掘引擎,通过对数据预处理从数据层得到的数据,把从数据层得到的数据按照设计好的数据库模式载入可挖掘的数据库,然后利用挖掘引擎进行挖掘。最顶层是用户界面,主要与用户进行交互,用户通过这个接口来指导挖掘的过程,挖掘通过这个接口向用户返回挖掘的结果,这个结果通常是可视化的。除了部分挖掘以外,还包括用户和电子商务系统两个部分。电子商务系统是向客户提供服务的系统,在运行的过程中产生了很多信息,这是挖掘系统工作的基础,在整个系统中用户是必不可少的。用户在挖掘的过程中与数据挖掘系统进行交互,起指导作用。最后挖掘系统得出结果,并把结果在数据挖掘系统中表现为:提出新的商务策略或修改电子商务网站。395.3电子商务中进行数据挖掘的优势在Internet电子商务中,虽然每个用户在不同的时期会有不同的访问模式,但其长期趋势是稳定的。因此通过分析一定时期内商务站点上的用户的访问信息,可以发现该站点潜在的客户群体、聚类客户、相关页面等,这些信息对于电子商务网站来说是非常有价值的[67]。1.驻留客户,挖掘潜在客户电子商务跨越了时间、空间距离,客户可以自主选择销售商。而销售商通过挖掘客户访问信息,了解客户的浏览行为,根据客户的兴趣与需求,向客户做动态地页面推荐和提供定制化的产品,提高客户满意度,延长客户驻留的时间,最终达到留住客户的目的。在留住老客户的同时也要善于挖掘新客户,利用分类技术可以在Internet上找到潜在客户,通过挖掘Web日志记录,先对已经存在的访问者进行分类,然后从它的分类可以找到潜在的客户。2.制定产品营销策略,优化促销活动对商品访问情况和销售情况进行挖掘,企业能够获取客户的访问规律,确定顾客消费的生命周期,根据市场的变化,针对不同的产品制定相应的营销策略。3.降低运营成本,提高企业竞争力通过Web数据挖掘,电子商务的经营者可以得到可靠的市场反馈信息,分析顾客的未来行为,有针对性的进行电子商务营销活动;根据产品的访问者的浏览模式来决定广告的位置,增强广告针对性,提高广告的投资回报率,从而降低运营成本,提高企业竞争力4.进行个性化推荐根据挖掘客户活动规律,有针对性的在电子商务平台下提供“个性化”的服务。个性化服务是指针对不同的用户提供
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度医疗器材购销协议版B版
- 2024借款展期合同协议书
- 2024年夫妻债务分割与豁免详细合同版B版
- 2024年广告公司业务承接协议条款版B版
- 2024年度企业食堂经营权转让合同3篇
- 2024年定制宣传品采购合同版
- 2024年度公司C区仓储用房租赁合同版B版
- 2024年大型物流仓储配送中心建设合同
- 2024年度保险合同(财产损失)2篇
- 2024年专业给水工程劳务分包协议规范版B版
- 2024年度股权投资融资合同3篇
- 2024版5MW柴油发电机电站运行维护服务合同
- 《胸腔穿刺术》课件
- 2024年世界职业院校技能大赛“食品安全与质量检测组”参考试题库(含答案)
- 《真希望你也喜欢自己》房琪-读书分享
- 浙江省稽阳联谊学校2024-2025学年高三上学期11月联考语文试题
- 时代的物联网技术与应用考核试卷
- 生管部年终总结
- 2024-2030年中国聚合支付行业创新模式及商业模式发展趋势报告
- 丧事邀请函模板
- GB/T 5005-2010钻井液材料规范
评论
0/150
提交评论