数据挖掘数据汇编_第1页
数据挖掘数据汇编_第2页
数据挖掘数据汇编_第3页
数据挖掘数据汇编_第4页
数据挖掘数据汇编_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘数据汇编从Internet如果大家有补充的可随时交流、增加、修改。中国大陆数据挖掘讨论组

精品文档放心下载2000年12月1.数据挖掘技术的由来........................................................................................................4

1.1网络之后的下一个技术热点...................................................................................4

1.2数据爆炸但知识贫乏..............................................................................................4

1.3支持数据挖掘技术的基础......................................................................................4

1.4从商业数据到商业信息的进化..............................................................................5

1.5数据挖掘逐渐演变的过程......................................................................................5

2数据挖掘的定义................................................................................................................6

2.1技术上的定义及含义..............................................................................................6

2.2商业角度的定义......................................................................................................7

2.3数据挖掘与传统分析方法的区别....................................................................7

3资料挖掘的研究历史和现状............................................................................................7

3.1研究历史............................................................................................................7

3.2出版物及工具....................................................................................................8

3.3国内现状............................................................................................................8

3.4业界观点............................................................................................................8

4资料挖掘研究内容和本质................................................................................................9

4.1广义知识(Generalization)............................................................................9

4.2关联知识(Association).......................................................................................9

4.3分类知识(Classification&Clustering).....................................................................9

4.4预测型知识(Prediction).....................................................................................10

4.5偏差型知识(Deviation)...........................................................................................10

5数据挖掘的功能..............................................................................................................10

5.1自动预测趋势和行为......................................................................................10

5.2关联分析..........................................................................................................10

5.3聚类..................................................................................................................11

5.4概念描述.................................................................................................................11

5.5偏差检测.................................................................................................................11

6数据挖掘常用技术..........................................................................................................11

6.1人工神经网络..................................................................................................11

6.2决策树.....................................................................................................................11

6.3遗传算法.................................................................................................................11

6.4近邻算法.................................................................................................................11

6.5规则推导.................................................................................................................11

7数据挖掘工具..................................................................................................................12

7.1基于神经网络的工具......................................................................................12

7.2基于规则和决策树的工具..............................................................................12

7.3基于模糊逻辑的工具......................................................................................12

7.4综合多方法工具..............................................................................................12

8数据挖掘的流程..............................................................................................................12

8.1数据挖掘环境.........................................................................................................12

8.2数据挖掘过程图.....................................................................................................12

8.3数据挖掘过程工作量......................................................................................13

8.4数据挖掘过程简介.................................................................................................13

8.5数据挖掘需要的人员.............................................................................................14

9资料挖掘未来研究方向..................................................................................................14感谢阅读10数据挖掘热点..................................................................................................................15精品文档放心下载10.1网站的数据挖掘(Websitedatamining)........................................................15精品文档放心下载10.2生物信息或基因的数据挖掘..............................................................................16感谢阅读10.3文本的数据挖掘(Textualmining)...................................................................16感谢阅读11Web数据挖掘与XML..................................................................................................16精品文档放心下载11.1Web数据挖掘的难点...........................................................................................16谢谢阅读11.2XML与Web数据挖掘技术................................................................................17谢谢阅读12数据挖掘应用..................................................................................................................20精品文档放心下载12.1数据挖掘解决的典型商业问题.........................................................................20感谢阅读12.2数据挖掘在市场营销的应用.............................................................................20谢谢阅读12.3成功案例.............................................................................................................21谢谢阅读13实施资料挖掘项目考虑的问题......................................................................................23谢谢阅读14实施资料挖掘项目考虑的问题......................................................................................24感谢阅读1.1.数据挖掘技术的由来1.1网络之后的下一个技术热点精品文档放心下载社会。如果用芯片集成度来衡量微电子技术,用CPU处理速度来衡量计算机技术,用信道感谢阅读传输速率来衡量通信技术,那么摩尔定律告诉我们,它们都是以每18个月翻一番的速度在感谢阅读增长,这一势头已经维持了十多年。在美国,广播达到5000万户用了38年;电视用了13感谢阅读Internet拨号上网达到5000万户仅用了4年。全球IP网发展速度达到每6个月翻一番,谢谢阅读国内情况亦然。1999年初,中国上网用户为210万,现在已经达到600万。网络的发展导精品文档放心下载1998年全球产值排序前1005149个。感谢阅读谢谢阅读感谢阅读技术呢?有人甚至提出要把网络技术与火的发明相比拟。火的发明区别了动物和人,种种科精品文档放心下载精品文档放心下载量和人的素质,使人成为社会人、全球人。精品文档放心下载象:《纽约时报》由60年代的10~20版扩张至现在的100~200版,最高曾达1572版;谢谢阅读《北京青年报》也已是16~40版;市场营销报已达100版。然而在现实社会中,人均日阅感谢阅读读时间通常为30~4524谢谢阅读谢谢阅读安全难以保证;第四是信息形式不一致,难以统一处理。人们开始提出一个新的口号:“要谢谢阅读学会抛弃信息”。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、精品文档放心下载提高信息利用率?”面对这一挑战,数据开采和知识发现(DMKD)技术应运而生,并显示出强大的生命感谢阅读力。1.2数据爆炸但知识贫乏感谢阅读谢谢阅读精品文档放心下载等功能,但无法发现数据中存在的关系和规则,无法根据现有的资料预测未来的发展趋势。谢谢阅读缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。感谢阅读1.3支持数据挖掘技术的基础感谢阅读谢谢阅读谢谢阅读谢谢阅读精品文档放心下载成熟,他们是:--海量资料搜集--强大的多处理器计算机--数据挖掘算法Friedman[1997]--超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;

--先进的计算机技术,例如更快和更大的计算能力和并行体系结构;

--对巨大量数据的快速访问;谢谢阅读--对这些资料应用精深的统计方法计算的能力。感谢阅读对计算机硬件性能越来越高的要求,也可以用现在已经成熟的并行多处理机的技术来满足;感谢阅读另外数据挖掘算法经过了这10多年的发展也已经成为一种成熟,稳定,且易于理解和操作谢谢阅读的技术。1.4从商业数据到商业信息的进化谢谢阅读精品文档放心下载库技术已经可以快速地回答商业上的很多问题了。进化阶段商业问题支持技术产品厂家产品特点资料搜集(60年代)“过去五年中我的总收入是多少?”盘IBM,CDC态的数据信息资料访问(80年代)关系数据库“在新英格兰的分Oracle、Sybase、在记录级提供历(RDBMS构部去年三月的销Informix、IBM、化查询语言售额是多少?”Microsoft信息(SQLODBC“在新英格兰的分资料仓库;决策支部去年三月的销联机分析处理Pilot、Comshare、在各种层次上提谢谢阅读援售额是多少?波(OLAPArbor、Cognos、谢谢阅读(90年代)士顿据此可得出据库、数据仓库Microstrategy数据信息精品文档放心下载什么结论?”数据挖掘(正在流行)“下个月波士顿的Pilot、Lockheed、销售会怎么样?器计算机、海量数IBM、SGI、其它为什么?”据库初创公司提供预测性的信息表一、数据挖掘的进化历程。谢谢阅读感谢阅读掘技术在当前的数据仓库环境中进入了实用的阶段。1.5数据挖掘逐渐演变的过程数据挖掘其实是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某些方法精品文档放心下载来实现自动决策支持,当时机器学习成为人们关心的焦点.机器学习的过程就是将一些已知的谢谢阅读并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,感谢阅读这些规则具有通用性,使用它们可以解决某一类的问题.随后,随着神经网络技术的形成和发感谢阅读展,人们的注意力转向知识工程,知识工程不同于机器学习那样给计算机输入范例,让它生成精品文档放心下载精品文档放心下载些问题。专家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不足。80感谢阅读感谢阅读80精品文档放心下载KDD(Knowledgediscoveryindatabase).它泛指所有从源数据中发掘模式或联系的方法,人们精品文档放心下载KDD来描述整个数据发掘的过程,包括最开始的制定业务目标到最精品文档放心下载终的结果分析,而用数据挖掘(datamining)来描述使用挖掘算法进行数据挖掘的子过程。精品文档放心下载精品文档放心下载略是将统计方法与资料挖掘有机的结合起来。谢谢阅读感谢阅读从操作数据源中挖掘信息2数据挖掘的定义2.1技术上的定义及含义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际感谢阅读精品文档放心下载谢谢阅读感谢阅读可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。谢谢阅读----何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、精品文档放心下载谢谢阅读感谢阅读精品文档放心下载谢谢阅读精品文档放心下载感谢阅读精品文档放心下载感谢阅读形成新的技术热点。感谢阅读精品文档放心下载精品文档放心下载语言表达所发现的结果。2.2商业角度的定义进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。

由于纯机会的(Opportunistic)商业运作而产生。分析这些数据也不再是单纯为了研究的需

因此而得名。感谢阅读揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。感谢阅读2.3数据挖掘与传统分析方法的区别数据挖掘与传统的数据分析()的本质区别是数据挖掘是在

没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先未知,有效和

可实用三个特征.谢谢阅读先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉

发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有

价值.在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间

有着惊人的联系.谢谢阅读3资料挖掘的研究历史和现状3.1研究历史从数据库中发现知识(KDD1989年举行的第十一届国际联合人工智谢谢阅读KDD国际研讨会已经召开了8次,谢谢阅读规模由原来的专题讨论会发展到国际学术大会(见表1精品文档放心下载系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。1999年,亚精品文档放心下载太地区在北京召开的第三届PAKDD会议收到158篇论文,空前热烈。IEEE的Knowledge精品文档放心下载andDataEngineering会刊率先在1993年出版了KDD技术专刊。并行计算、计算机网络和谢谢阅读精品文档放心下载到了脍炙人口的程度。3.2出版物及工具此外,在Internet上还有不少KDD电子出版物,其中以半月刊KnowledgeDiscovery感谢阅读Nuggets最为权威(/subscribe.html)。在网上还有许多自由论坛,感谢阅读如DMEmailClub等。至于DMKD书籍,可以在任意一家计算机书店找到十多本。目前,精品文档放心下载世界上比较有影响的典型数据挖掘系统有:SAS公司的EnterpriseMiner、IBM公司的精品文档放心下载IntelligentMinerSGI公司的SetMinerSPSS公司的ClementineSybase公司的Warehouse精品文档放心下载StudioRuleQuestResearch公司的See5CoverStoryEXPLORAKnowledgeDiscovery感谢阅读Workbench、DBMiner、Quest等。读者可以访问.网站,该网感谢阅读站提供了许多数据挖掘系统和工具的性能测试报告。3.3国内现状DMKD1993年国家自然科学基感谢阅读精品文档放心下载感谢阅读精品文档放心下载感谢阅读精品文档放心下载感谢阅读数据的知识发现以及Web数据挖掘。3.4业界观点GartnerGroup的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内精品文档放心下载将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来感谢阅读五年内投资焦点的十大新兴技术前两位。根据最近Gartner的HPC研究表明,“随着资料捕精品文档放心下载谢谢阅读价值,采用更为广阔的并行处理系统来创建新的商业增长点。”谢谢阅读4资料挖掘研究内容和本质----随着DMKD精品文档放心下载支柱:数据库、人工智能和数理统计。因此,KDD大会程序委员会曾经由这三个学科的权感谢阅读威人物同时来任主席。目前DMKD的主要研究内容包括基础理论、发现算法、数据仓库、谢谢阅读精品文档放心下载结构化数据中的知识发现以及网上数据挖掘等。----数据挖掘所发现的知识最常见的有以下四类:4.1广义知识(Generalization)----广义知识指类别特征的概括性描述知识。根据资料的微观特性发现其表征的、带有普遍精品文档放心下载感谢阅读炼和抽象。----广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等。数据立方感谢阅读体还有其它一些别名,如“多维数据库”、“实现视图”、“OLAP"等。该方法的基本思想是实感谢阅读据视图。另一种广义知识发现方法是加拿大SimonFraser大学提出的面向属性的归约方法。

这种方法以类SQL语言表示数据挖掘查询,收集数据库中的相关数据集,然后在相关数据

集上应用一系列数据推广技术进行数据推广,包括属性删除、概念树提升、属性阈值控制、

计数及其它聚集函数传播等。4.2关联知识(Association)感谢阅读----那么其中一项的属性值就可以依据其它属性值进行预测。最为著名的关联规则发现方法是

R.Agrawal提出的Apriori算法。关联规则的发现可分为两步。第一步是叠代识别所有的频

的核心,也是计算量最大的部分。谢谢阅读4.3分类知识(Classification&Clustering)精品文档放心下载----它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的

为典型的决策树学习系统是ID3,它采用自顶向下不回溯策略,能保证找到一个简单的树。

算法C4.5和C5.0都是ID3的扩展,它们将分类领域从类别属性扩展到数值型属性。

----资料分类还有统计、粗糙集(RoughSet)等方法。线性回归和线性辨别分析是典型的统

网络方法在数据库中进行分类和规则提取。谢谢阅读4.4预测型知识(Prediction)----它根据时间序列型资料,由历史的和当前的数据去推测未来的数据,也可以认为是以时谢谢阅读间为关键属性的关联知识。----目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。1968年Box和

Jenkins提出了一套比较完善的时间序列建模理论和分析方法,这些经典的数学方法通过建

立新的模型。也有许多系统借助并行算法的计算优势进行时间序列预测。谢谢阅读4.5偏差型知识(Deviation)----(Deviation)以满足不同用户不同层次决策的需要。感谢阅读5数据挖掘的功能从数据库中发现隐含的、有意义的知识,主要有以下五类功能。谢谢阅读5.1自动预测趋势和行为精品文档放心下载谢谢阅读感谢阅读对指定事件最可能作出反应的群体。5.2关联分析感谢阅读感谢阅读谢谢阅读确定的,因此关联分析生成的规则带有可信度。5.3聚类精品文档放心下载精品文档放心下载分类学。80年代初,Mchalski提出了概念聚类技术牞其要点是,在划分对象时不仅考虑对精品文档放心下载象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。谢谢阅读5.4概念描述感谢阅读谢谢阅读生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,精品文档放心下载如决策树方法、遗传算法等。5.5偏差检测感谢阅读感谢阅读值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。精品文档放心下载6数据挖掘常用技术6.1人工神经网络仿照生理神经网络结构的非线形预测模型,通过学习进行模式识别。谢谢阅读6.2决策树代表着决策集的树形结构。6.3遗传算法基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。感谢阅读6.4近邻算法将数据集合中每一个记录进行分类的方法。6.5规则推导从统计意义上对数据中的“如果-那么”规则进行寻找和推导。谢谢阅读感谢阅读精品文档放心下载机分析系统中去了。7数据挖掘工具7.1基于神经网络的工具感谢阅读感谢阅读据,所以在市场数据库的分析和建模方面应用广泛。7.2基于规则和决策树的工具谢谢阅读谢谢阅读据进行分析和预测。这类工具的主要优点是,规则和决策树都是可读的。感谢阅读7.3基于模糊逻辑的工具“最近”搜索谢谢阅读谢谢阅读有记录,并对结果进行评估。7.4综合多方法工具谢谢阅读括并行数据库牍。这类工具开采能力很强,但价格昂贵,并要花很长时间进行学习。谢谢阅读8数据挖掘的流程8.1数据挖掘环境数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的,可实用感谢阅读的信息,并使用这些信息做出决策或丰富知识.数据挖掘环境可示意如下图:数据库数据挖可视化掘工具工具数据挖掘环境框图8.2数据挖掘过程图下图描述了数据挖掘的基本过程和主要步骤逻辑数被选择被转换被抽取被同化

预处理据库的数据的数据的信息的知识

后的数选择预处理转换挖掘分析和同数据挖掘过程的步骤8.3数据挖掘过程工作量在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检精品文档放心下载验最后结果和指引分析人员完成资料挖掘的依据和顾问.图2各步骤是按一定顺序完成的,当谢谢阅读然整个过程中还会存在步骤间的反馈.数据挖掘的过程并不是自动的,绝大多数的工作需要人感谢阅读工完成.图3给出了各步骤在整个过程中的工作量之比.可以看到,60%的时间用在数据准备感谢阅读上,这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占总工作量的10%.精品文档放心下载确定业务对象数据准备数据处理结果分析和知识的同化图3数据挖掘过程工作量比例8.4数据挖掘过程简介过程中各步骤的大体内容如下:1.1.确定业务物件清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是谢谢阅读不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会精品文档放心下载成功的.2.2.资料准备1)1)数据的选择搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应谢谢阅读用的数据.2)2)数据的预处理研究资料的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型.精品文档放心下载3)3)数据的转换将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适精品文档放心下载合挖掘算法的分析模型是数据挖掘成功的关键.3.3.数据挖掘对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工感谢阅读作都能自动地完成.4.4.结果分析解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技精品文档放心下载术.5.5.知识的同化将分析所得到的知识集成到业务信息系统的组织结构中去.谢谢阅读8.5数据挖掘需要的人员数据挖掘过程的分步实现,不同的步会需要是有不同专长的人员,他们大体可以分为三

类.感谢阅读业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定

义和挖掘算法的业务需求.感谢阅读资料分析人员:精通资料分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化

为数据挖掘的各步操作,并为每步操作选择合适的技术.谢谢阅读数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据.感谢阅读从上可见,资料挖掘是一个多种专家合作的过程,也是一个在资金上和技术上高投入的感谢阅读过程.这一过程要反复进行牞在反复过程中,不断地趋近事物的本质,不断地优先问题的解谢谢阅读决方案。数据重组和细分添加和拆分记录选取数据样本可视化数据探索聚类分析神经网络、谢谢阅读谢谢阅读价。9资料挖掘未来研究方向----当前,DMKD研究方兴未艾,其研究与开发的总体水平相当于数据库技术在70年代所精品文档放心下载处的地位,迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导,感谢阅读才能使DMKD的应用得以普遍推广。预计在本世纪,DMKD的研究还会形成更大的高潮,谢谢阅读研究焦点可能会集中到以下几个方面:发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL感谢阅读语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在感谢阅读知识发现的过程中进行人机交互;研究在网络环境下的数据挖掘技术(WebMiningDMKD感谢阅读服务器,并且与数据库服务器配合,实现WebMining;谢谢阅读DataMiningforAudio&Video精品文档放心下载形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;谢谢阅读处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构感谢阅读比较独特。为了处理这些复杂的资料,就需要一些新的和更好的分析和建立模型的精品文档放心下载方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一谢谢阅读些工具和软件。交互式发现;知识的维护更新。DMKD将首先满足信息时代用户的急感谢阅读需,大量的基于DMKD的决策支持软件产品将会问世。只有从数据中有效地提取信息,从谢谢阅读感谢阅读够真正成为与物质、能源相媲美的资源,信息时代才会真正到来。谢谢阅读10数据挖掘热点就目前来看,将来的几个热点包括网站的数据挖掘(Websitedatamining)、生物信息感谢阅读或基因(Bioinformatics/genomics)的数据挖掘及其文本的数据挖掘(Textualmining)。下谢谢阅读面就这几个方面加以简单介绍。10.1网站的数据挖掘(Websitedatamining)精品文档放心下载需求随着Web技术的发展,各类电子商务网站风起云涌,建立起一个电子商务网站并不困谢谢阅读谢谢阅读谢谢阅读谢谢阅读谢谢阅读感谢阅读量的记录文件(Logfiles)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜感谢阅读精品文档放心下载精品文档放心下载了解客户。电子商务网站数据挖掘息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流

(Click-stream),此部分资料主要用于考察客户的行为表现。但有的时候,客户对自己的

据准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。精品文档放心下载10.2生物信息或基因的数据挖掘这都需要数据挖掘技术的支持。精品文档放心下载精品文档放心下载精品文档放心下载谢谢阅读的地步。10.3文本的数据挖掘(Textualmining)感谢阅读精品文档放心下载感谢阅读谢谢阅读谢谢阅读谢谢阅读精品文档放心下载分析功能。精品文档放心下载数据挖掘将发挥出越来越大的作用。11Web数据挖掘与XML11.1Web数据挖掘的难点Web上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研感谢阅读谢谢阅读Web精品文档放心下载的数据而言,传统的数据库中的数据结构性很强,即其中的数据为完全结构化的数据,而精品文档放心下载Web上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的谢谢阅读数据而言。显然,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。感谢阅读1.异构数据库环境从数据库研究的角度出发,Web网站上的信息也可以看作一个数据库,一个更大、更谢谢阅读复杂的数据库。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一谢谢阅读感谢阅读感谢阅读谢谢阅读西。其次,还要解决Web上的数据查询问题,因为如果所需的数据不能很有效地得到,对谢谢阅读这些数据进行分析、集成、处理就无从谈起。2.半结构化的数据结构Web上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模型,可

以根据模型来具体描述特定的数据。而Web上的数据非常复杂,没有特定的模型描述,每

一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,Web上的

之为半结构化数据。半结构化是Web上数据的最大特点。谢谢阅读3.解决半结构化的数据源问题Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问

WebWeb上

的数据。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的

动地从现有数据中抽取半结构化模型的技术。面向Web的数据挖掘必须以半结构化模型和

半结构化数据模型抽取技术为前提。谢谢阅读11.2XML与Web数据挖掘技术以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以很好地兼容原

有的Web应用,而且可以更好地实现Web中的信息共享与交换。XML可看作一种半结构感谢阅读XML感谢阅读精确地查询与模型抽取。1.XML的产生与发展XML(extensibleMarkupLanguage)是由万维网协会(W3C)Web应用服务的谢谢阅读SGML(StandardGeneralMarkupLanguage)的一个重要分支。总的来说,XML是一种中介标感谢阅读示语言(Meta-markupLanguage)XML是一种类谢谢阅读似于HTML,被设计用来描述数据的语言。XML提供了一种独立的运行程序的方法来共享谢谢阅读数据,它是用来自动描述信息的一种新的标准语言,它能使计算机通信把Internet的功能由感谢阅读信息传递扩大到人类其它多种多样的活动中去。XML由若干规则组成,这些规则可用于创精品文档放心下载建标记语言,并能用一种被称作分析程序的简明程序处理所有新创建的标记语言,正如谢谢阅读HTML为第一个计算机用户阅读Internet文文件提供一种显示方式一样,XML也创建了一谢谢阅读种任何人都能读出和写入的世界语。XML解决了HTML不能解决的两个Web问题,即感谢阅读Internet发展速度快而接入速度慢的问题,以及可利用的信息多,但难以找到自己需要的那精品文档放心下载部分信息的问题。XML能增加结构和语义信息,可使计算机和服务器实时处理多种形式的感谢阅读信息。因此,运用XML的扩展功能不仅能从Web服务器下载大量的信息,还能大大减少感谢阅读网络业务量。XML中的标志(TAG)XML是能精品文档放心下载够进行自解释(SelfDescribing)的语言。XML使用DTD(DocumentTypeDefinition文文件类谢谢阅读型定义)来显示这些数据,XSL(eXtensibleStyleSheetLanguage)是一种来描述这些文文件如谢谢阅读何显示的机制,它是XML的样式表描述语言。XSL的历史比HTML用的CSS(层迭式样式谢谢阅读表CascadingStyleSheets)还要悠久,XSLXML谢谢阅读个用来格式化XML文檔的方法。XLL(eXtensibleLinkLanguage)是XML谢谢阅读XMLHTMLXLL精品文档放心下载XML谢谢阅读使用户很轻松地找到他们需要的信息。利用XML,Web设计人员不仅能创建文字和图形,感谢阅读精品文档放心下载样式表。2.XML的主要特点正是XML的特点决定了其卓越的性能表现。XML作为一种标记语言,有许多特点:谢谢阅读(1)XML经过精心设计,整个规范简单明了,它由若干规则组成,这些规则可用感谢阅读于创建标记语言,并能用一种常常称作分析程序的简明程序处理所有新创建的标记语言。精品文档放心下载XML谢谢阅读如XML创建的标记总是成对出现,以及依靠称作统一代码的新的编码标准。精品文档放心下载(2)开放。XML是SGML在市场上有许多成熟的软件可用来帮助编写、管理等,开放式谢谢阅读标准XML的基础是经过验证的标准技术,并针对网络做最佳化。众多业界顶尖公司,与感谢阅读W3C的工作群组并肩合作,协助确保交互作业性,支持各式系统和浏览器上的开发人员、谢谢阅读XML标准。XML解释器可以使用编程的方法来加载一个XML的谢谢阅读,用户就可以通过XML文件对象模型来获取和操纵整个文文精品文档放心下载件的信息,加快了网络运行速度。(3)高效且可扩充。支持复用文档片断,使用者可以发明和使用自己的标签,也可与他谢谢阅读人共享,可延伸性大,在XML中,可以定义无限量的一组标注。XML提供了一个标示结精品文档放心下载XML谢谢阅读XML精品文档放心下载精品文档放心下载转交到其它应用程序做进一步的处理。XML提供了一个独立的运用程序的方法来共享数据,谢谢阅读使用DTDDTD谢谢阅读个标准的DTD来验证你接受到的资料是否有效,你也可以使用一个DTD来验证你自己的感谢阅读资料。(4)国际化。标准国际化,且支持世界上大多数文字。这源于依靠它的统一代码的新的精品文档放心下载编码标准,这种编码标准支持世界上所有以主要语言编写的混合文本。在HTML中,就大谢谢阅读精品文档放心下载XML谢谢阅读语言的软件就能顺利处理这些不同语言字符的任意组合。因此,XML不仅能在不同的计算谢谢阅读机系统之间交换信息,而且能跨国界和超越不同文化疆界交换信息。谢谢阅读3.XML在Web数据挖掘中的应用XMLXMLXML在三谢谢阅读层架构上为数据处理提供了很好的方法。使用可升级的三层模型,XML可以从存在的资料精品文档放心下载中产生出来,使用XML结构化的数据可以从商业规范和表现形式中分离出来。感谢阅读促进XML应用的是那些用标准的HTML无法完成的Web应用。这些应用从大的方面谢谢阅读讲可以被分成以下四类:需要Web客户端在两个或更多异质数据库之间进行通信的应用;谢谢阅读试图将大部分处理负载从Web服务器转到Web客户端的应用;需要Web客户端将同样的感谢阅读数据以不同的浏览形式提供给不同的用户的应用;需要智能Web代理根据个人用户的需要谢谢阅读Web的数据挖掘技术有着重要的联系,基于谢谢阅读Web的数据挖掘必须依靠它们来实现。XML给基于Web感谢阅读了许多好处。比如进行更有意义的搜索,并且Web数据可被XML唯一地标识。没有谢谢阅读XML,搜索软件必须了解每个数据库是如何构建的,但这实际上是不可能的,因为每个数精品文档放心下载谢谢阅读的不兼容的数据库实际上是不可能的。XML能够使不同来源的结构化的数据很容易地结合谢谢阅读谢谢阅读成。然后,数据就能被发送到客户或其它服务器做进一步的集合、处理和分发。XML的扩感谢阅读展性和灵活性允许它描述不同种类应用软件中的数据,从描述搜集的Web页到数据记录,精品文档放心下载XML感谢阅读XMLXML格式的谢谢阅读感谢阅读不同的方法处理资料,而不仅仅是显示它。XML文文件对象模式(DOM)允许用脚本或其它精品文档放心下载编程语言处理数据,数据计算不需要回到服务器就能进行。XML可以被利用来分离使用者精品文档放心下载观看数据的接口,使用简单灵活开放的格式,可以给Web创建功能强大的应用软件,而原感谢阅读来这些软件只能建立在高端数据库上。另外,资料发到桌面后,能够用多种方式显示。感谢阅读XMLXML补充了HTML谢谢阅读HTMLXML精品文档放心下载与内容分开,XML定义的资料允许指定不同的显示方式,使数据更合理地表现出来。本地谢谢阅读的数据能够以客户配置、使用者选择或其它标准决定的方式动态地表现出来。CSS和XSL感谢阅读为数据的显示提供了公布的机制。通过XML,数据可以粒状地更新。每当一部分数据变化感谢阅读感谢阅读谢谢阅读重建。这严重限制了服务器的升级性能。XML也允许加进其它数据,比如预测的温度。加谢谢阅读入的信息能够进入存在的页面,不需要浏览器重新发一个新的页面。XML应用于客户需要精品文档放心下载与不同的数据源进行交互时,数据可能来自不同的数据库,它们都有各自不同的复杂格式。谢谢阅读但客户与这些数据库间只通过一种标准语言进行交互,那就是XML。由于XML的自定义感谢阅读精品文档放心下载数据库间进行传递。总之,在这类应用中,XML解决了数据的统一接口问题。但是,与其谢谢阅读它的数据传递标准不同的是,XML并没有定义数据文件中数据出现的具体规范,而是在数精品文档放心下载据中附加TAGXML成为一种程序能自动理解的规范。精品文档放心下载XML应用于将大量运算负荷分布在客户端,即客户可根据自己的需求选择和制作不同感谢阅读XML“Client/Server”工谢谢阅读感谢阅读感谢阅读感谢阅读程人员可能来不及满足众多的应用需求,也来不及跟上需求的变化,双方都很被动。应用感谢阅读XML则将处理资料的主动权交给了客户,服务器所作的只是尽可能完善、准确地将数据封感谢阅读装进XML文件中,正是各取所需、各司其职。XML的自解释性使客户端在收到数据的同谢谢阅读时也理解数据的逻辑结构与含义,从而使广泛、通用的分布式计算成为可能。精品文档放心下载XML还被应用于网络代理,以便对所取得的信息进行编辑、增减以适应个人用户的需谢谢阅读要。有些客户取得数据并不是为了直接使用而是为了根据需要组织自己的数据库。比方说,精品文档放心下载感谢阅读进XML精品文档放心下载精品文档放心下载此外,XML文件中还可以包含进诸如难度系数、往年错误率等其它相关信息,这样只需几谢谢阅读个小程序,同一个XML文件便可变成多个文件传送到不同的用户手中。感谢阅读面向WebWeb数据挖掘比单个数据仓库的挖掘要感谢阅读WebXML的出现为解决Web谢谢阅读XML能够使不同来源的结构化的数据很容易地结合在一感谢阅读起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来感谢阅读了希望。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从而能描述谢谢阅读搜集的Web页中的数据记录。同时,由于基于XML的数据是自我描述的,数据不需要有谢谢阅读内部描述就能被交换和处理。作为表示结构化数据的一个工业标准,XML为组织、软件开精品文档放心下载发者、Web站点和终端使用者提供了许多有利条件。相信在以后,随着XML作为在Web谢谢阅读上交换数据的一种标准方式的出现,面向Web的数据挖掘将会变得非常轻松。精品文档放心下载12数据挖掘应用12.1数据挖掘解决的典型商业问题精品文档放心下载(datamining)都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售(如超级市谢谢阅读场)等商业领域。数据挖掘所能解决的典型商业问题包括:数据库营销(Database谢谢阅读Marketing)、客户群体划分(CustomerSegmentation&Classification)、背景分析(Profile感谢阅读Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn精品文档放心下载Analysis)、客户信用记分(CreditScoring)、欺诈发现(FraudDetection)等等。感谢阅读12.2数据挖掘在市场营销的应用精品文档放心下载原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。精品文档放心下载精品文档放心下载趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,感谢阅读谢谢阅读感谢阅读带来更多的利润。谢谢阅读谢谢阅读精品文档放心下载的公司。资料挖掘构筑竞争优势。挖掘对业务信息进行深加工,以构筑自己的竞争优势,扩大自己的营业额。美国运通公司

(AmericanExpress)有一个用于记录信用卡业务的数据库,数据量达到54亿字符,并仍在随

着业务进展不断更新。运通公司通过对这些数据进行挖掘,制定了“关联结算(Relationship

Billing)优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一

航班去过巴黎,那么他可能会得到一个周末前往纽约的机票打折优惠卡。感谢阅读夫(Kraft)食品公司建立了一个拥有3000万客户数据的数据库,数据库是通过收集对公司发

(Reader'sDigest)出版公司运

行着一个积累了40年的业务数据库,其中容纳有遍布全球的一亿多个订户的数据,数据库

每天24小时连续运行,保证数据不断得到实时的更新,正是基于对客户数据数据库进行数

版和发行业务,极大地扩展了自己的业务。感谢阅读肯定会比漫无目的的营销效果要好得多。谢谢阅读12.3成功案例1电话收费和管理办法加拿大BC省电话公司要求加拿大Simon

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论