数据挖掘原理与算法01_第1页
数据挖掘原理与算法01_第2页
数据挖掘原理与算法01_第3页
数据挖掘原理与算法01_第4页
数据挖掘原理与算法01_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘信息管理与工程学院教材信息:教材信息:数据挖掘原理与算法 毛国君,段立娟,王实,石云 清华大学出版社,2007 本课程的一些约定:n1、课程目的:拓宽与加深专业知识n2、注重平时学习n作业按时完成n未按时为晚交n一周内未交视为放弃n作业按规定要求完成n教科书:不可或缺n不允许抄袭n但鼓励讨论n3、无迟到、缺席、手机等n 什么激发了数据挖掘,为什么它是重要的?n什么是数据挖掘?n在何种数据上进行数据挖掘?n数据挖掘功能可以挖掘什么类型的模式n所有模式都是有趣的吗?n数据挖掘系统的分类n数据挖掘的主要问题第一章第一章 绪论绪论 内容提要内容提要n数据挖掘技术的产生与发展 n数据挖掘研究的发

2、展趋势 n数据挖掘概念 n数据挖掘技术的分类问题n数据挖掘常用的知识表示模式与方法n不同数据存储形式下的数据挖掘问题 n粗糙集方法及其在数据挖掘中的应用 n数据挖掘的应用分析 数据挖掘技术的商业需求分析 n随着信息技术的高速发展,数据库应用的规模、范围和深度不断扩大,网络环境成为主流等等。产生“数据丰富而信息贫乏(Data Rich & Information Poor)”现象。n在强大的商业需求的驱动下,商家们开始注意到有效地解决大容量数据的利用问题具有巨大的商机;学者们开始思考如何从大容量数据集中获取有用信息和知识的方法。n随着信息技术的高速发展,人们希望能够提供更高层次的数据处理

3、功能。新的需求推动新的技术的诞生。n数据(Data)、信息(Information)和知识(Knowledge)是广义数据表现的不同形式。数据、信息和知识datainformationknowledge数据挖掘产生的技术背景n数据挖掘是相关学科充分发展的基础上被提出和发展的。n主要的相关技术:n数据库、数据仓库和Internet等信息技术的发展n计算机性能的提高和先进的体系结构的发展n统计学和人工智能等方法在数据分析中的研究和应用数据挖掘是一个多学科交叉技术 Data MiningDatabase TechnologyStatisticsOtherDisciplinesInformationS

4、cienceAI /MachineLearningVisualization数据库系统的发展n60年代:简单文件处理系统向数据库系统变革 。n70年代:层次、网络和关系型数据库普及。 n80年代:RDBS及其相关工具、数据索引及数据组织技术被广泛采用;中期开始,分布式数据库广发讨论,关系数据库技术和新型技术的结合。 n90年代:数据库领域中的新内容、新应用、新技术层出不穷,形成了庞大的数据库家族;人们期望分析预测、决策支持等高级应用, Data mining and data warehousing等出现。n本世纪开始: Data mining 得到理论/技术深化。统计学的深入应用n强大有效的

5、数理统计方法和工具,已成为信息咨询业的基础 。n统计分析技术是基于严格的数学理论和高超的应用技巧的 。 n数据挖掘技术是数理统计分析应用的延伸和发展 。 n和数据库技术的结合性研究人工智能技术的研究和应用n人工智能是计算机科学研究中争议最多而又仍始终保持强大生命的研究领域。n专家系统曾经是人工智能研究工作者的骄傲,但是诸多难题限制了专家系统的应用:n知识获取成为专家系统研究中公认的瓶颈问题。n知识表示成为一大难题:知识工程师在整理表达从领域专家那里获得的知识时勉强抽象出来的规则有很强的工艺色彩。n对常识和百科知识出奇地贫乏:人工智能学家Feigenbaum估计,一般人拥有的常识存入计算机大约有

6、100万条事实和抽象经验法则,离开常识的专家系统有时会比傻子还傻。n数据挖掘继承了专家系统的高度实用性特点,并且以数据为基本出发点,客观地挖掘知识。n机器学习得到了充分的研究和发展:理论和算法。n数据挖掘研究在继承已有的人工智能相关领域,特别是机器学习的研究成果的基础上,成为新的研究分支。第一章第一章 绪论绪论 内容提要内容提要n数据挖掘技术的产生与发展 n数据挖掘研究的发展趋势n数据挖掘概念n数据挖掘技术的分类问题n数据挖掘常用的知识表示模式与方法n不同数据存储形式下的数据挖掘问题 n粗糙集方法及其在数据挖掘中的应用 n数据挖掘的应用分析 数据挖掘处于研究和应用探索阶段n经过十几年的研究和实

7、践,数据挖掘技术已经吸收了许多学科的最新研究成果而形成独具特色的研究分支。n大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段:n一方面,数据挖掘的概念已经被广泛接受。n另一方面,数据挖掘的大面积应用还有待时日。n随着KDD在学术界和工业界的影响越来越大,数据挖掘的研究向着更深入和实用技术方向发展:n大学等研究机构的大多数基础性研究集中在数据挖掘理论、挖掘算法等的探讨上。n公司的研究更注重和实际商业问题结合。n数据挖掘的经济价值已经显现出来:Gartner报告中列举重要影响的五项关键技术,其中KDD和人工智能排名第一。数据挖掘研究聚焦点n数据挖掘在如下几个方面需要重点开展工作:n数据挖掘技

8、术与特定商业逻辑的平滑集成问题:数据挖掘技术与特定商业逻辑的平滑集成问题:数据挖掘需要代表性的应用实例来证明(像“啤酒与尿布” )。n数据挖掘技术与特定数据存储类型的适应问题:数据挖掘技术与特定数据存储类型的适应问题:不同的数据存储方式会影响数据挖掘的具体实现机制、目标定位、技术有效性等。n大型数据的选择与规格化问题:大型数据的选择与规格化问题:n数据的噪音、信息丢失等问题的处理;n针对特定挖掘方法进行数据规格化等问题。n数据挖掘系统的构架与交互式挖掘技术:数据挖掘系统的构架与交互式挖掘技术:n在具体的实现机制、技术路线以及各阶段的功能定位等方面仍需细化和深入研究。n良好的交互式挖掘(Inte

9、raction Mining)也是数据挖掘系统成功的前提。n数据挖掘语言与系统的可视化问题:数据挖掘语言与系统的可视化问题:可视化挖掘除了要和良好的交互式技术结合外,还必须在挖掘结果或过程的可视化进行探索和实践。n数据挖掘理论与算法研究数据挖掘理论与算法研究n一方面,在已有的理论框架下有许多面向实际应用目标的挖掘理论等待探索和创新。n另一方面,随着数据挖掘技术本身和相关技术的发展,新的挖掘理论和算法的诞生是必然的。第一章第一章 绪论绪论 内容提要内容提要n数据挖掘技术的产生与发展 n数据挖掘研究的发展趋势n数据挖掘概念n数据挖掘技术的分类问题n数据挖掘常用的知识表示模式与方法n不同数据存储形式

10、下的数据挖掘问题 n粗糙集方法及其在数据挖掘中的应用 n数据挖掘的应用分析 从商业角度看数据挖掘技术 n数据挖掘从本质上说是一种新的商业信息处理技术:n数据挖掘技术把人们对数据的应用,从低层次的联机查询操作,提高到决策支持、分析预测等更高级应用上。n通过对数据的统计、分析、综合和推理,发现数据间的关联性、未来趋势以及一般性的概括知识等,这些知识性的信息可以用来指导高级商务活动。n从决策、分析和预测等高级商业目的看,原始数据只是未被开采的矿山,需要挖掘和提炼才能获得对商业目的有用的规律性知识。n从商业角度看,数据挖掘就是按企业的既定业务目标,对大量的企业数据进行深层次分析以揭示隐藏的、未知的规律

11、性并将其模型化,从而支持商业决策活动。数据挖掘的技术含义 n数据库中的知识发现(KDD: Knowledge Discovery in Databases)是比数据挖掘出现更早的一个名词。 nKDD与Data Mining的关系,有不同的看法:nKDDKDD看成数据挖掘的一个特例:看成数据挖掘的一个特例:这是早期比较流行的观点,这种描这是早期比较流行的观点,这种描述强调了数据挖掘在源数据形式上的多样性。述强调了数据挖掘在源数据形式上的多样性。n数据挖掘是数据挖掘是KDDKDD的一个关键步骤:的一个关键步骤:这种观点得到大多数学者认同,这种观点得到大多数学者认同,有它的合理性。有它的合理性。nK

12、DDKDD与与Data MiningData Mining含义相同:含义相同:事实上,在现今的许多场合,如技事实上,在现今的许多场合,如技术综述等,这两个术语仍然不加区分地使用着。也有其他的说法:术综述等,这两个术语仍然不加区分地使用着。也有其他的说法:nKDDKDD在人工智能界更流行,而在人工智能界更流行,而Data MiningData Mining在数据库界使用更多。在数据库界使用更多。n在研究领域被称作在研究领域被称作KDDKDD,在工程领域则称之为数据挖掘。,在工程领域则称之为数据挖掘。 数据挖掘定义n数据挖掘定义有广义和狭义之分。n从广义的观点,数据挖掘是从大型数据集(可能是不完全

13、的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。n从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。n下列技术不是数据挖掘:nOLTP nExpert systems nSmall MLnStatistical programs 数据挖掘研究的理论基础 n数据挖掘方法可以是基于数学理论的,也可以是非数学的;可以是演绎的,也可以是归纳的。n从研究者可能是来自于数据库、人工智能、数理统计、计算机科学以及其他方面的学者和工程技术人员,他们会从不同的视点进行探讨性研究。n有下面一些重要的理论视点值得关注:n模式发现(

14、Pattern Discovery)架构n规则发现(Rule Discovery)架构 n基于概率和统计理论n微观经济学观点(Microeconomic View)n基于数据压缩(Data Compression)理论n基于归纳数据库(Inductive Database)理论n可视化数据挖掘(Visual Data Mining)n等等 第一章第一章 绪论绪论 内容提要内容提要n数据挖掘技术的产生与发展 n数据挖掘研究的发展趋势 n数据挖掘概念 n数据挖掘技术的分类问题n数据挖掘常用的知识表示模式与方法n不同数据存储形式下的数据挖掘问题 n粗糙集方法及其在数据挖掘中的应用 n数据挖掘的应用分

15、析 根据挖掘任务n分类或预测模型发现n数据总结与聚类发现n关联规则发现n序列模式发现n相似模式发现n混沌模式发现n依赖关系或依赖模型发现n异常和趋势发现等根据挖掘对象n关系数据库挖掘n面向对象数据库挖掘n空间数据库挖掘n时态数据库挖掘n文本数据源挖掘n多媒体数据库挖掘n异质数据库挖掘n遗产数据库挖掘nweb数据挖掘等根据挖掘方法n机器学习方法n统计方法n聚类分析方法n神经网络(Neural Network)方法n遗传算法(Genetic Algorithm)方法n数据库方法n近似推理和不确定性推理方法n基于证据理论和元模式的方法n现代数学分析方法n粗糙集(Rough Set)或模糊集方法n集成

16、方法等根据知识类型n挖掘广义型知识n挖掘差异型知识n挖掘关联型知识n挖掘预测型知识n挖掘偏离型(异常)知识n挖掘不确定性知识等第一章第一章 绪论绪论 内容提要内容提要n数据挖掘技术的产生与发展 n数据挖掘研究的发展趋势 n数据挖掘概念 n数据挖掘技术的分类问题n数据挖掘常用的知识表示模式与方法n不同数据存储形式下的数据挖掘问题 n粗糙集方法及其在数据挖掘中的应用 n数据挖掘的应用分析 知识表示模式分类n数据挖掘的目的是发现知识,知识要通过一定的模式给出。通过对数据挖掘中知识表示模式及其所采用方法的分析,可以更清楚地了解数据挖掘系统的特点。n主要知识模式类型有:n广义知识(Generalizat

17、ion)n关联知识(Association)n类知识(Class/Cluster)n预测型知识(Prediction)n特异型知识(Exception) 广义知识挖掘 n广义知识是指描述类别特征的概括性知识。这类数据挖掘系统是对细节数据的所蕴涵的概念特征信息的概括和抽象的过程。n主要方法有:n概念描述(概念描述(Concept DescriptionConcept Description)方法:)方法:概念描述本质上就是对某类对象的内涵特征进行概括:n特征性(Characterization)描述:描述某类对象的共同特征。n区别性(Discrimination)描述:描述不同类对象之间的区别。

18、n多维数据分析可以看作是一种广义知识挖掘的特例多维数据分析可以看作是一种广义知识挖掘的特例n多层次概念描述问题:多层次概念描述问题:由数据归纳出的概念是有层次的,不同层次的概念是对原始数据的不同粒度上的概念抽象。例如,n“北京工业大学”能归纳出“北京市”、“中国”、“亚洲”等层次。n销售表SALES(ENO,ENAME,EAGE,VALUE,DEPT),它的每个属性的定义域都可能存在蕴涵于领域知识内的概念延伸。例如,DEPT能归纳出公司COMPANY、城市CITY或国家COUNTRY等层次n概念分层(Concept Hierarchy)技术:将低层概念集映射到高层概念集的方法,是一个常用的处理

19、多层次概念描述的方法。主要的概念分层方法 n模式分层(模式分层(Schema HierarchySchema Hierarchy):):利用属性在特定背景知识下的语义层次形成不同层次的模式关联。n这种关联是一种的全序或偏序关系。n例如,DEPT的模式分层结构可能是:DEPTCOMPANYCITYCOUNTRY。n集合分组分层(集合分组分层(Set-Grouping HierarchySet-Grouping Hierarchy):):将属性在特定背景知识下的取值范围合理分割,形成替代的离散值或区间集合。n例如,年龄EAGE可以抽象成20,29,30,39,40,49,50,59或者青年,中年,

20、老年 。n操作导出分层(操作导出分层(Operation-Drived HierarchyOperation-Drived Hierarchy):):有些属性可能包含多类信息。n例如,一个跨国公司的雇员号可能包含这个雇员的所在的部门、城市、国家和雇佣的时间等。对这类对象可以作为背景知识定义它的结构,通过编码解析等操作完成概念的抽象。n基于规则分层(基于规则分层(Rule-Based HierarchyRule-Based Hierarchy):):通过定义背景知识的抽象规则,形成不同层次上的概念的抽象。关联知识挖掘 n关联知识挖掘的目的就是找出数据库中隐藏的关联信息。n关联知识反映一个事件和其

21、他事件之间的依赖或关联。n关联可分为简单关联、时序(Time Series)关联、因果关联、数量关联等。n从广义上讲,关联分析是数据挖掘的本质。n关联规则挖掘(Association Rule Mining)是关联知识发现的最常用方法:n关联规则的研究最早的分支之一,最著名的Apriori算法。n是数据挖掘研究中比较深入的分支,许多关联规则挖掘的理论和算法已经被提出。类知识挖掘类知识挖掘n类知识(Class)刻画了一类事物,这类事物具有某种意义上的共同特征,并明显和不同类事物相区别。 n有两个基本的方法来挖掘类知识:n分类:分类是数据挖掘中的一个重要的目标和任务,是目前的研究和应用最多的分支之

22、一。n分类的目的是学会一个分类模型(称作分类器),该模型能把数据库中的数据项映射到给定类别中。n分类技术是一种有指导的学习(Supervised Learning),即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。n聚类:数据挖掘的目标之一是进行聚类分析。n聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的差别尽可能的小,而不同类别上的个体间的差别尽可能的大。n聚类属于无指导学习(Unsupervised Learning) ),当一组数据对象可以由一个概念(区别于其他的概念)来描述时,就形成一个簇(Cluster)。刻画了数

23、据所蕴涵的类知识。分类中的基础方法n决策树方法:基本的分类技术之一,如ID3及其改进算法ID4、ID5、C4.5、C5.0等;针对大训练样本集的SLIQ、SPRINT、雨林(Rainforest)BOAT等算法。n贝叶斯分类 :具有坚实的理论基础,理论上具有较小的出错率。但是,它的适应性差。n神经网络:作为一个相对独立的研究分支已经很早被提出,具有高度的抗干扰能力和可以对未训练数据进行分类等优点,因此产生了神经网络和数据挖掘技术的结合性研究。n遗传算法:是基于进化理论的机器学习方法。n类比学习 :最典型的方法是k-最临近分类(k-Nearest Neighbor Classification)

24、方法,它属于懒散学习法。n其他方法:如粗糙集(Rough Set)、模糊集(Fuzzy Set)方法等 。 主要聚类的技术n基于划分的聚类方法:基于划分的聚类方法:k-平均算法是统计学中的一个经典聚类方法,它以预先定义好的簇平均值,构造划分,评价和选择他们。n基于层次的聚类方法:基于层次的聚类方法:通过对源数据库中的数据进行层次分解,达到目标簇的逐步生成。n凝聚(Agglomeration):由小到大逐步合并、评价。n分裂(Division)由大到小逐步分裂、评价。n基于密度的聚类方法:基于密度的聚类方法:基于密度的聚类方法是通过度量区域所包含的对象数目来形成最终目标的。n如果一个区域的密度超

25、过指定的值,那么它就需要进一步分解。n基于网格的聚类方法:基于网格的聚类方法:对象空间离散化成有限的网格单元,聚类工作在这种网格结构上进行。n基于模型的聚类方法:基于模型的聚类方法:每个簇假定一个模型,寻找数据对给定模型的最佳拟和。预测型知识挖掘预测型知识挖掘n预测型知识(Prediction)是指由历史的数据产生的并能推测未来数据趋势的知识。n预测性挖掘主要是对未来数据的概念分类和趋势输出。n分类技术可以用于产生预测型的类知识。n统计学中的回归方法等可以通过历史数据直接产生对未来数据预测的连续值,因而这些预测型知识已经蕴藏在诸如趋势曲线等输出形式中。n预测型知识的挖掘可以结合经典的统计方法、

26、神经网络和机器学习等技术来研究。预测型知识挖掘中预测型知识挖掘中的典型方法 n趋势预测模式:趋势预测模式:主要是针对那些具有时序(Time Series)属性的数据,如股票价格等,或者是序列项目(Sequence Items)的数据,如年龄和薪水对照等,发现长期的趋势变化等。n周期分析模式:周期分析模式:主要是针对那些数据分布和时间的依赖性很强的数据进行周期模式的挖掘。例如,服装在某季节或所有季节的销售周期。n序列模式:序列模式:主要是针对历史事件发生次序的分析形成预测模式来对未来行为进行预测。例如,预测“三年前购买计算机的客户有很大概率会买数字相机”。n神经网络:神经网络:在预测型知识挖掘中

27、,神经网络也是很有用的模式结构。特异型知识挖掘 n特异型知识(Exception)是源数据中所蕴涵的极端特例或明显区别于其他数据的知识描述,它揭示了事物偏离常规的异常规律。n特异知识挖掘的价值:n例如,在Web站点发现那些区别于正常登录行为的用户特点可以防止非法入侵。n金融、电信欺诈等n分类中的反常实例、不满足普通规则的特例、观测结果与模型预测值的偏差、数据聚类外的离群值等特异型知识挖掘的任务和方法 n许多技术可以扩展到特异型知识挖掘中,如:n孤立点孤立点(Outlier)分析:分析:孤立点是指不符合数据的一般模型的数据。在类知识挖掘中,孤立点分析是不能归入正常类知识中的零散数据的再分析。n异

28、常序列分析:异常序列分析:在一系列行为或事件对应的序列中发现明显不符合一般规律的特异型知识。n特异规则发现:特异规则发现:产生并评价虽然具有低支持度但可能很有价值的规则。 第一章第一章 绪论绪论 内容提要内容提要n数据挖掘技术的产生与发展 n数据挖掘研究的发展趋势 n数据挖掘概念 n数据挖掘技术的分类问题n数据挖掘常用的知识表示模式与方法n不同数据存储形式下的数据挖掘问题 n粗糙集方法及其在数据挖掘中的应用 n数据挖掘的应用分析 数据挖掘方法与数据存储类型n数据挖掘技术应该应用到任何数据存储方式的知识挖掘中,但是因为源数据的存储类型的不同,挖掘的挑战性和技术会不同。n近年来的研究表明数据挖掘所

29、涉及的数据存储类型越来越丰富,除了一些有通用价值的模型、构架等研究外,也开展了一些针对复杂或新型数据存储方式下的挖掘技术或算法的研究。n主要的数据类型:n事务数据库(Transactional Database )n关系型数据库 (Related Database )n数据仓库(Data Warehouse )n在关系模型基础上发展的新型数据库 n面向应用的新型数据源 nWeb数据 事务数据库中的数据挖掘事务数据库中的数据挖掘n一个事务数据库是对事务型数据的收集。1993年,当Agrawal等开始讨论数据挖掘问题时,是以购物篮分析(Market Basket Analysis)作为商业应用背景

30、的。n从事务数据库中发现知识是数据挖掘中研究较早但至今仍然很活跃的问题。通过特定的技术对事务数据库进行挖掘,可以获得动态行为所蕴藏的关联规则、分类、聚类以及预测等知识模式。n第三章将详细讲解关系型数据库中的数据挖掘关系型数据库中的数据挖掘n关系型数据库是由一系列数据表组成的,相当成熟:n成熟的语义模型(像实体-关系模型);成熟的DBMS(像Oracle)n成熟的查询语言(像SQL语言;可视化的辅助工具和优化软件。n一些更深入和亟待解决的问题:n多维知识挖掘:多维知识挖掘: 传统的事务数据库挖掘所研究的知识一般是单维(Single-Demension)的,但是,在关系型数据库中,多维的知识更普遍

31、和有应用价值。n单维: “购买计算机的人也购买打印机”。n多维: “什么样购买计算机的人也购买打印机的可能性更大?” 。n多表挖掘:多表挖掘:关系型数据库是一系列表的集合。因此,多表挖掘是必然的。n数量数据挖掘:数量数据挖掘: 关系型数据库经常包含非离散数量属性(如工资)。n多层知识挖掘:多层知识挖掘:数据及其关联总是可在多个不同的概念层上来理解它。n知识评价问题:知识评价问题:对传统的数据挖掘框架的知识评价问题,也是关系型数据库中数据挖掘走向实际应用必须要解决的问题。n约束数据挖掘问题:约束数据挖掘问题:数据挖掘系统在用户的约束指导下进行,可以提高挖掘效率和准确度。数据仓库中的数据挖掘数据仓

32、库中的数据挖掘n数据仓库中的数据是按着主题来组织的。存储的数据可以从历史的观点提供信息。虽然目前的一些数据仓库辅助工具可以帮助完成数据分析,但是发现蕴藏在数据内部的知识模式及其按知识工程方法来完成高层次的工作仍需要数据挖掘技术支持。n数据挖掘不仅伴随数据仓库而产生,而且随着应用深入产生了许多新的课题。n如果我们把数据挖掘作为高级数据分析手段来看,那么它是伴随数据仓库技术提出并发展起来的。nOLAP尽管在许多方面和数据挖掘是有区别的,但是它们在应用目标上有很大的重合度。n数据挖掘更看中数据分析后所形成的知识表示模式,而OLAP更注重利用多维等高级数据模型实现数据的聚合。从某种意义上讲,我们可以把

33、数据挖掘看作是OLAP的高级形式,与此更接近的名词可能算是OLAM(联机分析挖掘)。新型数据库中的数据挖掘 n对象关系型数据库(Object-Ralational Database)挖掘;n面向对象数据库的挖掘;n空间数据库的挖掘;n时态数据库的挖掘;n工程数据库(Engineering Database)的挖掘;n多媒体数据库(Multimedia Database)的挖掘;n等等 WebWeb数据源中的数据挖掘数据源中的数据挖掘n随着Internet的广泛使用, WebWeb这一这一巨大的海洋中蕴藏着极其丰富的有用信息。n面向Web的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多:n异

34、构数据源环境:异构数据源环境:Web网站上的信息是异构: 每个站点的信息和组织都不一样;存在大量的无结构的文本信息、复杂的多媒体信息;站点使用和安全性、私密性要求各异等等。n数据的是复杂性:数据的是复杂性:有些是无结构的(如Web页),通常都是用长的句子或短语来表达文档类信息;有些可能是半结构的(如Email,HTML页)。当然有些具有很好的结构(如电子表格)。揭开这些复合对象蕴涵的一般性描述特征成为数据挖掘的不可推卸的责任。n动态变化的应用环境:动态变化的应用环境:nWeb的信息是频繁变化的,像新闻、股票等信息是实时更新的。n这种高变化也体现在页面的动态链接和随机存取上。nWeb上的用户是难

35、以预测的。nWeb上的数据环境是高噪音的。Web挖掘的研究主要流派 nWebWeb结构挖掘:结构挖掘:挖掘Web上的链接结构。n通过Web页面间的链接信息可以识别出权威页面(Authoritative Page)、安全隐患(非法链接)等。nWebWeb使用挖掘使用挖掘对Web上的Log日志记录的挖掘nWeb上的Log日志记录了包括URL请求、IP地址以及时间等的访问信息。n分析和发现Log日志中蕴藏的规律可以帮助我们识别潜在的客户、跟踪Web服务的质量以及侦探非法访问的隐患等。nWebWeb内容挖掘:内容挖掘: Web的内容是丰富的,而且构成成分是复杂的(无结构的、半结构的等),对内容的分析是

36、重要而艰巨的工作。nWeb的内容主要是包含文本、声音、图片等的文档信息。n文本挖掘(Text Mining)和Web搜索引擎(Search Engine)等相关领域的研究。目n多媒体信息挖掘技术。第一章第一章 绪论绪论 内容提要内容提要n数据挖掘技术的产生与发展 n数据挖掘研究的发展趋势 n数据挖掘概念 n数据挖掘技术的分类问题n数据挖掘常用的知识表示模式与方法n不同数据存储形式下的数据挖掘问题 n粗糙集方法及其在数据挖掘中的应用 n数据挖掘的应用分析 粗糙集理论简介n粗糙集理论是一种研究不精确、不确定性知识的数学工具,由波兰科学家Z. Pawlak在1982年首先提出的。n粗糙集一经提出就立

37、刻引起数据挖掘研究人员的注意,并被广泛讨论。n粗糙集的知识形成思想可以概括为:一种类别对应于一个概念,知识由概念组成。n粗糙集理论是一种刻画不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。粗糙集理论简介n在数据挖掘与知识发现中,粗糙集理论与方法对于处理复杂系统已成为一个有效的方法,它与概率论、模糊集方法和证据理论等其他处理不确定性问题理论的最显著区别是:它无需提供问题所处理的数据集合的任何先验信息。粗糙集理论强调的是信息系统中知识的不完全性、不可分辨性,其处理方法是确定的,要求属性值都是定性值,而实际应用中大量存在的

38、是定量数据,必须设法转换成定性数据才能运用粗糙集方法。因此与其他处理不确定性问题的理论,如模糊数学和云理论等,具有很强的互补性,可以相互促进,增强其知识发现的能力。粗糙集理论简介n粗糙集和数据挖掘关系密切,目前已经在关联规则、决策树等方面得到了广泛应用。基于粗糙集的关联规则提取主要步骤包括去除不一致实例、求属性核、求相对约简、相同实例合并和值约简。基于粗糙集的单变量决策树构造方法的基本思想是具有最小边界的属性在构造决策树时将首先被选择。并且目前的研究趋向是:粗糙集和遗传算法相结合、和模糊集相结合,以及和神经网络相结合用于数据挖掘。粗糙集理论简介n粗糙集为数据挖掘提供了一种新的方法和工具,并拥有

39、广阔的前景。n首先,数据挖掘研究的实施对象多为关系型数据库。关系表可被看作为粗糙集理论中的信息表或决策表,这给粗糙集方法的应用带来极大的方便;n第二,粗糙集的约简理论可用于高维数据的预处理上以去除冗余属性从而达到降低维数的目的;n第三,现实世界中的规则有确定性的,也有不确定性的。从数据库中发现不确定性的知识,为粗糙集方法提供了用武之地;n第四,运用粗糙集方法得到的知识发现算法有利于并行执行,这可极大地提高对大规模数据库的知识发现的效率。第一章第一章 绪论绪论 内容提要内容提要n数据挖掘技术的产生与发展 n数据挖掘研究的发展趋势 n数据挖掘概念 n数据挖掘技术的分类问题n数据挖掘常用的知识表示模

40、式与方法n不同数据存储形式下的数据挖掘问题 n粗糙集方法及其在数据挖掘中的应用 n数据挖掘的应用分析 数据挖掘技术应用广泛n数据挖掘技术从一开始就是面向应用的。由于现在各行业的业务操作都向着流程自动化的方向发展,企业内产生了大量的业务数据。n数据挖掘技术应用很广,应用较好的领域有:n金融保险业:Credit Scoring; Insurance Evaluationn电信: Detecting telephone fraudn零售(如超级市场)等商业领域:Marketing Analysisn医学: Detecting inappropriate medical treatmentn体育: IBM Advanced Scout analyzed NBA game statistics n在天文学、分子生物学等科学研究方面n等等数据挖掘与数据挖掘与CRMCRMnCRM(客户关系管理)是指对企业和客户之间的交互活动或行为进行管理的过程。n数据挖掘能够帮助企业确定客户的特点,使企业能够为客户提供有针对性的服务。因此,把数据挖掘和CRM结合起来进行研究和实践,是一个有很大应用前景的工作。n所能解决的典型商业

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论