数据仓库与数据挖掘技术教案(6-10章)课件_第1页
数据仓库与数据挖掘技术教案(6-10章)课件_第2页
数据仓库与数据挖掘技术教案(6-10章)课件_第3页
数据仓库与数据挖掘技术教案(6-10章)课件_第4页
数据仓库与数据挖掘技术教案(6-10章)课件_第5页
已阅读5页,还剩155页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘技术

ElectronicCommerce夏火松E-MAIL:BXXHS@SINA.COM数据仓库与数据挖掘技术

ElectronicCommer1

数据仓库与数据挖掘技术教案

2第6章数据挖掘基本算法本章内容:6.1分类规则挖掘6.2预测分析与趋势分析规则6.3数据挖掘的关联算法6.4数据挖掘的聚类算法6.5数据挖掘的统计分析算法6.6数据挖掘的品种优化算法6.7数据挖掘的进化算法第6章数据挖掘基本算法本章内容:36.1分类规则挖掘6.1.1分类与估值1分类为了理解事物特征并做出预测使用历史数据建立一个分类模型(即分类器)的过程。应用于信用卡系统中的信用分级、市场调查、疗效诊断、寻找店址等实践应用参照课本6.1分类规则挖掘6.1.1分类与估值46.1分类规则挖掘

6.1.1分类与估值2估值估值(estimation)与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定的数目,估值的量是不确定的。

3分类方法与步骤

方法:决策树归纳、贝叶斯分类、贝叶斯网络、神经网络。还有K-最临近分类、基于案例的推理、遗传算法、粗糙集和模糊集方法。步骤:模型创建、模型使用6.1分类规则挖掘6.1.1分类与估值56.1分类规则挖掘6.1.1分类与估值4评估分类方法要考虑的指标:预测准确率、速度、创建速度、使用速度、鲁棒性、处理噪声和丢失值、伸缩性、对磁盘驻留数据的处理能力、可解释性、对模型的可理解程度、规则好坏的评价、决策树的大小和分类规则的简明性。6.1分类规则挖掘6.1.1分类与估值66.1分类规则挖掘6.1.2决策树父节点子节点子节点叶节点子节点子节点子节点根节点图6.1一般决策树结构叶节点父节点6.1分类规则挖掘6.1.2决策树父节点子节点子节点叶节76.1分类规则挖掘6.1.2决策树1.决策树的构造过程ID3算法应用如下:信息量计算公式:I(s1,s2,…sm)=-(6.1)其中,pi为si占整个类别的概率利用属性A划分当前样本集合所需要的信息(熵)的计算公式为:E(A)=(6.2)信息增益公式:Gain(A)=I(s1,s2,…sm)-E(A)(6.3)例如:一个销售的顾客数据库(训练样本集合),对购买计算机的人员进行分类:字段为:(年龄(取值:<30,30~40,>40>);收入(高,中,低);学生否(Y,N);信用(一般,很好);购买计算机否(Y,N))记录为14个,具体数据如下:X1=(<30,高,N,一般,N);X2=(<30,高,N,很好,N)X3=(30~40,高,N,一般,Y);X4=(>40,中,N,一般,Y)X5=(>40,低,Y,一般,Y);X6=(>40,低,Y,很好,N)X7=(<30-40,低,Y,高,Y);X8=(<30,中,N,一般,N)X9=(<30,低,Y,一般,Y);X10=(>40,中,Y, 一般,Y)X11=(<30,中,Y,很好,Y);X12=(30~40,中,N,很好,Y)X13=(30~40,高,Y,一般,Y);X14=(>40,中,N,很好,N)6.1分类规则挖掘6.1.2决策树信息量计算公式:I(s86.1分类规则挖掘

6.1.2决策树1.决策树的构造过程决策树的构造算法:

决策树的构造算法可通过训练集T完成,其中T={<x,cj>},而x=(a1,a2,…,an)为一个训练实例,它有n个属性,分别列于属性表(A1,A2,…,An)中,其中ai表示属性Ai的取值。Cj∈C={C1,C2,…,Cm}为x的分类结果。从属性表中选择属性Ai作为分类属性;若属性Ai的取值有ki个,则将T划分为ki个子集,T1,…,Tki,其中Tij={<x,C>|<x,C>}∈T,且x的属性取值A为第i个值;接下来从属性表中删除属性Ai;对于每一个Tij(1≤j≤K1),令T=Tij;如果属性表非空,返回第1步,否则输出。6.1分类规则挖掘 6.1.2决策树96.1分类规则挖掘

6.1.2决策树2.分类器定义:输入的数据含有千万个记录,每个记录又有很多个属性,其中有一个特别的属性叫做类(例如信用程度的高,中,低)。具体步骤:1)树的建立。2)树的修剪,SLIQ采用了MDL(最小叙述长度)的方法来修剪树。

6.1分类规则挖掘 6.1.2决策树106.1分类规则挖掘

6.1.2决策树3.决策树的可扩展性4.基于决策树方法的数据挖掘工具

KnowledgSEEKER

6.1分类规则挖掘 6.1.2决策树116.1分类规则挖掘

6.1.3贝叶斯分类1.贝叶斯信任网络如何工作边缘主区域手机呼叫服务区域noyes外界图6.3简单的贝叶斯网图6.1分类规则挖掘 6.1.3贝叶斯分类边缘主区域手机126.1分类规则挖掘6.1.3贝叶斯分类2.贝叶斯定理与朴素贝叶斯分类贝叶斯定理:P(H|X)=P(X|H)P(H)/P(X)其中,P(H|X)表示条件X下H的概率,也称为条件概率或称为后验概率(posterioriprobabilities)。朴素贝叶斯分类:假定有m个类C1,…Cm,对于数据样本X,分类法将预测X属于类Ci,当且仅当P(Ci|X)>P(Cj|X),6.1分类规则挖掘6.1.3贝叶斯分类136.2预测分析与趋势分析规则6.2.1预言的基本方法预言(prediction)是一门掌握对象变化动态的科学,它是对对象变动趋势的预见、分析和判断,也是一种动态分析方法。预测的基本步骤:确定预测目标,包括预测对象、目的、对象范围;收集分析内部和外部资料;数据的处理及模型的选择;预测模型的分析、修正;确定预测值。6.2预测分析与趋势分析规则6.2.1预言的基本方法146.2预测分析与趋势分析规则6.2.2定量分析预测时间序列法回归预测非线性模型灰色预测模型GM(1,1)组合预测6.2预测分析与趋势分析规则6.2.2定量分析预测156.2预测分析与趋势分析规则6.2.3预测的结果分析预测的结果分析要考虑到的因素:相反的预测结果胜出裕度成本收益分析6.2预测分析与趋势分析规则6.2.3预测的结果分析166.2预测分析与趋势分析规则6.2.4趋势分析挖掘分析时间序列数据需要注意以下方面:长时间的走向周期的走向与周期的变化季节性的走向与变化不规则的随机走向6.2预测分析与趋势分析规则6.2.4趋势分析挖掘176.3数据挖掘的关联算法6.3.1关联规则的概念及分类1.关联规则的概念定义1设I={i1、i2、i3,…,im}是由m个不同的数据项目组成的集合,其中的元素称为项(item),项的集合称为项集,包含k个项的项集称为k项集,给定一个事务(交易)D,即交易数据库,其中的每一个事务(交易)T是数据项I的一个子集,即,T有一个惟一的标积符TID;当且仅当时,称交易T包含项集X;那么关联规则就形如“X=>Y”的蕴涵式;其中,,,Ф,即表示满足X中条件的记录也一定满足Y。关联规则X=>Y在交易数据库中成立,具有支持度s和具有置信度c。这也就是交易数据集D中具有支持度s,即D中至少有s%的事务包含,描述为:support(X=>Y)=比如Support(X=>Y)=同时购买商品X和Y的交易数总交易数同时交易数据集D中具有置信度c,即D中包含X的事务至少有c%同时也包含Y,描述为:confidence(X=>Y)=比如购买了商品X,同时购买商品Y可信度,confidence(X=>Y)=同时购买商品X和Y的交易数购买了商品X的交易数一般称满足一定要求的规则为强规则。通常称满足最小支持度和最小置信度的关联规则为强关联规则(strong)。一般将最小支持度简记为minsup和最小置信度简记为minconf。6.3数据挖掘的关联算法6.3.1关联规则的概念及分类186.3数据挖掘的关联算法6.3.1关联规则的概念及分类2关联规则的分类分类标准类别规则中所处理的值布尔关联规则,量化关联规则规则中所涉及的数据维单维关联规则和多维关联规则规则中所涉及的抽象层单层关联规则和多层关联规则规则中的扩充最大的模式和频繁闭项集关联特性分类分析与相关分析6.3数据挖掘的关联算法6.3.1关联规则的概念及分类196.3数据挖掘的关联算法6.3.2简单形式的关联规则算法(单维、单层和布尔关联规则)1.简单形式的关联规则的核心算法找到所有支持度大于最小支持度的项集,即频集,有k个数据频集称为k项频集.找出所有的频集由apriori算法实现。Apriori性质具有一个频集的任一非空子集都是频集。使用第1步找到的频集产生期望的规则

apriori算法的详细介绍见课本。6.3数据挖掘的关联算法6.3.2简单形式的关联规则算法206.3数据挖掘的关联算法6.3.2简单形式的关联规则算法(单维、单层和布尔关联规则)2频集算法的几种优化方法基于划分的方法基于hash的方法基于采样的方法减少交易的个数6.3数据挖掘的关联算法6.3.2简单形式的关联规则算法216.3数据挖掘的关联算法6.3.2简单形式的关联规则算法(单维、单层和布尔关联规则)3其他的频集挖掘方法FP-growth方法min_hashing(MH)和locality_sensitive_hashing(LSH)6.3数据挖掘的关联算法6.3.2简单形式的关联规则算法226.3数据挖掘的关联算法6.3.3多层和多维关联规则的挖掘多层关联规则多维关联规则关联规则价值衡量的方法6.3.4货篮子分析存在的问题详见课本6.3数据挖掘的关联算法6.3.3多层和多维关联规则的挖236.3数据挖掘的关联算法6.3.5关联分析的其他算法发现关联的更好方法统计相关以外的理解关联有效可行的市场篮子分析6.3.6挖掘序列模式序列模式的概念及定义

序列模式挖掘的主要算法

GSP算法描述PrefixSpan算法6.3数据挖掘的关联算法6.3.5关联分析的其他算法24关联规则挖掘—一个例子最小值尺度50%最小可信度50%对于A

C:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%Apriori的基本思想:频繁项集的任何子集也一定是频繁的关联规则挖掘—一个例子最小值尺度50%对于AC:25关键步骤:挖掘频繁集频繁集:是指满足最小支持度的项目集合频繁集的子集也一定是频繁的如,如果{AB}是频繁集,则{A}{B}也一定是频繁集从1到k(k-频繁集)递归查找频繁集用得到的频繁集生成关联规则关键步骤:挖掘频繁集频繁集:是指满足最小支持度的项目集合26Apriori算法连接:用Lk-1自连接得到Ck修剪:一个k-项集,如果他的一个k-1项集(他的子集)不是频繁的,那他本身也不可能是频繁的。伪代码:Ck:CandidateitemsetofsizekLk:frequentitemsetofsizekL1={frequentitems};for

(k=1;Lk!=;k++)dobegin

Ck+1=candidatesgeneratedfromLk;

foreachtransactiontindatabasedoincrementthecountofallcandidatesinCk+1thatarecontainedint

Lk+1=candidatesinCk+1withmin_support

endreturn

k

Lk;Apriori算法连接:用Lk-1自连接得到Ck27Apriori算法—例子数据库D扫描DC1L1L2C2C2扫描DC3L3扫描DApriori算法—例子数据库D扫描DC1L1L2C28如何生成候选集假定Lk-1中的项按顺序排列第一步:自连接Lk-1

insertinto

Ckselectp.item1,p.item2,…,p.itemk-1,q.itemk-1fromLk-1p,Lk-1qwherep.item1=q.item1,…,p.itemk-2=q.itemk-2,p.itemk-1<q.itemk-1第二步:修剪forallitemsetscinCk

doforall(k-1)-subsetssofcdoif(sisnotinLk-1)thendeletecfromCk如何生成候选集假定Lk-1中的项按顺序排列29如何计算候选集的支持度计算支持度为什么会成为一个问题?候选集的个数非常巨大一笔交易可能包含多个候选集方法:用hash-tree存放候选集树的叶子节点

of存放项集的列表和支持度内部节点是一个hash表Subset函数:找到包含在一笔交易中的所有候选集如何计算候选集的支持度计算支持度为什么会成为一个问题?30生成候选集的例子L3={abc,abd,acd,ace,bcd}自连接:L3*L3abc和abd得到abcdacd和ace得到acde修剪:ade不在L3中,删除acdeC4={abcd}生成候选集的例子L3={abc,abd,acd,ace31提高Apriori效率的方法基于Hash的项集计数:如果一个k-项集在hash-tree的路径上的一个计数值低于阈值,那他本身也不可能是频繁的。减少交易记录:不包含任何频繁k-项集的交易也不可能包含任何大于k的频繁集分割:一个项集要想在整个数据库中是频繁的,那么他至少在数据库的一个分割上是频繁的。采样:在给定数据的子集上挖掘,使用小的支持度+完整性验证方法动态项集计数:在添加一个新的候选集之前,先估计一下是不是他的所有子集都是频繁的。提高Apriori效率的方法基于Hash的项集计数:如果一32Apriori够快了吗?—性能瓶颈Apriori算法的核心:用频繁的(k–1)-项集生成候选的频繁k-项集用数据库扫描和模式匹配计算候选集的支持度Apriori的瓶颈:候选集生成巨大的候选集:104个频繁1-项集要生成107个候选2-项集要找尺寸为100的频繁模式,如{a1,a2,…,a100},你必须先产生21001030个候选集多次扫描数据库:如果最长的模式是n的话,则需要(n+1)次数据库扫描Apriori够快了吗?—性能瓶颈Apriori算法的336.4数据挖掘的聚类算法6.4.1聚类分析的概念与分类聚类分析概念聚类分析方法的分类类别算法分裂(划分)法K-MEANS算法(K-平均)、K-MEDOIDS算法(K-中心点)、CLARANS算法(给予选择的方法)层次法BIRCH算法(平衡迭代归约和聚类)、CURE算法(代表聚类)、CHAMELEON算法(动态模型)基于密度的方法DBSCAN算法(基于高密度连接区域)、OPTICS算法(对象排序识别)、DENCLUE算法(密度分布函数)基于网格的方法STING算法(统计信息网格)、CLIQUE算法(聚类高维空间)、WAVE-CLUSTER算法(小波变换)基于模型的方法统计学方法、神经网络方法6.4数据挖掘的聚类算法6.4.1聚类分析的概念与分类类别346.4数据挖掘的聚类算法6.4.2聚类分析中两个对象之间的相异度计算方法区间标度变量计算方法

二元变量计算方法标称型、序数型和比例标度型变量计算方法混合类型的变量计算方法6.4数据挖掘的聚类算法6.4.2聚类分析中两个对象之间的356.4数据挖掘的聚类算法6.4.3划分方法典型的划分方法:k-平均和k-中心点

基于簇的重心技术:k-平均方法基于有代表性的对象的技术:k-中心点方法大型数据库中的划分方法:基于选择的K-中心点CLARANS方法6.4数据挖掘的聚类算法6.4.3划分方法366.4数据挖掘的聚类算法6.4.4层次方法凝聚的和分裂的层次聚类

凝聚层次聚类方法AGNES分裂层次聚类方法DIANA利用层次方法的平衡迭代归约和聚类综合的层次聚类方法BIRCH利用代表点聚类一种新颖的层次聚类算法CURE一个利用动态模型的层次聚类算法动态模型的聚类法chameleon(变色龙)6.4数据挖掘的聚类算法6.4.4层次方法376.4数据挖掘的聚类算法6.4.5基于密度的方法一个基于高密度连接区域的聚类方法DBSCAN聚类方法通过对象排序识别聚类结构OPTICS聚类分析方法基于密度分布函数的聚类基于一组密度分布函数的聚类算法DENCLUE6.4数据挖掘的聚类算法6.4.5基于密度的方法386.4数据挖掘的聚类算法6.4.6基于网格的方法统计信息网络STING是一种基于网格的多分辨率聚类技术聚类高维空间CLIQUE(clusteringinquest,CLIQUE)聚类算法6.4.7基于模型的聚类方法增量概念聚类算法COBWEB6.4.8模糊聚类算法6.4数据挖掘的聚类算法6.4.6基于网格的方法396.5数据挖掘的统计分析算法6.5.1辨别方法6.5.2回归模型6.5.3优点与缺点6.5数据挖掘的统计分析算法6.5.1辨别方法406.6数据挖掘的品种优化算法6.6.1品种优化6.6.2品种优化算法6.6数据挖掘的品种优化算法6.6.1品种优化416.7数据挖掘的进化算法6.7.1遗传算法如何工作优缺点6.7.2神经网络算法如何工作无指导的学习竞争学习自组织特征映射模型优缺点6.7数据挖掘的进化算法6.7.1遗传算法426.7数据挖掘的进化算法神经网络模型性别区域职位B类客户年龄交易额受教育的年限图6.10神经网络模型C类客户跳槽客户隐节点隐节点A类客户隐节点隐节点6.7数据挖掘的进化算法神经网络模型性别区域职位B类客户年龄43第7章非结构化数据挖掘本章内容:7.1Web数据挖掘7.2空间群数据挖掘7.3多媒体数据挖掘第7章非结构化数据挖掘本章内容:447.1Web数据挖掘7.1.1非结构化数据源Web数据挖掘的难点对数据来源分析异构数据环境半结构化的数据结构解决半结构化的数据源问题文本总结XML与Web数据挖掘技术XML的产生与发展XML的主要特点7.1Web数据挖掘7.1.1非结构化数据源457.1Web数据挖掘7.1.1非结构化数据源XML在Web数据挖掘中的应用两个或更多异质数据库之间进行通信的应用大部分处理负载从Web服务器转到Web客户端的应用Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用需要智能Web代理根据用户个人的需要裁减信息内容的应用7.1Web数据挖掘7.1.1非结构化数据源467.1Web数据挖掘7.1.2Web挖掘分类Web挖掘Webcontentmining(Web内容挖掘)Webstructuremining(Web结构挖掘)Webusagemining(Web访问挖掘)Searchresultmining(搜索结果再挖掘)Generalaccesspatterntracking(一般访问模式跟踪)Customizedusagetracking(定制的使用跟踪)Webpagecontentmining(Web页面内容挖掘)图7.1Web挖掘分类7.1Web数据挖掘7.1.2Web挖掘分类Web挖掘W47Web挖掘三种方法比较Web内容挖掘Web结构挖掘Web访问挖掘处理数据类型IR方法数据库方法Web结构挖掘用户访问挖掘无结构和半结构化数据半结构化数据主要数据自由文本、HTML标记的超文本HTML标记的超文本文档内及文档间的超链接Serverlog,proxyserverlog,clientlog表示方法词集、段落、概念、IR的三种经典模型OEM关系图关系表、图处理方法TFIDF、统计、机器学习、自然语言理解数据库技术机器学习、专有算法(如HITSpagerank)统计、机器学习、关联规则主要应用分类、聚类、模式发现模式发现、数据向导、多维数据库、站点创建与维护页面权重分类聚类、模式发现用户个性化、自适应Web站点、商业决策Web挖掘三种方法比较Web内容挖掘Web结构挖掘Web访487.1Web数据挖掘Web挖掘的基本构架访问者注册用户网站交易信息浏览信息数据库、数据仓库Web日志文件WebSerer中其他信息数据预处理模块结构数据挖掘模块Web挖掘的基本构架页面访问情况Web结构模式Web内容模式知识非结构数据挖掘模块7.1Web数据挖掘Web挖掘的基本构架访问者注册用户网497.1Web数据挖掘7.1.3Web内容挖掘信息检索(informationretrieve,IR)方法数据库方法7.1.4Web结构挖掘Rank方法7.1.5Web访问挖掘对Web日志进行清洗、过滤和转换以及剔除无关记录

采用统计学、模式识别、人工智能、数据库数据挖掘等领域的成熟技术在Web的使用记录中挖掘知识

Web使用挖掘中的模式分析

7.1Web数据挖掘7.1.3Web内容挖掘507.1Web数据挖掘7.1.6利用Web日志的聚类算法客户群体的模糊聚类算法

用户访问兴趣的算法

客户群体聚类的Hamming距离算法

基于模糊理论的Web页面聚类算法

Web页面聚类的Hamming距离算法

7.1Web数据挖掘7.1.6利用Web日志的聚类算法517.1Web数据挖掘电子商务中的Web挖掘电子商务中Web挖掘的作用电子商务中Web挖掘的基本问题电子商务中的数据挖掘工具文本信息挖掘工具用户访问模式挖掘工具用户导航行为挖掘工具综合性的Web分析工具7.1Web数据挖掘电子商务中的Web挖掘527.2空间群数据挖掘7.2.1空间群数据挖掘概念从空间数据中抽取隐含的知识、空间关系、空间及与非空间之间的有意义的特征或模式。

7.2.2空间群数据挖掘分类

空间检索空间拓扑叠加分析空间模拟分析7.2空间群数据挖掘7.2.1空间群数据挖掘概念537.2空间群数据挖掘7.2.3空间数据挖掘的体系结构空间数据结构查询与优化原则的分析信息集成模式知识级处理语义级检索与索引领域知识模式知识对象和属性抽取物理级底层特性处理设计图7.4空间数据挖掘的体系结构对象级特征处理语义概念级处理用户空间数据处理7.2空间群数据挖掘7.2.3空间数据挖掘的体系结构空间547.3多媒体数据挖掘7.3.1多媒体数据挖掘的概念7.3.2多媒体数据挖掘的分类图像数据挖掘视频数据挖掘音频数据挖掘7.3多媒体数据挖掘7.3.1多媒体数据挖掘的概念557.3多媒体数据挖掘7.3.3多媒体数据挖掘的体系结构原始数据媒体数据摄取媒体编码存档浏览引擎分类特征抽取查询引擎工具交互式学习索引的生成用户图7.5功能驱动的多媒体挖掘体系结构基于底层特性的索引与检索元数据与数据抽取原则的分析信息集成模式知识级处理语义级检索与索引领域知识模式知识对象级的索引与检索物理级底层特性处理设计图7.6信息驱动的多媒体挖掘的结构对象级特征处理语义概念级处理用户多媒体处理7.3多媒体数据挖掘7.3.3多媒体数据挖掘的体系结构原始56第8章离群数据挖掘本章内容离群数据挖掘概念离群数据挖掘分类离群数据挖掘算法市场营销离群数据的特点第8章离群数据挖掘本章内容57第8章离群数据挖掘8.1离群数据挖掘的概念8.2离群数据挖掘的分类基于统计学基于距离的方法基于偏移高维数据的离群数据探测基于规则的分类离群数据挖掘方法基于密度(density-based)的离群挖掘方法第8章离群数据挖掘8.1离群数据挖掘的概念588.3离群数据挖掘的算法8.3.1基于统计的方法8.3.2基于距离的离群数据方法基于距离的离群数据定义基于距离的离群数据挖掘的算法分类及算法描述基于距离的算法的改进8.3.3基于偏离的离群数据挖掘序列离群数据技术

OLAP数据立方体技术8.3离群数据挖掘的算法8.3.1基于统计的方法598.3离群数据挖掘的算法8.3.4高维数据的离群数据挖掘8.3.5基于小波的离群数据挖掘

时序数据的离群数据挖掘基于聚类的离群数据CL(δ)8.3离群数据挖掘的算法8.3.4高维数据的离群数据挖掘608.4市场营销离群数据挖掘8.4.1市场营销离群数据挖掘特点8.4.2基于分形的市场营销离群数据挖掘模型几个定义8.4市场营销离群数据挖掘8.4.1市场营销离群数据挖掘特点61第9章数据挖掘语言与工具选择本章内容9.1数据挖掘语言及其标准化9.2数据挖掘研究热点9.3数据挖掘工具的选择第9章数据挖掘语言与工具选择本章内容629.1数据挖掘语言及其标准化9.1.1数据挖掘语言分类类别特点功能代表数据挖掘查询语言数据挖掘原语五种原语DMQL数据挖掘建模语言基于XML的语言文档类型定义、通用模式PMML通用数据挖掘语言集成全面OLEDBforDM9.1数据挖掘语言及其标准化9.1.1数据挖掘语言分类类639.1数据挖掘语言及其标准化9.1.1数据挖掘语言分类数据挖掘查询语言(5种数据挖掘原语定义)。任务相关数据原语被挖掘的知识的种类原语背景知识原语兴趣度测量原语被发现模式的表示和可视化原语9.1数据挖掘语言及其标准化9.1.1数据挖掘语言分类649.1数据挖掘语言及其标准化9.1.1数据挖掘语言分类数据挖掘建模语言头文件(aheader)数据模式(adataschema)数据挖掘模式(adataminingschema)预言模型模式(apredictivemodelschema)预言模型定义(definitionsforpredictivemodels)全体模型定义(definitionsforensemblesofmodels)选择和联合模型、全体模型的规则(rulesforselectingandcombiningmodelsandensemblesofmodels)异常处理的规则(rulesforexceptionhandling)9.1数据挖掘语言及其标准化9.1.1数据挖掘语言分类659.1数据挖掘语言及其标准化9.1.1数据挖掘语言分类通用数据挖掘语言数据挖掘模型(DataMiningModel,DMM)预言联接操作(PredicationJoinOperation)OLEDBforDM模式行集合(SchemaRowsets)9.1.2分析与评价9.1数据挖掘语言及其标准化9.1.1数据挖掘语言分类669.2数据挖掘的研究热点网站的数据挖掘生物信息或基因的数据挖掘文本的数据挖掘9.2数据挖掘的研究热点网站的数据挖掘679.3数据挖掘工具的选择9.3.1评价数据挖掘工具的优劣指标数据准备数据访问算法与建模模型的评价和解释用户界面9.3数据挖掘工具的选择9.3.1评价数据挖掘工具的优劣689.3数据挖掘工具的选择9.3.2通用数据挖掘产品与工具POLYANALYSTIBMDB2lntelligentMiner和并行可视化探索者PVEDBMinerBO的BusinessMinerSPSS股份公司(SPPSCHAID)SAS研究所股份公司(SAS,JMP)NeuralWare股份公司信息发现股份公司(IDIS)RightPoint公司的数据挖掘工具DataCruncherDataMind公司(DataMind专业版,DataMindCruncher)Pilot软件股份公司(Pilot发现服务器)Angoss国际有限公司(KnowledgeSEEKER)SiliconGraphics计算机系统公司(MineSet)商务项目公司(商务挖掘器)Cognos软件公司(Scenario)思维机器公司(Darwin)………..9.3数据挖掘工具的选择9.3.2通用数据挖掘产品与工具699.3数据挖掘工具的选择9.3.3国内的数据挖掘产品与工具菲奈特一融通公司广州华工明天科技有限公司

复旦大学数据采掘工具ARMiner9.3.4数据可视化工具的选择高级可视化系统公司(AVS/Express)

Alta分析股份蔼公司(NetMap)Belmont研究股份公司(Cross Graphs)

环境系统研究所(ESRI)股份公司

MapInfo公司(MapInfo,SpatialWare)

SiliconGraphics计算机系统公司(MineSet)

9.3数据挖掘工具的选择9.3.3国内的数据挖掘产品与工709.3数据挖掘工具的选择9.3数据挖掘工具的选择719.3数据挖掘工具的选择9.3数据挖掘工具的选择72第10章知识管理和知识管理系统本章内容10.1知识管理知识知识管理定义有效知识管理10.2知识管理系统知识管理共享条件知识管理共享困难知识管理激励机制知识管理体系结构第10章知识管理和知识管理系统本章内容7310.1知识管理10.1.1知识know-whatknow-whyknow-howknow-who10.1知识管理10.1.1知识7410.1知识管理10.1.2知识管理定义KM是在适当的时候向合适的人取得正确的信息,以便更有效、更顺利地进行管理的能力10.1.3有效的知识管理10.1知识管理10.1.2知识管理定义7510.2知识管理系统知识管理共享的条件软件硬件知识管理共享的困难10.2知识管理系统知识管理共享的条件7610.2知识管理系统知识贡献的激励机制企业需要的知识k(a1,a2,a3…an)企业有人知a1=1企业无人知a1=0企业有人知且企业以外的有人知a2=1企业有人知且企业以外的不知a2=0企业无人知且企业以外的有人知a2=1企业无人知且企业以外的无人知a2=0企业有人知且企业以外的竞争对手有人知a3=1企业有人知且企业以外的有人知但竞争对手不知a3=0企业无人知且企业以外的竞争对手知a3=1企业无人知且企业以外的竞争对手不知a3=0图10.1企业知识树模型10.2知识管理系统知识贡献的激励机制企业需要的知识k(a7710.2知识管理系统知识管理的体系结构互动高低高特定客户知识数据库营销数据挖掘互动营销知识协同客户关系管理(KCCRM)篮子分析忠诚/奖励程序图10.2基于知识的协同客户关系管理KCCRM10.2知识管理系统知识管理的体系结构互动高低高特定客户知78知识管理的体系结构知识获取(DM)知识描述知识共享环境管理知识存储知识评价知识源数据库Web其他知识发布知识检索知识贡献激励规则知识管理工具知识传递的方式知识推荐图10.3知识管理系统的体系结构知识管理的体系结构知识获取(DM)知识描述知识共享环79谢谢大家谢谢大家80数据仓库与数据挖掘技术

ElectronicCommerce夏火松E-MAIL:BXXHS@SINA.COM数据仓库与数据挖掘技术

ElectronicCommer81

数据仓库与数据挖掘技术教案

82第6章数据挖掘基本算法本章内容:6.1分类规则挖掘6.2预测分析与趋势分析规则6.3数据挖掘的关联算法6.4数据挖掘的聚类算法6.5数据挖掘的统计分析算法6.6数据挖掘的品种优化算法6.7数据挖掘的进化算法第6章数据挖掘基本算法本章内容:836.1分类规则挖掘6.1.1分类与估值1分类为了理解事物特征并做出预测使用历史数据建立一个分类模型(即分类器)的过程。应用于信用卡系统中的信用分级、市场调查、疗效诊断、寻找店址等实践应用参照课本6.1分类规则挖掘6.1.1分类与估值846.1分类规则挖掘

6.1.1分类与估值2估值估值(estimation)与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定的数目,估值的量是不确定的。

3分类方法与步骤

方法:决策树归纳、贝叶斯分类、贝叶斯网络、神经网络。还有K-最临近分类、基于案例的推理、遗传算法、粗糙集和模糊集方法。步骤:模型创建、模型使用6.1分类规则挖掘6.1.1分类与估值856.1分类规则挖掘6.1.1分类与估值4评估分类方法要考虑的指标:预测准确率、速度、创建速度、使用速度、鲁棒性、处理噪声和丢失值、伸缩性、对磁盘驻留数据的处理能力、可解释性、对模型的可理解程度、规则好坏的评价、决策树的大小和分类规则的简明性。6.1分类规则挖掘6.1.1分类与估值866.1分类规则挖掘6.1.2决策树父节点子节点子节点叶节点子节点子节点子节点根节点图6.1一般决策树结构叶节点父节点6.1分类规则挖掘6.1.2决策树父节点子节点子节点叶节876.1分类规则挖掘6.1.2决策树1.决策树的构造过程ID3算法应用如下:信息量计算公式:I(s1,s2,…sm)=-(6.1)其中,pi为si占整个类别的概率利用属性A划分当前样本集合所需要的信息(熵)的计算公式为:E(A)=(6.2)信息增益公式:Gain(A)=I(s1,s2,…sm)-E(A)(6.3)例如:一个销售的顾客数据库(训练样本集合),对购买计算机的人员进行分类:字段为:(年龄(取值:<30,30~40,>40>);收入(高,中,低);学生否(Y,N);信用(一般,很好);购买计算机否(Y,N))记录为14个,具体数据如下:X1=(<30,高,N,一般,N);X2=(<30,高,N,很好,N)X3=(30~40,高,N,一般,Y);X4=(>40,中,N,一般,Y)X5=(>40,低,Y,一般,Y);X6=(>40,低,Y,很好,N)X7=(<30-40,低,Y,高,Y);X8=(<30,中,N,一般,N)X9=(<30,低,Y,一般,Y);X10=(>40,中,Y, 一般,Y)X11=(<30,中,Y,很好,Y);X12=(30~40,中,N,很好,Y)X13=(30~40,高,Y,一般,Y);X14=(>40,中,N,很好,N)6.1分类规则挖掘6.1.2决策树信息量计算公式:I(s886.1分类规则挖掘

6.1.2决策树1.决策树的构造过程决策树的构造算法:

决策树的构造算法可通过训练集T完成,其中T={<x,cj>},而x=(a1,a2,…,an)为一个训练实例,它有n个属性,分别列于属性表(A1,A2,…,An)中,其中ai表示属性Ai的取值。Cj∈C={C1,C2,…,Cm}为x的分类结果。从属性表中选择属性Ai作为分类属性;若属性Ai的取值有ki个,则将T划分为ki个子集,T1,…,Tki,其中Tij={<x,C>|<x,C>}∈T,且x的属性取值A为第i个值;接下来从属性表中删除属性Ai;对于每一个Tij(1≤j≤K1),令T=Tij;如果属性表非空,返回第1步,否则输出。6.1分类规则挖掘 6.1.2决策树896.1分类规则挖掘

6.1.2决策树2.分类器定义:输入的数据含有千万个记录,每个记录又有很多个属性,其中有一个特别的属性叫做类(例如信用程度的高,中,低)。具体步骤:1)树的建立。2)树的修剪,SLIQ采用了MDL(最小叙述长度)的方法来修剪树。

6.1分类规则挖掘 6.1.2决策树906.1分类规则挖掘

6.1.2决策树3.决策树的可扩展性4.基于决策树方法的数据挖掘工具

KnowledgSEEKER

6.1分类规则挖掘 6.1.2决策树916.1分类规则挖掘

6.1.3贝叶斯分类1.贝叶斯信任网络如何工作边缘主区域手机呼叫服务区域noyes外界图6.3简单的贝叶斯网图6.1分类规则挖掘 6.1.3贝叶斯分类边缘主区域手机926.1分类规则挖掘6.1.3贝叶斯分类2.贝叶斯定理与朴素贝叶斯分类贝叶斯定理:P(H|X)=P(X|H)P(H)/P(X)其中,P(H|X)表示条件X下H的概率,也称为条件概率或称为后验概率(posterioriprobabilities)。朴素贝叶斯分类:假定有m个类C1,…Cm,对于数据样本X,分类法将预测X属于类Ci,当且仅当P(Ci|X)>P(Cj|X),6.1分类规则挖掘6.1.3贝叶斯分类936.2预测分析与趋势分析规则6.2.1预言的基本方法预言(prediction)是一门掌握对象变化动态的科学,它是对对象变动趋势的预见、分析和判断,也是一种动态分析方法。预测的基本步骤:确定预测目标,包括预测对象、目的、对象范围;收集分析内部和外部资料;数据的处理及模型的选择;预测模型的分析、修正;确定预测值。6.2预测分析与趋势分析规则6.2.1预言的基本方法946.2预测分析与趋势分析规则6.2.2定量分析预测时间序列法回归预测非线性模型灰色预测模型GM(1,1)组合预测6.2预测分析与趋势分析规则6.2.2定量分析预测956.2预测分析与趋势分析规则6.2.3预测的结果分析预测的结果分析要考虑到的因素:相反的预测结果胜出裕度成本收益分析6.2预测分析与趋势分析规则6.2.3预测的结果分析966.2预测分析与趋势分析规则6.2.4趋势分析挖掘分析时间序列数据需要注意以下方面:长时间的走向周期的走向与周期的变化季节性的走向与变化不规则的随机走向6.2预测分析与趋势分析规则6.2.4趋势分析挖掘976.3数据挖掘的关联算法6.3.1关联规则的概念及分类1.关联规则的概念定义1设I={i1、i2、i3,…,im}是由m个不同的数据项目组成的集合,其中的元素称为项(item),项的集合称为项集,包含k个项的项集称为k项集,给定一个事务(交易)D,即交易数据库,其中的每一个事务(交易)T是数据项I的一个子集,即,T有一个惟一的标积符TID;当且仅当时,称交易T包含项集X;那么关联规则就形如“X=>Y”的蕴涵式;其中,,,Ф,即表示满足X中条件的记录也一定满足Y。关联规则X=>Y在交易数据库中成立,具有支持度s和具有置信度c。这也就是交易数据集D中具有支持度s,即D中至少有s%的事务包含,描述为:support(X=>Y)=比如Support(X=>Y)=同时购买商品X和Y的交易数总交易数同时交易数据集D中具有置信度c,即D中包含X的事务至少有c%同时也包含Y,描述为:confidence(X=>Y)=比如购买了商品X,同时购买商品Y可信度,confidence(X=>Y)=同时购买商品X和Y的交易数购买了商品X的交易数一般称满足一定要求的规则为强规则。通常称满足最小支持度和最小置信度的关联规则为强关联规则(strong)。一般将最小支持度简记为minsup和最小置信度简记为minconf。6.3数据挖掘的关联算法6.3.1关联规则的概念及分类986.3数据挖掘的关联算法6.3.1关联规则的概念及分类2关联规则的分类分类标准类别规则中所处理的值布尔关联规则,量化关联规则规则中所涉及的数据维单维关联规则和多维关联规则规则中所涉及的抽象层单层关联规则和多层关联规则规则中的扩充最大的模式和频繁闭项集关联特性分类分析与相关分析6.3数据挖掘的关联算法6.3.1关联规则的概念及分类996.3数据挖掘的关联算法6.3.2简单形式的关联规则算法(单维、单层和布尔关联规则)1.简单形式的关联规则的核心算法找到所有支持度大于最小支持度的项集,即频集,有k个数据频集称为k项频集.找出所有的频集由apriori算法实现。Apriori性质具有一个频集的任一非空子集都是频集。使用第1步找到的频集产生期望的规则

apriori算法的详细介绍见课本。6.3数据挖掘的关联算法6.3.2简单形式的关联规则算法1006.3数据挖掘的关联算法6.3.2简单形式的关联规则算法(单维、单层和布尔关联规则)2频集算法的几种优化方法基于划分的方法基于hash的方法基于采样的方法减少交易的个数6.3数据挖掘的关联算法6.3.2简单形式的关联规则算法1016.3数据挖掘的关联算法6.3.2简单形式的关联规则算法(单维、单层和布尔关联规则)3其他的频集挖掘方法FP-growth方法min_hashing(MH)和locality_sensitive_hashing(LSH)6.3数据挖掘的关联算法6.3.2简单形式的关联规则算法1026.3数据挖掘的关联算法6.3.3多层和多维关联规则的挖掘多层关联规则多维关联规则关联规则价值衡量的方法6.3.4货篮子分析存在的问题详见课本6.3数据挖掘的关联算法6.3.3多层和多维关联规则的挖1036.3数据挖掘的关联算法6.3.5关联分析的其他算法发现关联的更好方法统计相关以外的理解关联有效可行的市场篮子分析6.3.6挖掘序列模式序列模式的概念及定义

序列模式挖掘的主要算法

GSP算法描述PrefixSpan算法6.3数据挖掘的关联算法6.3.5关联分析的其他算法104关联规则挖掘—一个例子最小值尺度50%最小可信度50%对于A

C:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%Apriori的基本思想:频繁项集的任何子集也一定是频繁的关联规则挖掘—一个例子最小值尺度50%对于AC:105关键步骤:挖掘频繁集频繁集:是指满足最小支持度的项目集合频繁集的子集也一定是频繁的如,如果{AB}是频繁集,则{A}{B}也一定是频繁集从1到k(k-频繁集)递归查找频繁集用得到的频繁集生成关联规则关键步骤:挖掘频繁集频繁集:是指满足最小支持度的项目集合106Apriori算法连接:用Lk-1自连接得到Ck修剪:一个k-项集,如果他的一个k-1项集(他的子集)不是频繁的,那他本身也不可能是频繁的。伪代码:Ck:CandidateitemsetofsizekLk:frequentitemsetofsizekL1={frequentitems};for

(k=1;Lk!=;k++)dobegin

Ck+1=candidatesgeneratedfromLk;

foreachtransactiontindatabasedoincrementthecountofallcandidatesinCk+1thatarecontainedint

Lk+1=candidatesinCk+1withmin_support

endreturn

k

Lk;Apriori算法连接:用Lk-1自连接得到Ck107Apriori算法—例子数据库D扫描DC1L1L2C2C2扫描DC3L3扫描DApriori算法—例子数据库D扫描DC1L1L2C108如何生成候选集假定Lk-1中的项按顺序排列第一步:自连接Lk-1

insertinto

Ckselectp.item1,p.item2,…,p.itemk-1,q.itemk-1fromLk-1p,Lk-1qwherep.item1=q.item1,…,p.itemk-2=q.itemk-2,p.itemk-1<q.itemk-1第二步:修剪forallitemsetscinCk

doforall(k-1)-subsetssofcdoif(sisnotinLk-1)thendeletecfromCk如何生成候选集假定Lk-1中的项按顺序排列109如何计算候选集的支持度计算支持度为什么会成为一个问题?候选集的个数非常巨大一笔交易可能包含多个候选集方法:用hash-tree存放候选集树的叶子节点

of存放项集的列表和支持度内部节点是一个hash表Subset函数:找到包含在一笔交易中的所有候选集如何计算候选集的支持度计算支持度为什么会成为一个问题?110生成候选集的例子L3={abc,abd,acd,ace,bcd}自连接:L3*L3abc和abd得到abcdacd和ace得到acde修剪:ade不在L3中,删除acdeC4={abcd}生成候选集的例子L3={abc,abd,acd,ace111提高Apriori效率的方法基于Hash的项集计数:如果一个k-项集在hash-tree的路径上的一个计数值低于阈值,那他本身也不可能是频繁的。减少交易记录:不包含任何频繁k-项集的交易也不可能包含任何大于k的频繁集分割:一个项集要想在整个数据库中是频繁的,那么他至少在数据库的一个分割上是频繁的。采样:在给定数据的子集上挖掘,使用小的支持度+完整性验证方法动态项集计数:在添加一个新的候选集之前,先估计一下是不是他的所有子集都是频繁的。提高Apriori效率的方法基于Hash的项集计数:如果一112Apriori够快了吗?—性能瓶颈Apriori算法的核心:用频繁的(k–1)-项集生成候选的频繁k-项集用数据库扫描和模式匹配计算候选集的支持度Apriori的瓶颈:候选集生成巨大的候选集:104个频繁1-项集要生成107个候选2-项集要找尺寸为100的频繁模式,如{a1,a2,…,a100},你必须先产生21001030个候选集多次扫描数据库:如果最长的模式是n的话,则需要(n+1)次数据库扫描Apriori够快了吗?—性能瓶颈Apriori算法的1136.4数据挖掘的聚类算法6.4.1聚类分析的概念与分类聚类分析概念聚类分析方法的分类类别算法分裂(划分)法K-MEANS算法(K-平均)、K-MEDOIDS算法(K-中心点)、CLARANS算法(给予选择的方法)层次法BIRCH算法(平衡迭代归约和聚类)、CURE算法(代表聚类)、CHAMELEON算法(动态模型)基于密度的方法DBSCAN算法(基于高密度连接区域)、OPTICS算法(对象排序识别)、DENCLUE算法(密度分布函数)基于网格的方法STING算法(统计信息网格)、CLIQUE算法(聚类高维空间)、WAVE-CLUSTER算法(小波变换)基于模型的方法统计学方法、神经网络方法6.4数据挖掘的聚类算法6.4.1聚类分析的概念与分类类别1146.4数据挖掘的聚类算法6.4.2聚类分析中两个对象之间的相异度计算方法区间标度变量计算方法

二元变量计算方法标称型、序数型和比例标度型变量计算方法混合类型的变量计算方法6.4数据挖掘的聚类算法6.4.2聚类分析中两个对象之间的1156.4数据挖掘的聚类算法6.4.3划分方法典型的划分方法:k-平均和k-中心点

基于簇的重心技术:k-平均方法基于有代表性的对象的技术:k-中心点方法大型数据库中的划分方法:基于选择的K-中心点CLARANS方法6.4数据挖掘的聚类算法6.4.3划分方法1166.4数据挖掘的聚类算法6.4.4层次方法凝聚的和分裂的层次聚类

凝聚层次聚类方法AGNES分裂层次聚类方法DIANA利用层次方法的平衡迭代归约和聚类综合的层次聚类方法BIRCH利用代表点聚类一种新颖的层次聚类算法CURE一个利用动态模型的层次聚类算法动态模型的聚类法chameleon(变色龙)6.4数据挖掘的聚类算法6.4.4层次方法1176.4数据挖掘的聚类算法6.4.5基于密度的方法一个基于高密度连接区域的聚类方法DBSCAN聚类方法通过对象排序识别聚类结构OPTICS聚类分析方法基于密度分布函数的聚类基于一组密度分布函数的聚类算法DENCLUE6.4数据挖掘的聚类算法6.4.5基于密度的方法1186.4数据挖掘的聚类算法6.4.6基于网格的方法统计信息网络STING是一种基于网格的多分辨率聚类技术聚类高维空间CLIQUE(clusteringinquest,CLIQUE)聚类算法6.4.7基于模型的聚类方法增量概念聚类算法COBWEB6.4.8模糊聚类算法6.4数据挖掘的聚类算法6.4.6基于网格的方法1196.5数据挖掘的统计分析算法6.5.1辨别方法6.5.2回归模型6.5.3优点与缺点6.5数据挖掘的统计分析算法6.5.1辨别方法1206.6数据挖掘的品种优化算法6.6.1品种优化6.6.2品种优化算法6.6数据挖掘的品种优化算法6.6.1品种优化1216.7数据挖掘的进化算法6.7.1遗传算法如何工作优缺点6.7.2神经网络算法如何工作无指导的学习竞争学习自组织特征映射模型优缺点6.7数据挖掘的进化算法6.7.1遗传算法1226.7数据挖掘的进化算法神经网络模型性别区域职位B类客户年龄交易额受教育的年限图6.10神经网络模型C类客户跳槽客户隐节点隐节点A类客户隐节点隐节点6.7数据挖掘的进化算法神经网络模型性别区域职位B类客户年龄123第7章非结构化数据挖掘本章内容:7.1Web数据挖掘7.2空间群数据挖掘7.3多媒体数据挖掘第7章非结构化数据挖掘本章内容:1247.1Web数据挖掘7.1.1非结构化数据源Web数据挖掘的难点对数据来源分析异构数据环境半结构化的数据结构解决半结构化的数据源问题文本总结XML与Web数据挖掘技术XML的产生与发展XML的主要特点7.1Web数据挖掘7.1.1非结构化数据源1257.1Web数据挖掘7.1.1非结构化数据源XML在Web数据挖掘中的应用两个或更多异质数据库之间进行通信的应用大部分处理负载从Web服务器转到Web客户端的应用Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用需要智能Web代理根据用户个人的需要裁减信息内容的应用7.1Web数据挖掘7.1.1非结构化数据源1267.1Web数据挖掘7.1.2Web挖掘分类Web挖掘Webcontentmining(Web内容挖掘)Webstructuremining(Web结构挖掘)Webusagemining(Web访问挖掘)Searchresultmining(搜索结果再挖掘)Generalaccesspatterntracking(一般访问模式跟踪)Customizedusagetracking(定制的使用跟踪)Webpagecontentmining(Web页面内容挖掘)图7.1Web挖掘分类7.1Web数据挖掘7.1.2Web挖掘分类Web挖掘W127Web挖掘三种方法比较Web内容挖掘Web结构挖掘Web访问挖掘处理数据类型IR方法数据库方法Web结构挖掘用户访问挖掘无结构和半结构化数据半结构化数据主要数据自由文本、HTML标记的超文本HTML标记的超文本文档内及文档间的超链接Serverlog,proxyserverlog,clientlog表示方法词集、段落、概念、IR的三种经典模型OEM关系图关系表、图处理方法TFIDF、统计、机器学习、自然语言理解数据库技术机器学习、专有算法(如HITSpagerank)统计、机器学习、关联规则主要应用分类、聚类、模式发现模式发现、数据向导、多维数据库、站点创建与维护页面权重分类聚类、模式发现用户个性化、自适应Web站点、商业决策Web挖掘三种方法比较Web内容挖掘Web结构挖掘Web访1287.1Web数据挖掘Web挖掘的基本构架访问者注册用户网站交易信息浏览信息数据库、数据仓库Web日志文件WebSerer中其他信息数据预处理模块结构数据挖掘模块Web挖掘的基本构架页面访问情况Web结构模式Web内容模式知识非结构数据挖掘模块7.1Web数据挖掘Web挖掘的基本构架访问者注册用户网1297.1Web数据挖掘7.1.3Web内容挖掘信息检索(informationretrieve,IR)方法数据库方法7.1.4Web结构挖掘Rank方法7.1.5Web访问挖掘对Web日志进行清洗、过滤和转换以及剔除无关记录

采用统计学、模式识别、人工智能、数据库数据挖掘等领域的成熟技术在Web的使用记录中挖掘知识

Web使用挖掘中的模式分析

7.1Web数据挖掘7.1.3Web内容挖掘1307.1Web数据挖掘7.1.6利用Web日志的聚类算法客户群体的模糊聚类算法

用户访问兴趣的算法

客户群体聚类的Hamming距离算法

基于模糊理论的Web页面聚类算法

Web页面聚类的Hamming距离算法

7.1Web数据挖掘7.1.6利用Web日志的聚类算法1317.1Web数据挖掘电子商务中的Web挖掘电子商务中Web挖掘的作用电子商务中Web挖掘的基本问题电子商务中的数据挖掘工具文本信息挖掘工具用户访问模式挖掘工具用户导航行为挖掘工具综合性的Web分析工具7.1Web数据挖掘电子商务中的Web挖掘1327.2空间群数据挖掘7.2.1空间群数据挖掘概念从空间数据中抽取隐含的知识、空间关系、空间及与非空间之间的有意义的特征或模式。

7.2.2空间群数据挖掘分类

空间检索空间拓扑叠加分析空间模拟分析7.2空间群数据挖掘7.2.1空间群数据挖掘概念1337.2空间群数据挖掘7.2.3空间数据挖掘的体系结构空间数据结构查询与优化原则的分析信息集成模式知识级处理语义级检索与索引领域知识模式知识对象和属性抽取物理级底层特性处理设计图7.4空间数据挖掘的体系结构对象级特征处理语义概念级处理用户空间数据处理7.2空间群数据挖掘7.2.3空间数据挖掘的体系结构空间1347.3多媒体数据挖掘7.3.1多媒体数据挖掘的概念7.3.2多媒体数据挖掘的分类图像数据挖掘视频数据挖掘音频数据挖掘7.3多媒体数据挖掘7.3.1多媒体数据挖掘的概念1357.3多媒体数据挖掘7.3.3多媒体数据挖掘的体系结构原始数据媒体数据摄取媒体编码存档浏览引擎分类特征抽取查询引擎工具交互式学习索引的生成用户图7.5功能驱动的多媒体挖掘体系结构基于底层特性的索引与检索元数据与数据抽取原则的分析信息集成模式知识级处理语义级检索与索引领域知识模式知识对象级的索引与检索物理级底层特性处理设计图7.6信息驱动的多媒体挖掘的结构对象级特征处理语义概念级处理用户多媒体处理7.3多媒体数据挖掘7.3.3多媒体数据挖掘的体系结构原始136第8章离群数据挖掘本章内容离群数据挖掘概念离群数据挖掘分类离群数据挖掘算法市场营销离群数据的特点第8章离群数据挖掘本章内容137第8章离群数据挖掘8.1离群数据挖掘的概念8.2离群数据挖掘的分类基于统计学基于距离的方法基于偏移高维数据的离群数据探测基于规则的分类离群数据挖掘方法基于密度(density-based)的离群挖掘方法第8章离群数据挖掘8.1离群数据挖掘的概念1388.3离群数据挖掘的算法8.3.1基于统计的方法8.3.2基于距离的离群数据方法基于距离的离群数据定义基于距离的离群数据挖掘的算法分类及算法描述基于距离的算法的改进8.3.3基于偏离的离群数据挖掘序列离群数据技术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论