数据仓库与数据挖掘技术教案PPT(6-10章)

上传人：红*** IP属地：江苏上传时间：2015-08-04 格式：PPT 页数：79 大小：306.50KB 积分：6 举报 版权申诉

已阅读5页，还剩74页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Istitute Of MIS And LMS,wuse () E-MAIL:BXXHSSINA.COM 第 6章数据挖掘基本算法本章内容： 6.1 分类规则挖掘 6.2 预测分析与趋势分析规则 6.3 数据挖掘的关联算法 6.4 数据挖掘的聚类算法 6.5 数据挖掘的统计分析算法 6.6 数据挖掘的品种优化算法 6.7 数据挖掘的进化算法 E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.1分类与估值 1 分类为了理解事物特征并做出预测使用历史数据建立一个分类模型（即分类器）的过程。应用于信用卡系统中的信用分级、市场调查、疗效诊断、寻找店址等实践应用参照课本 E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.1分类与估值 2 估值估值（ estimation）与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；分类的类别是确定的数目，估值的量是不确定的。 3 分类方法与步骤方法：决策树归纳、贝叶斯分类、贝叶斯网络、神经网络。还有 K-最临近分类、基于案例的推理、遗传算法、粗糙集和模糊集方法。步骤：模型创建、模型使用 E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.1分类与估值 4 评估分类方法要考虑的指标：预测准确率、速度、创建速度、使用速度、鲁棒性、处理噪声和丢失值、伸缩性、对磁盘驻留数据的处理能力、可解释性、对模型的可理解程度、规则好坏的评价、决策树的大小和分类规则的简明性。 E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.2 决策树父节点子节点子节点叶节点子节点子节点子节点根节点图 6.1 一般决策树结构叶节点父节点 E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.2 决策树 1决策树的构造过程 ID3算法应用如下： )(log 21pipmii),.,1(1)/).21( s m jjsImjss m jjsjs)(log 21pipmii信息量计算公式： I(s1,s2, sm)=- （ 6.1）其中， pi为 si占整个类别的概率利用属性 A划分当前样本集合所需要的信息（熵）的计算公式为： E（ A） = (6.2) 信息增益公式： Gain（ A） = I(s1,s2, sm)-E（ A）（ 6.3）例如：一个销售的顾客数据库（训练样本集合） ,对购买计算机的人员进行分类：字段为：（年龄（取值： 40）；收入 (高，中，低 )；学生否（ Y， N）；信用（一般，很好）；购买计算机否（ Y， N）记录为 14个，具体数据如下： X1=(40, 中 ,N, 一般 ,Y) X5=(40, 低 ,Y, 一般 ,Y)； X6=(40, 低 ,Y, 很好 ,N) X7=(40, 中 ,Y, 一般 ,Y) X11=(40,中 ,N, 很好 ,N) E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.2 决策树 1决策树的构造过程决策树的构造算法：决策树的构造算法可通过训练集 T完成，其中 T=，而x=(a1,a2, an)为一个训练实例，它有 n个属性，分别列于属性表(A1,A2, An)中，其中 ai表示属性 Ai的取值。 Cj C=C1,C2, Cm为 x的分类结果。从属性表中选择属性 Ai作为分类属性；若属性 Ai的取值有 ki个，则将 T划分为 ki个子集， T1,T ki，其中 Tij=| T，且 x的属性取值 A为第 i个值；接下来从属性表中删除属性 Ai；对于每一个Tij(1jK1)，令 T=Tij；如果属性表非空，返回第 1步，否则输出。 E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.2 决策树 2分类器定义：输入的数据含有千万个记录，每个记录又有很多个属性，其中有一个特别的属性叫做类（例如信用程度的高，中，低）。具体步骤： 1）树的建立。 2）树的修剪 ,SLIQ采用了 MDL（最小叙述长度）的方法来修剪树。 E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.2 决策树 3决策树的可扩展性 4基于决策树方法的数据挖掘工具 KnowledgSEEKER E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.3 贝叶斯分类 1贝叶斯信任网络如何工作边缘主区域手机呼叫服务区域 no yes 外界图 6.3 简单的贝叶斯网图 E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.3 贝叶斯分类 2贝叶斯定理与朴素贝叶斯分类贝叶斯定理 : P(H|X)=P(X|H)P(H)/P(X) 其中， P(H|X)表示条件 X下 H的概率，也称为条件概率或称为后验概率(posteriori probabilities)。朴素贝叶斯分类：假定有 m个类 C1, Cm,对于数据样本 X,分类法将预测 X属于类Ci,当且仅当 P(Ci|X) P(Cj|X), E-MAIL:BXXHSSINA.COM 6.2预测分析与趋势分析规则 6.2.1 预言的基本方法预言（ prediction）是一门掌握对象变化动态的科学，它是对对象变动趋势的预见、分析和判断，也是一种动态分析方法。预测的基本步骤：确定预测目标，包括预测对象、目的、对象范围；收集分析内部和外部资料；数据的处理及模型的选择；预测模型的分析、修正；确定预测值。 E-MAIL:BXXHSSINA.COM 6.2 预测分析与趋势分析规则 6.2.2 定量分析预测时间序列法回归预测非线性模型灰色预测模型 GM（ 1， 1）组合预测 E-MAIL:BXXHSSINA.COM 6.2 预测分析与趋势分析规则 6.2.3预测的结果分析预测的结果分析要考虑到的因素：相反的预测结果胜出裕度成本收益分析 E-MAIL:BXXHSSINA.COM 6.2 预测分析与趋势分析规则 6.2.4 趋势分析挖掘分析时间序列数据需要注意以下方面：长时间的走向周期的走向与周期的变化季节性的走向与变化不规则的随机走向 E-MAIL:BXXHSSINA.COM 6.3 数据挖掘的关联算法 6.3.1 关联规则的概念及分类 1关联规则的概念定义 1 设 I=i1、 i2、 i3， , im是由 m个不同的数据项目组成的集合，其中的元素称为项 (item)，项的集合称为项集，包含 k个项的项集称为 k项集 ,给定一个事务（交易） D，即交易数据库，其中的每一个事务（交易） T是数据项 I的一个子集，即，T有一个惟一的标积符 TID；当且仅当时，称交易 T包含项集 X；那么关联规则就形如“ X=Y”的蕴涵式；其中，，即表示满足 X中条件的记录也一定满足 Y。关联规则 X=Y在交易数据库中成立 , 具有支持度 s和具有置信度 c 。这也就是交易数据集 D中具有支持度 s，即 D中至少有 s%的事务包含 ,描述为： support(X=Y)= 比如 Support(X=Y )=同时购买商品 X和 Y的交易数总交易数同时交易数据集 D中具有置信度 c，即 D中包含 X的事务至少有 c%同时也包含 Y,描述为： confidence(X=Y)= 比如购买了商品 X，同时购买商品 Y可信度， confidence(X=Y)=同时购买商品 X和 Y的交易数购买了商品 X的交易数一般称满足一定要求的规则为强规则。通常称满足最小支持度和最小置信度的关联规则为强关联规则（ strong）。一般将最小支持度简记为 minsup和最小置信度简记为 minconf。 E-MAIL:BXXHSSINA.COM 6.3 数据挖掘的关联算法 6.3.1 关联规则的概念及分类 2 关联规则的分类分类标准类别规则中所处理的值布尔关联规则，量化关联规则规则中所涉及的数据维单维关联规则和多维关联规则规则中所涉及的抽象层单层关联规则和多层关联规则规则中的扩充最大的模式和频繁闭项集关联特性分类分析与相关分析 E-MAIL:BXXHSSINA.COM 6.3 数据挖掘的关联算法 6.3.2 简单形式的关联规则算法（单维、单层和布尔关联规则） 1简单形式的关联规则的核心算法找到所有支持度大于最小支持度的项集 ,即频集 ,有 k个数据频集称为 k项频集 .找出所有的频集由 apriori算法实现。Apriori性质具有一个频集的任一非空子集都是频集。使用第 1步找到的频集产生期望的规则 apriori算法的详细介绍见课本。 E-MAIL:BXXHSSINA.COM 6.3 数据挖掘的关联算法 6.3.2 简单形式的关联规则算法（单维、单层和布尔关联规则） 2 频集算法的几种优化方法基于划分的方法基于 hash的方法基于采样的方法减少交易的个数 E-MAIL:BXXHSSINA.COM 6.3 数据挖掘的关联算法 6.3.2 简单形式的关联规则算法（单维、单层和布尔关联规则） 3 其他的频集挖掘方法 FP-growth方法 min_hashing(MH)和locality_sensitive_hashing(LSH) E-MAIL:BXXHSSINA.COM 6.3 数据挖掘的关联算法 6.3.3 多层和多维关联规则的挖掘多层关联规则多维关联规则关联规则价值衡量的方法 6.3.4 货篮子分析存在的问题详见课本 E-MAIL:BXXHSSINA.COM 6.3 数据挖掘的关联算法 6.3.5 关联分析的其他算法发现关联的更好方法统计相关以外的理解关联有效可行的市场篮子分析 6.3.6 挖掘序列模式序列模式的概念及定义序列模式挖掘的主要算法 GSP算法描述 PrefixSpan算法 E-MAIL:BXXHSSINA.COM 关联规则挖掘一个例子交易 ID 购买商品2000 A ,B ,C1000 A ,C4000 A ,D5000 B ,E ,F频繁项集支持度 A 75% B 50% C 50% A ,C 50%最小值尺度 50% 最小可信度 50% 对于 A C： support = support(A 、 C) = 50% confidence = support(A 、 C)/support(A) = 66.6% Apriori的基本思想 : 频繁项集的任何子集也一定是频繁的 E-MAIL:BXXHSSINA.COM 关键步骤：挖掘频繁集频繁集 :是指满足最小支持度的项目集合频繁集的子集也一定是频繁的如 , 如果 AB 是频繁集，则 A B 也一定是频繁集从 1到 k（ k-频繁集）递归查找频繁集用得到的频繁集生成关联规则 E-MAIL:BXXHSSINA.COM Apriori算法连接 : 用 Lk-1自连接得到 Ck 修剪 : 一个 k-项集，如果他的一个 k-1项集（他的子集）不是频繁的，那他本身也不可能是频繁的。伪代码 : Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = frequent items; for (k = 1; Lk !=; k+) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support end return k Lk; E-MAIL:BXXHSSINA.COM Apriori算法例子 T ID Ite m s100 1 3 4200 2 3 5300 1 2 3 5400 2 5数据库 D ite m s e t s u p . 1 2 2 3 3 3 4 1 5 3i te m s e t s u p . 1 2 2 3 3 3 5 3扫描 D C1 L1 item set1 21 31 52 32 53 5ite m s et s up 1 2 1 1 3 2 1 5 1 2 3 2 2 5 3 3 5 2ite m s e t s u p 1 3 2 2 3 2 2 5 3 3 5 2L2 C2 C2 扫描 D C3 L3 item set2 3 5 扫描 D ite m s e t s u p 2 3 5 2 E-MAIL:BXXHSSINA.COM 如何生成候选集假定 Lk-1 中的项按顺序排列第一步 : 自连接 Lk-1 insert into Ck select p.item1, p.item2, , p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1=q.item1, , p.itemk-2=q.itemk-2, p.itemk-1 q.itemk-1 第二步 : 修剪 forall itemsets c in Ck do forall (k-1)-subsets s of c do if (s is not in Lk-1) then delete c from Ck E-MAIL:BXXHSSINA.COM 如何计算候选集的支持度计算支持度为什么会成为一个问题？候选集的个数非常巨大一笔交易可能包含多个候选集方法 : 用 hash-tree 存放候选集树的叶子节点 of存放项集的列表和支持度内部节点是一个 hash表 Subset 函数 : 找到包含在一笔交易中的所有候选集 E-MAIL:BXXHSSINA.COM 生成候选集的例子 L3=abc, abd, acd, ace, bcd 自连接 : L3*L3 abc 和 abd 得到 abcd acd 和 ace 得到 acde 修剪 : ade 不在 L3中，删除 acde C4=abcd E-MAIL:BXXHSSINA.COM 提高 Apriori效率的方法基于 Hash的项集计数 : 如果一个 k-项集在 hash-tree的路径上的一个计数值低于阈值，那他本身也不可能是频繁的。减少交易记录 : 不包含任何频繁 k-项集的交易也不可能包含任何大于 k的频繁集分割 : 一个项集要想在整个数据库中是频繁的，那么他至少在数据库的一个分割上是频繁的。采样 : 在给定数据的子集上挖掘，使用小的支持度 +完整性验证方法动态项集计数 : 在添加一个新的候选集之前，先估计一下是不是他的所有子集都是频繁的。 E-MAIL:BXXHSSINA.COM Apriori 够快了吗 ? 性能瓶颈 Apriori算法的核心 : 用频繁的 (k 1)-项集生成候选的频繁 k-项集用数据库扫描和模式匹配计算候选集的支持度 Apriori 的瓶颈 : 候选集生成巨大的候选集 : 104 个频繁 1-项集要生成 107 个候选 2-项集要找尺寸为 100的频繁模式，如 a1, a2, , a100, 你必须先产生 2100 1030 个候选集多次扫描数据库：如果最长的模式是 n的话，则需要 (n +1 ) 次数据库扫描 E-MAIL:BXXHSSINA.COM 6.4数据挖掘的聚类算法 6.4.1 聚类分析的概念与分类聚类分析概念聚类分析方法的分类类别算法分裂（划分）法 K-MEANS算法（ K-平均）、 K-MEDOIDS算法（ K-中心点）、 CLARANS算法（给予选择的方法）层次法 BIRCH算法（平衡迭代归约和聚类）、 CURE算法（代表聚类）、 CHAMELEON算法（动态模型）基于密度的方法 DBSCAN算法（基于高密度连接区域）、 OPTICS算法（对象排序识别）、DENCLUE算法（密度分布函数）基于网格的方法 STING算法（统计信息网格）、 CLIQUE算法（聚类高维空间）、 WAVE-CLUSTER算法（小波变换）基于模型的方法统计学方法、神经网络方法 E-MAIL:BXXHSSINA.COM 6.4数据挖掘的聚类算法 6.4.2 聚类分析中两个对象之间的相异度计算方法区间标度变量计算方法二元变量计算方法标称型、序数型和比例标度型变量计算方法混合类型的变量计算方法 E-MAIL:BXXHSSINA.COM 6.4数据挖掘的聚类算法 6.4.3 划分方法典型的划分方法： k-平均和 k-中心点基于簇的重心技术： k-平均方法基于有代表性的对象的技术： k-中心点方法大型数据库中的划分方法：基于选择的 K-中心点 CLARANS方法 E-MAIL:BXXHSSINA.COM 6.4数据挖掘的聚类算法 6.4.4 层次方法凝聚的和分裂的层次聚类凝聚层次聚类方法 AGNES 分裂层次聚类方法 DIANA 利用层次方法的平衡迭代归约和聚类综合的层次聚类方法 BIRCH 利用代表点聚类一种新颖的层次聚类算法 CURE 一个利用动态模型的层次聚类算法动态模型的聚类法 chameleon (变色龙 ) E-MAIL:BXXHSSINA.COM 6.4数据挖掘的聚类算法 6.4.5 基于密度的方法一个基于高密度连接区域的聚类方法 DBSCAN 聚类方法通过对象排序识别聚类结构 OPTICS聚类分析方法基于密度分布函数的聚类基于一组密度分布函数的聚类算法 DENCLUE E-MAIL:BXXHSSINA.COM 6.4数据挖掘的聚类算法 6.4.6 基于网格的方法统计信息网络 STING是一种基于网格的多分辨率聚类技术聚类高维空间 CLIQUE（ clustering in quest, CLIQUE）聚类算法 6.4.7 基于模型的聚类方法增量概念聚类算法 COBWEB 6.4.8 模糊聚类算法 E-MAIL:BXXHSSINA.COM 6.5 数据挖掘的统计分析算法 6.5.1 辨别方法 6.5.2 回归模型 6.5.3 优点与缺点 E-MAIL:BXXHSSINA.COM 6.6 数据挖掘的品种优化算法 6.6.1 品种优化 6.6.2 品种优化算法 E-MAIL:BXXHSSINA.COM 6.7数据挖掘的进化算法 6.7.1 遗传算法如何工作优缺点 6.7.2 神经网络算法如何工作无指导的学习竞争学习自组织特征映射模型优缺点 E-MAIL:BXXHSSINA.COM 6.7数据挖掘的进化算法神经网络模型性别区域职位 B类客户年龄交易额受教育的年限图 6.10 神经网络模型 C类客户跳槽客户隐节点隐节点 A类客户隐节点隐节点 E-MAIL:BXXHSSINA.COM 第 7章非结构化数据挖掘本章内容 : 7.1 Web数据挖掘 7.2 空间群数据挖掘 7.3 多媒体数据挖掘 E-MAIL:BXXHSSINA.COM 7.1 Web数据挖掘 7.1.1 非结构化数据源 Web数据挖掘的难点对数据来源分析异构数据环境半结构化的数据结构解决半结构化的数据源问题文本总结 XML与 Web数据挖掘技术 XML的产生与发展 XML的主要特点 E-MAIL:BXXHSSINA.COM 7.1 Web数据挖掘 7.1.1 非结构化数据源 XML在 Web数据挖掘中的应用两个或更多异质数据库之间进行通信的应用大部分处理负载从 Web服务器转到 Web客户端的应用 Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用需要智能 Web代理根据用户个人的需要裁减信息内容的应用 E-MAIL:BXXHSSINA.COM 7.1 Web数据挖掘 7.1.2 Web挖掘分类 Web挖掘 Web content mining (Web内容挖掘 ) Web structure mining (Web结构挖掘 ) Web usage mining (Web访问挖掘 ) Search result mining(搜索结果再挖掘 ) General access pattern tracking （一般访问模式跟踪） Customized usage tracking (定制的使用跟踪 ) Web page content mining(Web页面内容挖掘 ) 图 7.1 Web挖掘分类 E-MAIL:BXXHSSINA.COM Web挖掘三种方法比较 Web内容挖掘 Web结构挖掘 Web访问挖掘处理数据类型 IR方法数据库方法 Web结构挖掘用户访问挖掘无结构和半结构化数据半结构化数据主要数据自由文本、 HTML标记的超文本 HTML标记的超文本文档内及文档间的超链接 Serverlog,proxy serverlog,client log 表示方法词集、段落、概念、 IR的三种经典模型 OEM 关系图关系表、图处理方法 TFIDF、统计、机器学习、自然语言理解数据库技术机器学习、专有算法（如 HITS pagerank）统计、机器学习、关联规则主要应用分类、聚类、模式发现模式发现、数据向导、多维数据库、站点创建与维护页面权重分类聚类、模式发现用户个性化、自适应 Web站点、商业决策 E-MAIL:BXXHSSINA.COM 7.1 Web数据挖掘 Web挖掘的基本构架访问者注册用户网站交易信息浏览信息数据库、数据仓库 Web日志文件 Web Serer中其他信息数据预处理模块结构数据挖掘模块 Web挖掘的基本构架页面访问情况 Web结构模式 Web内容模式知识非结构数据挖掘模块 E-MAIL:BXXHSSINA.COM 7.1 Web数据挖掘 7.1.3 Web内容挖掘信息检索（ information retrieve ， IR）方法数据库方法 7.1.4 Web结构挖掘 Page-Rank方法 7.1.5 Web访问挖掘对 Web日志进行清洗、过滤和转换以及剔除无关记录采用统计学、模式识别、人工智能、数据库数据挖掘等领域的成熟技术在 Web的使用记录中挖掘知识 Web使用挖掘中的模式分析 E-MAIL:BXXHSSINA.COM 7.1 Web数据挖掘 7.1.6 利用 Web日志的聚类算法客户群体的模糊聚类算法用户访问兴趣的算法客户群体聚类的 Hamming距离算法基于模糊理论的 Web页面聚类算法 Web页面聚类的 Hamming距离算法 E-MAIL:BXXHSSINA.COM 7.1 Web数据挖掘电子商务中的 Web挖掘电子商务中 Web挖掘的作用电子商务中 Web挖掘的基本问题电子商务中的数据挖掘工具文本信息挖掘工具用户访问模式挖掘工具用户导航行为挖掘工具综合性的 Web分析工具 E-MAIL:BXXHSSINA.COM 7.2 空间群数据挖掘 7.2.1 空间群数据挖掘概念从空间数据中抽取隐含的知识、空间关系、空间及与非空间之间的有意义的特征或模式。 7.2.2 空间群数据挖掘分类空间检索空间拓扑叠加分析空间模拟分析 E-MAIL:BXXHSSINA.COM 7.2 空间群数据挖掘 7.2.3 空间数据挖掘的体系结构空间数据结构查询与优化原则的分析信息集成模式知识级处理语义级检索与索引领域知识模式知识对象和属性抽取物理级底层特性处理设计图 7.4 空间数据挖掘的体系结构对象级特征处理语义概念级处理用户空间数据处理 E-MAIL:BXXHSSINA.COM 7.3多媒体数据挖掘 7.3.1 多媒体数据挖掘的概念 7.3.2 多媒体数据挖掘的分类图像数据挖掘视频数据挖掘音频数据挖掘 E-MAIL:BXXHSSINA.COM 7.3多媒体数据挖掘 7.3.3 多媒体数据挖掘的体系结构原始数据媒体数据摄取媒体编码存档浏览引擎分类特征抽取查询引擎工具交互式学习索引的生成用户图 7.5 功能驱动的多媒体挖掘体系结构基于底层特性的索引与检索元数据与数据抽取原则的分析信息集成模式知识级处理语义级检索与索引领域知识模式知识对象级的索引与检索物理级底层特性处理设计图 7.6 信息驱动的多媒体挖掘的结构对象级特征处理语义概念级处理用户多媒体处理 E-MAIL:BXXHSSINA.COM 第 8章离群数据挖掘本章内容离群数据挖掘概念离群数据挖掘分类离群数据挖掘算法市场营销离群数据的特点 E-MAIL:BXXHSSINA.COM 第 8章离群数据挖掘 8.1 离群数据挖掘的概念 8.2 离群数据挖掘的分类基于统计学基于距离的方法基于偏移高维数据的离群数据探测基于规则的分类离群数据挖掘方法基于密度 (density-based)的离群挖掘方法 E-MAIL:BXXHSSINA.COM 8.3离群数据挖掘的算法 8.3.1基于统计的方法 8.3.2基于距离的离群数据方法基于距离的离群数据定义基于距离的离群数据挖掘的算法分类及算法描述基于距离的算法的改进 8.3.3 基于偏离的离群数据挖掘序列离群数据技术 OLAP数据立方体技术 E-MAIL:BXXHSSINA.COM 8.3离群数据挖掘的算法 8.3.4 高维数据的离群数据挖掘 8.3.5 基于小波的离群数据挖掘时序数据的离群数据挖掘基于聚类的离群数据 CL（） E-MAIL:BXXHSSINA.COM 8.4市场营销离群数据挖掘 8.4.1市场营销离群数据挖掘特点 8.4.2 基于分形的市场营销离群数据挖掘模型几个定义 E-MAIL:BXXHSSINA.COM 第 9章数据挖掘语言与工具选择本章内容 9.1 数据挖掘语言及其标准化 9.2 数据挖掘研究热点 9.3 数据挖掘工具的选择 E-MAIL:BXXHSSINA.COM 9.1 数据挖掘语言及其标准化 9.1.1 数据挖掘语言分类类别特点功能代表数据挖掘查询语言数据挖掘原语五种原语 DMQL 数据挖掘建模语言基于 XML的语言文档类型定义、通用模式 PMML 通用数据挖掘语言集成全面 OLE DB for DM E-MAIL:BXXHSSINA.COM 9.1 数据挖掘语言及其标准化 9.1.1 数据挖掘语言分类数据挖掘查询语言（ 5种数据挖掘原语定义）。任务相关数据原语被挖掘的知识的种类原语背景知识原语兴趣度测量原语被发现模式的表示和可视化原语 E-MAIL:BXXHSSINA.COM 9.1 数据挖掘语言及其标准化 9.1.1 数据挖掘语言分类数据挖掘建模语言头文件（ a header）数据模式（ a data schema）数据挖掘模式（ a data mining schema）预言模型模式（ a predictive model schema）预言模型定义（ definitions for predictive models）全体模型定义（ definitions for ensembles of models）选择和联合模型、全体模型的规则（ rules for selecting and combining models and ensembles of models）异常处理的规则（ rules for exception handling） E-MAIL:BXXHSSINA.COM 9.1 数据挖掘语言及其标准化 9.1.1 数据挖掘语言分类通用数据挖掘语言数据挖掘模型（ Data Mining Model， DMM）预言联接操作（ Predication Join Operation） OLE DB for DM模式行集合（ Schema Rowsets） 9.1.2 分析与评价 E-MAIL:BXXHSSINA.COM 9.2数据挖掘的研究热点网站的数据挖掘生物信息或基因的数据挖掘文本的数据挖掘 E-MAIL:BXXHSSINA.COM 9.3 数据挖掘工具的选择 9.3.1 评价数据挖掘工具的优劣指标数据准备数据访问算法与建模模型的评价和解释用户界面 E-MAIL:BXXHSSINA.COM 9.3 数据挖掘工具的选择 9.3.2 通用数据挖掘产品与工具 POLY ANALYST IBM DB2 lntelligent Miner和并行可视化探索者 PVE DB Miner BO的 Business Miner SPSS股份公司（ SPPS CHAID） SAS研究所股份公司（ SAS,JMP） NeuralWare股份公司信息发现股份公司（ IDIS） RightPoint公司的数据挖掘工具 DataCruncher DataMind公司（ DataMind专业版， DataMindCruncher） Pilot软件股份公司（ Pilot 发现服务器） Angoss国际有限公司（ Knowledge SEEKER） Silicon Graphics计算机系统公司（ MineSet）商务项目公司（商务挖掘器） Cognos软件公司（ Scenario）思维机器公司 (Darwin) . E-MAIL:BXXHSSINA.COM 9.3 数据挖掘工具的选择 9.3.3 国内的数据挖掘产品与工具菲奈特一融通公司广州华工明天科技有限公司复旦大学数据采掘工具 ARMiner 9.3.4 数据可视化工具的选择高级可视化系统公司（ AVS/Express） Alta分析股份蔼公司（ NetMap） Belmont 研究股份公司（ Cross Graphs）环境系统研究所（ ESRI）股份公司 MapInfo公司（ MapInfo, SpatialWare） Silicon Graphics计算机系统公司（ MineSet） E-MAIL:BXXHSSINA.COM 9.3 数据挖掘工具的选择 9.3.5数据挖掘网站与可获得的数据挖掘算法源代码数据挖掘网站知识发现挖掘网址：数据挖掘网址： http:/www.cs.bham.ac.uk 太平洋西北神经网络国家实验室网址：http:/www.emsl.pnl.gou 技术保护 -遗传算法网址： http:/w

人人文库> 全部分类> 行业资料 > 商业贸易

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据仓库与数据挖掘技术教案PPT(6-10章)

文档简介

温馨提示

最新文档

评论

数据仓库与数据挖掘技术教案PPT(6-10章)

文档简介

温馨提示

最新文档

评论

相关文档