已阅读5页,还剩74页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Istitute Of MIS And LMS,wuse () E-MAIL:BXXHSSINA.COM 第 6章 数据挖掘基本算法 本章内容: 6.1 分类规则挖掘 6.2 预测分析与趋势分析规则 6.3 数据挖掘的关联算法 6.4 数据挖掘的聚类算法 6.5 数据挖掘的统计分析算法 6.6 数据挖掘的品种优化算法 6.7 数据挖掘的进化算法 E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.1分类与估值 1 分类 为了理解事物特征并做出预测使用历史数据建立一个分类模型(即分类器)的过程 。 应用于信用卡系统中的信用分级、市场调查、疗效诊断、寻找店址等 实践应用参照课本 E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.1分类与估值 2 估值 估值( estimation)与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定的数目,估值的量是不确定的 。 3 分类方法与步骤 方法: 决策树归纳、贝叶斯分类、贝叶斯网络、神经网络。还有 K-最临近分类、基于案例的推理、遗传算法、粗糙集和模糊集方法 。 步骤: 模型创建、模型使用 E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.1分类与估值 4 评估分类方法 要考虑的指标:预测准确率、速度、创建速度、使用速度、鲁棒性、处理噪声和丢失值、伸缩性、对磁盘驻留数据的处理能力、可解释性、对模型的可理解程度、规则好坏的评价、决策树的大小和分类规则的简明性。 E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.2 决策树 父节点 子节点 子节点 叶节点 子节点 子节点 子节点 根节点 图 6.1 一般决策树结构 叶节点 父节点 E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.2 决策树 1决策树的构造过程 ID3算法应用如下: )(log 21pipmii),.,1(1)/).21( s m jjsImjss m jjsjs)(log 21pipmii信息量计算公式: I(s1,s2, sm)=- ( 6.1) 其中, pi为 si占整个类别的概率 利用属性 A划分当前样本集合所需要的信息(熵)的计算公式为: E( A) = (6.2) 信息增益公式: Gain( A) = I(s1,s2, sm)-E( A) ( 6.3) 例如:一个销售的顾客数据库(训练样本集合) ,对购买计算机的人员进行分类: 字段为:(年龄(取值: 40);收入 (高,中,低 );学生否( Y, N);信用(一般,很好);购买计算机否( Y, N) 记录为 14个,具体数据如下: X1=(40, 中 ,N, 一般 ,Y) X5=(40, 低 ,Y, 一般 ,Y); X6=(40, 低 ,Y, 很好 ,N) X7=(40, 中 ,Y, 一般 ,Y) X11=(40,中 ,N, 很好 ,N) E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.2 决策树 1决策树的构造过程 决策树的构造算法: 决策树的构造算法可通过训练集 T完成,其中 T=,而x=(a1,a2, an)为一个训练实例,它有 n个属性,分别列于属性表(A1,A2, An)中,其中 ai表示属性 Ai的取值。 Cj C=C1,C2, Cm为 x的分类结果。从属性表中选择属性 Ai作为分类属性;若属性 Ai的取值有 ki个,则将 T划分为 ki个子集, T1,T ki,其中 Tij=| T,且 x的属性取值 A为第 i个值;接下来从属性表中删除属性 Ai;对于每一个Tij(1jK1),令 T=Tij;如果属性表非空,返回第 1步,否则输出。 E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.2 决策树 2分类器 定义:输入的数据含有千万个记录,每个记录又有很多个属性,其中有一个特别的属性叫做类(例如信用程度的高,中,低)。 具体步骤 : 1)树的建立。 2)树的修剪 ,SLIQ采用了 MDL(最小叙述长度)的方法来修剪树。 E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.2 决策树 3决策树的可扩展性 4基于决策树方法的数据挖掘工具 KnowledgSEEKER E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.3 贝叶斯分类 1贝叶斯信任网络如何工作 边缘 主区域 手机呼叫 服务区域 no yes 外界 图 6.3 简单的贝叶斯网图 E-MAIL:BXXHSSINA.COM 6.1 分类规则挖掘 6.1.3 贝叶斯分类 2贝叶斯定理与朴素贝叶斯分类 贝叶斯定理 : P(H|X)=P(X|H)P(H)/P(X) 其中, P(H|X)表示条件 X下 H的概率,也称为条件概率或称为后验概率(posteriori probabilities)。 朴素贝叶斯分类: 假定有 m个类 C1, Cm,对于数据样本 X,分类法将预测 X属于类Ci,当且仅当 P(Ci|X) P(Cj|X), E-MAIL:BXXHSSINA.COM 6.2预测分析与趋势分析规则 6.2.1 预言的基本方法 预言( prediction)是一门掌握对象变化动态的科学,它是对对象变动趋势的预见、分析和判断,也是一种动态分析方法。 预测的基本步骤: 确定预测目标,包括预测对象、目的、对象范围; 收集分析内部和外部资料; 数据的处理及模型的选择; 预测模型的分析、修正; 确定预测值。 E-MAIL:BXXHSSINA.COM 6.2 预测分析与趋势分析规则 6.2.2 定量分析预测 时间序列法 回归预测 非线性模型 灰色预测模型 GM( 1, 1) 组合预测 E-MAIL:BXXHSSINA.COM 6.2 预测分析与趋势分析规则 6.2.3预测的结果分析 预测的结果分析要考虑到的因素: 相反的预测结果 胜出裕度 成本收益分析 E-MAIL:BXXHSSINA.COM 6.2 预测分析与趋势分析规则 6.2.4 趋势分析挖掘 分析时间序列数据需要注意以下方面 : 长时间的走向 周期的走向与周期的变化 季节性的走向与变化 不规则的随机走向 E-MAIL:BXXHSSINA.COM 6.3 数据挖掘的关联算法 6.3.1 关联规则的概念及分类 1关联规则的概念 定义 1 设 I=i1、 i2、 i3, , im是由 m个不同的数据项目组成的集合,其中的元素称为项 (item),项的集合称为项集,包含 k个项的项集称为 k项集 ,给定一个事务(交易) D,即交易数据库,其中的每一个事务(交易) T是数据项 I的一个子集,即,T有一个惟一的标积符 TID;当且仅当时,称交易 T包含项集 X;那么关联规则就形如“ X=Y”的蕴涵式;其中, ,即表示满足 X中条件的记录也一定满足 Y。关联规则 X=Y在交易数据库中成立 , 具有支持度 s和具有置信度 c 。 这也就是交易数据集 D中具有支持度 s,即 D中至少有 s%的事务包含 ,描述 为: support(X=Y)= 比如 Support(X=Y )=同时购买商品 X和 Y的交易数 总交易数 同时交易数据集 D中具有置信度 c,即 D中包含 X的事务至少有 c%同时也包含 Y,描述为: confidence(X=Y)= 比如购买了商品 X,同时购买商品 Y可信度, confidence(X=Y)=同时购买商品 X和 Y的交易数 购买了商品 X的交易数 一般称满足一定要求的规则为强规则。通常称满足最小支持度和最小置信度的关联规则为强关联规则( strong)。一般将最小支持度简记为 minsup和最小置信度简记为 minconf。 E-MAIL:BXXHSSINA.COM 6.3 数据挖掘的关联算法 6.3.1 关联规则的概念及分类 2 关联规则的分类 分类标准 类别 规则中所处理的值 布尔关联规则,量化关联规则 规则中所涉及的数据维 单维关联规则和多维关联规则 规则中所涉及的抽象层 单层关联规则和多层关联规则 规则中的扩充 最大的模式和频繁闭项集 关联特性 分类分析与相关分析 E-MAIL:BXXHSSINA.COM 6.3 数据挖掘的关联算法 6.3.2 简单形式的关联规则算法(单维、单层和布尔关联规则) 1简单形式的关联规则的核心算法 找到所有支持度大于最小支持度的项集 ,即频集 ,有 k个数据频集称为 k项频集 .找出所有的频集由 apriori算法实现。Apriori性质具有一个频集的任一非空子集都是频集。 使用第 1步找到的频集产生期望的规则 apriori算法的详细介绍见课本。 E-MAIL:BXXHSSINA.COM 6.3 数据挖掘的关联算法 6.3.2 简单形式的关联规则算法(单维、单层和布尔关联规则) 2 频集算法的几种优化方法 基于划分的方法 基于 hash的方法 基于采样的方法 减少交易的个数 E-MAIL:BXXHSSINA.COM 6.3 数据挖掘的关联算法 6.3.2 简单形式的关联规则算法(单维、单层和布尔关联规则) 3 其他的频集挖掘方法 FP-growth方法 min_hashing(MH)和locality_sensitive_hashing(LSH) E-MAIL:BXXHSSINA.COM 6.3 数据挖掘的关联算法 6.3.3 多层和多维关联规则的挖掘 多层关联规则 多维关联规则 关联规则价值衡量的方法 6.3.4 货篮子分析存在的问题 详见课本 E-MAIL:BXXHSSINA.COM 6.3 数据挖掘的关联算法 6.3.5 关联分析的其他算法 发现关联的更好方法 统计相关以外的 理解关联 有效可行的市场篮子分析 6.3.6 挖掘序列模式 序列模式的概念及定义 序列模式挖掘的主要算法 GSP算法描述 PrefixSpan算法 E-MAIL:BXXHSSINA.COM 关联规则挖掘 一个例子 交易 ID 购买商品2000 A ,B ,C1000 A ,C4000 A ,D5000 B ,E ,F频繁项集 支持度 A 75% B 50% C 50% A ,C 50%最小值尺度 50% 最小可信度 50% 对于 A C: support = support(A 、 C) = 50% confidence = support(A 、 C)/support(A) = 66.6% Apriori的基本思想 : 频繁项集的任何子集也一定是频繁的 E-MAIL:BXXHSSINA.COM 关键步骤:挖掘频繁集 频繁集 :是指满足最小支持度的项目集合 频繁集的子集也一定是频繁的 如 , 如果 AB 是频繁集,则 A B 也一定是频繁集 从 1到 k( k-频繁集)递归查找频繁集 用得到的频繁集生成关联规则 E-MAIL:BXXHSSINA.COM Apriori算法 连接 : 用 Lk-1自连接得到 Ck 修剪 : 一个 k-项集,如果他的一个 k-1项集(他的子集 )不是频繁的,那他本身也不可能是频繁的。 伪代码 : Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = frequent items; for (k = 1; Lk !=; k+) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support end return k Lk; E-MAIL:BXXHSSINA.COM Apriori算法 例子 T ID Ite m s100 1 3 4200 2 3 5300 1 2 3 5400 2 5数据库 D ite m s e t s u p . 1 2 2 3 3 3 4 1 5 3i te m s e t s u p . 1 2 2 3 3 3 5 3扫描 D C1 L1 item set1 21 31 52 32 53 5ite m s et s up 1 2 1 1 3 2 1 5 1 2 3 2 2 5 3 3 5 2ite m s e t s u p 1 3 2 2 3 2 2 5 3 3 5 2L2 C2 C2 扫描 D C3 L3 item set2 3 5 扫描 D ite m s e t s u p 2 3 5 2 E-MAIL:BXXHSSINA.COM 如何生成候选集 假定 Lk-1 中的项按顺序排列 第一步 : 自连接 Lk-1 insert into Ck select p.item1, p.item2, , p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1=q.item1, , p.itemk-2=q.itemk-2, p.itemk-1 q.itemk-1 第二步 : 修剪 forall itemsets c in Ck do forall (k-1)-subsets s of c do if (s is not in Lk-1) then delete c from Ck E-MAIL:BXXHSSINA.COM 如何计算候选集的支持度 计算支持度为什么会成为一个问题? 候选集的个数非常巨大 一笔交易可能包含多个候选集 方法 : 用 hash-tree 存放候选集 树的 叶子节点 of存放项集的列表和支持度 内部节点 是一个 hash表 Subset 函数 : 找到包含在一笔交易中的所有候选集 E-MAIL:BXXHSSINA.COM 生成候选集的例子 L3=abc, abd, acd, ace, bcd 自连接 : L3*L3 abc 和 abd 得到 abcd acd 和 ace 得到 acde 修剪 : ade 不在 L3中,删除 acde C4=abcd E-MAIL:BXXHSSINA.COM 提高 Apriori效率的方法 基于 Hash的项集计数 : 如果一个 k-项集在 hash-tree的路径上的一个计数值低于阈值,那他本身也不可能是频繁的。 减少交易记录 : 不包含任何频繁 k-项集的交易也不可能包含任何大于 k的频繁集 分割 : 一个项集要想在整个数据库中是频繁的,那么他至少在数据库的一个分割上是频繁的。 采样 : 在给定数据的子集上挖掘,使用小的支持度 +完整性验证方法 动态项集计数 : 在添加一个新的候选集之前,先估计一下是不是他的所有子集都是频繁的。 E-MAIL:BXXHSSINA.COM Apriori 够快了吗 ? 性能瓶颈 Apriori算法的核心 : 用频繁的 (k 1)-项集生成 候选 的频繁 k-项集 用数据库扫描和模式匹配计算候选集的支持度 Apriori 的瓶颈 : 候选集生成 巨大的候选集 : 104 个频繁 1-项集要生成 107 个候选 2-项集 要找尺寸为 100的频繁模式,如 a1, a2, , a100, 你必须先产生 2100 1030 个候选集 多次扫描数据库: 如果最长的模式是 n的话,则需要 (n +1 ) 次数据库扫描 E-MAIL:BXXHSSINA.COM 6.4数据挖掘的聚类算法 6.4.1 聚类分析的概念与分类 聚类分析概念 聚类分析方法的分类 类别 算法 分裂(划分)法 K-MEANS算法( K-平均)、 K-MEDOIDS算法( K-中心点)、 CLARANS算法(给予选择的方法) 层次法 BIRCH算法(平衡迭代归约和聚类)、 CURE算法(代表聚类)、 CHAMELEON算法(动态模型) 基于密度的方法 DBSCAN算法(基于高密度连接区域)、 OPTICS算法(对象排序识别)、DENCLUE算法(密度分布函数) 基于网格的方法 STING算法(统计信息网格)、 CLIQUE算法(聚类高维空间)、 WAVE-CLUSTER算法(小波变换) 基于模型的方法 统计学方法、神经网络方法 E-MAIL:BXXHSSINA.COM 6.4数据挖掘的聚类算法 6.4.2 聚类分析中两个对象之间的相异度计算方法 区间标度变量计算方法 二元变量计算方法 标称型、序数型和比例标度型变量计算方法 混合类型的变量计算方法 E-MAIL:BXXHSSINA.COM 6.4数据挖掘的聚类算法 6.4.3 划分方法 典型的划分方法: k-平均和 k-中心点 基于簇的重心技术: k-平均方法 基于有代表性的对象的技术: k-中心点方法 大型数据库中的划分方法:基于选择的 K-中心点 CLARANS方法 E-MAIL:BXXHSSINA.COM 6.4数据挖掘的聚类算法 6.4.4 层次方法 凝聚的和分裂的层次聚类 凝聚层次聚类方法 AGNES 分裂层次聚类方法 DIANA 利用层次方法的平衡迭代归约和聚类 综合的层次聚类方法 BIRCH 利用代表点聚类 一种新颖的层次聚类算法 CURE 一个利用动态模型的层次聚类算法 动态模型的聚类法 chameleon (变色龙 ) E-MAIL:BXXHSSINA.COM 6.4数据挖掘的聚类算法 6.4.5 基于密度的方法 一个基于高密度连接区域的聚类方法 DBSCAN 聚类方法 通过对象排序识别聚类结构 OPTICS聚类分析方法 基于密度分布函数的聚类 基于一组密度分布函数的聚类算法 DENCLUE E-MAIL:BXXHSSINA.COM 6.4数据挖掘的聚类算法 6.4.6 基于网格的方法 统计信息网络 STING是一种基于网格的多分辨率聚类技术 聚类高维空间 CLIQUE( clustering in quest, CLIQUE)聚类算法 6.4.7 基于模型的聚类方法 增量概念聚类算法 COBWEB 6.4.8 模糊聚类算法 E-MAIL:BXXHSSINA.COM 6.5 数据挖掘的统计分析算法 6.5.1 辨别方法 6.5.2 回归模型 6.5.3 优点与缺点 E-MAIL:BXXHSSINA.COM 6.6 数据挖掘的品种优化算法 6.6.1 品种优化 6.6.2 品种优化算法 E-MAIL:BXXHSSINA.COM 6.7数据挖掘的进化算法 6.7.1 遗传算法 如何工作 优缺点 6.7.2 神经网络算法 如何工作 无指导的学习 竞争学习 自组织特征映射模型 优缺点 E-MAIL:BXXHSSINA.COM 6.7数据挖掘的进化算法 神经网络模型 性别 区域 职位 B类客户 年龄 交易额 受教育的年限 图 6.10 神经网络模型 C类客户 跳槽客户 隐节点 隐节点 A类客户 隐节点 隐节点 E-MAIL:BXXHSSINA.COM 第 7章 非结构化数据挖掘 本章内容 : 7.1 Web数据挖掘 7.2 空间群数据挖掘 7.3 多媒体数据挖掘 E-MAIL:BXXHSSINA.COM 7.1 Web数据挖掘 7.1.1 非结构化数据源 Web数据挖掘的难点 对数据来源分析 异构数据环境 半结构化的数据结构 解决半结构化的数据源问题 文本总结 XML与 Web数据挖掘技术 XML的产生与发展 XML的主要特点 E-MAIL:BXXHSSINA.COM 7.1 Web数据挖掘 7.1.1 非结构化数据源 XML在 Web数据挖掘中的应用 两个或更多异质数据库之间进行通信的应用 大部分处理负载从 Web服务器转到 Web客户端的应用 Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用 需要智能 Web代理根据用户个人的需要裁减信息内容的应用 E-MAIL:BXXHSSINA.COM 7.1 Web数据挖掘 7.1.2 Web挖掘分类 Web挖掘 Web content mining (Web内容挖掘 ) Web structure mining (Web结构挖掘 ) Web usage mining (Web访问挖掘 ) Search result mining(搜索结果再挖掘 ) General access pattern tracking (一般访问模式跟踪) Customized usage tracking (定制的使用跟踪 ) Web page content mining(Web页面内容挖掘 ) 图 7.1 Web挖掘分类 E-MAIL:BXXHSSINA.COM Web挖掘三种方法比较 Web内容挖掘 Web结构挖掘 Web访问挖掘 处理数据类型 IR方法 数据库方法 Web结构挖掘 用户访问挖掘 无结构和半结构化数据 半结构化数据 主要数据 自由文本、 HTML标记的超文本 HTML标记的超文本 文档内及文档间的超链接 Serverlog,proxy serverlog,client log 表示方法 词集、段落、概念、 IR的三种经典模型 OEM 关系 图 关系表、图 处理方法 TFIDF、统计、机器学习、自然语言理解 数据库技术 机器学习、专有算法(如 HITS pagerank) 统计、机器学习、关联规则 主要应用 分类、聚类、模式发现 模式发现、数据向导、多维数据库、站点创建与维护 页面权重分类聚类、模式发现 用户个性化、自适应 Web站点、商业决策 E-MAIL:BXXHSSINA.COM 7.1 Web数据挖掘 Web挖掘的基本构架 访问者 注册用户 网站 交易信息 浏览信息 数据库、数据仓库 Web日志文件 Web Serer中其他信息 数据预处理模块 结构数据挖掘模块 Web挖掘的基本构架 页面访问情况 Web结构模式 Web内容模式 知识 非结构数据挖掘模块 E-MAIL:BXXHSSINA.COM 7.1 Web数据挖掘 7.1.3 Web内容挖掘 信息检索( information retrieve , IR)方法 数据库方法 7.1.4 Web结构挖掘 Page-Rank方法 7.1.5 Web访问挖掘 对 Web日志进行清洗、过滤和转换以及剔除无关记录 采用统计学、模式识别、人工智能、数据库数据挖掘等领域的成熟技术在 Web的使用记录中挖掘知识 Web使用挖掘中的模式分析 E-MAIL:BXXHSSINA.COM 7.1 Web数据挖掘 7.1.6 利用 Web日志的聚类算法 客户群体的模糊聚类算法 用户访问兴趣的算法 客户群体聚类的 Hamming距离算法 基于模糊理论的 Web页面聚类算法 Web页面聚类的 Hamming距离算法 E-MAIL:BXXHSSINA.COM 7.1 Web数据挖掘 电子商务中的 Web挖掘 电子商务中 Web挖掘的作用 电子商务中 Web挖掘的基本问题 电子商务中的数据挖掘工具 文本信息挖掘工具 用户访问模式挖掘工具 用户导航行为挖掘工具 综合性的 Web分析工具 E-MAIL:BXXHSSINA.COM 7.2 空间群数据挖掘 7.2.1 空间群数据挖掘 概念 从空间数据中抽取隐含的知识、空间关系、空间及与非空间之间的有意义的特征或模式。 7.2.2 空间群数据挖掘分类 空间检索 空间拓扑叠加分析 空间模拟分析 E-MAIL:BXXHSSINA.COM 7.2 空间群数据挖掘 7.2.3 空间数据挖掘的体系结构 空间数据结构查询与优化原则的分析 信息集成 模式知识级处理 语义级检索与索引 领域知识 模式知识 对象和属性抽取 物理级底层特性处理设计 图 7.4 空间数据挖掘的体系结构 对象级特征处理 语义概念级处理 用户 空间数据处理 E-MAIL:BXXHSSINA.COM 7.3多媒体数据挖掘 7.3.1 多媒体数据挖掘的概念 7.3.2 多媒体数据挖掘的分类 图像数据挖掘 视频数据挖掘 音频数据挖掘 E-MAIL:BXXHSSINA.COM 7.3多媒体数据挖掘 7.3.3 多媒体数据挖掘的体系结构 原始数据 媒体数据摄取 媒体编码 存档 浏览引擎 分类 特征抽取 查询引擎工具 交互式学习 索引的生成 用户 图 7.5 功能驱动的多媒体挖掘体系结构 基于底层特性的索引与检索元数据与数据抽取原则的分析 信息集成 模式知识级处理 语义级检索与索引 领域知识 模式知识 对象级的索引与检索 物理级底层特性处理设计 图 7.6 信息驱动的多媒体挖掘的结构 对象级特征处理 语义概念级处理 用户 多媒体处理 E-MAIL:BXXHSSINA.COM 第 8章 离群数据挖掘 本章内容 离群数据挖掘概念 离群数据挖掘分类 离群数据挖掘算法 市场营销离群数据的特点 E-MAIL:BXXHSSINA.COM 第 8章 离群数据挖掘 8.1 离群数据挖掘的概念 8.2 离群数据挖掘的分类 基于统计学 基于距离的方法 基于偏移 高维数据的离群数据探测 基于规则的分类离群数据挖掘方法 基于密度 (density-based)的离群挖掘方法 E-MAIL:BXXHSSINA.COM 8.3离群数据挖掘的算法 8.3.1基于统计的方法 8.3.2基于距离的离群数据方法 基于距离的离群数据定义 基于距离的离群数据挖掘的算法分类及算法描述 基于距离的算法的改进 8.3.3 基于偏离的离群数据挖掘 序列离群数据技术 OLAP数据立方体技术 E-MAIL:BXXHSSINA.COM 8.3离群数据挖掘的算法 8.3.4 高维数据的离群数据挖掘 8.3.5 基于小波的离群数据挖掘 时序数据的离群数据挖掘 基于聚类的离群数据 CL( ) E-MAIL:BXXHSSINA.COM 8.4市场营销离群数据挖掘 8.4.1市场营销离群数据挖掘特点 8.4.2 基于分形的市场营销离群数据挖掘模型 几个定义 E-MAIL:BXXHSSINA.COM 第 9章 数据挖掘语言与工具选择 本章内容 9.1 数据挖掘语言及其标准化 9.2 数据挖掘研究热点 9.3 数据挖掘工具的选择 E-MAIL:BXXHSSINA.COM 9.1 数据挖掘语言及其标准化 9.1.1 数据挖掘语言分类 类别 特点 功能 代表 数据挖掘查询语言 数据挖掘原语 五种原语 DMQL 数据挖掘建模语言 基于 XML的语言 文档类型定义、通用模式 PMML 通用数据挖掘语言 集成 全面 OLE DB for DM E-MAIL:BXXHSSINA.COM 9.1 数据挖掘语言及其标准化 9.1.1 数据挖掘语言分类 数据挖掘查询语言 ( 5种数据挖掘原语定义)。 任务相关数据原语 被挖掘的知识的种类原语 背景知识原语 兴趣度测量原语 被发现模式的表示和可视化原语 E-MAIL:BXXHSSINA.COM 9.1 数据挖掘语言及其标准化 9.1.1 数据挖掘语言分类 数据挖掘建模语言 头文件( a header) 数据模式( a data schema) 数据挖掘模式( a data mining schema) 预言模型模式( a predictive model schema) 预言模型定义( definitions for predictive models) 全体模型定义( definitions for ensembles of models) 选择和联合模型、全体模型的规则( rules for selecting and combining models and ensembles of models) 异常处理的规则( rules for exception handling) E-MAIL:BXXHSSINA.COM 9.1 数据挖掘语言及其标准化 9.1.1 数据挖掘语言分类 通用数据挖掘语言 数据挖掘模型( Data Mining Model, DMM) 预言联接操作( Predication Join Operation) OLE DB for DM模式行集合( Schema Rowsets) 9.1.2 分析与评价 E-MAIL:BXXHSSINA.COM 9.2数据挖掘的研究热点 网站的数据挖掘 生物信息或基因的数据挖掘 文本的数据挖掘 E-MAIL:BXXHSSINA.COM 9.3 数据挖掘工具的选择 9.3.1 评价数据挖掘工具的优劣指标 数据准备 数据访问 算法与建模 模型的评价和解释 用户界面 E-MAIL:BXXHSSINA.COM 9.3 数据挖掘工具的选择 9.3.2 通用数据挖掘产品与工具 POLY ANALYST IBM DB2 lntelligent Miner和并行可视化探索者 PVE DB Miner BO的 Business Miner SPSS股份公司( SPPS CHAID) SAS研究所股份公司( SAS,JMP) NeuralWare股份公司 信息发现股份公司( IDIS) RightPoint公司的数据挖掘工具 DataCruncher DataMind公司( DataMind专业版, DataMindCruncher) Pilot软件股份公司( Pilot 发现服务器) Angoss国际有限公司( Knowledge SEEKER) Silicon Graphics计算机系统公司( MineSet) 商务项目公司(商务挖掘器) Cognos软件公司( Scenario) 思维机器公司 (Darwin) . E-MAIL:BXXHSSINA.COM 9.3 数据挖掘工具的选择 9.3.3 国内的数据挖掘产品与工具 菲奈特一融通公司 广州华工明天科技有限公司 复旦大学数据采掘工具 ARMiner 9.3.4 数据可视化工具的选择 高级可视化系统公司( AVS/Express) Alta分析股份蔼公司( NetMap) Belmont 研究股份公司( Cross Graphs) 环境系统研究所( ESRI)股份公司 MapInfo公司( MapInfo, SpatialWare) Silicon Graphics计算机系统公司( MineSet) E-MAIL:BXXHSSINA.COM 9.3 数据挖掘工具的选择 9.3.5数据挖掘网站与可获得的数据挖掘算法源代码 数据挖掘网站 知识发现挖掘网址: 数据挖掘网址: http:/www.cs.bham.ac.uk 太平洋西北神经网络国家实验室网址:http:/www.emsl.pnl.gou 技术保护 -遗传算法网址: http:/w
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度厂房电气系统升级改造合同范本4篇
- 2024新版二手房定金支付合同样本版
- 二零二五年度新材料研发承包生产合同3篇
- 二零二四属公积金贷款合同签订后的贷后审计与合规性检查3篇
- 2024预定房屋买卖协议书
- 个人农田租赁承包协议:2024年标准范本一
- 2024年04月江西九江银行萍乡分行社会招考笔试历年参考题库附带答案详解
- 2024年04月四川兴业银行泸州分行招考笔试历年参考题库附带答案详解
- 2024版有限责任公司发起人协议书
- 2024年03月浙江中国工商银行浙江平湖工银村镇银行春季校园招考笔试历年参考题库附带答案详解
- 2024-2030年中国通航飞行服务站(FSS)行业发展模式规划分析报告
- 机械制造企业风险分级管控手册
- 地系梁工程施工方案
- 藏文基础-教你轻轻松松学藏语(西藏大学)知到智慧树章节答案
- 2024电子商务平台用户隐私保护协议3篇
- 安徽省芜湖市2023-2024学年高一上学期期末考试 英语 含答案
- 电力工程施工安全风险评估与防控
- 医学教程 常见体表肿瘤与肿块课件
- 内分泌系统异常与虚劳病关系
- 智联招聘在线测评题
- DB3418T 008-2019 宣纸润墨性感官评判方法
评论
0/150
提交评论