数据挖掘的常用方法

上传人：1*** IP属地：广东上传时间：2023-11-11 格式：DOCX 页数：3 大小：38.85KB 积分：12 举报 版权申诉

全文预览已结束

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据挖掘的常用方法

1．提取数据的过程从技术的角度来看，数据采集是一个巨大的、不完整的、噪声模糊的、随机的和随机的数据集，其中包含了人们事先不知道的东西，但也是信息和知识的潜在过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。简而言之，数据挖掘其实是一类深层次的数据分析方法。2计算知识集的方法被采掘知识的类型在多数文献和DM软件中被称为数据挖掘任务.通常任务有：（1）总结规则采掘；（2）关联规则采掘；（3）分类规则采掘；（4）聚类规则采掘；（5）预测分析；（6）趋势分析；（7）偏差分析。为了完成上述任务，人们从统计学，人工智能和数据库等领域借用基础研究成果和工具，提出了多种方法。主要的采掘方法及其要点如下：(1）统计分析方法：主要用于完成总结知识和关联知识采掘。对关系表中各属性进行统计分析，找到它们之间存在的关系。在关系表的属性之间一般存在：(1)函数关系；(2)相关关系。对它们可采用回归分析、相关分析、主成分分析等统计分析方法。(2）决策树：用于分类。利用信息论中信息增益寻找数据库中具有最大信息量的字段，建立决策树的一个结点，再根据字段的不同取值建立树的分支；在每个分支子集中重复建立下层结点和分支，这样便生成一棵决策树。接下来还要对决策树进行剪枝处理，然后把决策树转化为规则，利用这些规则可以对新事例进行分类。典型的决策树方法有分类回归树（CART）、ID3、C4.5等。(3）神经网络：用于分类、聚类、特征采掘、预测和模式识别。神经网络模仿生物神经网络，本质上是一个分布式矩阵结构，它通过对训练数据的采掘逐步计算网络连接的权值。(4）遗传算法：用于分类，关联规则采掘等。遗传算法模仿人工选择培育良种的思想，从一个初始规则集合开始，逐代地通过交换对象成员，评价并择优复制，逐代积累计算，最终得到优化的知识集。(5）粗集：用于数据简化、数据意义评估、对象相似或差异性分析、因果关系及范式采掘等。3基于ap-模型的算法评价数据封装分析的方法最早由Charnes等人于1978年提出。随后，这一方法又被继续研究并应用到不同的领域。将此方法应用到数据挖掘算法评价时，可定义一个算法的效率为：这一定义同时考虑了数据挖掘算法的全部正特性和负特性，因而可对一个算法作出较为客观公正的评价。通常算法的正特性值和负特性值已经给出，所需的工作就是确定出各个正负特性的权值。假定我们是在对n个数据挖掘算法进行评价。考虑m个正特性，n个负特性。对算法k，设：pkx=正特性的值，uky=负特性的值，uky=正特性的权值，vky=负特性的权值。以Ek代表该算法的效率，则：由于每个pkx和nky均已知，所以可按照以下标准来确定权值uky和vky，即：使得Ek尽可能地接近100%。这样，在确定了权值以后，其它n-1个算法的效率都不应该超过100%。不难看出，这实际上是一个线性优问题，即对所有的正特性x和负特性y，确定出uk1,uk2，…，ukm和vk1,vk2，…，vkm的值，以使得Ek=100%最大。迄今，已存在着多种确定权值的方法，其中最为常用的是面向正特性的方法和面向负特性的方法。面向正特性的方法就是比例地减小正特性的值而同时保持算法仍然是有效的。与此类似，面向负特性的方法就是成比例的增加负特性的值而同时保持算法仍然是有效的。在确定出权值以后，效率为100%的算法即是有效的算法。为了对算法排名，我们可以使用AP-模型的方法。这一方法又可分为面向正特性的方法和面向负特性的方法。例如，在面向正特性的方法中，AP值为1.5就意味着可以将全部正特性的值同时减少50%而保持该算法仍然是有效的。4cumulate和estmerge的运行时间Agrawal等人提出了一系列的关联规则挖掘算法，包括单层关联规则的挖掘和多层关联规则的挖掘。下面对这些算法进行评价。单层关联规则的挖掘算法Aprior,ApriorTid,AIS,SETM。多层关联规则挖掘算法Basic,Cumulate,EstMerge。(1）最小支持度。最小支持度从2%递减至0.33%，而且随着最小支持度的不断降低，这一差距将明显增大。当最小支持度较高时，Cumulate和EstMerge的运行时间大致相同；但在最小支持度较低时，EstMerge要比Cumulate快2倍。(2）交易量。交易量从105增加到107。Cumulate和EstMerge要比Basic快得多。随着交易量的增加，Cumulate所需的运行时间要比EstMerge长近1倍。(3）分类的类别数。分类的类别从250个增加到1000个。发现分类类别的增加对算法性能的影响与减小最小支持度对算法的影响类似。这是因为随着分类类别的增加,一个特定类别将会出现在一项交易中的可能性也相应地减小。(4）项的个数。项的个数从10000增加到100000。项的个数的增加对Cumulate和EstMerge的性能没有显著的影响。但却增加了Basic的运行时间，这是因为Basic必须花更多的时间来寻找包含在一个交易中的商品项。总的看来，Cumulate和EstMerge要比Basic快2到5倍，而EstMerge通常又比Cumulate快25%到30%。随着交易量的增加，EstMerge与Cumulate的性能差距要继续拉大，但两者的性能都随交易量的增加或减少呈线性的降低或提高。5对采集算法的确

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘的常用方法

文档简介

温馨提示

最新文档

评论

数据挖掘的常用方法

文档简介

温馨提示

最新文档

评论

相关文档