数据挖掘研究现状综述_第1页
数据挖掘研究现状综述_第2页
数据挖掘研究现状综述_第3页
数据挖掘研究现状综述_第4页
数据挖掘研究现状综述_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、器学习、模式识别、归纳推理、统计 所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随 发现的知识可以用来进行信息管理、查询优化、决 引言 HYPERLINK l _bookmark1 1第一章 绪论 HYPERLINK l _bookmark2 3 HYPERLINK l _bookmark3 HYPERLINK l _bookmark4 第二章 数据挖掘理论与相关技术 HYPERLINK l _bookmark5 5 HYPERLINK l _bookmark6 HYPERLINK l _bookmark7 Apriori繁项集 HYPERLINK l _book

2、mark8 7 HYPERLINK l _bookmark9 HYPERLINK l _bookmark10 HYPERLINK l _bookmark11 HYPERLINK l _bookmark12 HYPERLINK l _bookmark13 HYPERLINK l _bookmark14 HYPERLINK l _bookmark15 第三章 数据分析 HYPERLINK l _bookmark16 11第四章 结论与心得 HYPERLINK l _bookmark17 14 HYPERLINK l _bookmark18 HYPERLINK l _bookmark19 HYPER

3、LINK l _bookmark20 实验过程中遇到的问题分析 HYPERLINK l _bookmark21 14参考文献 HYPERLINK l _bookmark22 14 绪论数据挖掘技术的任务 计、分析、综合和推理,进而来指导现实生活中实 1.2 数据挖掘技术的研究现状及发展方向 技术未来的研究过程中,其主要方向应包括以下几点: (1)参照于 SQL 语言的 (1)医学领域,随着医院信息系统和健康网站的发展,医疗活动、医学研究 达路径分析、基因表达相似性分析、以及制药、生 (2)金融领域,针对其金融的分析 因为一些金融的投资一般都存在着很大 (3)零售业,在零售业当中,运用数据挖掘技

4、术不但可以在一定的程度之上 还可以适当的预测行业状况。例如,数据挖掘技术 (5)商务管理,数据挖掘技术被用于分析客户的行为,分类客户,以此进一 二章 数据挖掘理论与相关技术1 数据挖掘的基本流程 这一步骤是将通过第一二步骤初步确定出的源数据进行萃取 (Extract)转制 性。 有趣的知识模式?对模型进行评估就是通过检 折线图、散列图、饼状图等这些直观、形 .2 关联规则挖掘主要算法2.2.1 关联规则挖掘目前,已经从单一概念层次关联 、 的啤酒和尿布的故事。在这些 2.2.2 .Apriori 算法:使用候选项集找频繁项集这些项集出现的频繁性至少和 FPFP对 Apriori 算法的固有缺陷

5、。采用分而治之的策略,不产生 。 2.3 聚类分析2.3.1 聚类算法的任务数据中的积聚现象,并加以定量化描 ”的朴素思想,根据事物的特征对其进行聚类 们借助包含密度相对较低的点集的区域与其他区域(类簇)相分离。聚类分 2.3.2 BIRCH 算法BIRCH 是一个综合的层次聚类方法。它用聚类特征和聚类特征树(CF)来概i对于一具有 N 个 d 维数据点的簇x (i=1,2,3,N),它的聚类特征向量定义为:iLSNNi=1 i心, SS 是数据点的平方和( N o 2 ) ,反映了类直径的大小。i=1 i 1 1 1 1 2 2 2 2 1 2 1 2 1 2 1 2径、直径及类内、类间距离

6、的 被插入到最近的叶子条目(子聚类)。如果插入后使得该叶子节点中的子聚类的 对应一个概念,包含该概念的一 的对象。概率描述包括概念的概率和形如 n P(C ) P(A = V | C )2 P(A = V )2 k =1 k i j i ij k i j i ijn 2 n 中的对象的共享该属性-值对就越少,更能预见该属性-值对是 选择。一定程度 C 平均值 FCM (Fuzzy C-Means)算法。该算法是在传统C 均值算法中应用了模糊 J = c n (x )b | x m |2f j i i jj =1 i=1 j ij=1f i j im = j n (x )bj i j = 1,2

7、, , c,i (x ) = i j (1/ | x (1/ | x m |2 )1/(b1)ikin j = 1,2, , c用迭代法求解式(6-3)和式(6-4),就是 FCM 算法。 2.3.5 聚类分析的应用 分析 作符(Operatiors),每个操作符封装了不同的功能或者算法。3.2 K-近邻算法(KNN)分析 在特征空间中的 k 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类 选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 对象之间的匹配问题,在这里距离一般使用欧氏距离或曼哈顿距离。(1)计算测试数据

8、与各个训练数据之间的距离;(2)按照距离的递增关系进行排序; 。 部分:输入层、隐含层、输出层。其中层 论与心得4.1 结果分析4.2 问题分析4.2.1 数据挖掘面临的问题 掘技术算法中的问题是解决其性能问题 容复杂的,多维度的数据类型,现有的 4.2.2 实验心得及实验过程中遇到的问题分析 KKNN后去 决的。所以,锻炼了我们面对难题,学会用已掌握 能力。 mining algorithms for finding associated frequent patterns for data streams: a 109-1162Gan Min,Dai Hong-hua.Detecting

9、and monitoring abrupt emer-gences of episodes over data streamsJ.Infor-mation Systems,2014,39( ) : 277-289 on data streams J .IEEE Transactions on Knowledge and Data Engineering,2015, 27(2)461-474 535-5445Wang Chang-dong,Huang Dong.SVStream:a support vector based algorithm for data streamsJ.IEEE Tra

10、nsactions on Knowledge and Data Engineering,2013,25(6): 1410-1424 using click-stream data JNeurocomputing,2014,122( 5) : 535-5447厉 颖.计算机网络数据安全策略探究J.网络安全技术与应用,2014(2):82.8刘莹.基于数据挖掘的商品销售预测分析J.科技通报.2014(07) 报.2014(04) 10李欣海.随机森林模型在分类与回归分析中的应用J.应用昆虫学报.2013(04) 11高丽,王丽伟 . 数据挖掘技术在国内图书馆应用领域的研究 J. 数字技术与应用 . 2015(12)12梁雪霆. 数据挖掘

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论