传统数据挖掘与大数据中的数据挖掘的异同详解_第1页
传统数据挖掘与大数据中的数据挖掘的异同详解_第2页
传统数据挖掘与大数据中的数据挖掘的异同详解_第3页
传统数据挖掘与大数据中的数据挖掘的异同详解_第4页
传统数据挖掘与大数据中的数据挖掘的异同详解_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、涕调2攵彳修阜业接耕卷女院系名称:信息学院软件工程专业班级:软件本111学生姓名:XXX指导教师:XX密级:内部XXXX学院毕业论文第3章传统数据挖掘技术第3章 传统数据挖掘技术数据挖掘的分析方法数据挖掘的分析方法有很多种,根据发现知识的种类分类比拟常用的有分类分析方 法、聚类分析方法、关联分析方法、序列模式分析方法、趋势分析方法、偏差分析方法、 回归分析方法等多种分析方法。其中关联分析、分类分析、序列模式分析、聚类分析是从 功能上划分的数据挖掘分析方法,这里只介绍以上下种分析方法。关联分析关联分析是基于关联规那么的数据挖掘分析方法。关联分析的主要目的是挖掘隐藏在数 据集中的相互关系,从中找到

2、有用的依赖关系或关联关系的信息、。最著名的关联分析应用 有沃尔玛的“啤酒与尿布”的关联分析。它的基本思路是Ar可解释为属性的集合,B可解释为属性的个体,关联规那么就是A的属性集具有一种特性,那么B这个个体就 具有了这种特性的可能性或者说未来趋势。关联分析在很多行业中都有着非常广泛的应 用,例如在零售业中分析顾客购买A产品后又购买了B产品的机会是多少?这可以给零售 商在配货、产品布局、和管理上有很大启示。又例如在机械工业中A部件发生故障导致B 故障发生故障的概率是多少?这可以给机械维修与养护带来极大地方便。关联规那么之所以 被广泛应用,就是因为它可以再大量的数据集中发现一些人们想要知道的信息。在

3、数据挖掘开展的过程中,关联分析方法的研究是最深的,人们提出了非常多的关联 规那么分析的挖掘算法,其中APRIORI算法是比拟经典的算法之一。它的思想就是反复的扫 描数据库,在第N次扫描之后创立一个长度为N的大项集LN,在下一次扫描时只研究大项 集LN中N项集产生的长度为N+1的备选集LN+lo分类分析有这样一个数据库和一个具有不同特征得记录,这个数据库中的每个记录都被标记了 一个特别的类,而分类分析就是通过分析这个数据库中的数据来为每个赋予特别类的记录 做出精确地描述或建立一种分析模型,挖掘这种分析模型中的分类规那么,然后利用这个分 类规那么来对其它具有和这个数据库相似的数据库中的记录进行分类

4、。在分类分析中,人们创造出很多分类分析的挖掘算法,比拟经典的有决策树法、神经 网络法和贝叶斯算法。贝叶斯算法的主要思想是假设们对研究对象数据有一定的认识,我 们用先验概率分布来描述这种认识,然后用抽取的样本来完善这种认识得到后验概率分 布,最后根据后验概率分布来建立函数。【吉根林,XXXX学院毕业论文第3章 传统数据挖掘技术序列模式分析序列模式分析与关联分析在方法上是相似的,它的目的也是为了挖掘出隐藏在数据集 中的相互关系,从中找到有用的依赖关系或关联关系的信息。但序列模式分析与关联分析 的侧重点不同,序列模式分析侧重于分析数据的因果关系。运用序列模式来分析产品的销 售情况,商家可以发现顾客的

5、购物习惯,例如顾客在购买炒锅的同时会不会也购买电磁炉。聚类分析聚类分析方法与分类分析方法截然不同,聚类分析方法分析的是一个记录集,这个记 录集没有任何的标记,简单来说就是这个记录集中没有类别的划分。聚类分析的目的是将 记录集合合理的按照一定规那么划分类别,同时,这些不同的类别可以用显式或隐式的方法 来描述。聚类分析是我们应用的最广泛的一种分析方法,比方一个从未见过老虎与狮子的 儿童,通过不断的观看老虎与狮子来改进意识中的聚类模式,这个儿童就会学会如何分辨 老虎与狮子,或者生物与无机物,动物与植物。聚类分析也广泛应用于数据分析、图像处 理、市场调查等技术。在数据挖掘技术的开展过程中,人们提出了很

6、多的聚类分析算法,基本上可以分为基 于概率的聚类分析算法和基于距离的聚类分析算法。基于概率的聚类分析算法挖掘大数据 集时效率极低,因此它适用于小型数据集的数据挖掘。而基于距离的聚类分析算法比拟适 合大数据集的数据挖掘,它的基本思想是从数据对象中任取N个对象作为初始聚类中心, 那些剩下的数据对象根据它们与聚类中心的距离分配给与其最近的聚类中心,然后在计算 获得新聚类的聚类中心,重复此过程直至数据收敛为止。复杂数据类型挖掘复杂数据类型挖掘其实也是数据分析方法中的一种,之所以将它单独拿出来,是因为 我觉得复杂数据类型相对于之前所提到的数据类型(之前所提到的数据类型都是以机构化 数据为主的)更加重要,

7、页更加特殊。随着数据处理技术、数据库技术以及万维网技术的 高速开展,大量的复杂类型数据如结构化与非结构化数据、超文本数据与多媒体数据等数 据不断涌现,数据挖掘的重要研究方向就转为对这些复杂类型数据的挖掘,包括一些复杂 对象、多媒体、时间与空间序列数据、超文本数据和WEB数据等。19空间数据用来描述电子信息世界中的空间对象在现实世界的具体方位和分布。包括对 象的数量、属性、位置和相互关系等,涵盖了宏观世界和微观世界。空间数据库存储了大 量空间数据,例如地图、透视图像等。空间数据与关系数据所不同的是数据的显著特征, 包括空间对象的拓扑特征、非空间对象的属性特征和两种对象在时间上的状态变化。空间 数

8、据挖掘指的是对空间数据中非显式存在的信息、位于空间的关系或其它有意义的关系的 提取。空间数据挖掘技术需要结合数据挖掘与空间数据技术。时间数据是指对象在不同时间变化下的数据,它通常是在等时间间隔或特定时间间隔XXXX学院毕业论文XXXX学院毕业论文第3章 传统数据挖掘技术下测得的数据值。时间序列数据库是由有序时间序列组成的数据库,它可以有时间标记、 也可以没有时间标记。时序数据挖掘的研究主要方法是趋势分析,在分析中依赖相似度搜 索和与时间相关数据中序列模式的挖掘。超文本数据挖掘是分析和发现非结构化文本中的关系。它不在依赖以关键字和相似度 检索的范畴。超文本挖掘利用智能算法如神经网络、可能性推理等

9、算法,在结合文字处理 技术来分析大量的非结构化文本集如文档、表格、邮件、网页等,抽取其中关键字的概念 和文字之间的关系,按照内容对文档分类,以获取感兴趣的信息。文本挖掘最早可追溯到 信息检索,它包括关键字检索和全篇检索。文本挖掘分析方法的关键在于文本内的量化表 征。超文本挖掘是数据挖掘的一个分支,用于文本信息的挖掘。万维网是广泛分布的全球信息服务中,服务内容不仅包括金融、新闻、电子商务、教 育等多方面的领域,页包涵了丰富的动态的超链接信息、访问使用信息等。这给数据挖掘 提供了丰富的数据资源。万维网数据挖掘是根据基于Internet的分布式信息资源的特点 的一种抽取过程,它可以找到分布式信息资源

10、中已经存在的信息,也可以发现存于海量数 据中的隐含的有效的规律。万维网数据挖掘涵盖万维网连接结构、万维网内容和访问模式 的挖掘。3. 3传统数据挖掘面临的挑战3. 3. 1数据挖掘的对象现在的数据挖掘对象是更大型的数据库、更高的维数、属性更复杂的关系,这些因素 使数据挖掘搜索信息所花费的资源代价极高,由于这些原因,数据挖掘应该开展出新的技 术来应对越来越大的数据库、越来越高的维数和越来越复杂的关系属性。3. 3. 2输入数据的复杂性目前,数据挖掘工具还只能处理有限的几种数据形式,主要处理结构化数据,但大多 数的数据挖掘工具无法处理超文本的、图形的、图像和万维网资源等这些非结构化的数据 形式,也

11、无法挖掘隐藏在其中有用的信息。3. 3.3用户的参与度有效的决策需要屡次反复的交互与沟通,当前用户很少能真正参与到数据挖掘工具, 数据挖掘系统、数据挖掘过程中。用户的指导与其所拥有的知识可以加快挖掘进程,并且 保证发现的信息对用户更加有时效性。-7-XXXX学院毕业论文第3章 传统数据挖掘技术3. 4信息的验证技术数据挖掘采用的是特定的分析方法与分析逻辑来挖掘信息,例如归纳演绎、分类聚类 等。但是数据挖掘系统却无法与数据挖掘人员交互,进而无法证实发现的信息是不是因没 有普遍的实用性而不能成为对用户来说有用的信息。而还有一种情况那么是数据挖掘的对象 本身就是错误的,这样数据挖掘出的信息也一定是错

12、误的,所以数据挖掘技术必须能确定 信息具有何种程度的时效性。3. 5信息的表达和解释在数据挖掘的过程中,最重要的是用户能够理解数据挖掘出的信息。这就为数据挖掘 带来了相当大的困难,因为这要求了信息的表达和解释的形式不能局限于信息符号,而应 该是更容易被理解的图形、表格或者可视化的工具。3. 6信息的维护更新数据挖掘出的信息经过一段时间的数据积累,可能会导致以前发现的信息失去有效 性,这些信息急需维护更新,而目前数据挖掘采用的是增量更新法来维护更新已有的信息, 最著名的当属维护关联规那么的增量算法。3.7有限的支持和集成当前的数据挖掘系统无法支持多种平台,也无法和其他系统集成,例如有些数据挖掘

13、的信息是基于PC机的,有些那么是面向大型主机系统的,还有一些是面向服务器客户的。 而且数据挖掘系统还需要和其他系统进行有机集成,例如鞠策支持系统,特别是用户需要 的系统结合在一起,这对于系统发挥作用是非常有意义的。4数据挖掘的开展趋势数据挖掘作为一种智能信息处理技术,随着信息技术的高速开展,数据挖掘也越来越 深入在各个领域中,特别是在生物医学、DNA分析、军事、保险、零售、电信等行业有着 极其重要的意义。而数据挖掘的开展趋势主要表达在以下几个方面:L数据挖掘应用方面:现如今,探索扩大数据挖掘的应用范围是非常有必要的,例如 数据挖掘在生物医学领域、军事领域、保险领域、零售领域以及电信领域等多方面

14、的探索。 但是,现如今存在的通用数据挖掘系统在处理某些特定的应用问题时,有着无法弥补的局 限性,所以,开发一种可以针对特定应用问题的数据挖掘系统是未来数据挖掘的一种趋势。.数据挖掘与其他数据系统的集成:其他的数据系统例如数据库系统、数据仓库系统、 万维网数据库系统已经成为信息处理系统的主流。而现如今的数据挖掘系统与这些数据库 系统的结合还不够理想,所以,在未来的开展中,使数据挖掘系统与数据库、数据仓库、-8-XXXX学院毕业论文第3章 传统数据挖掘技术万维网数据库系统的紧密结合是最理想的体系结构。.数据挖掘的标准化:对于数据挖掘系统的开发,标准的数据挖掘语言与其它方面的 标准化是非常有帮助的,

15、这些标准化既有利于数据挖掘系统的开发,改进数据挖掘系统和 功能之间的相互操作,也有利于促进数据挖掘系统在各领域的开展与使用。.数据挖掘的可视化:数据挖掘的可视化是从海量数据中发现有效信息的最正确途径。.复杂数据类型的挖掘方法:现如今的数据挖掘系统已经无法满足人们在复杂数据类 型方面的挖掘,针对于复杂数据类型的数据挖掘是一项必要的研究课题。-9-XXXX学院毕业论文第4章 基于大数据的数据挖掘第4章 基于大数据的数据挖掘大数据技术大数据的定义大数据(BIG DATA),又称海量资料,信息领域认为大数据指的是新处理模式具有的 更强的决策力、更敏锐的洞察力和更合理的流程优化能力的大量、高速增长率和多

16、样化的 信息资产。大数据的意义大数据技术具有很高的战略意义,但大数据技术不在于所掌握的海量的数据信息,而 在于对这些海量的有意义的数据信息进行专业化的处理,如果将大数据比作一种产业,那 么大数据产业的关键在于对数据的加工能力,通过加工数据实现数据的增值。3大数据的特点大数据采用的分析方法不是随机分析法(抽样调查法)这种便捷的分析方法,而是采 用所有数据进行分析处理。大数据分析与传统数据仓库应用相比,具有数据量更大、查询 分析更复杂等特点。而大数据具有4V的特点:Volume (大量)、Velocity (高速)、Variety (多样)、Value (价值)。.数据量巨大(Volume)信息产

17、业中的大数据指的是PB以上的数据量。我们会产生如此庞大的数据量主要在 于三个方面的原因。通信、传感工具的应用:通信传感工具的应用使人们可以再任何时间任何时段都能保 持联系,而M2M方式使得交流的数据量以指数形式高速增长。兴旺仪器的应用:目前各种兴旺仪器的应用可以感知更多的事物,而这些事物的全部 数据都可以被存储下来,慢慢累积到相当大的规模。集成电路的开展:由于集成电路的开展迅速,其价格也在迅速下滑,很多东西都有了 智能系统,这些智能系统交互的信息量积累下来,逐渐成为信息庞大的数据。.数据种类多(Variety)由于传感设备、智能设备开展,其种类繁多,再加上网络的流行,数据类型也逐渐复 杂化,目

18、前的数据类型不仅包括传统的关系型与非关系型数据,也包括音频、视频、邮件、 网页、表格等各种形式存在的未经加工的、半结构化和非结构化的数据。.处理速度快(Velocity)传统的流通速度考虑的是数据的存储、数据的获取、挖掘数据的有效信息的速度,但-10-xxxx学院毕业论文第4章 基于大数据的数据挖掘现如今的数据量规模很多都在TB级甚至ZB级,为了处理这些大规模的海量的数据,大数 据强调数据应是快速的、动态的和变化的,因此,数据流动的速度很难用传统的数据处理 系统去处理,因此,形成流式数据是大数据的重要特征。.价值密度低(Value)当前数据量正在呈指数形式增长,而隐藏在这些大量数据中的有意义的

19、信息却并没有 随之增长,因此,逐渐增长的数据量加大了人们在大数据中获取有效信息的难度。1.4内存分析随着内存技术的开展,内存的价格也在急速下滑,越来越多的性价比高的内存应用到 数据中心中,如何利用内存优势最大限度的优化软件成为关键性问题。内存分析以高性能 的、实时的特性成为大数据分析的宠儿。如何将大数据转化为敏锐的洞察力,也许内存分 析可以给出答案。1. 5集成设备数据仓库设备的出现,大大激发了大数据分析以及商业智能的潜能,企业也将数据仓 库技术的应用作为提升自身竞争力的重要筹码。集成设备是将数据仓库的软件和硬件整合 在一起,提升扩充存储功能、查询功能以及更强大的分析功能,并具有传统数据仓库系

20、统 所有的优势。1.6大数据的结构大数据是互联网开展的一种表象特征,这些原本很难收集、整合、使用的大量数据在 以云计算技术为代表的新技术下,可以较容易的利用起来。一般认为大数据可分三层结构。第一层是理论,理论是认知的途径,是实践的指导。从大数据的定义、特征来理解行 业中大数据的定性,从对大数据价值的探讨来深入解析大数据的珍贵所在来洞悉大数据的 开展趋势。第二层是技术,技术是表达大数据价值的手段。大数据技术主要从分布式处理技术、 云计算、感知技术和存储技术的开展历程来说明大数据从采集、存储、处理到得出结论的 整个过程。第三层是实践,实践是验证理论的有力手段,是大数据价值的最终表达。大数据的实 践

21、可以分为个人的大数据、企业的大数据、政府的大数据、互联网的大数据四个方面来描 绘大数据的美好前景。-11 -XXXX学院毕业论文第4章 基于大数据的数据挖掘2基于大数据的数据挖掘近两年,大数据逐渐走入我们的生活,大数据时代颠覆了我们过去所认知的数据时代, 人们的生活因大数据带来的数据革命而受到巨大的影响。大数据不仅影响着人们的生活, 也影响着企业决策、组织、业务流程等。在大数据的时代,人与人之间的界限逐渐模糊, 值得一提的是大数据时代中,最珍贵的不是权利、金钱,而是大量的数据信息,这些数据 会引领我们走向正确的道路,它才是未来最珍贵的财富。但是这些财富现在却被层层包裹 着,人们要想享用这笔财富

22、,必然要祛除这些阻隔,而祛除这些阻隔最有效的方法就是一 数据挖掘。数据挖掘通过对大量数据的建模,对模型的进行专业的分析整理后,得出对人们有用 的数据信息。这些数据信息能帮助企业分析不同的客户和市场划分,根据消费者的喜好, 找到企业的运营方式。这些大量数据中可能隐藏着规律性的东西,通过建模技术就可以找 到大量数据中的这种关联性。数据挖掘常与统计学中的一些分析方法联合起来应用,所以 想要掌握基于大数据的数据挖掘技术,统计分析也是必不可少的。在业界上,基于大数据的数据挖掘被称为大数据挖掘,其包括基于内容的大数据挖掘 和基于结构的大数据挖掘。2.1基于内容的大数据挖掘就内容的大数据挖掘包括实体关联分析

23、和网络搜索技术。.实体关联分析命名实体是指在现实世界中存在的具体的或抽象的实体,它具有特定的意义。从大数 据中挖掘命名实体中所蕴含的内在信息,关键在于对命名实体及其关系的数据挖掘。在社会媒体生成的大数据中,实体类型越来越多,越来越细,它们之间的关系也越来 越复杂。对于实体关系的挖掘,是基于内容大数据挖掘领域的研究重点,研究人员提出了 基于规那么和基于机器学习的方法并初具成效。.网络搜索技术网络信息搜索的研究重点在社会媒体出现之后转移到了排序学习算法,它专注于提高 搜索质量。以损失函数为优化目标的排序学习算法,寻找在搜索领域中常用的评价标准下的最好 的排序函数,它文档表示为特征向量,目前现有的模

24、型在处理用户需求的多样性、重要性 和相关性等不同的目标,在排序方面仍有缺乏。此外,社会媒体关注的数据段文本特征,对关键词的表达深入理解和分析,精确掌握 用户的查询意图也是网络搜索技术关注的内容。-12-xxxx学院毕业论文第4章 基于大数据的数据挖掘2. 2基于结构的大数据挖掘社会网络,以用户之间的关系为连线,以社会媒体用户为节点构建而成的网络。它不 仅是用户间社会关系的反映,也是用户间信息交互的载体。社会网络具有结构多尺度性、 网络动态演化性和关系异质性三方面特性。在社会网络中,个体因兴趣爱好、血缘、行业、专业等多方面的因素,进而形成了紧 密的圈子,这种对外关系稀疏而对内关系紧密的结构被称为

25、社区。社会网络所普遍具有的 结构特征就是社区结构,它的存在对于大数据的网络演化、信息扩散、高效搜索定具有重 要意义。针对社区结构的研究,大致可划分为社区结构演化、社区发现等方向。随着数据的积 累、时间的推移,大数据挖掘的结构热点将会注重于社区演化的研究。3基于大数据的数据挖掘的意义在大数据时代下,基于大数据的数据挖掘有着无比重要的意义,这是其他工作都无法 替代的,人们通过对大量数据的专业分析,可以对现有的商业模式、企业决策提供珍贵的 数据支持。目前,几乎所有的国际知名企业中的管理建议都是根据数据分析结论作为依据 而提出的,在分析和解决问题时也开始倾向于用数据说话,不掌握大量数据时无法提出合 理

26、的、科学的、可行的建议的。此外,当大量的数据量积累到一定程度后,数据也会发出 信息,对这些数据进行分析处理后,人们就可以从这些大量数据中找到感兴趣的有效的信 ,息、O4基于大数据的数据挖掘的应用1.市场营销领域数据挖掘技术的应用最早和最多的领域就是营销领域,通过对大量消费数据的分析与 挖掘,可以发现消费者的消费习惯和特点,进而来提高销售额。目前,数据挖掘在市场营 销领域已经不再局限于超市购物等方面,它已经在金融领域普遍应用,如数据挖掘在保险 行业的应用,在电子商务领域的应用,在银行系统的应用等等。利用数据挖掘技术可以分 析消费者的消费行为,为营销领域带来潜在的客户和不菲的效益。2.制造业基于大

27、数据的数据挖掘在制造业领域中有着举足轻重的地位,通过对生产的各种数据 进行专业的分析与处理,进而提高牛产效率以及良品率,如对产品缺陷数据的分析可以发 现造成产品缺陷的环节以及各种因素,从而改进生产环节,提高生产效率以及利益。3.教育领域基于大数据的数据挖掘在教育领域中,解决了如何全面掌握学生的心理情况、学习状 况、以及教学资源优化配置等一系列问题。-13 -XXXX学院毕业论文XXXX学院毕业论文第4章 基于大数据的数据挖掘4.科学研究在进行科学研究中,统计分析方法是最重要的科学探索方法,这需要经常性的分析各 种大量的观测数据和实验数据,找到相应的规律性和隐藏的信息,进行这样的数据分析和 数据

28、挖掘都需要特定的数据挖掘算法,利用大数据挖掘技术能找到更加科学的、更加合理 的数据之间的规律以及我们未能发现的信息、。例如对宇宙的探索、对DNA数据的分析等等。-14-传统数据挖掘与大数据中数据挖掘的异同专业班级: 软件本111学生姓名:XXX学 号:XXXXXXX指导教师:XXXXXX学院毕业论文第5章 传统数据挖掘与大数据挖掘的异同第5章传统数据挖掘与大数据挖掘的异同在当下的信息化产业中,大数据这个代表着信息世界新时代的开始,逐渐开始被人们 所认知,基于大数据的各种技术也在蓬勃开展,在处理大数据的过程中,数据挖掘又是最 重要的一步,那么基于大数据的数据挖掘与传统上的数据挖掘究竟有什么不同?

29、这是我们 主要探究的问题。数据挖掘的概念最早出现在70年代,他的目的是挖掘出隐藏在数据中的对人们有用 的知识。而大数据是近几年提出的,它指的是数据量非常庞大的、关系非常复杂的海量数 据资源。数据挖掘与大数据挖掘的异同主要表达在数据存储方面、数据处理技术等方面的不 同。5.1数据存储方面1. 1容量方面传统数据挖掘在数据容量方面是比拟小的,在当今信息世界的高速开展下,我们所接 收的数据容量非常大,而传统数据挖掘在提出的时候,信息技术还没有开展到可以接收容 量非常大的数据,所以传统数据挖掘所挖掘的对象数据相比照当今的对象数据时比拟小 的。基于大数据的数据挖掘对象数据是相当庞大的,一般我们所说的“大

30、数据”通常可以 到达PB级的数据规模。因此,大数据存储系统也应该具备一定的扩展能力,存储系统的 扩展要简便,易实现,一般可以通过增加磁盘或模块来实现存储系统的扩展,理想状态下 是不需要停机就可以实现存储系统的扩展。1. 2延迟方面大数据应用问题是具有实时性的,现在的“大数据”应用环境都需要较高的I0PS性 能,比方HPC高性能计算等。此外,随着服务器虚拟化的普及也导致了系统对I0PS性能 的高要求。为了解决这些问题,各种模式的固态存储设备得以高速开展,从简单的服务器 内部高速缓存到全固态介质并且可扩展的存储系统高性能闪存存储。这可以大大降低延迟 时间,提升系统效率。1.3平安方面无论何种技术、

31、何种方法,最终的目的都是要应用在日常生活中。对于某些行业例如 军事数据、国家情报以及金融数据等都具有特殊的平安标准与保密需求,这些对于IT工-15 -xxxx学院毕业论文第5章 传统数据挖掘与大数据挖掘的异同作者并没有什么实质性的不同,但这都需要无条件遵从的,但是大数据挖掘往往需要多种 类型数据作为参考,难免会涉及这些比拟敏感的领域,而传统数据挖掘不会有这种多类数 据混合分析的情况,所以基于大数据的数据挖掘催生出一些新的、急需解决的平安性问题, 这也是传统数据挖掘与大数据挖掘在平安方面的不同之处。1.4本钱方面对于那些想要使用大数据挖掘技术的企业来说,传统数据挖掘与大数据挖掘在本钱方 面有着相

32、当大的差异,最关键的问题就是本钱控制问题。因为大数据需要更新的存储系统、 更快的处理效率等问题,这就意味着在大数据挖掘过程中提高每一台计算机的处理效率是 必要的,而且要尽可能地减少那些比拟昂贵的部件。现在比拟流行的技术是重复数据删除 等技术,它可以处理多种数据类型,提升存储效率。在当前数据量不断增长的环境下,如 果能减少后端的存储消耗,哪怕是降低了很少的百分点,对于大数据挖掘的非常重要的。1. 5数据积累方面想要做数据挖掘,数据存储是必不可少的,我们所存储的数据都是有应用准备的,而 许多应用都会涉及到法律或者是行业规那么等问题,这就需要我们存储的数据不是要存储一 段时间,而是很长时间,它可能是

33、几年,也可能是几十年,那么在存储的这段时间里,数 据是会不断的积累的,而数据挖掘都是基于时间段来进行的。要想长期保存数据,需要我 们开发出一款能够保持数据一致性特性的存储系统。2数据处理方面2. 1处理工具方面数据挖掘由于工作量重大,如假设单靠传统的人工编程实现,耗费的资源以及时间过于 巨大,其性能也不稳定,因此,必须依赖于专业的挖掘工具。传统的数据挖掘处理工具有 SAS公司的Enterprise Miner以及IBM公司的Intelligent Miner等等。而大数据的处 理工具有Hadoop以及MapReduce等等。SAS公司的Enterprise Miner是一个非常具有竞争力的数据

34、挖掘处理工具,集成了 多种数据挖掘算法,主要有关联、聚类、决策树、神经元网络和经典的统计回归技术。它 易于理解和使用,比拟适合初学者和有经验的用户使用,它允许一个分析者通过构造一个 使用链接连接数据结点和处理结点的可视数据流图建造一个模型。它也能运行在客户/服 务器上或(计算机的外围设备)能独立运行的配置上。IBM公司的Intelligent Miner是一个非常强大的数据挖掘处理工具,它集成了多种 数据挖掘算法,主要有单变量曲线,双变量统计,线性回归,因子分析,主变量分析,分 类,分群,关联,相似序列,序列模式,预测等等。它能处理很多数据类型如数据库表,-16 -xxxx学院毕业论文第5章

35、传统数据挖掘与大数据挖掘的异同数据库视图,平面文件等结构化数据和顾客信件,在线服务, ,电子邮件,网页等半 结构化或非结构化数据。它能自动生成典型数据集、发现关联、发现序列规律、概念性分 类和可视化的呈现,还可以自动实现数据选择、数据转换、数据挖掘和结果呈现这一整套 数据挖掘操作。Hadoop是一种分布式处理的软件框架,是一种可以处理大数据的数据处理工具,是一 种可以让用户简单使用并架构的分布式计算平台。它提供给用户开发和运行处理海量数据 的应用程序。它具有可靠、高效、可伸缩的特点。Hadoop的可靠性在与进行数据处理的时 候,Hadoop会先假设它所计算的数据和所存储的数据会失败,为了保证失

36、败的节点可以重 新分布处理,它会维护多个工作数据副本。Hadoop的高效性在于为了加快处理数据的速度, 因此它以并行方式运行并处理数据。Hadoop的可伸缩性在于可以处理PB级数据。MapReduce是一种用于大数据并行运算的编程模型。Map是映射,Reduce是规约, MapReduce思想主要是借鉴于函数式编程语言、矢量编程语言的特性。它最主要的功能是 将不会分布式并行编程的编程人员将自己所编的程序运行在分布式系统上。MapReduce指 定了一个映射(Map)函数,用来把一组键值对映射成一组新的键值对,并发的规约(Reduce) 函数用来保证所有映射的键值对中的每一个共享相同的键组。2.

37、 2存储工具方面数据挖掘的研究对象是各种类型的数据,这些数据必须先存储在相应的数据库中才能 实现数据挖掘。传统的数据挖掘所研究的对象数据主要是结构化数据,它可以存储在许多 数据库中如MySQL数据库、SQL Serve数据库和Oracle数据库等。基于大数据的数据挖掘 所研究的对象除了结构化数据外,更多的是半结构化或非结构化的数据类型,这些数据的 存储可以存储在NoSQL数据库中。NoSQL数据库指的并不是一款数据库,它泛指非关系型数据库,主要用于存储半结构 化或非结构化数据类型的数据。NoSQL数据库可以用来解决超大规模和高并发的SNS类型 的WEB2. 0网站所带来的大规模数据集合以及多重

38、数据种类的挑战。这是存储大数据的主 要手段。2. 3数据计算方面大数据与云计算是密不可分的,是相伴而生的,二者就像掌心掌背一样是共同出现的。 大数据中的数据因为数据量非常庞大,必然无法应用一台计算机处理,所以它必须采用分 布式架构,也就是云计算。而大数据的特色就在于对这些有意义的海量数据进行分布式的 数据挖掘处理,而分布式数据挖掘必须依托云计算的分布式处理、分布式数据库、云存储 与虚拟化技术。随着云时代的降临,大数据也越来越受到人们的关注,在商业中,大数据指的是企业 创造的大量半结构化和非结构化数据,这些数据如果下载到传统的关系型数据库进行分 析,会花费大量的时间以及金钱。大数据需要特殊的技术

39、,以有效的处理大量的容忍时间-17-XXXX学院毕业论文第5章 传统数据挖掘与大数据挖掘的异同内的数据。大数据分析常和云计算密切联系,因为分析实时的大数据集需要MapReduce这 样的框架来向多台计算机分配任务。目前适用于大数据的技术也有很多种,比拟成熟的有 大规模并行处理数据库(MPP)、数据挖掘电网、分布式文件系统、分布式数据库、云计算、 互联网和可扩展的存储系统。通过上述比拟,可以发现传统数据挖掘与基于大数据的数据挖掘在算法、目的、分析 方法上都是相同的,但二者在数据的存储上、数据的处理上、数据的计算上都有着很大的 不同。-18-XXXX学院毕业论文结论在大数据时代下,数据挖掘是最关键

40、的工作。因为数据挖掘是通过预测未来趋势以及 行为,做出科学的、基于知识的决策支持。伴随着大数据的数据管理、检索技术的研究发 展,基于大数据的数据挖掘技术也将迎来巨大的开展机遇,数据挖掘技术的应用也将更加 广泛。那么传统数据挖掘与基于大数据的数据挖掘究竟有何不同?在系统的整理了数据挖 掘、大数据以及基于大数据的数据挖掘的概念、技术和方法等,可以总结出数据挖掘与基 于大数据的数据挖掘既有相同之处,又有不同之处。在数据挖掘目的方面,无论是传统的数据挖掘还是基于大数据的数据挖掘都是通过一 定的技术手段,希望得到隐藏在数据中的对人们有用的信息知识。在数据挖掘的思想方面,传统数据挖掘与基于大数据的数据挖掘

41、都使用相同的数据挖 掘算法以及分析方法,只不过基于大数据的数据挖掘数据量更加庞大、数据类型更加复杂。虽然传统数据挖掘与基于大数据的数据挖掘在目的、思想方面并无差异,但二者的不 同之处更加明显。在数据存储方面,传统数据挖掘所挖掘的对象是数据量较小的、数据类型较简单的结 构化数据,这些数据可以存储在MySQL数据库、SQL Serve数据库和Oracle数据库等数据 库中,它的容量比拟小,相对于大数据而言更加平安,存储所花费的本钱也比拟低。而基 于大数据的数据挖掘研究对象是数据量比拟庞大的、结构比拟复杂的半结构化或非机构化 类型的数据,这些数据存储在NoSQL数据库中,耗费的本钱比拟高,但存储量巨

42、大。在处理工具方面,传统数据挖掘的处理工具主要是SAS公司的Enteirprise Miner以 及IBM公司的Intelligent Miner,这两种处理工具都包括了基本的挖掘算法,可以很好 的对研究对象进行数据挖掘。而大数据的处理工具主要有Hadoop以及MapReduce,它们可 以很好的处理大数据,并且对大数据的数据挖掘有一定的帮助。在计算工具方面,传统数据挖掘可以使用一台计算机即可,但基于大数据的数据挖掘 那么必须使用以云计算为代表的分布式计算方式,大数据中的数据因为数据量非常庞大,必 然无法应用一台计算机处理,所以它必须采用分布式架构。尽管当前的传统数据挖掘与基于大数据的数据挖掘

43、并无实质意义上的不同,但随着大 数据的开展,大数据的存储、管理、分析和处理也将得到高速开展,待这些技术先开展成 熟,基于大数据的数据挖掘领域必将出现新的技术,这是可以预见的。因为数据对象变的 庞大了,数据类型变的复杂了,所以未来的数据挖掘不可能在使用针对数据量较小的、数 据类型简单的数据挖掘技术来挖掘那些数据量巨大、数据类型复杂的数据,它必将做出改 变。假设还使用传统数据挖掘技术来挖掘大数据,先不说可不可以挖掘,即使可以挖掘出有 用的信息,我们所花费的时间、金钱以及各种资源也是巨大的,这违背了数据挖掘的思想。 因此,数据挖掘技术必将随着大数据的开展而开展,必将随着大数据的改变而改变。可以用一句

44、话来总结传统数据挖掘与基于大数据的数据挖掘之间的关系,那就是基于 大数据的数据挖掘是站在传统数据挖掘肩膀上的眺望未来的革命者。-19-Xxxx学院毕业论文致谢时光飞逝、四载春秋,求学之路,前行不怠。四年光阴渐逝,大学之路即将走完。作 为最后的“作业”,毕业论文的书写有着太多的不舍和感激。尤其是我的指导老师张楠老 师,从选题到书写,给予我无比细致的关心与帮助。可以说本文的字里行间无不凝聚着老 师的辛苦。老师渊博的学识、严谨求实的科学态度,堪称学之楷模;锐意的创新、忘我的 工作精神,令人肃然起敬;人格之高洁、待人之宽厚、淡泊之名利,更可谓师之典范。老 师的言传身教,使我耳濡目染,感悟良多,深感敬佩

45、。感谢张楠老师对我的悉心教导,也 感谢学校这四年来对我的栽培。“精工博学,明德致知”将成为我心中永不忘却的缄言。我要感谢我的毕业论文指导老师,是您严谨的治学,适时的催促,不断地指导使我顺 利完成了我的毕业论文的书写,在整个毕业论文书写期间您不断地给与我帮助和指导使我 不止完成了我的毕业论文还学的了很多相关的专业知识,老师不但经验丰富知识领域宽广 而且和善可亲,在完成论文的过程您不但教授了我很多专业知识,还为我的未来开展学业 工作提出了很多珍贵的意见,我们不但是亲切的师生,也是彼此的朋友,在我整个毕业设 计的指导过程中您给我的印象就是认真负责,在这里我想对我可敬可亲的老师说一声:“谢 谢!”-2

46、0-沈阳工程学院毕业论文参考文献Jiawei Han, Micheline Kambr. Data Mining Concepts and TechniquesM. Higher Education Press.2001.Fayyad U M. Piatetsky-Shapiro G, Smyth P, et al. Advances in knowledge discovery and data miningJ. 1996(16):82863程军峰.Web数据挖掘研究J.重庆三峡学院学报,2013 (3): 43-45Wang YZ,jin XL, Cheng XQ. Network big

47、 data:Pressent and future. Chinese Journal of Computers, 2013, 36(6):1125-1138.BARABASI A L.Bursts:The Hidden Patterns Behind Every-thing We DoM. Plume Book, 2011维克托迈尔舍恩伯格,肯尼思库克耶.大数据时代:生活、工作与思维的大变革 M.盛杨燕,周涛,译.杭州:浙江人民出版社,2012.Bu Y Y, Howe B. Balazinskska M, et al. HaLoop:Efficient iterative data proc

48、essing on large clusters J.PVLDB2010,3(1/2):285-296.8郭建波.海量结构化大数据存储检索系统的探讨J. SOFTEARE, 2013, 34(2) :95-969王元卓,靳小龙,程学旗.网络大数据:现状与展望J.计算机学报,2013,36 (6): 1125-1138.10商琳,骆斌.一种基于数据仓库的数据挖掘系统的结构框架J.计算机应用研究, 2000, 17 (9): 63-65.11刘晓东,刘大有.数据挖掘专利综述J .电子学报,2003, 12:1989-1993.12王立伟.数据挖掘研究现状综述J.图书与情报,2008 (5): 42

49、-46.13郭萌,王车玉.数据挖掘与数据库知识发现:综述J.模式识别与人工智能,1998, 11(3): 292-299.14郭翠霞.浅谈数据挖掘及其开展状况J.科技信息,2008 (4): 72.15 Han JW, Micheline K.数据挖掘概念与技术M.范明,孟晓峰译.北京:机械工业出版 社,2001.16李平荣.大数据时代的数据挖掘技术与应用J.重庆三峡学院学报,2014130 (151): 45-47.17糜元根.数据挖掘方法的评述J.南京化工大学学报,2001,23 (5): 105-110.18范明,孟晓峰译.数据挖掘一概念与技术M.北京:机械工业出版社,2001.30-3

50、5.19李德仁,王树良,李德毅.空间数据挖掘理论与应用M.北京:科学出版社,2006.-21 -AbstractXXXX院毕业论文摘要大数据是IT产业具有颠覆性的技术革命,在这之前的技术革命还有物联网、云计算 等。大数据时代的到来对人们影响巨大,尤其在生活方式和商业模式上影响着人们,而且 也在组织流程、企业决策等方面影响着人们。随着大数据的提出,许多信息技术迎来了新 的开展机遇,尤其对数据挖掘技术影响巨大,而数据挖掘技术也开始了一个新的开展阶段。 目前信息世界中一个非常严峻的问题就是数据的大爆炸与知识的匮乏,要想解决这个严峻 的问题,数据挖掘是一个非常有力的手段。过去的几年是知识大爆炸与信息大

51、爆炸的时代, 而现在那么是数据大爆炸的时代。大量的数据信息隐藏着巨大价值,要想发现这些价值,进 行数据挖掘是必不可少的。由于大数据的数据量比拟庞大,数据类型比拟复杂,因此,想要针对大数据进行数据 挖掘必然不能在用传统的数据挖掘技术,基于大数据的数据挖掘必然不同于传统数据挖掘 技术。大数据与相对较小的数据相比在存储上、数据类型上都有着非常大的不同,因此, 数据对象不同的数据挖掘技术也有着很大的不同。那么传统数据挖掘与基于大数据的数据 挖掘之间究竟有何不同之处、有何相同之处?这对于大数据的开展具有十分重要的意义。本文主要论述了传统数据的概念和特点、大数据的概念和特点以及基于大数据的数据 挖掘的概念

52、和特点,最后进行传统数据挖掘与基于大数据的数据挖掘比拟,最终得出传统 数据挖掘与基于大数据的数据挖掘既有相同之处又有不同之处。相同之处在于数据挖掘的 思想、目的、基本方法等方面,不同之处在于数据存储、数据处理、数据类型等方面。关键词 数据挖掘,大数据,知识大爆炸目录 TOC o 1-5 h z HYPERLINK l bookmark34 o Current Document 摘要IIIAbstract错误!未定义书签。 HYPERLINK l bookmark38 o Current Document 第1章绪论1 HYPERLINK l bookmark40 o Current Docum

53、ent 大数据时代1 HYPERLINK l bookmark42 o Current Document 数据挖掘的意义1 HYPERLINK l bookmark16 o Current Document 基于大数据的数据挖掘1 HYPERLINK l bookmark46 o Current Document 本文的主要目的与内容2 HYPERLINK l bookmark48 o Current Document 第2章 传统数据挖掘的起源3 HYPERLINK l bookmark50 o Current Document 传统数据挖掘的定义3 HYPERLINK l bookmark

54、52 o Current Document 传统数据挖掘的概念3 HYPERLINK l bookmark54 o Current Document 传统数据挖掘的起源3 HYPERLINK l bookmark56 o Current Document 传统数据挖掘的开展阶段4 HYPERLINK l bookmark2 o Current Document 第3章传统数据挖掘技术5 HYPERLINK l bookmark4 o Current Document 数据挖掘的分析方法5关联分析5分类分析5序列模式分析6聚类分析6 HYPERLINK l bookmark6 o Current

55、 Document 复杂数据类型挖掘6 HYPERLINK l bookmark8 o Current Document 传统数据挖掘面临的挑战7数据挖掘的对象7输入数据的复杂性7用户的参与度7信息的验证技术8信息的表达和解释8信息的维护更新8有限的支持和集成8 HYPERLINK l bookmark10 o Current Document 数据挖掘的开展趋势8 HYPERLINK l bookmark12 o Current Document 第4章 基于大数据的数据挖掘10 HYPERLINK l bookmark14 o Current Document 大数据技术10大数据的定义1

56、0大数据的意义10大数据的特点10内存分析11集成设备11大数据的结构11 HYPERLINK l bookmark18 o Current Document 基于大数据的数据挖掘12基于内容的大数据挖掘12基于结构的大数据挖掘13 HYPERLINK l bookmark20 o Current Document 基于大数据的数据挖掘的意义13基于大数据的数据挖掘的应用13 HYPERLINK l bookmark22 o Current Document 第5章传统数据挖掘与大数据挖掘的异同15 HYPERLINK l bookmark24 o Current Document 数据存储方

57、面15容量方面15延迟方面15平安方面15本钱方面16数据积累方面16 HYPERLINK l bookmark26 o Current Document 数据处理方面16处理工具方面16存储工具方面17数据计算方面17 HYPERLINK l bookmark28 o Current Document 结论19 HYPERLINK l bookmark30 o Current Document 致谢20 HYPERLINK l bookmark32 o Current Document 参考文献21第1章绪论大数据时代2009年以来“大数据”成为各界的流行词,尤其是在信息领域中。而在麦肯锡的

58、20n 年数据呈报报告中指出,大数据现已渗透社会各个领域,数据中的信息已然成为重要的生 产要素。作为时下最流行的关键技术,随之而来的数据仓库、数据挖掘、数据分析、数据 处理等围绕大数据的技术也逐渐开始进入一个新的开展阶段。那么“大数据”究竟有多大? 根据世界互联网数据中心统计报告,互联网上数据的年增长率是50%,而在过去的几年里 产生了 90%的数据,数据量已经到达了 ZB级别。“大数据”被比作未来的“石油”,它不仅 是信息世界的特殊技术,这也将是一个国家综合国力的重要组成局部。一个国家拥有的数 据规模与数据运用的能力以及对数据的占有量和控制量将成为国家间新的争夺点。数据挖掘的意义大数据作为一

59、种重要的战略资源,如何发挥大数据的战略意义显得十分重要,数据挖 掘的目的是挖掘隐藏在数据中的对人们有效的信息,通过数据挖掘,我们才能得到大量数 据集中所蕴含的信息。这些信息可以创造价值,并对人们的多个领域产生深远影响。数据 挖掘是一种基于数据库、模式识别、机器学习、人工智能、统计学、可视化技术的决策支 持模式。数据挖掘可以分析数据、归纳数据,从数据中挖出对人们有用的信息,帮助人们 做出正确的决策,减少风险”,数据挖掘又被称作基于数据库的知识发现,是数据库技术和人工智能领域的重要应 用,也是重要的研究热点。数据挖掘发现的知识可以用作商业决策支持、信息管理、工业 过程控制和查询优化等,更可以用作数

60、据自身的维护。数据挖掘将以前低层次的简单数据 查询提升到挖掘数据间的隐藏信息,用以各个领域中。3数据挖掘作为一种比拟成熟的数据处理技术,主要是从数据中的数据进行抽取、转换、 数据分析和数据建模处理,从中提取出对人们有用的关键信息。数据挖掘与传统的数据分 析有很大的不同,数据挖掘是在未知的前提下去挖掘信息、发现知识的,而可实用、有效 和未知是数据挖掘的三大基本特征。目前比拟常用的成熟的挖掘方法主要有七种,分别是 关联分析、决策树、遗传算法、贝叶斯网络、粗糙集方法、神经网络和统计分析。L 3基于大数据的数据挖掘基于大数据的数据挖掘技术是在大数据提出之后才开始引起人们关注的,大数据引起 的信息技术革

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论