下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据时代的信息处理 一、大数据的定义 所谓“大数据”,一般具有几个特点:首先是数据量很大, 已经从TB级跃升至PB级;其次是区别于传统的数据结构,“大 数据”时代的数据结构比较复杂,超过 80%都是非结构化数据, 比如道路上的视频监控数据、 网上的流媒体数据、 物联网中 RFID 的感应数据,以及社交网络上产生的各种数据等。这两个特点, 给数据存储、管理和挖掘带来了困难。第三,数据更新快,比如 视频监控每秒钟都在进行,微博随时都有人在更新;最后,是对 数据的随机访问, 这些更个人化的数据在存储后被再次访问的时 间是不确定的。 这两点就要求新的 IT 系统更够更快地处理数据, 并且能够更智能地
2、保存和管理数据。 比如在某一天, 你需要从监 控录像中找出某个人,那么就需要能够迅速地查找、调用、分析 之前保存的海量数据。 “大数据”的这些特点, 对数据搜索及管 理提出了更高要求, 因为在“大数据”时代只有经过分析提炼的 关键数据才有价值。 二、数据挖掘的定义 数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些 有用信息的非平凡过程,这些信息的表现形式为:规则、概念、 规律及模式等。 它可帮助决策者分析历史数据及当前数据, 并从 中发现隐藏的关系和模式, 进而预测未来可能发生的行为。 数据 挖掘的过程也叫知识发现的过程, 它是一门涉及面很广的交叉性 新兴学科,涉及到数据库、人工智能、数理统
3、计、可视化、并行 计算等领域。 数据挖掘是一种新的信息处理技术, 其主要特点是 对数据库中的大量数据进行抽取、 转换、分析和其他模型化处理, 并从中提取辅助决策的关键性数据。 数据挖掘是知识发现过程中 的一个特定步骤, 它用专门算法从数据中抽取模式, 它并不是用 规范的数据库查询语言进行查询, 而是对查询的内容进行模式的 总结和内在规律的搜索。 传统的查询和报表处理只是得到事件发 生的结果, 并没有深入研究发生的原因, 而数据挖掘则主要了解 发生的原因, 并且以一定的置信度对未来进行预测, 用来为决策 行为提供有利的支持。 (1)统计学 统计学在数据样本选择、 数据预处理及评价抽取知识的步骤
4、中有非常重要的作用。 以往许多统计学的工作是针对数据和假设 检验的模型进行评价, 很明显也包括了评价数据挖掘的结果。 在 数据预处理步骤中, 统计学提出了估计噪声参数过程中要用的平 滑处理的技术, 在一定程度上对补足丢失数据有相当的作用。 统 计学对检测数据分析、 聚类和实验数据参数设计上也有用。 但统 计学研究的焦点是在于处理小规模数据样本采集和小规模数据 集处理的问题上。 统计学的工作大多是针对技术和模型的理论方 面。于是许多工作是着眼于线性模型、递增的高斯噪声模型、参 数估计和严格分类参数模型上。 只有在进行相近模式区别时才强 调寻优。 (2)模式识别 在模式识别工作中, 传统上是把注意
5、力集中在符号形式化直 接结合实际技术的工作过程中。 模式识别主要用于分类技术和数 据的聚类技术上。 模式识别中的分类和含义分析是对数据挖掘概 念形成的开端。 多数模式识别的算法和方法对降维、 变换和设置 都有直接的参考意义。 在数据挖掘的步骤中, 模式识别比统计学 更为重要, 因为它强调了计算机算法、 更加复杂的数据结构和更 多的搜索。典型的数据分类是用一定的分类技术把数据从一个向 量空间映射到另外一个向量空间。但这种映射并不总是有意义 的。比如,形状上“方”与“圆”的差别就很难说比性别上 “男”与“女”的差别大。 显然,这其中应当注重其语言的含义。 (3)人工智能 人工智能对于数据挖掘来说原
6、来一直是在符号的层次上处 理数据, 而对于连续变量注意较少。 在机器学习和基于案例的推 理中,分类和聚类算法着重于启发式搜索和非参数模型。 对于其 结果,并不象模式识别和统计学在数学上的精确和要求严格分 析。随着计算机学习理论的发展。 人工智能把注意力集中在了表 达广义分类的模糊边缘上。 机器学习主要是对数据挖掘过程中的 数据变量选择处理极有帮助, 在通过大量搜索表达式和选择变量 上有很大作用。另外,机器学习对于发现数据结构,特别是人工 智能中的不确定推理技术和基于贝叶斯模型推理是统计学意义 上的分布密度估计的强有力的工具。 人工智能技术建立了关于特 定领域知识和数据的已有知识的相对容易理解和
7、自然的框架。 人 工智能的其他技术, 包括知识获取技术、 知识搜索和知识表达在 数据挖掘的数据变换、 数据选择、 数据预处理等步骤中都有作用。 (4)数据库 数据库及其相关技术显然与数据挖掘有直接的关系。 数据库 是原始数据的处理、 储存和操作的基础。 随着平行和分布式数据 库的使用, 对数据录入和检索有更高的要求。 数据挖掘中很重要 的一个问题是对数据库中数据的在线分析, 主要是如何利用多种 方法对数据进行实时处理和分析。 一般来说, 通过相关数据结构 的标准化可以克服要求特殊存取数据的困难。 在数据挖掘中为了 对数据进行特定的统计和计数, 则要对各个特征属性进行组合形 成新的数据库。 其中
8、, 对于数据挖掘所得知识支持率的研究是个 新领域。 三、数据挖掘技术的方法 数据挖掘涉及的学科领域和方法很多, 如多种分类法。 根据 开采任务分,可分为分类或预测模型发现、数据总结、聚类、关 联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和 趋势发现等等;根据开采对象分,有关系数据库、面向对象数据 库、空间数据库、时态数据库、文本数据源、多媒体数据库、异 质数据库、遗产数据库以及环球网 Web根据开采方法分,可粗 分为:机器学习方法、统计方法、神经网络方法和数据库方法。 机器学习中, 可细分为: 归纳学习方法 (决策树、 规则归纳等) 、 基于范例学习、遗传算法等。统计方法中,可细分为
9、:回归分析 (多元回归、 自回归等) 、判别分析 (贝叶斯判别、 费歇尔判别、 非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性 分析(主元分析法、相关分析法等)等。神经网络方法中,可细 分为:前向神经网络(BP算法等)、自组织神经网络(自组织 特征映射、竞争学习等)等。数据库方法主要是多维数据分析或 OLAP方法,另外还有面向属性的归纳方法。 四、结束语 数据挖掘技术是一个发展十分快的领域, 随着对数据挖掘技 术在各领域日益广泛的应用, 实现了数据资源共享及技术发展的 跨域,从而大大提高了工作效率,并带来巨大的成功。21 世纪 是信息时代的社会,“信息不仅是资源,更是财富”,要实现经 济的腾飞,需依赖高新尖科技的发展,故利用提供的信息,充分 进行数据挖掘, 则将为数据库的应用开辟了广阔的前景, 也为人 类的文明开辟了一个崭新的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论