![数据挖掘的几个应用场景及大数据技术初探.pptx_第1页](http://file1.renrendoc.com/fileroot_temp2/2020-3/3/1a6111da-af3a-4a28-a549-f09c36a8852a/1a6111da-af3a-4a28-a549-f09c36a8852a1.gif)
![数据挖掘的几个应用场景及大数据技术初探.pptx_第2页](http://file1.renrendoc.com/fileroot_temp2/2020-3/3/1a6111da-af3a-4a28-a549-f09c36a8852a/1a6111da-af3a-4a28-a549-f09c36a8852a2.gif)
![数据挖掘的几个应用场景及大数据技术初探.pptx_第3页](http://file1.renrendoc.com/fileroot_temp2/2020-3/3/1a6111da-af3a-4a28-a549-f09c36a8852a/1a6111da-af3a-4a28-a549-f09c36a8852a3.gif)
![数据挖掘的几个应用场景及大数据技术初探.pptx_第4页](http://file1.renrendoc.com/fileroot_temp2/2020-3/3/1a6111da-af3a-4a28-a549-f09c36a8852a/1a6111da-af3a-4a28-a549-f09c36a8852a4.gif)
![数据挖掘的几个应用场景及大数据技术初探.pptx_第5页](http://file1.renrendoc.com/fileroot_temp2/2020-3/3/1a6111da-af3a-4a28-a549-f09c36a8852a/1a6111da-af3a-4a28-a549-f09c36a8852a5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘的几个应用场景及大数据技术初探,前言,数据的生态系统 管理底层数据,给用户提供好用的资料和信息 “知识发现”:强调用户易用性和服务效率 数据定义的延伸: 业务数据+管理数据(元数据、日志数据),数据挖掘的几个应用场景,异常检测/稀有类挖掘 发现不同寻常、和其他大部分对象都不同的对象 其属性值明显偏离期望值或常见属性值 出现的频率很低,但极具价值 方法: 属性分布 距离度量 密度分析 聚类 etc.,数据挖掘的几个应用场景,与业务的结合 网络入侵检测 根据异常的访问行为或资源使用情况进行判断 输入:审计信息,数据挖掘的几个应用场景,与业务的结合: 质量控制: 气象领域: 基于经验规则 可
2、以借助数据挖掘模型(奇异值分析)进行隐式规则的挖掘,数据清洗(重复记录识别) 异构数据源融合,数据存在冗余 与业务的结合: 数据迁移过程中,“记录型”数据,数据标准化、排序,数据匹配(相似度),数据合并(Merge/Purge),Clean Data,数据挖掘的几个应用场景,数据清洗 对排过序的数据,采用滑动窗口的方式来匹配数据。,数据挖掘的几个应用场景,其他: IWM监测结果统计 最终目标是提交统计数据 多维度的数据挖掘能发现数据背后的规律 进而判断缺报原因:silence station?业务流程出现问题? 检测告警 显式告警:系统抛出的异常(可预见的告警) 隐式告警:日志数据挖掘,大数据
3、技术,大数据 无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。(维基百科) 特点(3V) Volume:数量大,PB级,增量TB级 Velocity:时效性高(2011-3-11日本大地震发生后仅9分钟,NOAA就发布了详细的海啸预警,其数据中心存储着超过20Pb的数据) Variety:多样性(结构化/半结构化/非结构化) Hadoop Java开发、开源、能对PB级数据进行存储、计算,已形成强大的生态系统 核心:HDFS+MapReduce,大数据技术,HDFS 实现对分布式存储的底层支持 集群,主从结构模型 数据分块+数据存储 NameNode: 负责数据块到具体D
4、ataNode的映射,管理文件系统的命名空间以及处理客户端对文件的访问请求。 DataNode: 负责响应文件系统客户端的文件读写请求,并在NameNode的统一调度下进行数据块的创建、删除和复制工作。,大数据技术,HDFS 文件写入 Client向NameNode发起文件写入的请求。 NameNode根据文件大小和文件块的配置情况,返回给Client它所管理的DataNode的信息。 Client将文件分块,根据DataNode的地址信息,按顺序将其写入每一个DataNode块中。 文件读取 Client向NameNode发起读取文件的请求。 NameNode返回文件存储的DataNode信
5、息。 Client读取文件信息。 文件块复制 NameNode发现部分文件的分块 不符合最小复制数这一要求或部分DataNode失效, 则通知DataNode相互复制Block。 DataNode开始直接相互复制。,大数据技术,MapReduce 实现对分布式并行任务的处理,必须有分布式存储支撑 两类操作: Map:映射,键值对-键值对 Reduce:化简,将处理后的结果进行归并 两类操作: JobTracker:接受作业提交,提供作业的监测和控制,管理任务,以及分配作业到TaskTracker节点上 TaskTracker:在集群中的计算节点上管理和执行各个Map和Reduce作业,大数据技
6、术,MapReduce 流程 进行数据分块 启动主从进程,JobTracker进行任务分配 一个或多个小数据集由集群中的单个节点进行处理并生成中间结果,存储在本地磁盘 根据键值对对中间结果进行排序、合并,传递给Reduce函数,产生输出 只需编写Map和Reduce函数,大数据技术,特点: 本地计算:Map任务在存储数据节点上运行,节约带宽。 任务切分时,通常让数据分片小于或等于数据块的大小,便于本地计算 HDFS的数据分块大小一般为64M,MapReduce跑起来效率最高。 Map的输出本地存储,Reduce的输出写入HDFS,因此需要减少中间结果键值对的数目,降低对网络带宽的占用 多Red
7、uce任务下,将Map的输出按键值进行划分,一般使用哈希函数。 总结: HDFS在集群上实现了分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。 HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果。,大数据技术,面向行存储 没有索引的查询使用大量I/O 建立索引和物化视图需要花费大量时间和资源 RDBMS 面向列存储 数据库自动索引化 只访问查询所涉及的列,降低I/O成本 同一列的数据域拥有相同的数据类型,能高效压缩 每一列由一个线索来处理,实现查询的并发处理,大数据技术,
8、NoSQL 面向列存储,非关系型数据库,无模式的数据存储 对于关系型数据库 固定的表结构,属性不能动态增加 存在null值存储单元的浪费 可扩展性差,大数据技术,NoSQL 典型的NoSQL数据库以key/values的形式存储数据,具有模式自由的特点 两个关键概念:Column family & Row key 按照Column family进行数据组织 属性可以动态增加,只需要SURF_TAB: newProperty就 空的列不进行存储,节约存储空间 当表中数据超过阈值后,能自动切分,具有水平扩展性 增加节点,能自动进行负载均衡(Hbase) 按照 Row key进行查询:e.g. ,大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 煤炭购销合同担保书
- 代购合作协议合同
- 燃气承包合同
- 江苏商品房买卖合同模板
- 合同书电子版
- 安装合同简单版样本
- 2025年人教A版九年级历史下册月考试卷含答案
- 2025年外研衔接版九年级历史下册阶段测试试卷
- 2025年沪教版必修2历史上册月考试卷含答案
- 2025年湘教版九年级地理下册月考试卷
- 客车交通安全培训课件
- 艺术培训校长述职报告
- ICU新进人员入科培训-ICU常规监护与治疗课件
- 人教版一年数学下册全册分层作业设计
- 选择性必修一 期末综合测试(二)(解析版)2021-2022学年人教版(2019)高二数学选修一
- 学校制度改进
- 各行业智能客服占比分析报告
- 年产30万吨高钛渣生产线技改扩建项目环评报告公示
- 民谣酒吧项目创业计划书
- 2023年珠海市招考合同制职员笔试参考题库(共500题)答案详解版
- 心电监护考核标准
评论
0/150
提交评论