版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据简介与相关技术目录/Contents01大数据简介02大数据相关技术大数据简介01大数据简介大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。大数据简介Volume(大量):数据量大,截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。Variety(多样):种类和来源多样化。这种类型的多样性也让数据被分为结构化数据和非结构化数据。Value(低价值密度):价值密度的高低与数据总量的大小成反比。Velocity(高速):数据增长速度快,处理速度也快,时效性要求高。这是大数据区分于传统数据挖掘的最显著特征。Veracity:信数据的准确性和可信赖度,即数据的质量。大数据相关技术02大数据相关技术大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先科学的给出一个通用化的大数据处理技术框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。大数据相关技术数据采集与预处理对于各种来源的数据包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安全保障,并且运维困难,需要更强壮的解决方案。大数据相关技术数据存储Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。数据清洗MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算,”Map(映射)”和”Reduce(归约)”,是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统中。大数据相关技术数据查询分析Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供HQL(HiveSQL)查询功能。Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQLonHadoop,用来进行大数据实时查询分析。Spark拥有HadoopMapReduce所具有的特点,它将Job中间输出结果保存在内存中,从而不需要读取HDFS。Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。Solr用Java编写、运行在Servlet容器(如ApacheTomcat或Jetty)的一个独立的企业级搜索应用的全文搜索服务器。Elasticsearch是一个开源的全文搜索引擎,基于Lucene的搜索服务器,可以快速的储存、搜索和分析海量的数据。大数据相关技术数据可视化对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。主流的BI平台比如,国外的敏捷BITableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的有数BI等。控制权限的ranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive,Hbase进行细粒度的数据访问控制。通过操作Ranger控
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中数学人教版九年级下册同步听评课记录第27章章末复习
- 瑜伽私教服务合同(2篇)
- 甲醛超标租赁合同(2篇)
- 湘教版九年级上册听评课记录:4.2 正切
- 湘教版地理七年级下册《第一节 日本》听课评课记录2
- 四年级英语听评课记录表
- 五年级苏教版数学上册《认识负数》听评课记录(校内大组)
- 苏科版数学七年级上册3.2 代数式教听评课记录
- 湘师大版道德与法治九年级上册4.1《多彩的人类文化》听课评课记录
- 小学数学-六年级下册-3-2-2 圆锥的体积 听评课记录
- 四川省自贡市2024-2025学年上学期八年级英语期末试题(含答案无听力音频及原文)
- 2025-2030年中国汽车防滑链行业竞争格局展望及投资策略分析报告新版
- 2025年上海用人单位劳动合同(4篇)
- 二年级上册口算题3000道-打印版让孩子口算无忧
- 2025年生物安全年度工作计划
- 人教版数学六年级下册全册核心素养目标教学设计
- 通用电子嘉宾礼薄
- 新概念英语第三册课后习题答案详解
- 有机化学共振论
- 家访手记(5篇)
- 桥梁工程质量保证措施
评论
0/150
提交评论