版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据简介与相关技术目录/Contents01大数据简介02大数据相关技术大数据简介01大数据简介大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。大数据简介Volume(大量):数据量大,截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。Variety(多样):种类和来源多样化。这种类型的多样性也让数据被分为结构化数据和非结构化数据。Value(低价值密度):价值密度的高低与数据总量的大小成反比。Velocity(高速):数据增长速度快,处理速度也快,时效性要求高。这是大数据区分于传统数据挖掘的最显著特征。Veracity:信数据的准确性和可信赖度,即数据的质量。大数据相关技术02大数据相关技术大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先科学的给出一个通用化的大数据处理技术框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。大数据相关技术数据采集与预处理对于各种来源的数据包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安全保障,并且运维困难,需要更强壮的解决方案。大数据相关技术数据存储Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。数据清洗MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算,”Map(映射)”和”Reduce(归约)”,是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统中。大数据相关技术数据查询分析Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供HQL(HiveSQL)查询功能。Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQLonHadoop,用来进行大数据实时查询分析。Spark拥有HadoopMapReduce所具有的特点,它将Job中间输出结果保存在内存中,从而不需要读取HDFS。Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。Solr用Java编写、运行在Servlet容器(如ApacheTomcat或Jetty)的一个独立的企业级搜索应用的全文搜索服务器。Elasticsearch是一个开源的全文搜索引擎,基于Lucene的搜索服务器,可以快速的储存、搜索和分析海量的数据。大数据相关技术数据可视化对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。主流的BI平台比如,国外的敏捷BITableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的有数BI等。控制权限的ranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive,Hbase进行细粒度的数据访问控制。通过操作Ranger控
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年装修机械项目发展计划
- 2024年适用离婚协议书模板集锦
- 广州市物业公共纠纷调解与和解
- 化工行业工艺文件编制
- 乡村环境美化执行标准
- 乐器店办公室管理办法
- 科技馆公寓租赁合同
- 跨国公司高管聘用证书及合同
- 脚手架搭建班组施工合同
- 基建项目质量控制与改进流程
- Unit 4 Plants around us Part A(说课稿)-2024-2025学年人教PEP版(2024)英语三年级上册
- 糖尿病伤口护理
- 人教版(2024新版)八年级上册物理期末必刷单项选择题50题(含答案解析)
- 建筑师业务实习答辩
- 在编警察聘用合同范例
- 安徽省芜湖市2023-2024学年高一上学期期末考试 生物 含解析
- 设备维护保养培训
- 三管三必须-新安法宣贯课件
- 《文化科普体验园建设项目可行性研究报告》
- 古诗词诵读《静女》课件++2024-2025学年统编版高中语文必修上册
- 公共机构能耗定额 第3部分:教育机构DB41-T 1960.3-2021
评论
0/150
提交评论