下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据分析平台系统开发大数据分析平台系统开发公司马小姐1、搭建大数据平台离不开BI。在大数据之前,BI就已经存在很久了,简单把大数据等同于BI,明显是不恰当的。但两者又是紧密关联的,相辅相成的。BI是达成业务管理的应用工具,没有BI,大数据就没有了价值转化的工具,就无法把数据的价值呈现给用户,也就无法有效地支撑企业经营管理决策;大数据则是基础,没有大数据,BI就失去了存在的基础,没有办法快速、实时、高效地处理数据,支撑应用。 所以,数据的价值发挥,大数据平台的建设,必然是囊括了大数据处理与BI应用分析建设的。2、大数据拥有价值。来看看数据使用金字塔模型,从数据的使用角度来看,数据基本有以下使用
2、方式:自上而下,可以看到,对数据的要求是不一样的:· 数据量越来越大,维度越来越多。· 交互难度越来越大。· 技术难度越来越大。· 以人为主,逐步向机器为主。· 用户专业程度逐步提升,门槛越来越高。企业对数据、效率要求的逐步提高,也给大数据提供了展现能力的平台。企业构建大数据平台,归根到底是构建企业的数据资产运营中心,发挥数据的价值,支撑企业的发展。整体方案思路如下:建设企业的基础数据中心,构建企业统一的数据存储体系,统一进行数据建模,为数据的价值呈现奠定基础。同时数据处理能力下沉,建设集中的数据处理中心,提供强大的数据处理能力;通过统一的数据
3、管理监控体系,保障系统的稳定运行。有了数据基础,构建统一的BI应用中心,满足业务需求,体现数据价值。提到大数据就会提到hadoop。大数据并不等同于hadoop,但hadoop的确是最热门的大数据技术。下面以最常用的混搭架构,来看一下大数据平台可以怎么通过Kafka作为统一采集平台的消息管理层,灵活的对接、适配各种数据源采集(如集成flume),提供灵活、可配置的数据采集能力。利用spark和hadoop技术,构建大数据平台最为核心的基础数据的存储、处理能力中心,提供强大的数据处理能力,满足数据的交互需求。同时通过sparkstreaming,可以有效满足企业实时数据的要求,构建企业发展的实时
4、指标体系。同时为了更好的满足的数据获取需求,通过RDBMS,提供企业高度汇总的统计数据,满足企业常规的统计报表需求,降低使用门槛。对大数据明细查询需求,则通过构建HBase集群,提供大数据快速查询能力,满足对大数据的查询获取需求。一般的大数据平台从平台搭建到数据分析大概包括以下几个步骤:1、Linux系统安装一般使用开源版的Redhat系统-CentOS作为底层平台。为了提供稳定的硬件基础,在给硬盘做RAID和挂载数据存储节点的时,需要按情况配置。比如,可以选择给HDFS的namenode做RAID2以提高其稳定性,将数据存储与操作系统分别放置在不同硬盘上,以确保操作系统的正常运行。2、分布式
5、计算平台/组件安装当前分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS,一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。使用开源组件的优点:1)使用者众多,很多bug可以在网上找的答案(这往往是开发中最耗时的地方);2)开源组件一般免费,学习和维护相对方便;3)开源组件一般会持续更新;4)因为代码开源,如果出现bug可自由对源码作修改维护。常用的分布式数据数据仓库有Hive、Hbase。Hive可以用SQL查询,Hbase可以快速读取行。外部数据库导
6、入导出需要用到Sqoop。Sqoop将数据从Oracle、MySQL等传统数据库导入Hive或Hbase。Zookeeper是提供数据同步服务, Impala是对hive的一个补充,可以实现高效的SQL查询3、数据导入前面提到,数据导入的工具是Sqoop。它可以将数据从文件或者传统数据库导入到分布式平台。4、数据分析数据分析一般包括两个阶段:数据预处理和数据建模分析。数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个过程可能会用到Hive SQL,Spark QL和Impala。数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。如前面所提到的,这一块最好用的是Spark。常用的机器学习算法,如朴素贝叶斯、逻辑回归
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东外语外贸大学《基础西班牙语(II)》2023-2024学年第一学期期末试卷
- 广东水利电力职业技术学院《雕塑造型与表现技法》2023-2024学年第一学期期末试卷
- 广东石油化工学院《建筑电气识图》2023-2024学年第一学期期末试卷
- 广东汕头幼儿师范高等专科学校《无机化学1》2023-2024学年第一学期期末试卷
- 广东培正学院《音乐鉴赏与实践》2023-2024学年第一学期期末试卷
- 广东岭南职业技术学院《第二外国语三》2023-2024学年第一学期期末试卷
- 大学迎新活动总结
- 2024小单元建筑幕墙构件
- 【全程复习方略】2020-2021学年北师大版高中数学必修一课时作业(二十七)-4.2
- 【名师一号】2020-2021学年高中英语人教版必修4-双基限时练3
- DRG付费常见九大问题答疑
- 中科院2022年物理化学(甲)考研真题(含答案)
- 广东省汕尾市2023-2024学年高一上学期期末教学质量监测化学试卷(含答案解析)
- 《热电阻温度传感器》课件
- 抖音酒店直播可行性方案
- 信访业务培训班课件
- 物资清运方案及
- 热稳定校验计算书
- 北京市房山区2023-2024学年三年级上学期期末数学试卷
- 妇产科课件-子宫内膜息肉临床诊疗路径(2022版)解读
- 人教版六年级数学上册典型例题系列之第三单元分数除法应用题部分拓展篇(原卷版)
评论
0/150
提交评论