大数据-公共通识课件1第2章 大数据系统的基本结构_第1页
大数据-公共通识课件1第2章 大数据系统的基本结构_第2页
大数据-公共通识课件1第2章 大数据系统的基本结构_第3页
大数据-公共通识课件1第2章 大数据系统的基本结构_第4页
大数据-公共通识课件1第2章 大数据系统的基本结构_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章大数据系统的

基本结构

学习任务大数据系统总体架构

大数据技术框架

分布式大数据处理系统

123案例之二:在“北上广”打拼是怎样一种体验?

42.1大数据系统总体架构要分析一个大数据系统的总体架构,就要弄清楚两个问题:一个大数据系统需要包含哪些模块和哪些技术?这些不同模块之间怎么协调起来完成一个关于大数据的任务?我们可以用自下而上的方式来思考一个大数据系统总体架构是怎么样的:在有了硬件之后,我们首先要考虑的就是数据怎么放,这就是大数据的存储与管理技术。有了数据之后我们就应该对数据进行处理,这就要用到大数据的处理技术。2.1大数据系统总体架构处理完了之后,客户端又需要获取到处理完的结果,这就要用到数据的查询技术。在拥有了大量的数据之后,怎么对这些数据进行分析与挖掘,得到有价值的信息、经验性的规律来指导政府或者商业上的决策,这就衍生了大数据分析与挖掘技术。最后,为了方便展示和观察,将大数据处理分析的结果以形象的方式向人们展示,就诞生了大数据可视化技术。2.1大数据系统总体架构大数据系统的总体架构

2.1大数据系统总体架构如上图所示是大数据系统的总体架构,自下而上的过程以数据流的角度描述了一个大数据应用的工作机制。一个企业或者一个部门将自己拥有的大量数据用分布式存储的方式存放在大量的节点上,然后以关系型数据库或者非关系型数据来管理这些数据,应对不同的需求使用不同的数据处理工具进行分布式计算。2.1大数据系统总体架构使用类似的方式简化数据查询和简单处理的过程,降低数据分析人员的使用门槛,数据分析人员对数据进行分析与挖掘,获取有价值的信息用于指导未来的决策。最后将数据分析的结果以图的方式形象的展示出来,方便所有人的查看与理解。2.2大数据技术框架大数据技术的框架可以概要描述为五横一纵:所谓五横,基本就是根据数据的流向自底向上划分五层,分别为数据采集层、数据处理层、数据分析层、数据访问层及应用层。一纵就是数据管理层,具体详见下图2.2所示。这张大数据架构图都可以对大数据系统进行一定的映射。2.2大数据技术框架大数据技术框架

2.2大数据技术框架数据采集层:既包括传统的将数据从来源端经过抽取、转换、加载到目的端的过程,也包括ETL(Extraction-Transformation-Loading)的离线采集、也有实时采集、互联网爬虫解析等等。数据处理层:根据数据处理场景要求不同,可以划分为Hadoop分布式系统基础架构、MPP(MassivelyParallelProcessing)大规模并行处理、流处理等等。数据分析层:主要包含了分析引擎,比如数据挖掘、机器学习、深度学习。2.2大数据技术框架数据访问层:主要是实现读写分离,将偏向应用的查询等能力与计算能力剥离,包括实时查询、多维查询、常规查询等应用场景。数据应用层:根据企业的特点不同划分不同类别的应用,比如针对运营商,对内有精准营销、客服投诉、基站分析等,对外有基于位置的客流、基于标签的广告应用等等。数据管理层:这是一纵,主要是实现数据的管理和运维,它横跨多层,实现统一管理。2.2大数据技术框架下面进一步解释各层的详细功能与应用:1、数据收集层大数据收集层主要采用了大数据采集技术,实现对数据的ETL操作,ETL,是英文Extract-Transform-Load的缩写,数据从数据来源端经过抽取(extract)、转换(transform)、加载(load)到目的端。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据模型,将数据加载到数据仓库中去,最后对数据仓库中的数据进行数据分析和处理。2.2大数据技术框架数据采集位于数据分析生命周期的重要一环,它通过传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。由于采集的数据种类错综复杂,对于这种不同种类的数据。在现实生活中,数据产生的种类很多,并且不同种类的数据产生的方式不同。对于大数据采集的数据类型,主要有以下三类:2.2大数据技术框架互联网数据:主要包括互联网平台上的公开信息,主要通过网络爬虫和一些网站平台提供的公共API(ApplicationProgrammingInterface,应用程序接口),如推特Twitter和新浪微博API等方式从网站上获取数据。这样就可以将非结构化数据和半结构化数据的网页数据从网页中提取出来。并将其提取、清洗、转换成结构化的数据,将其存储为统一的本地文件数据。2.2大数据技术框架②系统日志数据:许多公司的业务平台每天都会产生大量的日志数据。对于这些日志信息,我们可以得到出很多有价值的数据。通过对这些日志信息进行日志采集、收集,然后进行数据分析,挖掘公司业务平台日志数据中的潜在价值。为公司决策和公司后台服务器平台性能评估提高可靠的数据保证。系统日志采集系统做的事情就是收集日志数据提供离线和在线的实时分析使用。2.2大数据技术框架③数据库数据:有些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。企业每时每刻产生的业务数据,以数据库一行记录形式被直接写入到数据库中。2.2大数据技术框架2、数据存储层当大量的数据收集完后,我们需要对大数据进行存储。数据的存储分为持久化存储和非持久化存储。持久化存储表示把数据存储在磁盘中,关机或断电后,数据依然不会丢失。非持久化存储表示把数据存储在内存中,读写速度快,但是关机或断电后,数据丢失。2.2大数据技术框架对于持久化存储而言,最关键的概念就是文件系统和数据库系统。常见的分布式文件系统HDFS、对应的分布式非关系型数据库系统Hbase,以及另一个非关系型数据库MongoDB。而支持非持久化的系统,包括Redis、BerkeleyDB等,则为前述的存储数据库提供了缓存机制,可以大幅地提升系统的响应速度,降低持久化存储的压力。2.2大数据技术框架3、数据处理层当我们把数据收集好了、数据存储以及读写也都没有问题,我们手握着这一堆数据干嘛呢?除了保存原始数据,做好数据备份之外,我们还需要考虑到利用他们产生更大的价值。那么首先我们需要对这些数据进行处理。大数据处理分为两类,批量处理(离线处理)和实时处理(在线处理)。2.2大数据技术框架在线处理就是指对实时响应要求非常高的处理,如数据库的一次查询。而离线处理就是对实时响应没有要求的处理,如批量地压缩文档。通过消息机制可以提升处理的及时性。在离线批处理方面,Hadoop的MapReduce计算是一种非常适合的离线批处理框架。为了提升效率,下一代的更迅速的计算框架Spark提供了流式计算框架,进一步提升处理的实时性。2.2大数据技术框架4、数据治理与建模层数据收集、数据存储和数据处理是大数据架构的基础设置。一般情况下,完成以上三个层次的数据工作,已经将数据转化为基础数据,为上层的业务应用提供支撑。但是大数据时代,数据类型多样,单位价值稀疏的特点,要求对数据进行治理和融合建模。2.2大数据技术框架通过利用R语言、Python等对数据进行ETL预处理,然后再根据算法模型、业务模型进行融合建模,从而更好地为业务应用提供优质底层数据。在对数据进行ETL处理和建模后,需要对获取的数据进行进一步管理,可以采用相关的数据管理工具,包括元数据管理工具、数据质量管理工具、数据标准管理工具等,实现数据的全方位管理。2.2大数据技术框架5、数据应用层数据应用层是大数据技术和应用的目标。通常包括信息检索、关联分析等功能。相当多的开源项目为信息检索的实现提供了可能。大数据架构为大数据的业务应用提供了一种通用的架构,还需要根据行业领域、公司技术积累以及业务场景,从业务需求、产品设计、技术选型到实现方案流程上具体问题具体分析,利用大数据可视化技术,进一步深入,形成更为明确的应用,包括基于大数据交易与共享、基于开发平台的大数据应用、基于大数据的工具应用等。2.3应用案例之二

2.3应用案例二:在“北上广”打拼是怎样一种体验?1.北上广的“飘”们都来自哪里?根据卫计委年数据,全国9433万跨省流动人口,超过1/5涌入了北京、上海、广州三个城市。特别是广州,外来人口数量已经超过了常住户籍人口,而北京和上海,本地人和外地人的比例分别是1.6:1和1.44:1。2.3应用案例之二

到“北上广”等大都市去闯荡、打拼,是很多年轻人的梦想。即便是在高房价、高物价、交通拥堵、空气污染下被迫离开的人,也有相当一部分重新回来。这些远离亲人,选择面对生活的艰苦和孤独的年轻人,究竟是怎样的群体,又过着什么样的生活?通过大数据分析,你或许能了解一二。

“北上广”的本地人与外地人数量(万)详见图2.3。2.3应用案例之二

“北上广”的本地人与外地人数量(万)

2.3应用案例之二

从外来人口来源省份看,北京、上海、广州分别在华北、华中、华南地区以吸收周边邻省人口为主。而作为人口流出大省的河南、湖北,则同时进入了“北上广”外来人口数量排名的前五,可见其南北通吃、势力强大。2.3应用案例之二

2.年纪轻、学历高,或许更能站稳脚跟?在“北上广”,拼搏奋斗的核心人群在20-40岁之间,占整体外来人口比例都超过75%。但从年龄结构比较,上海的年轻群体年龄段更为集中,北京45岁以上人群占比明显大于其他,而广州外来人口的年龄构成则更偏向年轻化,见图2.4。2.3应用案例之二

外来人口年龄结构2.3应用案例之二

发现收入是他们生活质量的重要因素之一,更是坚守或逃离“北上广”的关键。从调查数据来看,影响收入最关键的因素被认为是学历。

详见下图外来人口学历构成。2.3应用案例之二

“流动中国”调查数据显示,广州本科及以上学历的青年人群比例确实远低于北京和上海,这或许是高学历年轻人在广州更“吃香”的一个原因。另外,在上海、广州的外来年轻人和全国同龄流动人口一样,以从事制造业为主,约占四成左右,其次是批发零售、建筑、社会服务等行业。不过,北京的情况较为不同,从事制造业的比重明显较低,从事互联网、金融、房地产的明显高于其他二者。这与北京外来青年学历层次较高及城市功能定位有关。2.3应用案例之二

外来人口就业行业构成

2.3应用案例之二

3.一样的“飘”,却分出了上、中、下

在“北上广”三地,外来人口的住房情况大体一致,均有过半数人租房居住。北京人均租房平均月支出超过全国平均水平70%,几乎是用于食品的月支出的两倍。可见租房的花销最让“北漂”们肉痛。“流动中国”调查数据中,广州的老板们能给解决住宿的比例最高,这一点格外明显。详见图2.7外来人群居住状态。2.3应用案例之二

外来人群的居住状态2.3应用案例之二

当然,在不同历史和政策背景下,“北上广”三地也均形成了外来人口聚居的城中村,作为多数人“停泊”的首站。随着房价持续上涨,北京的“蚁族”,上海的“蜗居”曾一度在公众中流行。比较“北上广”的城中村,着实是一个有趣的话题,下图2.8外来人群的居住状态及房屋空间变化呈现了其中的不同。2.3应用案例之二

广州的城中村散布在城市中的各个角落,规模和占地都较大;上海的则分布在内环外靠近外围地区,且规模较小;北京城中村主要分布在城市建成区边缘地带,约为五环附近。2.3应用案例之二

城中村区域分布及房屋空间变化

2.3应用案例之二

而更为有趣的是,在大量外来人口涌入后,“北上广”三地城中村内房屋空间的变化。北京多为不断下压的空间。在北京圈层的外扩中,内城的城中村逐步被拆迁。城郊村在形态上更多的呈现一种原始聚集村落形式,多为一层或两层的平房,每户拥有自己的院落房屋,部分有地下室。2.3应用案例之二

上海则多是不断向内挤压空间。对于管治最为严格的上海,一方面迫于强硬的政策与监管,一方面又拥有异常旺盛的住房需求,所以只能在漫长的“等待拆迁”中通过内部挤压的方法“塞”进更多的人。村内原有的楼梯间、独立厨房、独立洗手间、院落等均被改造和分隔成住房。相比较北京和上海,广州的城市监管较为松散,城中村多加向上加建房屋,表现出一种不断加建的空间。2.3应用案例之二

4.虽然可能并不幸福,但还是希望融入青年们的人际交往状况又是如何?《中国流动人口发展报告》的结论是,北京、上海的外来青年中6.3%、11.4%很少与人交往。其中,上海的外来青年很少与取得上海户籍的同乡及本地

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论