版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第8章大数据技术及应用8.1大数据应用概述8.2大数据的采集
8.3大数据的存储与处理课后习题八.
8.1大数据应用概述.
8.1.1大数据的概念与意义
1.大数据的概念
大数据(BigData)指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,如购物网站的消费记录。这些数据只有进行处理整合才有意义。
2.大数据的意义
大数据的意义主要体现在以下三个方面:
(1)对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,会创造出巨大的经济和社会价值。
(2)大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。
(3)大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动”转变为“数据驱动”。
8.1.2大数据的主要分类
从数据结构角度来看,大数据可以分为结构化数据、半结构化数据和非结构化数据。从内容来源角度来看,大数据可以分为互联网大数据、政务大数据、企业大数据和个人大数据。对各种大数据的介绍如下:
1.互联网大数据
互联网上的数据每年增长50%,每两年便将翻一番。互联网数据中心(InternetDataCenter,IDC)预测,到2020年,全球将总共拥有35ZB的数据量。
2.政务大数据
政务大数据是政府部门在对整个社会活动进行管理的过程中产生并使用的各类巨量数据,包括工业数据、农业数据、工商数据、纳税数据、环保数据、海关数据、土地数据、房地产数据、气象数据、金融数据、信用数据、电力数据、电信数据、天然气数据、自来水数据和道路交通数据等各种数据以及针对个人的人口、教育、收入、安全刑事案件、出入境数据、旅游数据、医疗数据、教育数据和消费数据等各种数据。
3.企业大数据
企业大数据是企业在业务管理和运营中产生和使用的各类巨量数据。因其在行业的主导地位,其数据具有两重性,即其数据既是企业数据也是政府关注的数据。比如,作为电力企业、电信运营商、银行、主流电商等大型企业,庞大的运营数据、设备数据等是企业自己的数据。但同时,这些企业面向宏观层面的数据也是该行业的政务大数据。
4.个人大数据
个人大数据是指与个人相关联的各种数据。个人信息被有效采集后,可由本人授权提供给第三方进行处理和使用。
个人大数据的特点是数据仅留存在个人中心,其他第三方机构只被授权使用,且数据使用授权有一定的期限。
8.1.3大数据应用总体框架
大数据框架图如图8-1所示。图8-1大数据框架图
在图8-1中的最左侧是Zookeeper,它为整个集群的部分组件(如HBase和Kafka)提供协调服务。它是集群的管理者,监视着集群中各个节点的状态并根据节点的反馈做出合理的操作。
综上,采集层解决的是大数据的收集和流通,存储层解决的是大数据的存储,计算层和交互层解决的是大数据的计算和消费问题。
8.2大数据的采集
对三类大数据的介绍如下:1.结构化数据结构化数据包括由各种电子政务系统,企业的OA、ERP、CRM、进销存系统,电商平台等产生的数据。其特点是数据已经结构化,每条记录的每个字段都有着确定的意义。这些数据库中不同的库表包括不同的内容,不同库表以关系型数据库的方式关联,可以刻画更复杂的内容。
在进行数据采集时,首先需要确定从原有各系统采集数据的具体内容,其次制定与原有系统的接口规范。这一接口既可以是原有系统提供的程序接口,又可以是数据库接口,如图8-2所示。从原有系统采集数据,对数据进行简单关联处理,作为进一步大数据分析与挖掘的基础。图8-2结构化数据采集示意图
2.半结构化和非结构化互联网数据
相比结构化数据,互联网的很多数据是以网页等方式存在的,具有分布广、格式多样、半结构化或非结构化的特点,这需要有针对性地对网页数据进行采集、转换、加工和存储。尤其在网页数据的采集和处理方面,需要更为复杂的方法。下面简要介绍网页数据的采集和处理的方法。
互联网大数据采集和处理的整体过程如图8-3所示。它包含四个主要模块:爬虫、数据处理、URL队列和数据。这四个主要模块的功能如下:
(1)爬虫:从互联网上抓取网页内容,并抽取出需要的属性内容。
(2)数据处理:对爬虫抓取的内容进行处理。
(3)URL队列:为爬虫提供需要抓取数据网站的URL。
(4)数据:包含三方面,一是网站URL,即需要抓取数据网站的URL信息;二是爬虫数据,即爬虫从网页中抽取出来的数据;三是数据处理后的数据,即经过数据处理之后的数据。图8-3Web数据抓取与处理
整个Web数据采集和处理的基本步骤如下:
(1)将需要抓取数据的网站的URL信息(SiteURL)写入URL队列。
(2)爬虫从URL队列中获取需要抓取数据的网站的SiteURL信息。
(3)爬虫从互联网抓取与SiteURL对应的网页内容,并抽取出网页特定属性的内容值。
(4)爬虫将从网页中抽取出的数据(SpiderData)写入数据库。
(5)数据处理单元读取爬虫数据并进行处理。
(6)数据处理单元将处理后的数据写入数据库。
3.物联网数据
相比结构化数据和非结构化互联网数据,物联网数据通常不是现成的,需要首先通过传感器对各种物理量进行信号采集与处理,转化为计算机系统可以识别的数据,然后才能做进一步分析和处理。在很多情况下,物联网数据是实时的、不断产生的,是一种流数据。
一个典型的物联网数据采集系统(前端)如图8-4所示。传感器信号通过以太网、WiFi、ZigBee等本地网络接入网关,物联网网关一般通过4G或NB-IoT远程接入数据中心。传感器不仅实现了数据的采集和模/数转换,还实现了数据的网络封装,以便在网络上传输。目前,主流的封装方式是IP封装,以便采用互联网的传输技术。
图8-4物联网数据采集系统(前端)示意图
8.3大数据的存储与处理
8.3.1数据库技术回顾数据库技术是存储、处理、管理数据的一门计算机技术,是计算机科学技术中发展最快、应用最为广泛的重要分支之一,是计算机信息系统的重要技术基础和支柱。数据库是存储在计算机内的有结构的数据集合。数据库系统是指由硬件设备、软件系统、专业领域的数据库和数据库管理人员构成的一个运行系统。
8.3.2大数据数据处理技术概述
大数据处理的流程主要包括四个环节:采集、导入(预处理)、统计(分析)和挖掘。下面针对这四环节进行简单阐述。
1.采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。
2.导入(预处理)
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库或分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。
3.统计(分析)
统计(分析)主要利用分布式数据库或分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等操作,以满足用户常见的分析需求。
4.挖掘
与前面统计(分析)过程不同,数据挖掘一般没有预先设定的主题,主要是在现有数据上进行基于各种算法的计算,从而起到预测(Predict)的效果,实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,且计算涉及的数据量和计算量都很大。常用数据挖掘算法都以单线程为主。
课后习题八
一、选择题(1)当前大数据技术的基础是由()首先提出的。A.微软 B.百度 C.谷歌 D.阿里巴巴(2)大数据的起源是()。A.金融 B.电信 C.互联网 D.公共管理
(3)数据清洗的方法不包括()。
A.缺失值处理 B.噪声数据清除
C.一致性检查 D.重复数据记录处理
(4)智能健康手环的应用开发体现了()的数据采集技术的应用。
A.统计报表 B.网络爬虫
C.API接口D.传感器
(5)下列关于数据重组的说法错误的是()。
A.数据重组是数据的重新生产和重新采集
B.数据重组能够使数据焕发新的光芒
C.数据重组实现的关键在于多源数据融合和数据集成
D.数据重组有利于实现新颖的数据模式创新
(6)智慧城市的构建不包括()。
A.数字城市 B.物联网
C.联网监控 D.云计算
(7)大数据的最显著的特征是()。
A.数据规模大 B.数据类型多样
C.数据处理速度快 D.数据价值密度高
(8)美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中()的观点。
A.在数据基础上倾向于全体数据而不是抽样数据
B.在分析方法上更注重相关分析而不是因果分析
C.在分析效果上更追求效率而不是绝对精确
D.在数据规模上强调相对数据而不是绝对数据
(9)下列关于舍恩伯格对大数据特点的说法错误的是()。
A.数据规模大 B.数据类型多样
C.数据处理速度快 D.数据价值密度高
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 孕期春梦的健康宣教
- 《设寻租理论王》课件
- 社会媒体营销的总结与展望计划
- 线上艺术教学的创新尝试计划
- 科学管理班级时间的有效方式计划
- 如何实现部门间的年度协同目标计划
- 森林防火安全培训
- 制定财务风险控制的措施计划
- 如何分析企业财务数据计划
- 头孢类抗菌药物相关行业投资规划报告
- 元旦春节猜谜小游戏150个(含谜底)
- 扩张性心肌病
- GB/T 45047-2024土方机械纯电动轮胎式装载机技术要求
- 《报告文学研究》自学考试省考课程习题集及答案
- 信息技术必修2信息系统与社会1.2《信息系统的功能》说课稿
- 国家开放大学2024年12月《中国近现代史纲要试卷B-版本3》大作业参考答案
- 基金业协会限售股估值excel实现方法
- 2025陕西延长石油(集团)有限责任公司招聘1881人笔试备考题库及答案解析
- 《中小学校园食品安全和膳食经费管理工作指引》专题培训
- 国家开放大学Python程序设计形考任务实验六-互联网评论数据分析及其展示综合案例
- 物业经理晋升述职报告
评论
0/150
提交评论