




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章大数据概述大数据技术基础(第2版)PREFACE本章导读人类已进入大数据时代,全球数据未来数年将继续呈现爆炸式增长。大数据是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新的处理模式才能产生更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。如果将大数据比作一个产业,那么这种产业实现盈利的关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。01大数据的概念和特征02大数据的处理流程03大数据平台架构和集群04大数据的行业应用CATALOG05大数据与其他新兴技术的关系06实战演练——使用PowerBI分析产品销售情况知识目标04了解大数据的典型行业应用,以及大数据与其他新兴技术的关系。03了解大数据平台架构的组成和大数据集群。02了解我国的大数据发展战略,理解大数据的处理流程和关键技术。01理解大数据的概念和主要特征,了解大数据的发展现状与趋势。能够分析一些典型的大数据应用场景,简单阐释其背后的原理。能够初步建立起大数据领域的知识体系,完成一些初级技术实践。010203能力目标能够结合实例说明大数据给我们的日常生活所带来的革命性影响。思政目标01.感受我国在抗击疫情的严峻斗争中所表现出的制度优势、大国担当,以及大数据在疫情监测分析、人员管控、医疗救治、复工复产等方面发挥的巨大作用,厚植家国情怀,铸牢中华民族共同体意识。02.深刻理解大数据作为国家基础性战略资源的重要意义,如推动经济发展、完善社会治理、提升政府服务和监管能力等,进一步加强对信息化新阶段和数字经济的认识,不断提升自身的信息素养。6.让城市更聪明更智慧4.助力消费体验再升级3.让新时代教育更有获得感7.重塑健康医疗新生态1.托举战疫大考获佳绩
作为一种新型生产要素,数据正在促进我国经济社会发展中发挥着越来越重要的作用,构建以数据为关键要素的数字经济,需要把握好作为其重要应用场景的大数据,对于未来发展要做到心中有“数”。2.助推政务服务跑出加速度9.助力文娱产业大发展8.让社区生活更“聪明”5.为更高水平的平安中国“保驾护航”兴国利民大数据概述01大数据的概念和特征1.1大数据的概念和特征是用来记录客观事物或事件的符号,具体来说,是对客观事物或事件的性质、状态及相互关系等信息进行记录的物理符号。(bigdata)也称海量数据或巨量数据,是指数据量大到无法利用传统数据处理技术在合理的时间内获取、存储、管理和分析的数据集合。“大数据”一词除用来描述信息时代产生的海量数据外,也被用来命名与之相关的技术、创新与应用。数据1.1.1什么是大数据大数据1.1大数据的概念和特征作为人类一种新型的、功能强大的好工具,大数据使我们能够迅速地把握事物的整体、相互关系和发展趋势,从而做出更加准确的预判、更加科学的决策、更加精准的行动。1.1.1什么是大数据大数据的作用1.1大数据的概念和特征2004年,全球数据总量为30EB,2005年达到50EB,2015年达到7900EB。根据国际信息技术咨询企业——国际数据公司(IDC)监测,全球数据量大约每两年翻一番,预计到2030年,全球将拥有2500ZB的数据。海量的数据规模该特征是指数据产生、流转速度快,而且越新的数据价值越大。这就要求对数据的处理速度也要快,以便能够及时从数据中发现、提取有价值的信息。快速的数据流转1.1.2大数据的特征1.1大数据的概念和特征该特征是指数据的来源及类型多样。大数据的数据类型除包括传统的结构化数据外,还包括大量的非结构化数据等。多样的数据类型该特征是指数据量大但价值密度相对较低,挖掘数据中蕴藏的价值犹如沙里淘金。数据价值密度低1.1.2大数据的特征010203有数据但无法使用可以分析但没有数据有数据且可分析1.1大数据的概念和特征1.1.3大数据的发展1大数据底层技术逐步成熟近年来,大数据底层技术发展呈现出逐步成熟的态势,除了最基础的分布式批处理架构Hadoop,传统大规模并行处理(MPP)数据库在扩展性方面有了很大突破,在海量数据处理领域重新获得了一席之地。2大数据产业规模平稳增长权威机构研究表明,随着市场整体的日渐成熟和新兴技术的不断融合发展,未来大数据市场将呈现稳步发展的态势,增速维持在14%左右。大数据的发展现状与趋势1.1大数据的概念和特征1.1.3大数据的发展3数据合规要求日益严格近些年,各国在数据合规性方面的重视程度越来越高,但数据合规的进程仍任重道远。4大数据战略持续拓展大数据几乎囊括了一个国家所有领域内的信息,蕴含着与一个民族历史、现实和未来发展相关联的内在规律,其分析和处理能力已经成为国家治理、社会治理、企业管理都日益倚重的技术手段。1.1大数据的概念和特征1.1.3大数据的发展大数据的发展现状与趋势“大数据”一词首次写入政府工作报告,为中国大数据发展的政策环境搭建开始预热。20143月国务院正式印发的《促进大数据发展行动纲要》20158月31日“十三五”规划纲要的公布标志着国家大数据战略的正式提出,彰显了中央对于大数据战略的重视。20163月17日工信部发布《大数据产业发展规划(2016—2020年)》,为大数据产业发展奠定了重要的基础。201612月18日1.1大数据的概念和特征1.1.3大数据的发展我国的大数据发展战略党的十九大报告中提出推动大数据与实体经济深度融合,为大数据产业的未来发展指明了方向。201710月中央政治局就实施国家大数据战略进行了集体学习。201712月政府工作报告第六次提到“大数据”,并且有多项任务与大数据密切相关。20193月1.1大数据的概念和特征1.1.3大数据的发展我国的大数据发展战略02大数据的处理流程数据采集网络上各种来源的数据,包括社交网络数据、电子商务交易数据、网上银行交易数据、搜索引擎点击数据、物联网传感器数据等,在被采集前都是零散的,没有任何意义。数据采集就是将这些数据写入存储系统(如数据仓库),整合在一起,以便对数据进行综合分析。采集形式主要有网络数据采集(如提取网页中的图片、文本等)、系统日志采集(业务平台每天都会产生大量的日志数据)、数据库数据采集(如关系型数据库的接入)等,常用的工具有网络爬虫工具、Flume、Kafka、Sqoop等。1.2大数据的处理流程1.2.1数据采集与预处理
数据预处理是指将杂乱无章的数据转化为相对单一且便于处理的结构,或者去除没有价值甚至可能对分析造成干扰的数据,从而为后期的数据分析奠定基础。
数据预处理是对采集到的原始数据进行清洗、填补、平滑、合并、规格化,以及检查一致性等操作的过程,其目的是将数据转化为一个可用的状态。1.2大数据的处理流程1.2.1数据采集与预处理1.2大数据的处理流程数据存储与管理是指用存储器把采集到的数据存储起来,并建立相应的数据库,以便对数据进行管理和调用。主要采用HDFS分布式文件系统、NoSQL数据库(非关系型数据库)、数据仓库、云数据库等来存储和管理大数据。常用的NoSQL数据库包括HBase、Redis、Cassandra、MongoDB、Neo4j等。1.2.2数据储存与管理SparkStormMapReduce1.2大数据的处理流程数据处理与分析是指通过各种算法从大量的数据中找出潜在的有用信息,并研究数据的内在规律和相互间的关系。数据处理与分析大多需要在大数据处理平台上进行,借助分布式并行框架,通过结合一系列算法完成。常用工具技术HivePigFlinkImpalaMahout1.2.3数据处理与分析数据处理与分析1.2大数据的处理流程数据可视化是指利用可视化手段对数据进行分析,并将分析结果用图表或文字等形式展现出来,从而使读者对数据的分布、发展趋势、相关性和统计信息等一目了然常用的数据可视化工具Tableau、D3.js、GoogleChartAPI、ApacheECharts1.2.4数据可视化数据可视化1对各种来源和各种类型的海量数据的采集能力提供不同的存储模型以满足不同场景和需求的能力灵活的数据处理和计算的能力数据分析和挖掘的能力数据可视化并能进行实际应用的能力1.2大数据的处理流程23451.2.4数据可视化大数据平台具备的能力03大数据平台架构和集群1.3大数据平台架构和集群大数据技术大数据技术是一系列技术的总称,它集合了数据采集与传输、数据存储、数据处理与分析、数据挖掘、数据可视化等技术,是一个庞大而复杂的技术体系。1.3大数据平台架构和集群数据应用层数据分析层批处理计算流计算离线计算实时计算数据处理层数据存储层数据采集层数据源层1.3.1大数据平台架构1.3大数据平台架构和集群日常交易数据日常交易数据主要包括电子商务数据、互联网点击数据、信用卡刷卡数据、ERP系统数据、销售系统数据,以及企业的生产数据、库存数据、订单数据等。0102移动通信数据随着移动互联网和智能手机等设备的普及,移动通信设备记录的数据量和数据的立体完整度往往优于互联网公司所掌握的数据。03人为生成数据单击此人为生成数据大多为非结构化数据,包括电子邮件、文档、图片、音频、视频,以及通过微信、微博、知乎等社交媒体产生的数据流等。处添加文本具体内容。1.3.1大数据平台架构数据源层1.3大数据平台架构和集群04传感器数据传感器数据包括来自感应器、量表和其他设备的数据,以及定位系统(GPS)数据等,如智能电表、温度控制器、工厂机器、联网家用电器的数据等。05开放共享数据开放共享数据是指互联网上的“公开数据”包括政府机构、非营利组织和企业免费提供的数据等。1.3.1大数据平台架构数据源层数据采集层利用一系列数据采集技术,主要实现对数据的ETL(抽取、转换和加载)操作。用户从数据源抽取出所需的数据,经过数据清洗,按照预先定义好的数据模型,将数据加载到存储系统(如数据仓库)中去,再对存储系统中的数据进行处理与分析。1.3大数据平台架构和集群1.3.1大数据平台架构数据采集层2.日志采集系统。企业的业务平台每天都会产生大量的日志数据,对这些日志数据进行采集,然后进行数据分析,可以挖掘日志数据中的潜在价值,从而为企业决策和平台性能评估等提供可靠的数据保证。1.3大数据平台架构和集群1.3.1大数据平台架构数据采集层1.ETL采集方法。这是数据采集中较为常用的一种形式,通过ETL工具对数据进行采集及预处理,最终将处理完成的数据送往数据仓库或其他数据存储系统。采集方案01021.3大数据平台架构和集群持久化存储指把数据存储在磁盘中,关机或断电后数据不会丢失。非持久化存储指把数据存储在内存中,读写速度快,但是关机或断电后数据会丢失。1.3.1大数据平台架构数据存储层1.3大数据平台架构和集群使用R、Python等进行数据分析,
也可以使用Mahout、SparkML根据算法模型、业务模型进行融合建模,挖掘有价值的信息,从而更好地为业务应用提供优质结果。1.3.1大数据平台架构数据分析层1
以营利为目的的商业大数据应用
淘宝网、京东、美团、携程等平台的大数据应用,它们以自身拥有的海量用户信息、行为、位置等数据为基础,提供个性化广告推荐、精准化营销、经营分析报告等。
2不以营利为目的
重于为社会公众提供服务的大数据应用,如搜索引擎公司提供的诸如春运客流分析、流感趋势预测、灾害天气预测、紧急情况响应、城市规划、路政建设等应用。1.3大数据平台架构和集群1.3.1大数据平台架构数据应用层由于数据量太大,即使是最好的计算机也无法单独完成大数据的采集与预处理、存储与管理、处理与分析等工作,因此需要聚合众多计算机的力量来完成大数据的处理。大数据集群是由网络互相连接的多个独立服务器的集合。这些服务器由分布式并行结构组成并一起协同工作,运行共同的应用程序,从而实现高性能的计算等服务。1.3大数据平台架构和集群什么是大数据集群1.3.2大数据集群高可用性高可用性是指防止系统故障或自动从故障中恢复而无须操作人员介入的能力。高可扩展性服务器集群具有高度可扩展性。随着需求和负载的增长,可以将更多的服务器添加到集群系统中。高可管理性高度可管理的集群是指系统管理员无须花费大量的时间和人力到现场管理集群,他们只需要便捷地进行远程管理,这样的管理就像管理单机系统一样。高安全性集群可以定时定期对整个集群系统进行备份,以保证数据的安全和可追溯性。同时,如果集群崩溃或出现重大故障,可通过容灾机制快速恢复整个系统。大数据集群的优点1.3大数据平台架构和集群1.3.2大数据集群负载均衡模式负载均衡模式是指将集中的访问请求负载压力尽可能平均地分摊到集群中处理,即每个节点都可以承担一定的访问请求负载压力,并且可以实现访问请求在各节点之间的动态分配,以实现负载均衡。冗余模式冗余模式是指当集群中的任意一个节点失效时,该节点上的所有任务会自动转移到其他正常的节点上,并且此过程不影响整个集群的运行,不影响业务的提供。1.3大数据平台架构和集群大数据集群的模式121.3.2大数据集群04大数据的行业应用0102031.4大数据的行业应用如何在海量数据中找到需要的信息,是搜索引擎的目标。通过大数据理论和技术,可进一步改进搜索引擎技术,帮助用户快速准确地检索信息。搜索引擎推荐系统信息过载已成为大数据环境下最严重的问题之一,推荐系统则是缓解该问题的有效方法。广告系统互联网广告是网络营销的主要手段之一,也是典型的大数据应用。互联网行业1.4.1互联网与电商行业01电商企业收集大量用户在电商网站或网络媒体上的注册信息、行为数据(用户在网站和移动App中的浏览/点击/发帖等行为)、交易数据、网络日志数据等。02对收集的数据进行分析和挖掘,得出不同用户的购买能力、行为特征、心理特征、兴趣爱好、家庭情况、喜欢的社交网络等数据。03根据分析结果做精准营销、精准推荐或提高用户的购物体验等。电商行业1.4大数据的行业应用1.4.1互联网与电商行业81.4大数据的行业应用电信行业电信运营商拥有丰富的数据资源。数据来源涉及移动通话和固定电话、无线上网、有线宽带接入等所有业务,也涵盖线上线下渠道在内的渠道经营相关信息,所服务的客户涉及个人客户、家庭客户和政企客户。电信行业在发展大数据上有明显的优势,主要体现在数据规模大、数据应用价值持续凸显、数据安全性普遍较高。如今,三大运营商均已完成全集团大数据平台的建设,设立了专业的大数据运营部门或公司,开始了数据价值释放的新举措,在大数据应用方面都走向了更加专业化的阶段。1.4.2电信与交通行业1通过车载终端提供的数据使得公司总部能够有效跟踪定位车辆位置,进而能够有效实现对车辆的监督管理和行车线路优化,更好地实现交通安全、畅通等目的。车辆定位
基于实时交通报告可以实测和预测拥堵。当交通管理人员发现某地即将发生交通拥堵时,可以及时调整信号灯让车流以最高效率运行。运输公司通过部署一系列的运输大数据应用,能够采集到包括油耗、胎压等在内的多种数据,并通过分析这些数据来优化车队管理、降低能耗,节省大量的运营成本。1.4大数据的行业应用交通行业23信息收集交通调控1.4.2电信与交通行业1.4大数据的行业应用金融机构具有庞大的客户群体,企业级数据仓库存储了覆盖客户、账户、产品、交易等的大量结构化数据,以及海量的语音、图像、视频等非结构化数据。这些数据背后都蕴藏了诸如客户偏好、社会关系、消费习惯等丰富全面的信息资源,成为金融行业数据应用的重要基础。1.4.3金融与教育行业金融行业应用范围金融大数据已在交易欺诈识别、精准营销、黑产防范、信贷风险评估、供应链金融、股市行情预测等多领域的具体业务中得到广泛应用。国内不少银行、保险公司都已建立大数据平台,并通过大数据来驱动业务运营。1.4大数据的行业应用大数据在教育行业的应用包括优化教学管理、学生管理、教学内容、教学手段、教学评价等。1.4.3金融与教育行业教育行业例如,基于网络的学习平台能记录学生的作业完成情况、课堂言行、师生互动等数据,如果将这些数据汇集起来,就可以分析出学生的学习特点和习惯,从而对不同学生的学习提出有针对性的建议。同时,这些数据也可促使教师进行教学反思,从而优化教学。1.4大数据的行业应用1.4.3金融与教育行业教育行业电子科技大学曾经做过一个课题——寻找校园最孤独的人。他们通过校园一卡通的使用情况,从3万名学生中采集到了2亿多条行为数据,包括选课、进出图书馆、食堂用餐、超市购物等数据。通过对校园一卡通“一前一后刷卡”的记录分析,可以发现一个学生在学校有多少知心朋友。他们通过此方式找到了800多个校园中最孤独的人,这些人中有17%可能产生心理疾病,需要学校和家长予以重点关爱。随着医疗信息化的普及和快速发展,健康医疗数据已经具备大数据的基本特征。通过对健康医疗数据的处理和分析,不仅能够帮助医生进行疾病诊断和经营决策,帮助患者享受更加便利的服务,还能够预测流行疾病的暴发趋势、降低医疗成本等。1.4大数据的行业应用健康医疗行业1.4.4健康医疗行业1.4大数据的行业应用健康医疗行业大数据在健康医疗行业的应用,包括疾病预防、临床应用、远程医疗、医学研究、医院管理等。1.4.4健康医疗行业应用范围例如,利用大数据平台收集不同的病例、治疗方案和治疗效果,建立针对疾病特点的数据库。医生诊断病人时可以利用疾病数据库和相关工具分析病人的疾病特征、化验报告和检测报告,从而快速为病人确诊,并制定适合病人的治疗方案。在我国,政府部门掌握着全社会最大量、最核心的数据。有效地利用这些数据,可以让政府治理与决策更加精细化、科学化,可以帮助政府将与民众的沟通建立在科学的数据分析之上,优化公共服务流程,简化公共服务步骤,提升公共服务质量。1.4大数据的行业应用1.4.5政务管理行业政务管理行业1.4大数据的行业应用在城市规划方面,通过对城市地理、气象等自然信息,和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供强大的决策支持,强化城市管理服务的科学性和前瞻性。1.4.5政务管理行业政务管理行业应用范围利用大数据技术可以抓取气象局、地震局的气象历史数据、星云图变化历史数据,以及城建局、规划局的城市规划、房屋结构数据等,然后构建大气运动规律评估模型、气象变化关联性分析模型等,从而精准地预测气象变化,寻找最佳的救灾解决方案。05大数据与其他新兴技术的关系
近些年,以大数据、云计算、物联网和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 班级科技活动组织与引导计划
- 社团发展战略计划
- 可持续发展与财务规划计划
- 小儿辅食知识培训课件
- 企业战略控制概述
- 简单的护理查房
- 静脉输血护理查房
- 锂电池安全知识培训课件
- 第十单元实验活动6:酸、碱的化学性质教学设计-2023-2024学年九年级化学人教版下册
- 腰椎穿刺患者术后护理
- 湖南省邵阳市新宁县2024届中考三模化学试题含解析
- 电力系统光纤通信运行管理规程
- (高清版)TDT 1055-2019 第三次全国国土调查技术规程
- 电影活着展示课件
- 天堂旅行团读书分享
- 室内装潢与装修的危险源辨识与风险评估
- 护理安全警示教育案例完整版
- 医疗保险异地就医登记备案表
- MAXIMO系统介绍课件
- 《雇主责任险》课件
- 烟花爆竹经营安全培训课件
评论
0/150
提交评论