《大数据导论》课件 严宣辉 第1-4章 绪论- 大数据处理_第1页
《大数据导论》课件 严宣辉 第1-4章 绪论- 大数据处理_第2页
《大数据导论》课件 严宣辉 第1-4章 绪论- 大数据处理_第3页
《大数据导论》课件 严宣辉 第1-4章 绪论- 大数据处理_第4页
《大数据导论》课件 严宣辉 第1-4章 绪论- 大数据处理_第5页
已阅读5页,还剩507页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章

绪论本章学习目标了解大数据的基本概念、基本特征、构成与容量单位了解大数据的价值与作用、大数据时代的新变革了解大数据处理的基本环节和支撑技术了解大数据安全和共享的基本概念了解大数据的发展现状和发展趋势理解数据要素在社会、经济、生活中的重要性,培养“用数据说话”的理念了解我国大数据发展现状和政策法规,培养科技报国的情怀与担当目录1.1引言1.2数据1.3大数据的相关概念1.4大数据的意义、价值与作用1.5大数据时代的新变革1.6大数据处理的主要环节1.7大数据的安全和共享1.8大数据的发展现状和趋势1.9小结1.1引言

当前世界正处于向数字化全面转型的过程中,数据是数字经济时代的关键生产要素,是国家基础性战略资源,是推动经济社会高质量发展的重要引擎。随着信息技术和人类生产生活交汇融合,互联网和物联网的快速普及,全球数据呈现爆发式增长、海量集聚的特点,对经济发展、社会治理、国家管理、人民生活都产生了重大影响。

大数据作为一种资源、技术、工具和方法,已经深刻影响了人们生活的各个方面,并对人类认知世界及与世界交流的方式提出了全新的挑战。正如维克托迈尔舍恩伯格(ViktorMayer-Schönberger)在《大数据时代》一书中指出的:“大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型”。

随着大数据技术进入人类活动的各个领域,我们在利用大数据的同时也在源源不断地产生大数据,并在实践中逐渐对大数据中所蕴含的价值有了清晰的认识,迫切需要运用大数据技术进行数据的分析和知识的挖掘,提升认识世界、发现规律和预测未来的能力。1.2数据

数据是对事实或观察结果的记录,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。按照《中华人民共和国数据安全法》给出的定义,本法所称数据,是指任何以电子或者其他方式对信息的记录。由此可见,数据本身可以有丰富的表现形式。它不仅指狭义上的数字,还可以指具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也指客观事物的属性、数量、位置及其相互关系的抽象表示。数据可以是连续的值,如声音、图像,被称为模拟数据;也可以是离散的,如符号、文字,被称为数字数据。

从计算机科学的角度,数据是所有能输入计算机并被计算机程序处理的符号的总称,是用于输入计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。在计算机系统中,数据以二进制信息单元0、1的形式表示。1.2数据

从人类认知的角度,数据是汇聚起来用于认知的原材料,信息是人类可以理解和认知的事物的状态和联系。从“数据—信息—知识—智慧”的DIKW(Data-Information-Knowledge-Wisdom)模型来看(见图1-1),数据是信息的表现形式和载体,而信息是经过加工的数据。数据本身没有意义,数据只有通过人类的分析和处理,才能成为对人类有用、具有特定功能的信息。数据是信息的表达,信息是数据的内涵。1.2数据

知识是在对信息进行综合、提炼的基础上获得的经验、判断与理解;智慧是合理地应用知识并进行正确判断、决策的能力。图1-1DIKW模型示意图1.2数据1.2.1数据的构成

数据可以分为结构化数据、半结构化数据和非半结构化数据3类。(1)结构化数据结构化数据具有固定的结构、类型和属性划分等,通常可以用二维表表示,如用关系型数据库存储的信息、Excel表中存放的信息等。例如,学生信息表,具有学号、姓名、性别、出生日期和电话号码等属性。1.2数据(1)结构化数据

表1-1所示为结构化数据示例,其数据由每一行的记录组成,每个记录有若干个属性或特征。表1-1结构化数据示例学号姓名性别出生日期1100101小王男1998-03-051100102小李女1999-08-051100103小陈男2000-03-071.2数据(2)半结构化数据半结构化数据具有一定的结构性,但又灵活多变,如XML(eXtensibleMarkupLanguage,可扩展标记语言)或HTML(HyperTextMarkupLanguage,超文本标记语言)格式的文件,其自描述、数据结构和内容混杂在一起。XML是一种W3C制定的标准通用标记语言,已成为国际上数据交换的一种公共语言。右边的代码用XML文件格式来描述表1-1中的3个记录。1.2数据(3)非结构化数据非结构化数据是指无法采用固定的结构来表示的数据,如文本、图像、视频和音频等数据。非结构化数据的格式非常多样,无法用统一的结构表示,而且在技术上非结构化信息比结构化信息更难标准化和理解。图1-2所示为典型的非结构化数据(文本、图片和视频)示意图。

(a)文本

(b)图像

(c)视频1.2数据(3)非结构化数据

根据IDC(InternationalDataCorporation,国际数据公司)的一份调查报告,目前结构化数据仅占全部数据的20%,而半结构化数据和非结构化占比为80%,因此在利用传统的关系数据库(RelationalDatabase)和数据仓库技术存储、检索和分析数据的基础上,近年来发展出多种NoSQL数据库系统来对非结构化数据进行处理,如HBase、Redis和MongoDB等。1.2数据1.2.2数据存储容量的单位

数据存储容量的基本单位是bit,其单位从小到大的顺序是:bit(位)、Byte(字节)、KB(千字节)、MB(兆字节)、GB(吉字节)、TB(太字节)、PB(拍字节)、EB(艾字节)、ZB(泽字节)、YB(尧字节)、BB、NB、DB,它们是按照进率1024(210)来计算的。数据存储容量的单位如表1-2所示。1.2数据1.2.2数据存储容量的单位词头名称符号科学计数法换算关系bit(位)b1

Byte(字节)B81B=8bitkilo(千)KB8×2101KB=1024B=8192bitmega(兆)MB8×2201MB=1024KB=1,048,576Bytesgiga(吉)GB8×2301GB=1024MB=1,048,576KBtera(太)TB8×2401TB=1024GB=1,048,576MBpeta(拍)PB8×2501PB=1024TB=1,048,576GBexa(艾)EB8×2601EB=1024PB=1,048,576TBzetta(泽)ZB8×2701ZB=1024EB=1,048,576PByotta(尧)YB8×2801YB=1024ZB=1,048,576TB表1-2数据存储容量的单位1.3大数据的相关概念1.3.1大数据的概念

“大数据”这一名词最早公开出现于1998年,美国高性能计算公司SGI的首席科学家约翰马西(JohnMashey)在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织4个难题,并用“BigData(大数据)”来描述这一挑战,在计算机领域引起了人们的重视和关注。

在“大数据”这一概念形成的过程中,有3个标志性的事件。2008年9月,美国《自然》(Nature)杂志专刊——“Bigdata:ThenextGoogle”,第一次正式提出了“大数据”概念。2011年2月,《科学》(Science)杂志专刊——“Dealingwithdata”,第一次综合分析了大数据对人们生活造成的影响,详细描述了人类面临的“数据困境”。2011年5月,麦肯锡全球研究院(McKinseyGlobalInstitute)发布报告——“Bigdata:Thenextfrontierforinnovation,competition,andproductivity”,第一次给大数据做出相对清晰的定义。1.3大数据的相关概念1.3.1大数据的概念

2015年8月31日,国务院《促进大数据发展行动纲要》的开篇给出了大数据的定义:大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。

从以上对大数据的定义可以看出,大数据与传统所处理的数据相比,具有体量大、结构复杂的显著特点,并且难以用常规的技术进行处理。1.3大数据的相关概念1.3.2大数据的基本特征

通常用“4V”特征来描述大数据的主要特征,即大数据具有体量大、种类多、速度快和价值高4个特征,大数据“4V”特征示意图如图1-3所示。图1-3大数据“4V”特征示意图1.3大数据的相关概念(1)体量大大数据的特征首先体现在数量巨大,存储单位达到TB、PB甚至ZB级别。图灵奖得主JimGrey对未来数据量急剧增长的规律做过这样的预言:未来每18个月产生的数据量等于有史以来的数据量之和。01根据Domo公司2021年对全球大数据每分钟产生量的分析数据,Facebook用户每分钟上传的图片有240K张、共享44M条信息,Twitter用户每分钟上传了575K条信息,TikTok用户每分钟观看167M视频,等等。02根据国际权威机构Statista的统计和预测,2035年全球数据产生量预计达到2142ZB,全球数量即将迎来更大规模的爆发,全球每年数据产生量估算图如图1-4所示。031.3大数据的相关概念(1)体量大图1-4全球每年数据产生量估算图(数据来源:Statista2020年10月)1.3大数据的相关概念(2)种类多

大数据与传统数据相比,数据的来源广、维度多、类型杂。各种机器设备在自动产生数据的同时,人们自身的生活行为也在不断地创造数据,不仅有企/事业单位的业务数据,还有海量的人类社交活动数据。1.3大数据的相关概念(3)速度快

随着计算机技术、互联网和物联网的发展,数据生成和处理的速度远远超出人们的想象,这是大数据区别于传统数据或小数据的一个显著特征。1.3大数据的相关概念(4)价值高

大数据有巨大的潜在价值,具有价值高但价值密度低的特点,也就是说,同其呈几何指数爆发式增长相比,某一对象或模块数据的价值密度较低,这给我们挖掘海量的大数据增加了难度和成本。1.4大数据的意义、价值与作用

当前,大数据不仅是技术,还是新的工具、方法和资产,正深刻影响着社会生活的方方面面。2021年12月12日,《国务院关于印发“十四五”数字经济发展规划的通知》中指出发展数字经济的重要性,提出“数据要素是数字经济深化发展的核心引擎”,要求充分发挥数据要素作用。2015年8月,国务院印发《促进大数据发展行动纲要》,系统部署大数据发展工作。信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源。坚持创新驱动发展,加快大数据部署,深化大数据应用,已成为稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要和必然选择。1.4大数据的意义、价值与作用1.4.1大数据的意义

大数据对社会、经济和科技等各个方面都具有非常重要的意义。在经济方面,大数据成为推动经济转型发展的新动力;在社会方面,大数据可以提高政府的决策能力和治理能力;在科技方面,大数据成为科学研究的新途径。1.4大数据的意义、价值与作用(1)大数据成为推动经济转型发展的新动力

新经济时代以知识经济、虚拟经济和网络经济为标志,新经济时代的数据本身就是资产和生产要素。大数据的应用,推动了生产要素的共享、整合和协作,促进了生产要素的高效利用,改变了传统的生产方式和经济运行机制,提高了经济运行水平和效率。目前,大数据已经成为经济发展的新动力,大数据是重要的战略资源,大数据将改变社会生产的结构和模式。

大数据技术的运用,激发了生产模式和商业模式的变革和创新,催生了新业态,也为传统企业的生产和服务提供了新途径。例如,在企业的生产和营销活动中,大数据分析是发现新客户群体、确定最优供应商、创新产品、理解销售季节性等的最好方法。应用大数据分析,可以了解、细分市场和客户群体,为每个群体量身定制个性化的服务,创造差异化优势。通过大数据预测需求的变化趋势,可以创造和发掘新的需求,有助于开创全新的产品或服务领域,提高投资的回报率;新零售以互联网为依托,通过运用大数据、人工智能等先进技术手段,对商品的生产、流通与销售过程进行升级改造,进而重塑业态结构与生态圈。新零售将线下物流、服务、体验等优势与线上商流、资金流、信息流融合,拓展智能化、网络化的零售新模式。1.4大数据的意义、价值与作用(2)大数据成为提升政府治理能力的新途径

政府数据资源丰富,应用需求旺盛,政府既是大数据发展的推动者,也是大数据应用的受益者。政府应用大数据能更好地响应社会和经济指标变化,解决城市管理、安全管控、行政监管中的问题,预测判断事态走势等。对政府管理而言,建立“用数据说话、用数据决策、用数据管理、用数据创新”的理念和管理机制,以大数据来提高决策科学化与管理精细化的水平,是提升政府治理能力的新途径。1.4大数据的意义、价值与作用(3)大数据已经成为科学研究的新方法

传统科学研究的三个范式是“实验”“理论分析”“计算”,在大数据时代,“数据密集型科学发现”(Data-IntensiveScientificDiscovery)成为科学研究的第四范式。“Data-IntensiveScientificDiscovery”是微软亚洲研究院在其编写的《TheFourthParadigm:Data-IntensiveScientificDiscovery》一书(见图1-5)中提出的,该书扩展了开创性计算机科学家、图灵奖获得者吉姆格雷(JimGray)的思想,对数据密集型科学发现的理念、应用和影响进行了全面分析。该书系统介绍了地球与环境科学、生命与健康科学、数字信息基础设施和数字化学术信息交流等方面基于海量数据的科研活动、过程、方法和基础设施,生动揭示了在海量数据和无处不在的网络上发展起来的与实验科学、理论推演、计算机仿真这三种科研范式相辅相成的科学研究第四范式——数据密集型科学发现。1.4大数据的意义、价值与作用(3)大数据已经成为科学研究的新方法图1-5微软亚洲研究院关于第四范式的著作1.4大数据的意义、价值与作用1.4.2大数据的核心价值

大数据的核心价值在于提供了一种人类认识复杂系统的新思维和新手段,可以帮助人们发现规律、预测未来和决策指导。1.4大数据的意义、价值与作用(1)发现规律

发现规律是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,解释现象并呈现事物的发展规律。【案例1-1】Twitter情绪分析是一个通过社交大数据发现规律的例子。Twitter公司本身并不运营所有的数据产品,而是将数据授权给其他数据服务公司。许多公司利用Twitter的社交数据做出了各种令人惊叹的应用,从社交监测到医疗应用程序,甚至跟踪流感疫情的爆发。美国华尔街德温特资本市场公司的首席执行官保罗霍廷每天使用程序分析全球3.4亿个Twitter账户的信息,以判断公众情绪,然后从“1”到“50”进行评分。根据评分结果,保罗霍廷决定如何处理他所持有的股票。霍廷的判断原则非常简单,如果大家看起来都很高兴,那就买更多的股票,如果大家的焦虑增加,那就卖掉手上持有的股票。1.4大数据的意义、价值与作用(2)预测未来

预测未来是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。【案例1-2】圆通快递用大数据预测快递的接件量和中转量。每年“双十一”对快递公司都是大考,包裹集中到某个中转仓库,堆积如山,不及时运转的话很可能“爆仓”。2014年“双十一”期间,圆通公司发送了2.4亿个包裹,用时16天;而2015年同样的包裹量,仅用时7天。借助大数据分析,圆通公司对哪些区域、线路可能存在较大的接件量、中转量进行了预测,从而优化人力、车辆与货物的匹配,避免了快递的堆积。从这个例子可以看出大数据预测的作用,大数据正从资源变成一种新的生产要素,一旦加入到生产环节中,就能带来巨大的改变。1.4大数据的意义、价值与作用(2)预测未来【案例1-3】2013年,微软纽约研究院的经济学家大卫罗斯柴尔德(DavidRothschild)利用大数据成功预测24个奥斯卡奖项中的19个,成为人们津津乐道的话题。之后,大卫罗斯柴尔德再接再厉,成功预测第86届奥斯卡金像奖颁奖典礼24个奖项中的21个,继续向人们展示现代科技的神奇魔力。1.4大数据的意义、价值与作用(3)决策指导

目前,在大数据应用的实践中,更多的是描述性和预测性的分析,而更深一层的大数据决策指导才是最具有价值的,它是在描述性与预测性分析的基础上,对各种策略的效果进行评估分析,以对决策进行指导和优化。【案例1-4】2012年11月奥巴马大选连任成功的胜利果实被归功于大数据,因为他的竞选团队进行了大规模与深入的数据挖掘。2012年11月,美国总统选举异常激烈,奥巴马在整个竞选过程中打破了没有一名美国总统能够在全国失业率高于7.4%的情况下连任成功的惯例。在奥巴马获胜几小时后,《时代》周刊就刊发报道,认为奥巴马的成功,其竞选团队的大数据战略功不可没。大规模与深入的数据挖掘,帮助奥巴马在获取有效选民、投放广告、募集资金方面起到重要作用。奥巴马的竞选团队表示,大数据是他们的一个大优势!《时代》周刊更是断言,依靠直觉与经验进行决策的优势急剧下降,在政治领域,大数据的时代已经到来。1.4大数据的意义、价值与作用1.4.3大数据的作用

当前,大数据已经在社会各个领域发挥出巨大的作用,大数据的利用已经成为提高核心竞争力的关键因素,它为我们看待世界提供了一种全新的角度,人们的行为决策将日益依赖于数据分析,而不是像过去更多凭借经验和直觉。以下介绍几个大数据在多个行业应用的著名案例。【案例1-5】孟山都公司(MonsantoCompany)是美国的一家跨国农业生物技术公司,该公司首先发起“GreenDataRevolution”运动,建立开放农业数据联盟(AgriculturalDataAlliance)来统一数据标准,让农民也能享受大数据的成果。典型的应用,如农场设备制造商JohnDeere与DuPontPioneer联合提供“决策服务”,农民只需要在驾驶室里拿出平板电脑,收集种子监视器传来的数据,然后将其上传给服务器,通过服务器端的智能决策服务系统,返回化肥的配方到农场的拖拉机上。1.4大数据的意义、价值与作用1.4.3大数据的作用【案例1-6】英国国家医疗服务体系(NationalHealthService,NHS)的糖尿病预防项目,通过移动端收集患者的生活起居数据、生理变化数据、用药数据、饮食数据、运动数据和医疗数据,对收集到的信息进行糖尿病风险等级评估,根据评估情况为每个患者制定适宜的个性化干预治疗方案。【案例1-7】HealthTap是美国的一个提供7×24小时远程问诊服务的医疗平台,它利用移动互联网收集患者上传的个人习惯数据和健康情况,以及病史、症状、病情、药物、检测诊疗等数据,根据患者信息,为其提供医生推荐、药物推荐等服务,减少用户就诊时间,提高医生和患者的匹配度。据2018年的统计,每天有超过170个国家的数亿用户和超过140,000名医生使用其平台。1.4大数据的意义、价值与作用1.4.3大数据的作用【案例1-8】大数据金融监管。中国证券监督管理委员会从2013年下半年开发启用大数据分析系统,到2015年,已调查内幕交易线索375起,立案142起,分别比以往同期增长了21%、33%。中国证券监督管理委员会上海监管局2017年以来招聘了大量的大数据研究和大数据挖掘人才,专门模拟不同账户之间的关联,通过无数次的模拟分析找到看似无关,但本质上相关的账户之间的交易关联。大数据在若干重要领域的作用,可以简短地总结如下。(1)医疗大数据——看病更高效。(2)生物大数据——改良基因。(3)金融大数据——理财的利器。(4)零售大数据——了解消费者。1.4大数据的意义、价值与作用1.4.3大数据的作用(5)电商大数据——精准营销的法宝。(6)农牧大数据——量化生产。(7)交通大数据——畅通出行。(8)教育大数据——因材施教。(9)体育大数据——夺冠精灵。(10)食品大数据——安全饮食的保护伞。(11)政府大数据——改进社会服务。(12)物流大数据——优化配送和库存。1.5大数据时代的新变革

世界著名的质量管理专家爱德华兹·戴明说过:“除了上帝,任何人都必须用数据来说话”,当前,“用数据说话、让数据发声”已成为人类认知世界的一种全新方法。

维克托·迈尔·舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中指出,大数据时代要关注三大变革:(1)处理数据理念的思维变革。(2)挖掘数据价值的商业变革。(3)面对数据风险的管理变革。1.5大数据时代的新变革1.5.1大数据带来的思维变革

对于大数据时代带来的处理数据理念的思维模式转变,维克托迈尔舍恩伯格提出了3个非常著名的观点。1.要全体,不要抽样2.要相关,不要因果3.要效率,允许不精确1.5大数据时代的新变革(1)要全体,不要抽样

在过去,由于收集、储存和分析数据的技术落后,大量数据的收集成本非常高昂,我们只能收集少量的数据进行分析。在大数据时代,可以获取足够多的数据样本乃至全体数据。抽样不合理会导致预测结果的偏差,在大数据时代,依靠强大的数据处理能力,应该去处理所有数据。【案例1-9】Farecast系统用大数据预测机票价格,帮助消费者抓住最佳购买时机。

2003年,奥伦埃齐奥尼准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚礼。他认为飞机票越早预定应该越便宜,于是他在婚礼举行日期前好几个月就预定了一张去洛杉矶的机票。在飞机上,奥伦埃齐奥尼好奇地问邻座的乘客花了多少钱购买机票。当得知那个人的机票比他买得晚,但是票价却比他便宜很多时,他感到非常气愤。于是,他又询问了另外几个乘客,结果发现大家买的票居然都比他的便宜。1.5大数据时代的新变革(1)要全体,不要抽样

奥伦埃齐奥尼是当时美国最有名的计算机专家之一,他下定决心要开发一个项目,来帮助人们推测当前的机票价格是否合理。这个项目后来发展成为一家得到了风险投资基金支持的科技创业公司,名为Farecast。Farecast的机票预测系统初始用一个航线41天之内的12000个价格样本进行预测,取得了不错的预测结果。接着,Farecast使用每一条航线整整一年的价格数据来进行预测,随着不断添加更多的数据,预测的结果越来越准确。奥伦埃齐奥尼说:“这只是一个暂时性的数据,随着你收集的数据越来越多,你的预测结果会越来越准确。”如今,Farecast已经拥有惊人的约2000亿条飞行数据记录,通过对机票价格的变化趋势预测,让消费者能够更合理地选择出行时间和航线,平均为消费者节省了20%的机票费用。1.5大数据时代的新变革(2)要相关,不要因果

因果分析和相关分析是人们认识、了解世界最重要的手段和方法。因果关系,即某种现象(原因)引起了另一种现象(结果),其原因和结果必须同时具有必然的联系。因果关系的分析通常基于逻辑推理,难度较大。相关关系的分析通过从大量数据中挖掘频繁模式,发现事物之间有趣的关联和相关联系,然而该分析方法通常面临数据量不足的问题。在大数据时代,由于已经获取到了大量的数据,建立在相关关系分析法之上的预测成为大数据的核心。如果A事件和B事件经常一起发生,那么当B事件发生时,我们就可以预测A事件也发生了,至于为什么会是这样,在某些应用上,已经没那么重要了。1.5大数据时代的新变革(2)要相关,不要因果【案例1-10】沃尔玛:请把蛋挞与飓风用品摆在一起

沃尔玛是世界上最大的零售商,拥有超过200万的员工,年销售额约4500亿美元,比大多数国家的GDP还多。沃尔玛的购物数据库记录了每一个顾客的购物清单和消费额,还包括购物篮中的物品、购买时间,甚至购买当日的天气。2004年,沃尔玛公司对其庞大的购物数据库进行关联分析,发现每当季节性飓风来临前,不仅手电筒的销量增加了,而且蛋挞(美式含糖早餐零食)的销量也增加了。因此,当季节性飓风来临时,沃尔玛会把蛋挞放在靠近飓风用品的位置,以方便行色匆匆的顾客购买,从而增加商品销量。1.5大数据时代的新变革(2)要相关,不要因果【案例1-11】美国折扣零售商塔吉特(Target)的怀孕趋势预测。

美国折扣零售商塔吉特把大数据相关关系的分析应用到极致。《纽约时报》的记者查尔斯杜西格(CharlesDuhigg)在一份报道中阐述了塔吉特怎样在完全不和准妈妈对话的前提下,预测一个女性会在什么时候怀孕。

对零售商来说,知道一个顾客是否怀孕是非常重要的,因为这是一对夫妻改变消费观念的开始,也是一对夫妻生活的分水岭,他们会开始光顾以前不会去的商店,渐渐对新的品牌建立忠诚。塔吉特的分析团队首先查看了签署婴儿礼物登记簿的女性的消费记录。塔吉特公司注意到,登记簿上的妇女会在怀孕大概第3个月的时候买很多无香乳液;几个月之后,她们会买一些,含有镁、钙、锌的营养品。公司最终找出了大概20多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分,这些相关关系甚至使得塔吉特能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券。1.5大数据时代的新变革(3)要效率,允许不精确

对采用“小数据”而言,由于收集的信息量比较少,所以必须确保记录下来的数据尽量精确,并要求计算模型和运算也非常精确,因为“差之毫厘,失之千里”。然而在大数据的“全样本时代”,有多少偏差就是有多少偏差,不会被放大。谷歌公司的人工智能专家彼得诺维格(PeterNorvig)说过:“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”因此快速获得一个大概的轮廓和发展脉络,要比严格的精确性重要得多。【案例1-12】麻省理工学院的通货膨胀率预测。

美国劳工统计局的人员每个月都要公布消费物价指数(ConsumerPriceIndex,CPI),这是用来测试通货膨胀率的。政府通过人工采集价格信息数据每年大概需要花费两亿五千万美元。这些数据是精确的也是有序的,但是数据往往会有几周的滞后。麻省理工学院(MIT)的两位经济学家,通过一个软件在互联网上每天可以收集到50万种商品的价格,虽然他们所收集的数据没有美国劳工统计局的精确,但由于数据量非常大,因此他们能比官方数据提前发现通货紧缩或膨胀趋势。1.5大数据时代的新变革(3)要效率,允许不精确【案例1-13】谷歌翻译系统。

谷歌公司2006年开始涉足机器翻译,这被当作实现“收集全世界的数据资源,并让人人都可享受这些资源”目标的一个步骤。谷歌翻译利用一个巨大且繁杂的数据库——也就是全球的互联网,进行语料的收集和利用。谷歌翻译系统为了训练计算机,会吸收它能找到的所有翻译材料,它增加了各种各样的数据,还接受了有错误的数据。由于谷歌语料库的内容来自未经过滤的网页内容,所以会包含各种错误,但谷歌语料库的规模是其他语料库的好几百万倍,这样的优势完全压倒了缺点。谷歌翻译部的负责人弗朗兹奥齐(FranzOch)指出:“谷歌的翻译系统不会像Candide一样只是仔细地翻译300万句话,它会掌握用不同语言翻译的质量参差不齐的数十亿页的文档。”上万亿的语料就相当于950亿句英语。1.5大数据时代的新变革1.5.2大数据带来的社会变革1.大数据带来的经济模式变革

在大数据时代,经济活动和商业模式的方式产生了根本性的变革,形成新的业态和产业链,正如2021年12月12日发布的《国务院关于印发“十四五”数字经济发展规划的通知》中指出的“数据要素是数字经济深化发展的核心引擎”。当前,企业面临一个新的课题——业务数据化,即如何“基于数据”动态地定义、优化和重组业务及其流程,进而提升业务的敏捷性,降低风险和成本。接下来介绍若干大数据对商业模式带来变革的案例。1.5大数据时代的新变革(1)大数据带来新的商业模式

2016年11月11日,国务院办公厅印发《关于推动实体零售创新转型的意见》(国办发〔2016〕78号),明确了推动我国实体零售创新转型的指导思想和基本原则。《意见》提出要促进线上线下融合,推动企业线上服务、线下体验、金融支持、物流支撑等四大能力的全面提升。例如,近年来兴起的“新零售”商业模式,是企业以互联网为依托,运用大数据、人工智能等先进技术手段,对商品的生产、流通与销售过程进行升级改造,进而重塑业态结构与生态圈的。新零售将线下物流、服务、体验等优势与线上商流、资金流、信息流融合,拓展智能化、网络化的零售新模式。1.5大数据时代的新变革(2)大数据改变企业的营销手段

企业的传统营销手段主要是集中推销和各种广告宣传,更原始的办法是用大量的劳动力发传单推销产品;而在大数据的时代,企业可以充分利用大数据进行精准、高效与低成本的营销。

例如,电商的推荐系统(RecommendationSystem)会收集用户以往的购买行为、浏览过的商品、对商品的评价和反馈等信息,运用推荐算法对这些数据进行分析,以便向用户推荐其感兴趣的商品,以提升用户的购买率。1.5大数据时代的新变革(3)大数据创造和发掘新的需求

通过大数据预测需求的变化趋势,可以帮助企业开创全新的产品或服务领域,提高投资的回报率。运用大数据进行细分市场和客户群体分析,可以提供精确服务满足用户需求,为每个群体定制特别的服务,甚至为每个客户量身定制。【案例1-14】驾驶员识别和防盗系统。

日本先进工业技术研究所的科学家通过在汽车座椅下部安装压力传感器,把人体屁股特征转化成数据,然后把数据进行量化后做成能识别车主的防盗系统。有了这个系统后,如果驾驶员不是车主,系统就会要求司机输入密码,若密码不对,汽车会自动熄火。这种能把一个人的坐姿数据化的技术,预示着一些切实可行的服务和一个前途光明的产业。比如,通过汇集数据,利用事故发生之前的坐姿变化情况,分析出坐姿和行驶安全之间的关系。同时,通过汇集数据,可以发现汽车被盗及盗贼身份。1.5大数据时代的新变革(4)大数据成为企业管理决策的新手段

传统的决策制定往往是“目标”或“模型”驱动的——根据目标(或模型)进行决策。然而,大数据时代出现了另一种思维模式,即数据驱动型决策,数据成为决策制定的主要“触发条件”和“重要依据”。【案例1-15】网飞公司的电视剧制作。

运用大数据技术,美国网飞公司(Netflix)成功推出网络剧《纸牌屋》。网飞公司是世界上最大的在线影片租赁提供商,并非传统的影视制作公司,为什么它首次推出一部作品就能获得第65届艾美奖最佳导演和最佳选角等多项大奖呢?个中原因是大数据在公司决策过程中起了关键作用。无论是《纸牌屋》剧本的挑选,还是导演、演员的选定,网飞公司都将其庞大的用户数据库作为科学决策的依据,依靠数据分析抓住观众的喜好。《纸牌屋》推出之后,迅速成为美国各大社交网站的热门话题,其明星效应使得该剧大获成功。《纸牌屋》进入中国后,首先在美剧迷中掀起交流热潮,继而由美剧迷在网络中发起的分享行为进行扩散。这些都是对传统影视公司商业模式的一种颠覆,也成就了一个网站主导、数据先行的商业传奇故事1.5大数据时代的新变革2.大数据带来的公共服务与管理变革

对政府的公共服务和管理而言,大数据的价值在于提高决策科学化与管理精细化的水平。大数据在政府的公共服务领域的应用,可有效推动政务工作开展,提高政府部门的决策水平、服务效率和社会管理水平,产生巨大的社会价值。【案例1-16】联合国“全球脉动”(GlobalPulse)项目。

联合国于2019年提出“全球脉动”(GlobalPulse)倡议计划,希望大数据能对全球的发展起到杠杆作用,推动数字数据快速收集和分析方式的创新。2012年5月29日,在联合国“全球脉动”计划发布的《大数据开发:机遇与挑战》报告中,阐述了各国特别是发展中国家在运用大数据促进社会发展方面所面临的历史机遇和挑战,并为正确运用大数据提出了策略建议。1.5大数据时代的新变革2.大数据带来的公共服务与管理变革

为了利用数字化的早期预警信号来提前指导援助项目,联合国将开发所谓的“情绪分析”技术,使用自然语言解密软件来对社交网站和文本消息中的海量信息进行分析,用来帮助预测某个给定地区的失业率、支出削减或是疾病暴发等现象。【案例1-17】大数据助力公共安全保障。

大数据在国防、反恐、安全等领域的应用,可以对各部门搜集到的各类信息进行自动分类、整理、分析,有效解决情报、监视和侦察系统不足等问题,提高国家安全保障能力。例如,2013年4月15日,美国马萨诸塞州的波士顿发生了震惊世界的马拉松爆炸案,相关调查机构通过采集案发现场附近10TB左右的数据(其中包括移动通信基站上的电话通信记录,附近商店、加油站、报摊的监控录像,以及志愿者提供的图片和影像资料),迅速锁定并令犯罪嫌疑人现形。1.6大数据处理的主要环节

大数据是大量、高速、多变的信息,它需要新型的处理技术去促成更强的决策能力、洞察力与最佳化处理,本节将介绍大数据处理的主要环节。大数据的处理流程可以归纳为:数据采集与数据预处理、数据存储与管理、数据分析与挖掘和计算结果展示4个环节。大数据处理的主要环节如图1-6所示。图1-6大数据处理的主要环节1.6大数据处理的主要环节(1)数据采集与预处理

数据采集又称为数据获取,是指从现实世界系统中采集信息,并进行计量和记录的过程。数据的来源可能是传感器、互联网、系统运行的日志文件等,也可能是人类生活和生产活动所产生的各种类型的数据。在数据规模不断扩大的情况下,运用数据采集自动化工具,从外部系统、互联网和物联网等途径自动获取、传输和记录数据已经成为必要的技术手段。

采集的数据可能包含噪声、缺失值、不一致性和冗余等问题,数据预处理的目的就是要提高数据的质量。通过数据预处理工作,可以使残缺的数据完整,并将错误的数据纠正、多余的数据去除,进而将所需的数据挑选出来,并且进行数据集成。数据预处理有多种方法,如数据清理、数据集成、数据变换、数据归纳等。1.6大数据处理的主要环节(2)数据存储与管理

现在的大数据都是高度分散的,结构松散,并且容量越来越大,存储单位达到TB、PB甚至ZB级别,传统的存储方法已经无法适应其要求。目前,“分布式存储系统”是大数据存储的主要技术手段。

分布式存储系统是相对于集中式存储而言的,它将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,无法满足大规模存储应用的需求。分布式存储系统采用可扩展的系统结构,使用多个存储服务器来分担存储负荷,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。1.6大数据处理的主要环节(3)数据分析与挖掘

数据分析与挖掘是指对体量巨大的数据进行分析和挖掘,从中抽取出有价值的(隐含的、有潜在用途的、未知的、人们可以理解的)信息和模式的过程。也就是原始数据如何转化为有用的信息,进而转化为知识与智慧的过程。“分析”通常指用传统的统计学方法,对数据的特征进行分析,如统计特征分析、数据分布特性分析和回归分析等;而“挖掘”通常指的是用人工智能方法,挖掘大数据中所蕴含的知识,如聚类、分类和关联规则挖掘等。1.6大数据处理的主要环节(4)计算结果展示

计算结果的展示环节主要运用“数据可视化”技术,也就是利用计算机图形学和图像处理技术,将数据、数据分析与挖掘的结果转换成图形或图像显示出来。数据可视化是理解、探索、分析大数据的重要手段,常见的数据可视化工具包括图表生成工具、可视化报表、商业智能分析、可视化编程语言等。

图1-7展示了数据可视化的示例。1.6大数据处理的主要环节(4)计算结果展示图1-7数据可视化示例1.7大数据的安全和共享

目前,大数据的安全问题突出,然而开放共享的需求非常迫切,在国家层面推出促进数据共享开放、保障数据安全和保护公民隐私的相关政策和法规,并制定相关的数据互操作技术规范和标准,以及保证数据质量的技术方法等,对于推动大数据技术的发展和规范应用具有非常重要的意义。1.7大数据的安全和共享1.7.1大数据的开放和共享

大数据的真正价值在于如何合法地充分应用,数据开放和数据共享成为大数据应用的关键因数。数据开放是指提供方无偿提供数据,需求方免费获取数据;数据共享是指互为供需双方,相互提供数据。但是,当前信息“孤岛”林立、融合困难、缺乏数据开放和共享机制,已成为大数据管理与利用中的重要难题。

近年来,世界各国纷纷将数据开放和共享纳入国家发展战略。2013年,在北爱尔兰召开的G8会议(G8Summit,八国集团首脑会议)上,签署了《开放数据宪章》,提出了开放数据的五大原则、14个重点开放领域(见表1-3)和3项共同行动。其所提出的开放数据五大原则如下。1.7大数据的安全和共享7.1大数据的开放和共享(1)开放数据成为规则。(2)注重质量和数量。(3)让所有人都可用。(4)为改善治理发布数据。(5)为激励创新发布数据。1.7大数据的安全和共享1.7.1大数据的开放和共享

国务院于2015年9月发布的《促进大数据发展行动纲要》指出“大力推动政府部门数据共享,稳步推动公共数据资源开放”。明确政务信息应“以共享为原则,不共享为例外”,将“形成公共数据资源合理适度开放共享的法规制度和政策体系”作为中长期目标。一方面,在依法加强安全保障和隐私保护的前提下,稳步推动公共数据资源开放。加快建设国家政府数据统一开放平台,制定公共机构数据开放计划,推进公共机构数据资源统一汇聚和集中向社会开放。通过政务数据公开共享,引导企业、行业协会、科研机构、社会组织等主动采集并开放数据。另一方面,依托政府数据统一共享交换平台,大力推进国家人口基础信息库、法人单位信息资源库、自然资源和空间地理基础信息库等国家基础数据资源,以及金税、金关、金财、金审、金盾、金宏、金保、金土、金农、金水、金质等信息系统跨部门、跨区域共享。加快各地区、各部门、各有关企事业单位及社会组织信用信息系统的互联互通和信息共享,丰富面向公众的信用信息服务,提高政府服务和监管水平。1.7大数据的安全和共享1.7.1大数据的开放和共享大数据的开放与共享涉及多个领域,包括但不限于:(1)政务大数据的开放与共享;(2)科学研究大数据的开放与共享;(3)企业大数据的开放与共享;(4)健康大数据的开放与共享;(5)金融与征信大数据的开放与共享;(6)个人大数据的开放与共享。

2022年10月28日,国务院办公厅印发《全国一体化政务大数据体系建设指南》,文件中提出要深入推进政务数据共享开放和平台建设,构建全国一体化政务大数据体系,加强数据汇聚融合、共享开放和开发利用,促进数据依法有序流动,充分发挥政务数据在提升政府履职能力、支撑数字政府建设以及推进国家治理体系和治理能力现代化中的重要作用。1.7大数据的安全和共享1.7.2大数据安全与个人隐私保护一方面,数据共享开放的需求十分迫切,另一方面数据的无序流通与共享,又可能导致隐私保护和数据安全方面的重大风险,必须对其加以规范和限制。从国家层面,为了强化大数据的安全保障,需要健全大数据安全保障体系,加强大数据环境下的网络安全技术研究与应用,建立和落实大数据安全评估体系,加强关键信息基础设施安全防护。随着互联网的迅猛发展和大数据时代的来临,人们可以随时随地从互联网上获取信息和服务,但公民的个人隐私安全问题也日益凸显。个人几乎无法保护自己的隐私,上网注册时绑定的手机号、身份证号、移动的位置信息、访问过的App,还有银行的各种数据都有可能被违法收集和再利用。有些企业为了自身业务发展的需要,会私自采集网站或App的个人隐私数据,给社会道德和稳定带来严重隐患。1.7大数据的安全和共享1.7.2大数据安全与个人隐私保护

2020年11月13日,中共中央网络安全和信息化委员会办公室和中华人民共和国国家互联网信息办公室的“App违法违规收集使用个人信息治理工作组”通过评估,发现35款App存在个人信息收集使用问题,

App名称安卓版本号运营者存在的问题课后网V8.浙江××教育科技股份有限公司(1)用户明确表示不同意打开位置权限后,仍频繁征求用户同意,干扰用户正常使用;(2)既未经用户同意,也未做匿名化处理,向第三方提供用户课后网的账号信息睿视V2.5.1.3.0北京××科技有限公司(1)收集用户的宗教信仰、婚史等个人敏感信息,与业务功能无关;(2)收集用户的身份证照片、房产证照片等个人敏感信息时,未同步告知用户其目的营销助手V3.42上海××信息科技有限公司(1)在申请打开相机、通信录、电话、存储、位置、麦克风等可收集个人信息的权限时,未同步告知用户其目的;(2)未逐一列出嵌入的腾讯Bugly、极光推送、友盟等第三方SDK(软件开发工具包)收集使用个人信息的目的、类型触漫V5.4.1广州××动漫网络科技有限公司(1)收集身份证号等个人第三信息时,未同步告知用户其目的;(2)因用户不同意打开非必要的电话、存储权限,拒绝提供所有业务功能表1-4App违法违规收集使用个人信息的例子1.7大数据的安全和共享1.7.2大数据安全与个人隐私保护,

在个人隐私保护中,一方面要提高数据安全保护意识,不轻易暴露自己的重要信息,尽可能不要将敏感信息发布在互联网上,也不要随意注册使用来历不明的App,更不要轻信网络中的陌生人,时刻提高警惕。另一方面,每一个人都要严于律己,遵守国家的法律规范,不要触犯他人的隐私权益,不要随意散发未经证实的消息。1.7大数据的安全和共享1.7.3我国大数据相关的安全政策法规

2016年11月,全国人民代表大会常务委员会颁布《中华人民共和国网络安全法》,对网络数据的完整性、保密性和可用性,防止网络数据泄露或被窃取、篡改,以及网络数据的境外流动等提出相关规定。2016年12月,《国家网络空间安全战略》颁布,要求建立大数据安全管理制度,并建立完善国家网络安全技术支撑体系。国家市场监督管理总局和国家标准化管理委员会发布的规范《信息安全技术个人信息安全规范》(标准号:GB/T35273—2020)于2020年10月1日正式实施。该标准针对个人信息面临的安全问题,规范个人信息控制者在收集、保存、使用、共享、转让、公开披露等信息处理环节中的相关行为,旨在遏制个人信息的非法收集、滥用、泄漏等乱象,最大限度地保障个人的合法权益和社会公共利益。对标准中的具体事项,法律法规另有规定的,需遵照其规定执行。1.7大数据的安全和共享1.7.3我国大数据相关的安全政策法规2021年6月10日第十三届全国人民代表大会常务委员会第二十九次会议通过《中华人民共和国数据安全法》,旨在规范数据处理活动,保障数据安全,促进数据开发利用,保护个人、组织的合法权益,维护国家主权、安全和发展利益。该法案在数据安全与发展、数据安全制度、数据安全保护义务、政务数据安全与开放和法律责任等方面做出一系列规定。该法案提出建立国家数据分类分级保护制度;建立集中统一、高效权威的数据安全风险评估、报告、信息共享、监测预警机制;建立数据安全应急处置机制;建立数据安全审查制度,对影响或者可能影响国家安全的数据处理活动进行国家安全审查;国家对与维护国家安全和利益、履行国际义务相关的属于管制物项的数据依法实施出口管制。1.7大数据的安全和共享1.7.3我国大数据相关的安全政策法规2022年2月15日,国家互联网信息办公室等十三部门联合修订发布的《网络安全审查办法》正式施行,提出以关键信息基础设施的供应链安全为核心,重点加强对数据安全的关注和规范,聚焦网络产品、服务及数据处理活动,助推关键信息基础设施与网络平台的高质量发展。2022年6月22日,中央全面深化改革委员会第二十六次会议召开,审议通过了《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》,提出数据基础制度建设事关国家发展和安全大局,要维护国家数据安全,保护个人信息和商业秘密,促进数据高效流通使用、赋能实体经济,统筹推进数据产权、流通交易、收益分配、安全治理,加快构建数据基础制度体系。1.7大数据的安全和共享1.7.3我国大数据相关的安全政策法规

2022年8月31日,国家互联网信息办公室发布《数据出境安全评估申报指南(第一版)》,对数据出境安全评估的申报方式、申报流程、申报材料等具体要求做出了说明。数据处理者因业务需要确需向境外提供数据,符合数据出境安全评估适用情形的,应当根据《数据出境安全评估办法》规定,按照申报指南申报数据出境安全评估。

2022年10月28日,国务院办公厅印发《全国一体化政务大数据体系建设指南》,明确了“坚持整体协同、安全可控”的基本原则,提出“安全保障一体化”的任务,并强调该任务是“以‘数据’为安全保障的核心要素”,要“形成制度规范、技术防护和运行管理三位一体的全国一体化政务大数据安全保障体系”。1.7大数据的安全和共享1.7.3我国大数据相关的安全政策法规

2022年12月13日,中华人民共和国工业和信息化部正式发布《工业和信息化领域数据安全管理办法(试行)》,其主要内容包括界定工业和信息化领域数据和数据处理者的概念,明确监管范围和监管职责;确定数据分类分级管理、重要数据的识别与备案相关要求;针对不同级别的数据,围绕数据收集、存储、加工、传输、提供、公开、销毁、出境、转移、委托处理等环节,提出相应安全管理和保护要求等7个方面,自2023年1月1日起施行。

2022年12月19日,《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”)正式对外发布。“数据二十条”正式拉开了我国数据基础制度建设的大幕,对加快培育数据要素市场具有划时代的里程碑意义。“数据二十条”提出构建4项基础性制度,即“数据产权制度”“流通交易制度”“收益分配制度”和“安全治理制度”。1.8大数据的发展现状和趋势

在信息化时代,数据已经成为重要的生产要素和社会财富甚至国家间竞争的关键资源。世界各国都把推进经济数字化作为实现创新发展的重要动能,在前沿技术研发、数据开放共享、隐私安全保护、人才培养等方面做了前瞻性布局。1.8大数据的发展现状和趋势1.8.1大数据的发展现状

大数据的提出是社会发展和应用推动的结果,也是信息技术发展的必然趋势。根据中国信息通信研究院发布的《大数据白皮书(2022年)》,目前国际上许多发达国家通过政策、立法和设立机构等形式,持续深化实施大数据战略;在国内,党中央、国务院做出一系列重要部署,促进我国在大数据领域的良好发展。大数据技术在数据存储与计算、数据管理、数据流通、数据应用和数据安全五大核心领域的发展成效不断显现。1.8大数据的发展现状和趋势1.世界主要国家和地区的大数据战略

当前,世界各国普遍将大数据产业作为经济社会发展的重点,通过出台“数字新政”、强化机构设置、加大资金投入等方式,抢占大数据产业发展的制高点。1.8大数据的发展现状和趋势(1)美国

2012年3月,美国联邦政府推出“大数据研究和发展倡议”,其中对于国家大数据战略的表述如下:通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,强化美国国土安全,转变教育和学习模式。作为响应,同年5月,奥巴马政府发布了“构建21世纪数字政府”战略规划,通过D平台的建设吸引更多参与者加入,同时以行政管理和预算局牵头推进政府自身的公共数据开放。美国众议院和参议院于2022年6月发布了《美国数据隐私和保护法案》讨论稿,该法案在制度设计上既考虑了增强个人数据权利的国际趋势,又包含很多有利于数据价值释放的内容,以促进对个人数据的合理利用。1.8大数据的发展现状和趋势(2)欧盟

2010年11月,欧盟通信委员会向欧洲议会提交了题为《开放数据:创新、增长和透明治理的引擎》的研究报告,围绕开放数据制定大数据相关战略,于2011年11月被欧盟数字议程采纳,作为“欧盟开放数据战略”部署实施。其核心在于促进成员国政府拥有的公共数据的开放度与透明度,通过数据处理、共享平台与科研数据基础设施建设,向全社会开放欧盟公共管理部门的所有信息,实现“泛欧门户”成员国的无障碍信息共享。欧洲议会于2022年4月就欧盟《数据治理法案》的重要举措,构建了3个适用于各个行业的数据共享机制,确保在符合欧洲公共利益和数据提供者合法权益的条件下,实现数据更广泛的国际共享。1.8大数据的发展现状和趋势(3)韩国

在韩国政府倡导的“创意经济”国家发展方针指导下,韩国多个部门提出了具体的大数据发展计划,包括2011年韩国科学技术政策研究院以“构建英特尔综合数据库”为基础的“大数据中心战略”,以及2012年韩国国家科学技术委员会制定的大数据未来发展环境战略计划。其中,2012年由未来创造科学部牵头的“培养大数据、云计算系统相关企业1000个”的国家级大数据发展计划,通过《第五次国家信息化基本计划(2013—2017)》等多项具体发展战略落实到生产层面。

韩国在2022年成立了以国务总理为委员长的国家数据政策委员会,作为国家数据和新产业政策的管理机构,并于9月召开了韩国国家数据政策委员会的第一次会议,发表了对8个数据领域,5个新产业领域,共计13个领域的改善计划,目标是在韩国打造全球顶级水平的数字力量。1.8大数据的发展现状和趋势(4)日本

2010年5月,日本发达信息通信网络社会推进战略本部发布了以实现国民本位的电子政府、加强地区间的互助关系等为目标的《信息通信技术新战略》,在其基础上,总务省于2012年7月发布“活跃ICT日本”新综合战略,侧重于以技术革新发展大数据战略,进而实现国民本位的电子政府、加强地区间的互助关系。日本的大数据战略已经在应用当中发挥了重要作用,ICT技术与大数据信息能力的结合对协助解决抗灾救灾和核电事故等公共问题贡献明显,提生了社会公共价值。

2021年9月,日本政府成立数字厅,成为日本负责行政数字化的最高部门,旨在构建更完善的数字政府,推动数字化转型,目标为“用智能手机在60秒内完成所有行政程序”,最大程度利用数字技术优势,将数字科技作为全新要素融入传统社会,促进经济社会形态积极转型。1.8大数据的发展现状和趋势2.我国大数据战略

党中央、国务院高度重视大数据的产业发展,推动实施国家大数据战略。2015年7月,《国务院办公厅关于运用大数据加强对市场主体服务和监管的基于意见》发布。同年9月,国务院发布《促进大数据发展行动纲要》,10月党的十八届五中全会正式提出“实施国家大数据战略,推进数据资源开放共享”,标志着大数据战略上升为国家层面的战略。2016年,《政务信息资源共享管理暂行办法》出台。2017年,《大数据产业发展规划(2016—2020年)》实施。工业和信息化部先后发布《工业数据分类分级指南(试行)》(2020年2月27日)、《关于推动工业互联网加快发展的通知》(2020年3月6日)、《关于工业大数据发展的指导意见》(2020年4月28日)、《“十四五”大数据产业发展规划》(2021年11月30日),利用多种手段引导各方协同发掘工业数据的应用价值。1.8大数据的发展现状和趋势2.我国大数据战略

2018年5月,习近平总书记在向中国国际大数据产业博览会的贺信中指出,中国高度重视大数据发展。我们秉持创新、协调、绿色、开放、共享的发展理念,围绕其建设网络强国、数字中国、智慧社会,全面实施国家大数据战略,助力中国经济从高速增长转向高质量发展。

2021年3月11日,第十三届全国人民代表大会第四次会议表决通过了关于国民经济和社会发展第十四个五年规划和2035年远景目标纲要的决议(简称“十四五规划”)。在“十四五规划”中针对大数据的重要意义和促进我国大数据发展提出了如下若干意见。(1)加快构建全国一体化大数据中心体系,强化算力统筹智能调度,建设若干国家枢纽节点和大数据中心集群,建设E级和10E级超级计算中心;(2)培育壮大人工智能、大数据、区块链、云计算、网络安全等新兴数字产业;1.8大数据的发展现状和趋势2.我国大数据战略(3)鼓励企业开放搜索、电商、社交等数据,发展第三方大数据服务产业;(4)完善适用于大数据环境下的数据分类分级保护制度。加强数据安全评估,推动数据跨境安全有序流动。

2022年6月22日,中央全面深化改革委员会第二十六次会议召开,审议通过了《关于构建数据基础制度更好发挥数据要素作用的意见》,提出要加快构建数据基础制度,充分发挥我国海量数据规模和丰富应用场景优势,激活数据要素潜能,做强做优做大数字经济,增强经济发展新动能,构筑国家竞争新优势。1.8大数据的发展现状和趋势3.我国大数据产业发展现状从我国大数据行业发展的历程看,可以粗略地将其划分为“探索期”“市场启动期”“高速发展期”3个阶段,未来将逐步迈入“应用成熟期”。(1)探索期(2009年—2011年)。大数据产业在中国出现,并受到广泛关注。典型的大数据产品和服务相继上线,互联网企业率先将大数据应用落地。(2)市场启动期(2012—2014年)。大数据企业用户不断增多,资本市场高度重视,具有数据资产的企业谋求转型。但是,这一时期大数据的市场和技术不够成熟,同质化较强、技术成熟度弱、商业模式尚不清晰。(3)高速发展期(2015—2022年)。大数据市场陆续出现新商业模式、新产品、新服务。大数据市场集中典型的商业模式得到市场印证,新产品和新服务具有稳定的刚性需求,细分市场逐渐走向差异化竞争。1.8大数据的发展现状和趋势3.我国大数据产业发展现状

2021年11月工业和信息化部发布的《“十四五”大数据产业发展规划》指出,“十三五”时期,我国大数据产业快速起步。据测算,产业规模年均复合增长率超过30%,2020年超过1万亿元,发展取得显著成效,逐渐成为支撑我国经济社会发展的优势产业。我国大数据发展的态势好、动力足,政策体系逐步完善,产业基础日益巩固,产业链初步形成,生态体系持续优化。

京津冀、上海、贵州等8个国家大数据综合试验区先行先试,布局建设了11个大数据领域国家新型工业化产业示范基地,有力推动了大数据产业集聚,行业集聚示范效应显著增强。从2012年党的十八大以来,贵州全力实施大数据战略行动,数字经济增速连续6年全国第一,已成为世界聚集超大型数据中心最多的地区之一,吸引了包括苹果、华为、腾讯等公司或机构的项目落地。大数据发展惠及政用、商用、民用多个领域,给当地民众生产、生活方式带来显著改变。1.8大数据的发展现状和趋势3.我国大数据产业发展现状

阿里巴巴、百度和华为等龙头企业持续深化大数据布局和应用创新。例如,从2020年到2022年,阿里云分布式数据库PolarDB市场份额位居全球云数据库第三位及中国市场第一位。浪潮集团、中科曙光、美林数据等基础技术型企业向医疗、电力、能源等领域进一步下沉专业化服务,浪潮集团“基于健康医疗大数据的医养健康创新应用”、中科曙光“面向智慧电力的大数据智能分析平台”、美林数据“基于知识图谱技术的能源企业数据资产管理应用”入选工业和信息化部2020年大数据产业发展试点示范项目。

2021年5月,国家发展和改革委员会等4个部门印发《全国一体化大数据中心协同创新体系算力枢纽实施方案》,提出坚持新发展理念,坚持改革创新、先行先试,推动数据中心、云计算服务、数据流通与治理、数据应用、数据安全等统筹协调、一体设计,加快打造一批算力高质量供给、数据高效率流通的大数据发展高地。统筹围绕国家重大区域发展战略,根据能源结构、产业布局、市场发展、气候环境等因素,在京津冀、长三角、粤港澳大湾区、成渝,以及贵州、内蒙古、甘肃、宁夏等地布局建设全国一体化算力网络国家枢纽节点(以下简称“国家枢纽节点”),发展数据中心集群,引导数据中心集约化、规模化、绿色化发展。1.8大数据的发展现状和趋势3.我国大数据产业发展现状

目前我国大数据发展态势良好,但是大数据人才还很缺乏。根据中华人民共和国人力资源和社会保障部发布的《新职业——大数据工程技术人员就业景气现状分析报告》,2020年中国大数据行业人才的需求规模达到210万人,且未来5年内仍将保持30%~40%的增速,需求总量预计为2000万左右。未来大数据领域的人才需求,主要包括大数据专业技术人才和跨领域的综合型人才。大数据专业技术人才主要从事数据分析、数据挖掘、人工智能模型与算法开发,以及大数据工程应用和实施等工作;跨领域的综合型人才主要从事资源整合、行业应用和大数据相关法律领域的工作。从大数据从业人员的数量和质量,以及各大高校和培训机构人才培养的现状来看,目前所培养的大数据人才远远满足不了目前国内市场的大量需求,高端人才尤其稀缺。1.8大数据的发展现状和趋势3.我国大数据产业发展现状

中国信息通信研究院发布的《大数据白皮书(2022年)》报告显示,2021年我国大数据产业规模增加到1.3万亿元,复合增长率超过30%;发表大数据领域论文量占全球31%,大数据相关专利受理总数占全球超过50%,均位居第一;大数据市场主体总量超18万家,大数据相关企业获得的投资总金额超过800亿元,再创历史新高。1.8大数据的发展现状和趋势3.我国大数据产业发展现状

工业和信息化部发布的《“十四五”大数据产业发展规划》提出,到2025年,中国大数据产业测算规模突破3万亿元,年均复合增长率保持在25%左右,创新力强、附加值高、自主可控的现代化大数据产业体系基本形成。《“十四五”大数据产业发展规划》论述了我国大数据的发展成效。

一是产业基础日益巩固。数据资源极大丰富,总量位居全球前列。产业创新日渐活跃,专利受理总数全球占比近20%。基础设施不断夯实,建成全球规模最大的光纤网络和4G网络,5G终端连接数超过2亿,位居世界第一。标准体系逐步完善,33项国家标准立项,24项发布。1.8大数据的发展现状和趋势3.我国大数据产业发展现状

二是产业链初步形成。围绕“数据资源、基础硬件、通用软件、行业应用、安全保障”的大数据产品和服务体系初步形成,全国遴选出338个大数据优秀产品和解决方案,以及400个大数据典型试点示范。行业融合逐步深入,大数据应用从互联网、金融、电信等数据资源基础较好的领域逐步向智能制造、数字社会、数字政府等领域拓展。

三是生态体系持续优化。区域集聚成效显著,已建设了8个国家大数据综合试验区和11个大数据领域国家新型工业化产业示范基地。一批大数据龙头企业快速崛起,初步形成了大企业引领、中小企业协同、创新企业不断涌现的发展格局。产业支撑能力不断提升,咨询服务、评估测试等服务保障体系基本建立。数字营商环境持续优化,电子政务在线服务指数跃升至全球第9位,进入世界领先梯队。1.8大数据的发展现状和趋势3.我国大数据产业发展现状

根据2022年IDC(国际数据公司)最新的数据显示,2021年全球大数据市场的IT总投资规模为2176.1亿美元(约1.5万亿元人民币),并有望在2026年增至4491.1亿美元(约3.1万亿元人民币),5年预测期内(2021—2026)实现约15.6%的复合年增长率。中国市场方面,IDC预计,2026年中国大数据IT支出规模预计为359.5亿美元(约2482.73亿元人民币),市场规模位列单体国家第二。从增速的角度来看,中国大数据IT支出5年CAGR约为21.4%,位列全球第一。中国大数据市场支出预测如图1-8所示。1.8大数据的发展现状和趋势1.8.2大数据的发展趋势

中国信息通信研究院发布的《大数据白皮书(2022年)》认为,经过多年技术和产业的发展,大数据产业内部逐渐细化,形成数据存储与计算、数据管理、数据流通、数据应用、数据安全五大核心领域。五大核心领域当前呈现不同发展现状,在数据要素大战略的新形势下,发展方向均进一步明确:一是数据存储与计算的发展方向聚焦为在持续提升能力基础上,通过精细化运营和技术升级实现“降本提质”;二是数据管理的发展方向聚焦为尽快借助政策红利和智能技术带来的改变,促进各行业大规模实现全域数据管理;三是数据流通的发展方向聚焦为通过建设基础制度、创新流通技术,实现数据流通过程中安全与效率的平衡,从而构建全社会范围数据规范化流通;四是数据应用的发展方向聚焦为通过变革业务模式、优化相关技术,使数据应用与全域业务深度融合;五是数据安全的发展方向聚焦为兼顾安全与效率,从而实现安全左移的自动化与风险治理的智能化。1.8大数据的发展现状和趋势1.8.2大数据的发展趋势

中国信息通信研究院发布的《大数据白皮书(2022年)》对大数据五大核心领域的发展趋势和面临的挑战提出了以下观点。1.8大数据的发展现状和趋势(1)数据存储与计算领域

未来,该领域呈现以下3个趋势:一是技术和管理双管齐下,探索数据存储与计算技术平台精细化运营之路;二是数据编织,全密态数据库等新理念、新技术不断成熟,为数据要素的价值释放提供更有力的技术基础;三是我国数据存储与计算领域的技术和产品将逐步走向海外市场。

在挑战方面,首先,数据存储与计算技术平台规模体量大、建设周期长、前期投放高,但投资回报率却相对较低,其建设和运营成本仍需控制;其次,当前数据要素市场建设面临数据权属、定价、安全保护等难题,促进数据要素市场化的数据存储与计算技术创新仍需加强。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论