版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章大数据安全、开放与共享演讲人2024/12/24目录7.1大数据安全与隐私保护7.2大数据生命周期中的安全与隐私7.3大数据开放与共享017.1大数据安全与隐私保护7.1.1大数据安全与隐私保护的概念数据安全的本质是保证信息媒介、网络和存储介质中的数据资源免受威胁、破坏,保障数据的安全性。传统数据安全包含两个层次:一是数据行为的安全,二是数据内容的安全。表7-1给出了常见的数据安全威胁类型。一方面,在数据正常的行为中,通常会受到计算机病毒、黑客攻击和物理存储介质损坏的威胁;另一方面,在数据的采集、存储和使用时,数据的内容也可能受到篡改、误差和操作失误等内容破坏的风险。与传统数据安全类似,大数据也会受到两个层次的安全威胁,同时大数据在质量和价值上实现了提升,且数据形式变得多样化,使其安全原则和需求也在大数据场景下得到了展开和引申。7.1.1大数据安全与隐私保护的概念表7-1常见的数据安全威胁类型7.1.1大数据安全与隐私保护的概念首先,大数据成了网络攻击的首要选择目标。在互联网运行过程中,不同网络空间中将会产生该领域的海量大数据。以微博APP为例,每天产生5亿+条数据,涵盖文字、图像、音频和视频等类型,是一个容易被发现的巨大目标。在微博社交网络中,不但包括用户日常生活的交互数据,还包括用户的个人隐私信息,黑客攻击该目标能获得较大的收益。其次,大数据隐私泄露风险大幅度提升。不同于传统数据存储在较为完备的关系型(“SQL数据库”)中,大数据通常选择使用非关系型(“NoSQL数据库”)存储,例如:HBase,MongoDB和Redis等。这类数据库由于发展历史较短,没有完备的安全机制,且通常构建在分布式环境中,存在频繁的网络交互,增加了隐私泄露的风险。7.1.1大数据安全与隐私保护的概念再者,大数据技术被黑客作为攻击手段。与正常的大数据分析和挖掘相同,黑客攻击过程也可以借助大数据分析和挖掘方法。例如,黑客可以收集与攻击目标相关的行为数据,建立数据画像和习惯偏好,猜测其偏好使用的密码组合,进而通过暴库等方式盗取用户口令。海量的大数据在惠及我们学习、生活的同时,也丰富了黑客的攻击手段。最后,大数据技术衍生出更多的攻击方式。大数据分析与挖掘方法为我们提供了非常便利的功能,但是这些新兴功能也会成为黑客的攻击对象。以人脸识别为例,为了攻击人脸识别模型,研究者通过人工智能技术生成若干张人脸,并筛选出能够成功通过绝大多数人脸识别模型的人脸图像。【案例7-1】逃脱绝大多数人脸识别系统的“万能人脸”。7.1.1大数据安全与隐私保护的概念图7-1展示了人工智能技术生成的9张“万能人脸”,这些人脸图像能够欺骗绝大多数的人脸识别模型,达到绕过人脸识别安全屏障的目的。实际上,针对大数据应用场景衍生出来的攻击方法,其防范难度远高于传统攻击方法,仅仅依靠传统单个时间节点的安全防护机制无法匹配到攻击威胁。图7-1人工智能技术生成的9张“万能人脸”7.1.1大数据安全与隐私保护的概念大数据包含多种类别,如政府公开数据、科学研究数据、社交媒体数据以及企业应用数据等。除了大数据的安全需求以外,源自个人、企业等带有敏感信息的大数据,还普遍存在隐私保护的需求。目前,在企业大数据开放与共享中,主要将个人数据进行匿名处理,从而达到保护个人隐私目的。事实上,在大数据分析与挖掘技术加持下,简单的数据匿名无法达到真正保护用户个人隐私目的。例如,著名影视租赁公司Netflix曾经匿名公开部分用户数据,用于电影推荐算法竞赛。在竞赛过程中,虽然用户数据得到了匿名保护,但是隐藏在大数据中的个人信息,还是被参赛选手设计的算法挖掘出来。大量的研究已经表明,由于大数据中隐含有密度低、价值高的信息,仅靠简单的个人信息标识去除,7.1.1大数据安全与隐私保护的概念无法有效保证用户的隐私安全。此外,随着人工智能技术的飞速发展,基于大规模的身份重识别攻击,攻击者从多源异构数据中进行交叉对比、系统分析,从而逆向分析出匿名身份信息,导致个人或企业敏感信息泄露。另一方面,在个人或企业行为大数据场景下,个人或企业的状态、行为与偏好都能够从行为大数据中挖掘得出。例如:黑客可收集用户的网上购物信息、旅游打卡信息、影评信息以及出行交通工具信息,通过多个数据源的交叉完成跨账号关联,运用人工智能方法对用户信息建模,可准确输出用户画像和真实身份,进而预测用户接下来的行为。以社交网络为例,一些研究者通过分析新浪微博APP的社交网络和社群信息,从而曝光出明星不良行为,导致明星形象危机;另外,针对Twitter的用户行为分析,7.1.1大数据安全与隐私保护的概念也挖掘出了用户的政治倾向、消费习惯以及日常行为偏好,暴露出用户的敏感属性等信息。因此,面向终端的行为大数据分析,目前还缺乏有效的监管措施,主要依靠企业的自律。在商业化的大数据应用环境中,一方面企业需要通过大数据分析与挖掘,建立有效的推荐、预测模型;另一方面企业又需要保护好挖掘出的用户隐私不受侵犯,二者之间的界定还缺乏规范准则。在当前的社交媒介中,用户无法确定自己的隐私信息用途,而真正意义上的隐私保护,无论是企业或是个人,都应有权决定自己的信息如何被使用,实现可控的隐私保护。7.1.2大数据安全与隐私保护的挑战大数据安全需求聚焦于数据本身,即包含大数据传输、存储、分析和挖掘过程中,数据的完整性、真实性、机密性以及归属权;隐私保护需求强调针对“用户”视角,即包含用户的敏感信息,且这些信息既可能是直接存储的用户行为数据,例如:用户名、密码、邮箱等;也可能是通过数据分析与挖掘后的用户行为信息,例如:政治倾向、出行习惯、购物偏好等。关于大数据的安全性和用户的隐私性,目前的界定方式还不明确,例如:一些研究视角认为用户偏好信息服务于数据分析与挖掘,对个人隐私的关注度不高;另一些研究视角则认为用户偏好信息包含了隐私,这些内容涉及到大数据伦理科学,亟待更多的相关研究。接下来,我们分析大数据安全与隐私保护的挑战。在大数据场景下,由于大数据具备的体量大、种类多、速度快、价值高的特性,在保证大数据具有经典数据安全需求基础上,还需要应对大数据“4V”特性带来的各项新技术挑战。7.1.2大数据安全与隐私保护的挑战平衡大数据可用性与机密性敏感数据的机密性一直是信息安全领域中的重要研究方向之一。在经典数据安全中,为了保证敏感数据的机密性,通常使用加解密算法实现敏感数据的保护。针对大数据场景中的敏感数据,一方面存在物联网等高速流动的数据形式,另一方面大数据的存储和计算通常采用分布式架构。若采用同样的加密手段保护敏感数据,在存储和计算时需对敏感数据进行重复的加解密过程,导致分布式架构的性能瓶颈,同时也会造成部分数据丢失可用性。所以,针对大数据的加解密过程,需要充分考虑数据存储和计算时的分布式架构,对加解密算法的并行性能提出了更高的要求。然而,为了保证分布式存储和计算的高效率,目前工业、商业等场景中的大数据都处于无保护状态,运行过程中存在严峻的安全隐患。因此,面向大数据的分布式存储和计算架构,设计合适的敏感数据加解密方案,平衡大数据可用性与机密性是大数据的安全与隐私保护的首要挑战。7.1.2大数据安全与隐私保护的挑战保证大数据开放共享的安全大数据的真正价值在于充分挖掘与利用,数据的开放与共享成为了大数据在利用过程中的关键步骤。在经典的数据开放与共享中,数据的安全共享采用访问控制手段,即为不同等级的数据访问者设置不同权限。然而,在大数据的开放与共享场景中,由于数据的结构多样、种类繁多,使得实施正确的访问权限控制变得更为困难。以互联网大数据为例,针对用户使用手机APP产品的行为数据,一方面数据挖掘服务商想要频繁的访问行为数据,构建用户画像并为用户推送更为精准的内容;另一方面数据挖掘服务商又不可过度访问用户信息,侵犯用户的个人隐私。因此,在大数据场景下,不能仅仅使用机械式的访问权限控制,而应该针对不同角色设置智能化的访问控制权限。根据不同的大数据开放与共享场景,构建动态的安全管理策略,是大数据的安全与隐私保护的第二个挑战。7.1.2大数据安全与隐私保护的挑战实现大数据的可信溯源大数据时代背景下,人们每天都需要接收海量的大数据,面临着大数据真实性带来的风险。当大数据中存在虚假信息时,往往会对大数据的分析造成偏差,进而影响人们的决策误判。例如,在网络购物中,虚假的商品信息、图像展示造成消费者的认知偏差,从而购买到不太实用甚至毫无意义的商品。在传统数据的记录和清洗过程中,有大量的人为干预操作,可保证数据的真实性,即任何数据都是可信溯源的。然而,面向海量大数据,人为干预将会付出大量成本,通常采用自动化的数据采集、清洗和存储过程。在此过程中,无法自动甄别数据源是否刻意伪造,并且在海量大数据采集中不可避免的引入人工操作误差,这些错误将在分布式架构中被逐步放大,影响最终的大数据分析准确性。因此,大数据安全与隐私保护的第三个挑战是实现大数据的可信溯源,在大数据来源真实性、传播误差累积和存储处理中,均建立数据可信度指标,杜绝带有偏差的大数据。7.1.2大数据安全与隐私保护的挑战破除大数据分析的个体差异大数据分析和挖掘算法能够从已有的大数据中挖掘出有意义的知识,从而应用到不同的领域,为人们的学习、生活带来极大的便利。然而,其为人们的生活带来便利的同时,也会被用于差异化对待不同个体的违法违规行为,包括“信息茧房”和“算法歧视”等。信息茧房是指人们关注的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏在像蚕茧一般的“茧房”中。在信息茧房中,人们仅能关注到对自己有利、感兴趣的信息,这是由于大数据分析和挖掘提供的巨量知识,涵盖了个体的思想空间。长期信息茧房的生活,将会造成个体的盲目自信,思维方式出现偏见等危害。“算法歧视”则是通过大数据分析和挖掘结果区别对待不同个体。例如,在互联网中旅游类的APP,会根据不同消费者的历史消费记录、行为记录等大数据挖掘结果,为不同消费水平的消费者指定相应的门票、酒店价格,这也被称为“大数据杀熟”,是典型的算法歧视应用之一。7.1.3大数据安全与隐私保护策略大数据时代背景为数据安全和隐私保护提出了更高的要求,其策略主要包含从国家机构层面、企业层面和个人层面,分别包含:7.1.3大数据安全与隐私保护策略国家法制层面立法监管当前,我国涉及到数据安全与隐私保护的法律主要包含:《电信和互联网个人信息保护规定》、《互联网个人信息安全保护指南》、《全国人大常委关于加强网络信息保护的决定》、《中华人民共和国网络安全法》等。目前,现有国家法律法规制定的对象为网络信息、个人信息等方面的保护。在大数据时代背景下,还需要完善对政务、企业和个人大数据安全的立法,尤其是针对如何合理地进行大数据分析与挖掘,也需要出台相应的标准和细则。表7-2和表7-3给出了我国数据安全相关政策法规和技术标准历程。7.1.3大数据安全与隐私保护策略国家法制层面立法监管表7-2我国数据安全相关政策法规历程7.1.3大数据安全与隐私保护策略国家法制层面立法监管表7-3我国数据安全相关技术标准历程7.1.3大数据安全与隐私保护策略企业数据安全源头遏制在互联网应用中,企业作为个人用户数据的采集、传输、存储和挖掘的使用者,需要遵循国家制定的个人信息保护法律法规制度。除此之外,个人用户大数据挖掘结果通常包含隐私信息,在建立大数据挖掘应用时,应该制定挖掘结果的使用范围,只能收集所需范围内的用户大数据,且不能在用户不知情的情景下直接使用大数据挖掘结果。同时,企业人员对于个人隐私信息的采集和存储过程,也需要制定相应的规章制度,避免因为误操作导致个人隐私信息泄露。7.1.3大数据安全与隐私保护策略提高公民大数据安全意识在互联网时代中,公民逐渐习惯网络互联的方式,并逐渐意识到网络通信过程中的个人隐私问题,例如:设置复杂的个人用户密码组合。在大数据背景下,互联网中传播的数据更为多样化,每个公民都应该主动了解其中的个人隐私泄露问题,提高大数据安全意识。例如:认真阅读手机APP的用户数据收集政策、不随意向陌生人展示自己的定位信息、不长时间浏览相同的网页信息等。7.1.4大数据信息安全应用大数据时代背景下,对大数据安全和隐私保护带来挑战的同时,大数据分析技术又为信息安全技术带来了全新的发展。目前,大数据分析技术主要用于威胁检测、身份认证、真实性鉴别,以及构建“安全即服务”,不但扩展了现有信息安全技术的应用,还基于大数据构建了全新的信息安全应用。7.1.4大数据信息安全应用大数据威胁检测在信息化时代,针对互联网通信、数据的攻击手段不断涌现,威胁检测是政府、企业解决网络安全问题的重要手段之一。传统的威胁检测方法主要采用“保护(Protect)-检测(Detect)-响应(Response)-恢复(Recovery)”的PDRR模型,通过分析现有威胁的类型和种类,构建网络安全保护屏障。随后,通过不间断的检测过程,检测到威胁后开启响应过程,响应完成后恢复遭受威胁的网络环境。实际上,PDRR模型存在诸多不足之处:一是只能检测到现有已知的网络安全威胁类型,无法检测未知的网络安全威胁类型;二是检测的威胁类型通常是小范围、短时间的攻击威胁,所检测的攻击范围小,时间跨度短;三是无法对即将到来的网络安全威胁进行预测,只能被动的采取检测->响应->恢复的过程。7.1.4大数据信息安全应用大数据威胁检测基于大数据分析的威胁检测则是通过收集网络态势大数据,通过人工智能、机器学习和数据挖掘方法建立网络安全威胁检测模型,从而达到检测网络安全威胁目的。基于大数据分析的安全威胁检测方法具有更好的优势:一是能够进行更全面的安全威胁分析。不同于传统的安全定式分析,大数据分析方法可收集全面的流量、日志、通信以及文件传输数据,能够更好地针对特定的“信息资产”进行威胁检测,威胁检测分析的层面更广;二是能够分析跨度更长的网络安全威胁。如今的黑客攻击可能更为隐秘,通过长时间的蛰伏进行攻击,大数据分析方法则能够长时间监测流式数据,从而检测出此类攻击;三是能够对攻击进行预测。不同于传统方式的被动检测,大数据分析技术天然带有预测性质,通过分析当前网络安全态势数据,可以检测出将来可能遭受的安全威胁,使主动防御更早介入;四是能够检测已知攻击以外的新型攻击。大数据分析模型旨在构建因果关联分析,能够有效从大数据中分析出未知的安全隐患。7.1.4大数据信息安全应用大数据威胁检测如今,各大企业都配备了基于大数据的威胁检测系统,通过大数据的分析构建威胁检测系统。以腾讯云平台的高级威胁检测系统为例,如图7-2所示,该系统采用集群化部署,设置探针记录不同IT资产组的流量日志和文件形成网络安全态势大数据,在集群中设置沙箱捕捉恶意攻击意图,生成威胁情报并上传至服务器进行威胁检测分析。图7-2腾讯云平台基于大数据的高级威胁检测系统(T-Sec)架构图7.1.4大数据信息安全应用大数据威胁检测基于网络安全态势大数据,高级威胁检测系统(T-Sec)提供全面的威胁检测:(1)深度威胁检测:采用人工智能、机器学习和统计学模型分析网络安全态势大数据,深度检测网络中可能存在的、潜伏的威胁;(2)持续大数据分析:通常,定向的网络攻击并不在短时间内完成,为了防范持续的攻击,依靠大数据模型对多维数据进行长时间的跟踪分析,给予用户安全威胁事件报告;(3)全面的检测工具:提供安全、先进的交互式方法,包括域名解析、勒索病毒检测、账号密码及邮件的安全设置,以及提供威胁云检索,联动分析,以及威胁追溯等全面的检测工具。7.1.4大数据信息安全应用大数据身份认证身份认证是互联网服务中最为常用的技术之一,且由于身份认证与利益相关通常面临较大的信息安全困扰。传统的身份认证采用复杂的口令、密码或数字签名在客户端和服务端之间进行认证。传统身份认证技术主要面临两个方面的挑战:一是口令和密钥的攻击者,不但可以通过强制手段(如:黑客通过全盘扫描数据库获取用户的口令和密钥)获取,也可以通过社会工程手段从用户手中骗取,其过程较为隐蔽且难以防范;二是越安全的认证方式其口令和密钥越复杂,降低了用户在使用时的便捷性(如:加密程度较高的银行账户配备U盘加密狗),使用不便限制了此类技术的发展。基于大数据分析技术能够建立全新的用户身份认证手段。不同于经典的密码或签名,大数据分析技术主要依托于对用户行为数据的挖掘,构建特定用户使用特定系统、设备时的行为识别模型。7.1.4大数据信息安全应用大数据身份认证该模型根据当前操作者的一系列行为,识别是否为正常用户,与传统口令或签名的认证方式不同。一方面,用户行为数据通常由长期积累的大数据组成,不可再通过强制手段或社会工程学手段轻易获取,攻击者很难在短时间内模拟正常用户长期积累的行为大数据;另一方面,采用大数据分析的身份认证技术,不再需要用户记住复杂的口令,或使用繁琐的加密硬件,只需要用户采用自己最习惯的方式即可安全登录。此外,由于单个用户在任意的信息系统、设备中的使用习惯基本一致,基于大数据分析能够跨系统、设备构建统一的身份认证模型。用户可以自由地在互联网空间中切换系统,不再为不同系统、设备设置不同密码,每次登录不同系统、设备,无须复杂的身份认证过程。7.1.4大数据信息安全应用大数据身份认证虽然基于大数据分析的身份认证避免了传统身份认知缺陷,但其本身也存在一些问题,主要包括:一是通过大数据分析用户的行为数据,构建用户行为画像,其本身容易造成对用户个人隐私的侵犯,需要设置安全规则保护个人隐私;二是“冷启动”问题,顾名思义,在采用用户行为大数据构建身份认证模型初始期,没有足够数量的行为数据用于构建用户画像,这时需要寻找“冷启动”时期身份认证的替代方案。因此,如今基于大数据身份认证系统,其冷启动初期还需要借助于传统口令、签名等方式过渡,当收集到足够量的用户行为大数据时,方可使用大数据分析技术构建身份认证过程。这将是此类方法今后发展亟待解决的重要问题之一。7.1.4大数据信息安全应用大数据真实性鉴别信息和数据的真实性鉴别在信息安全服务中占据重要地位。在大数据时代背景下,大数据分析方法被广泛应用于数据的真实性识别。表7-4给出了基于大数据真实性检测的主要信息安全应用服务。实际上,基于大数据的分析和挖掘能力,信息安全服务提供商能够提供更好的真实性识别服务。以虚假评论的鉴别为例,在大数据场景中,收集手机的评论者的评价信息、位置信息、历史浏览信息、新闻观看习惯和评论时间等数据,通过大数据分析技术能够提升真实性鉴别的精准度。7.1.4大数据信息安全应用大数据真实性鉴别表7-4基于大数据真实性识别的信息安全应用服务7.1.4大数据信息安全应用大数据真实性鉴别在大数据中,若对评论者的用户画像进行分析,在评论历史中发现对于某些内容具有严重的恶意评论倾向,可判断该评论者对于特定内容的恶意评论倾向。此外,当前的鉴别都采用已有的信息和知识作为特征,在大数据场景中利用数据挖掘算法,可以挖掘出更多潜在的隐藏特征,更有助于进行真实性识别任务。7.1.4大数据信息安全应用面向大数据的“安全即服务”大数据发展带来了全新的云计算模式,云计算提供“基础设施即服务”、“平台即服务”和“软件即服务”,为不同的大数据应用层级提供资源共享标准化服务。与此同时,在大数据技术的影响下,信息安全也会迎来更全面、丰富的应用与服务,将逐渐发展出“安全即服务”的标准化服务场景。“安全即服务”将以大数据分析技术为基础,在大数据的采集、传输、存储和分析中建立数据的安全管理技术,并结合领域技术特色,提供特定场景的安全服务。在未来,“安全即服务”将以大数据为基础提供应用基础服务,构建跨政府部门、跨企业的安全信息服务支撑体系,形成信息安全产业边界,构建可持续发展的大数据信息安全管理和防御的闭环。027.2大数据生命周期中的安全与隐私7.2.1大数据采集与传输中的安全与隐私大数据采集与传输中的安全与隐私与采集对象有关,一般包含政务大数据、企业大数据和个人大数据。政务大数据指的是政府及事业单位各部门管理过程中产生的大数据,包含公安、交通、气象、文化、金融、医疗、社保、农业和民生等数据。7.2.1大数据采集与传输中的安全与隐私政务大数据采集与传输中的安全问题政务大数据的特点是分工明确,分管不同行业的部门或事业单位负责相应行业的数据采集。例如,利用政府资源可以采集并汇总的大数据类别,包含财政大数据、农业大数据和环境大数据等;以及事业单位在生产、管理过程中采集到的大数据,包含从医院信息管理系统、学校信息管理系统和交通信息管理系统采集到的大数据;此外,还有政府部门行使监管职责时采集的大数据,例如人口普查数据、医保社保数据和食品药品数据等。政务大数据在采集过程中分工明确,由政府下属机构或事业单位采集后,通过网络传送至政府信息中心存储,或者由分支机构存储汇总后上报给信息中心。实际上,由于不同机构或事业单位的工作性质差异,所采集到的政务大数据通常较为分散,数据结构多样化,且交互过程中可能存在管理漏洞。通常,政务大数据中包含有大量敏感信息,一旦被滥用将会对社会公众的生活产生影响。7.2.1大数据采集与传输中的安全与隐私企业大数据采集与传输中的安全问题企业大数据指的是企业运营过程中产生的大数据,不同类型的企业在大数据采集过程时,所遭受的大数据安全隐患通常包含网络传输拦截攻击、黑客入侵以及管理漏洞等。除此之外,不同类型的企业还包含特定的安全问题,表7-5给出了不同企业大数据在特定场景下数据采集时的安全隐患。由表中可知,企业大数据采集过程中需要根据自身业务逻辑,设计相应的策略防范数据采集过程中的安全隐患。与政务大数据不同,企业大数据的敏感信息通常包含企业的商业机密或企业产品的用户个人信息,这些信息通常具有较高的商业价值,是黑客等攻击者的首要目标。针对企业大数据,黑客的攻击手段主要使用漏洞入侵或分布式拒绝服务(DistributedDenialofService,DDoS)以及DNS劫持等。7.2.1大数据采集与传输中的安全与隐私企业大数据采集与传输中的安全问题为了应对这些攻击手段,通常在数据采集过程中使用安全套接层(SecureSocketsLayers,SSL),保证企业大数据传输和采集过程的安全性。然而,现有黑客攻击和安全防护手段都仅针对常规的企业数据采集,对于企业大数据采集的新特点,目前也可能出现基于人工智能等方法的全新攻击手段,以及相应的防护手段,对于企业大数据的攻防过程都将伴随着数据量级的变化断改变。7.2.1大数据采集与传输中的安全与隐私个人大数据采集与传输中的安全问题表7-5常见企业在特定场景数据采集时的安全隐患7.2.1大数据采集与传输中的安全与隐私个人大数据采集与传输中的安全问题个人大数据的采集则拥有更为丰富的手段,目前主要集中在计算机终端或移动设备上。以个人行为大数据为例,在客户端(如个人计算机或手机)收集用户的个人信息,定期发送给服务端,进行存储和分析。在收集和传输过程中,存在如下几点数据安全隐患:7.2.1大数据采集与传输中的安全与隐私敏感隐私信息泄露个人数据中最重要的信息包括:账号、密码等身份信息、位置信息、语音信息以及软件交互的操作信息等。一方面,由于用户的安全意识薄弱,默认客户端(如APP等)收集自己的敏感信息;另一方面,由于计算机病毒和木马等篡改个体信息,使个人数据遭到泄露和破坏。例如:某APP基于位置服务自动收集用户的位置信息,上传至服务器汇总,当服务端滥用这些信息时将会泄露用户的行踪。此外,基于用户语音数据和操作习惯数据,也可能挖掘出用户近期的兴趣爱好,这些挖掘结果也属于用户的敏感隐私信息,如果不加以管控,也将会出现滥用隐私泄露的问题。7.2.1大数据采集与传输中的安全与隐私数据完整性存疑目前,基于客户端(如APP等)的数据采集手段,通常设置数据缓冲区,不断记录用户的相关数据,当缓冲区满后一次性上传至服务端。在上传过程中,数据的完整性将受到网络波动的影响。如果缺少数据完整性的检验,在大数据场景下,很容易造成部分数据丢失,影响用户数据的准确度。不完整的用户个人数据一方面将会影响关于用户的业务逻辑,另一方面则会影响大数据分析的结果,造成用户画像的偏差。7.2.1大数据采集与传输中的安全与隐私数据遭受劫持攻击个人数据的采集包含从客户端到服务端的数据传输,将不可避免地出现黑客对数据的劫持和攻击。在客户端向服务端传递数据过程中,用户对客户端(如APP等)的数据使用权限可能被劫持,进而遭受黑客的篡改。同时,所传输的数据也容易被黑客解密,进而伪造其中的关键信息,最终将伪造后的数据发送给服务端。当服务端缺乏对数据传输过程的监管时,很可能采集到伪造后的用户数据,后果不堪设想。7.2.1大数据采集与传输中的安全与隐私数据遭病毒或木马篡改个人数据除了在客户端与服务端传输过程中容易遭受黑客劫持攻击,在客户端甚至服务端也有可能被植入的病毒或木马篡改。病毒或木马可通过故意诱导用户操作而植入到客户端,例如:诱导用户打开含有木马的邮件,使其植入客户端操作系统中,进而在客户端中篡改用户数据。如果将经过篡改后的用户数据发送至服务端,也会造成不良后果。【案例7-2】中心医院内部人员不良操作导致个人信息泄露。
2020年4月,在青岛胶州市中心医院疫情防控过程中,由于工作人员的操作失误,导致6000多名中心医院出入人员数据泄露,造成不良的社会影响。经警方调查,该案件系中心医院内部工作人员失误操作导致个人信息泄露,借助于互联网的快速传播能力,导致大量医院出入人员的个人信息泄露。在政务大数据的采集和存储中,内部人员或机器能够直接接触到最原始的数据。这些数据中往往包含了较多的个人或国家敏感信息,不良的误操作或有意的滥用,都将造成过安全隐患,非法使用将会影响国家信息安全。7.2.2大数据存储中的安全与隐私大数据一般在云端采用分布式架构存储,云端通常包含多台存储设备,根据用户需要提供数据托管服务,用户将数据托管存储在云端。实际上,云服务提供商为不同级别的用户设置不同的云端访问口令,用户根据自己的权限在云端存取数据,但是云存储也面临着数据安全问题。虽然云端提供了安全接入技术,而且将云服务划分为公有云、混合云和私有云,但是用户在云端存储的数据也可能出现被窃取、丢失的可能。在云服务器上,大数据分布式存储存在的安全隐患包括:7.2.2大数据存储中的安全与隐私云服务器遭受攻击与普通服务器一样,云服务器既需要与多个用户客户端交互询问数据存储情况,还需要与多个存储客户端交互数据的实际存储过程。交互过程一般采用网络通信,如果通信过程被黑客入侵、劫持,将使用户在云服务器上的数据被伪造、篡改,造成经济损失。7.2.2大数据存储中的安全与隐私云服务器管理漏洞云服务器可能存在的管理漏洞也会造成安全隐患。富有经验的云服务器提供商一般采用加密文档传输,为不同级别的用户建立账号、密码,防止用户数据被非法阅读、窃取。当然,若云服务器存在技术或管理上的漏洞,也会造成用户数据的存储安全隐患。7.2.2大数据存储中的安全与隐私云服务器遭受灾害通常,云服务器提供商将集群建立在可靠的自然环境中,尽量避免自然环境灾害对云服务器造成影响,例如:火灾、地震或洪水等。此外,成熟的云服务器提供商也会建立数据保护和灾难恢复等措施。然而,自然灾害可能无处不在,且具有突发的属性,事先制定的策略往往在真实场景中难以顾全。例如:自然灾害突然中断服务器的供电,在恢复供电时可能造成电力浪涌,最终造成数据丢失且难以挽回。另外,大型企业通常构建自己的大数据分布式存储架构,在自建的大数据分布式存储架构中,其面临的大数据存储安全隐患与云服务器类似,包含通信过程中的黑客入侵、存储服务的安全漏洞以及突发的自然灾害等。这些都会导致企业级用户数据被篡改、伪造以及丢失,带来难以估量的经济损失。7.2.3大数据分析挖掘中的安全与隐私政务、企业和个人大数据经过采集、传输和存储后,最重要的应用场景是大数据的分析和挖掘。随着人工智能技术的飞速发展,基于数据科学与智能技术的大数据挖掘方法,能够将海量大数据有机的联合起来,从看似不相干的数据中挖掘出有意义的信息。例如:沃尔玛超市的研究者通过关联分析,得出如下结论:超市中购买尿布的男顾客同时也会购买啤酒,从而将尿布和啤酒放在一起,能够提升二者的销量。大数据不但能够应用到商业促销关系分析,同样也能够从个人大数据中挖掘出有效信息。例如:将个人用户的消费记录、商品搜索记录、位置信息、语音信息和聊天信息关联起来,通过大数据挖掘算法即可勾勒出该用户的画像。用户画像包含了部分用户的个人隐私,将其暴露在互联网中也会造成安全威胁。7.2.3大数据分析挖掘中的安全与隐私同时,大数据挖掘算方法也会成为黑客的攻击手段。通过常规渠道收集用户数据,或劫持用户数据,黑客能够从收集到的企业、个人大数据中挖掘出隐私信息,分析企业之间或用户之间的关联信息,用于设计计算机病毒、木马和入侵方法,给用户带来不小的安全隐患。如图7-3所示,黑客采用数据科学分析方法与智能技术应用方法,从海量行为大数据中挖掘出行为之间的关联关系,进而预测企业或个人的下一步行为,并设计入侵策略,将会对下一步行为构成极大的安全威胁。7.2.3大数据分析挖掘中的安全与隐私图7-3黑客使用大数据分析与挖掘建立行为预测攻击037.3大数据开放与共享7.3.1大数据开放与共享概念随着数据科学理论与智能数据分析技术的发展,作为“资源”主体的大数据受到广泛关注。实际上,大数据真正的价值在于如何合理利用,通过分析与挖掘,获取其中有意义的“知识”。我们知道,大数据的产生来自各方努力,不同行业在业务执行过程中都采集、存储了海量大数据。然而,想要真正利用好行业大数据,大数据的开放和共享成为了关键。目前,研究者基于不同视角给出了开放数据(OpenData)的定义:(1)维基百科定义:开放数据指经过挑选和许可的数据,这些数据不受管理限制,例如著作权、专利权等。开放的数据可以被任何人在任何地点免费获取、使用和分享。(2)开放数据宪章定义:开放的电子数据能够被任何人、在任何时间、地点自由使用和分发,并保证了被开放数据必要的技术和法律特性。(3)乔尔•古林的著作《开放数据》定义:开放数据指公众、企业和机构能够直接接触到,可用于决策、投资、发现趋势、寻找合作伙伴,以及解决复杂问题的电子数据。7.3.1大数据开放与共享概念数据共享(DataSharing)指数据拥有者向其他机构、个人开放数据的行为。数据共享与数据开放不能等价,前者是将特定领域的数据开放给小范围对象,而后者则是面向全体公众开放。一般来说,可用于开放与共享的数据需满足三个条件:一是数据应该未经过预处理,属于采集的原始数据;二是数据应该有统一的读写标准格式;三是数据应该在法律上具有不受限制的再利用权力。在《开放数据宪章》中,也明确了数据开放与共享的五大原则:一是遵循“以开放为常态、不开放为例外”的开放原则;二是保证所开放数据的质量与数量;三是保障数据使用权的平等性;四是改善和治理发布数据的方法;五是鼓励创新的发布数据。7.3.1大数据开放与共享概念在全球范围内,信息技术和数据的开放与共享经历了四个阶段:软件开源阶段、政府数据开放阶段、科学研究数据开放阶段、大数据开放与共享阶段。数据开放与共享经历了由早期的计算机软件、操作系统的开源,到制定国家政务数据和科学研究数据的开放、共享政策,再到大数据时代更为全面、精准的开放与共享政策、法律和规范。我国大数据开放与共享四个阶段的标志性事件如表7-6所示。7.3.1大数据开放与共享概念表7-6我国数据开放与共享四个阶段的标志性事件7.3.1大数据开放与共享概念信息技术发展的早期主要是对计算机软件源码的开源,随着计算机软件在政府、科学研究和商业中被广泛使用后,以政务数据、科研数据和商业数据为主体的数据重要性凸显,相继出台相应的政策、法规和指南。随着大数据时代的来临,大数据的开放与共享成为了政策重点支持对象,尤其是新政策,将大数据列为新型生产要素、建设大数据标准体系,以及完善大数据开放与共享进程中的安全管理规范。近年来,我国地方政府对于大数据的开放与共享也给予了鼎力支持,逐渐呈现出蔚然成林的态势。根据大数据发展促进委员会的《前瞻产业研究院整理》报告中指出,目前,政府各级部门的大数据开放与共享已经成为了最受关注的政府治理领域。2021年中国政府大数据实施进度与发展分析指出,在大数据发展规划的政策、法规和指南中,分别有70%和78%的文件提及到政务大数据的开放与共享。7.3.1大数据开放与共享概念根据中国信息通信研究院的统计结果表明,截止到2020年底,全国有30个省份或直辖市针对大数据开放与共享一共出台了56份政策性文件。目前,大数据的开放与共享已经得到了高度重视,各省份或直辖市以需求向导为主,充分考虑各大行业协会、企业、主管部门以及社会公众的意见,建设数据开放与共享目录清单,动态调整大数据开放与共享的内容。对于大数据开放与共享范围,由早期的政务大数据逐步扩展至企事业单位涉及的公共大数据资源。大数据开放与共享的成果形式也呈现多样化,包括服务应用、数据可视化、创新方案以及研究成果等。7.3.2大数据开放与共享的类别根据麦肯锡研究院在2013年《开放数据:以流动信息释放创新力和效率》的报告中指出,全体数据包含经典事务关系数据和大数据;在大数据中,又包含各类隐私数据和开放与共享的大数据;在所开放与共享的大数据中,主要包含政务大数据、科学大数据、企业大数据和个人大数据。图7-4给出了大数据开放与共享的类别关系。大数据开放与共享具有各种划分方式,这里仅从所开放与共享的大数据所有权出发,分别给出不同类别大数据的开放与共享描述:7.3.2大数据开放与共享的类别图7-4大数据开放与共享的类别关系7.3.2大数据开放与共享的类别政务大数据的开放与共享政务大数据是政府各级部门在履行职责过程中采集、传输和存储的海量大数据。与政治、经济、民生相关的基础性、关键性数据都以政务大数据形式存在。在保证国家、商业机密以及个人隐私前提下,对政务大数据进行开放与共享,对促进社会发展和提升公民生活水平质量具有十分重要的积极作用。政务大数据的开放与共享与政务信息公开息息相关,通过开放大数据保障政务信息的公开、透明。事实上,信息是利用大数据挖掘或人工智能技术从原始大数据中分析出的重要内容。政务大数据的开放指的是由政府部门挖掘出大数据中有用的信息,将信息开放给公众后,保障公众对政务运转的“知情权”,增加政务的透明度;政务大数据共享指政府将在履行职责过程中采集、传输和存储的海量大数据共享出来,提供给社会公众二次开发、利用,激发创新活力,提升政府治理水平。7.3.2大数据开放与共享的类别政务大数据的开放与共享国务院于2015年9月发布的《促进大数据发展行动纲要》指出:“大力推动政府部门数据共享,稳步推动公共数据资源开放”。明确政务信息应该“以共享为原则,不共享为例外”,将“形成公共数据资源合理适度开放共享的法规制度和政策体系”作为中长期目标。2022年9月13日,国务院办公厅印发《全国一体化政务大数据体系建设指南》(国办函〔2022〕102号),向各级政府部门提出要求:“加强数据汇聚融合、共享开放和开发利用,促进数据依法有序流动”。政务大数据的开放与共享,不但能够提升社会公众对政府的认同感,避免政府各级部门内部出现问题;且还能够让更多的组织、机构和个人公平接触、利用到大数据,促进社会的不断发展。2016年6月,国务院印发《关于促进和规范健康医疗大数据应用发展的指导意见》,提出要建立互联互通的健康信息平台,为打造“健康中国”提供有力支撑。该意见提出,要建设统一权威、互联互通的国家、省、市、县四级人口健康信息平台,实现部门、区域、行业间数据开放融合与共建共享。7.3.2大数据开放与共享的类别政务大数据的开放与共享2018年7月12日,国家卫生健康委员会发布《国家健康医疗大数据标准、安全和服务管理办法(试行)》(国卫规划发〔2018〕23号),提出要加强健康医疗大数据服务管理,促进“互联网+医疗健康”的发展,充分发挥健康医疗大数据作为国家重要基础性战略资源的作用,明确由国家卫健委负责建立健康医疗大数据的开放与共享机制。国家卫健委负责按照国家信息资源的开放与共享有关规定,建立健康医疗大数据开放与共享的工作机制,加强健康医疗大数据的共享与交换,统筹建设健康医疗大数据上报平台、信息资源目录体系和共享交换体系。此外,该办法对标准管理、安全管理、服务管理和管理监督四个方面提出了相关的规定和实施办法。7.3.2大数据开放与共享的类别科学研究大数据的开放与共享科学研究数据的开放与共享是实施大数据战略的重要组成部分。科学研究大数据的开放与共享指由个人或机构向社会公众开放经过研究后获得的科学数据,并授权任何人可免费下载、传输、分析和再加工的权利,免除财务、法律或技术上的壁垒。科学研究产生大数据的途径主要包含四个方面:观察数据、计算数据、实验数据和记录数据。当然,随着科学研究的进步,任何一个学科不仅仅采用单一的方式获取科学研究大数据。近年来,随着网络的发展和数据的开放,普通公众也逐渐能够接触到科学研究的相关信息。科学研究大数据的开放与共享从传统的出版领域,拓展到学术交流体系,以及如今的全民科学普及,得到了极大的发展。针对某个领域的科学研究大数据,无论是专业人士或是业余爱好者,都能够下载、使用和存储。科学研究大数据具有的学术价值,也能够获得二次开发和利用,造福更多的行业和产业。7.3.2大数据开放与共享的类别企业大数据的开放与共享企业大数据也是重要的大数据来源之一,国有企业和私营企业在海量用户基础上,都成为了大数据的拥有者。通信领域中的国有企业例如中国移动、中国联通和中国电信,在日常运营过程中拥有海量的通信服务大数据,通过开放与共享这些数据,能够造福社会公众。例如:在疫情防控过程中,通过移动通信大数据的分析,能够定位个体是否与疫情相关人员存在近距离接触的可能,从而能够快速、精准的布控防疫体系,快速稳定疫情的发展。此外,在私营企业领域中,以互联网企业为例,例如淘宝、京东和拼多多等大型电子商务交易平台,多年的运营积累了海量的商品大数据、用户大数据以及购买信息大数据。实际上,私营企业的大数据对社会公众基本上处于完全开放与共享的状态,只需通过数据采集工具即可获取共享的大数据(例如:基于Python的爬虫程序)。一些以检索引擎为主体的企业(例如:百度和谷歌),其数据库中的大数据绝大部分来自互联网公开数据,7.3.2大数据开放与共享的类别企业大数据的开放与共享通过建立搜索引擎方便社会公众方便的共享大数据。虽然企业大数据的开放与共享有利于经济发展和社会创新,但是部分企业为了追求利益最大化,基于隐私保护和商业机密等原因拒绝提供关键大数据的开放与共享,形成各自的“数据孤岛”;另一方面,部分开放的企业大数据,其数据完整性和安全性可能被商业巨头操纵,造成“大数据杀熟”等问题。7.3.2大数据开放与共享的类别个人大数据的开放与共享个人大数据一般建立在科学研究或企业应用之上,指的是个人在科学研究或企业产品(APP)使用时采集或记录到的大数据。个人大数据通常包含两个类别,一是敏感性的个人信息,包含个人在与互联网打交道时产生的个人隐私数据,例如:个人账户、密码、身份证信、银行卡号以及医疗健康信息等;二是非敏感性的个人信息,包含不直接涉及到个人隐私的大数据,例如用户行为数据、用户自愿公开展示的个人数据等。目前,敏感的个人大数据已经被纳入法律、法规保护范围。非敏感的个人大数据虽然不会直接涉及到个人隐私,但是通过海量大数据的分析与挖掘,可能造成个人隐私泄露和被非法侵犯的问题。在数据科学与智能技术飞速发展的今天,层出不穷的大数据分析与挖掘算法,对非敏感个人大数据的开放与共享过程中的隐私保护带来了全新的挑战。7.3.3大数据开放与共享的挑战我们正处于一个科学、技术和商业高速发展的新时代,大数据是新时代发展的催化剂。维克托麦尔-舍恩伯格说过:“世界的本质是数据。”大数据时代来临之际,大数据的开放与共享使得在全球范围内利用、分析和挖掘大数据称为了可能。开放与共享能够极大的凸显大数据带来的价值。随着国家顶层设计与实际策略制定,政府部门与部门之间、政府部门与企业之间的大数据开放与共享都取得了成效。关于大数据的开放与共享,目前已经在全球范围内达成共识,即运用大数据的分析与挖掘,可有效推动经济、社会发展,推行政务、企业大数据的开放与共享已经成为了新趋势。在全球范围内,大数据的开放与共享带来了全新的挑战:7.3.3大数据开放与共享的挑战大数据开放与共享技术不成熟虽然已经制定大数据开放与共享的相关政策,但由于相关设施不太完善,基础设施和隐私保护法规成为了大数据开放与共享的首个挑战。一方面,不同政府部门或企业关于大数据的采集、传输和存储的基础设施还不够完善,各大系统存储的数据相互独立;还有一些业务尚未数字化,相应领域的大数据沉淀还不够,尚存的数据质量也不佳,达不到大数据分析和挖掘的标准。另一方面,政务大数据或企业大数据通常分布于不同部门,各个部门的业务逻辑不同,在大数据采集和存储上采用不同的基础架构,大数据呈现多样化的异构结构。例如:对于信息化基础设施不完善的系统,数据可能存储在员工个人终端上,且数据资产分布不明晰,甚至出现手工数据记录和计算机数据记录并存的情况。在这样的背景下,采用相同的大数据开放与共享策略无疑是不可行的。7.3.3大数据开放与共享的挑战大数据开放与共享技术不成熟另外,关于大数据开放与共享的法律、法规也十分匮乏。目前,除了互联网、金融和电信等行业的大数据开放与共享时的隐私保护法律、法规较为健全,绝大多数领域的大数据开放与共享的安全法律、法规尚在建设中。因此,相应领域的大数据开放与共享得不到有效保障,真正意义上的大数据共享也无法准确地落到实处,大数据公开的基础工作很难做到精细化。不过,关于不同领域的大数据隐私保护,国家相应的政策、法规也在不断健全中。7.3.3大数据开放与共享的挑战大数据开放与共享的意愿不强烈政务大数据的数据量最为庞大、价值密度最高,合理的政务大数据的开放与共享,不但能够推动经济发展、社会治理完善,还在提升政府服务能力和监管能力中扮演重要角色。此外,大型企业在运行过程中采集的大数据,通常也具有非常大的价值,这些数据的开放与共享能够促进民生、提高居民生活质量。表7-7给出了部分政务大数据和企业大数据的开放与共享实例。因此,良好的大数据开放与共享策略,能够极大程度的丰富大数据分析和挖掘时的效果,进而提升大数据本身的价值。7.3.3大数据开放与共享的挑战大数据开放与共享的意愿不强烈表7-7政务大数据和企业大数据的开放与共享实例7.3.3大数据开放与共享的挑战大数据开放与共享的意愿不强烈我们必须清楚的事实是大数据本身并不产生价值,只有对大数据进行分析和挖掘才能够利用其中的价值。因此,大数据的开放与共享在大数据产生价值过程中占据重要地位。然而,并非所有的政府机构或企业都能够意识到,大数据的价值在于利用、流动、整合、分析和挖掘。这些政府机构和企业,往往将大数据束之高阁,针对大数据的开放与共享意愿不强烈。但是,大数据的“4V”特性告诉我们,任何大数据都有较强的时效性,经过一段时间后大数据的价值显著下降,意愿不强烈也成为了大数据开放与共享的另一大挑战。7.3.3大数据开放与共享的挑战大数据开放与共享的顾虑重重近年来,虽然大数据的开放与共享已经逐步提上日程,相关的法律、法规也逐步跟上,包括《网络安全法》、《数据安全法》和《个人信息保护法》等,原来野蛮生长的大数据环境得到了改善。但是,由于在大数据开放与共享过程中遭受的数据安全问题频发,大到给国家的安全和经济发展造成危害,小到对公民造成极大的身心健康问题,导致政府部门、企业等组织在开放数据时心存忧虑。【案例7-3】大数据开放与共享导致暗网非法数据交易。
2019年1月,360企业安全发布的《2018年暗网非法数据交易总结》报告中指出,通过抽样的方式发现暗网中兜售的非法数据涉及到军事、政府、互联网等多个领域,具体各个行业由于数据开放与共享遭到暗网非法交易的比例如图7-5所示。7.3.3大数据开放与共享的挑战大数据开放与共享的顾虑重重出于对大数据安全的考虑,很多政府部门或大型互联网企业对数据开放与共享持谨慎态度,对开放后的大数据存储、传输和使用心存忧虑,担忧共享后的大数据遭受泄露或黑客攻击造成严重后果,进而不敢推进大数据的开放与共享进程。如图7-5所示,由于大数据的开放与共享,在暗网上非法交易的“实名信息”占比高达45.2%,对公民的个人隐私造成了极大的危害。(a)行业分布图7-5360威胁情报中心对于暗网非法数据交易的行业报告数据来源:360威胁情报中心,2019年7.3.3大数据开放与共享的挑战大数据开放与共享的顾虑重重(b)主要类型图7-5360威胁情报中心对于暗网非法数据交易的行业报告数据来源:360威胁情报中心,2019年7.3.3大数据开放与共享的挑战大数据开放与共享的顾虑重重除了大数据安全问题以外,大数据的伦理问题也制约着大数据的开放与共享。大数据本身是中立的,对其开放与共享是促进大数据利用的重要手段,但是分析和使用大数据过程并不一定中立,甚至带有人类认知的局限性。在大数据利用过程中,可能会出现观点不中立甚至违背伦理的现象。例如:2018年10月,科技部对复旦大学附属华山医院、华大基因、药明康德等6家单位作出行政处罚,原因是违反了《人类遗传资源管理暂行办法》,在开展业务过程中违规采集、收集、买卖、出口、出境人类遗传资源。基因大数据带有人类隐私和数据伦理,是公民不能触碰的底线资源。此外,在基于大数据的无人驾驶场景中,面对复杂路况时由机器指令执行紧急刹车,造成安全事故的责任认定等,都具有不同程度的大数据伦理问题。在这些复杂场景中,大数据的开放与共享牵扯到许多既有挑战性、又难以界定的伦理问题,将会加重政府部门或大型企业主体在开放与共享大数据时的顾虑。7.3.3大数据开放与共享的挑战大数据开放与共享的顾虑重重最后,就算是已经公开与共享的大数据,也会由于数据质量问题遭到质疑。政务大数据能够客观反映国家经济、社会的发展情况,但是需要多个部门完成协调的统计工作,若其中某个统计部门出现失误,将会导致总体统计数据的偏差程度。众多部门对政务大数据进行收集、汇总和分析,很可能形成不统一的解释口径,造成政务大数据的公信力减弱。此外,由于技术问题导致部分大数据无法进行统一的比对分析和转化,影响政府各部门统计数据的全面性、真实性和准确性,损害公信力与权威形象。政务大数据的公开与共享所造成的数据质量问题,将会为政府各部门带来不小的麻烦,也会造成不开放共享的顾虑。除了数据质量造成的顾虑,政务大数据或企业大数据的造假行为,也是开放与共享造成顾虑的另一个重要因素。政务大数据的造假屡见不鲜,例如:2017年1月,某市因大气环境持续恶化、二氧化硫浓度较高被环保部门约谈;经2018年3月检测发现,7.3.3大数据开放与共享的挑战大数据开放与共享的顾虑重重该市的6个国控气象大数据自动监测站数据异常,采样系统遭到人为干扰,导致监测到的环境大数据严重失真,最终对涉案人员追究了刑事责任。企业大数据造假更是随处可见,例如:2018年10月,旅游平台马蜂窝点评内容遭到抄袭质疑。业内人士指出,在互联网行业中,从早期电子商务的“刷单”、“刷评论”到后期直播平台的“买粉丝”、“刷阅读量”等情况,充斥着多种多样的数据造假行为。如果公开与共享这些造假的大数据,将会对大数据的分析与利用造成负面影响。7.3.4数据孤岛问题在大数据开放与共享进程中,除了数据安全与隐私保护的挑战之外,还有另一个重要挑战是“数据孤岛”问题。“数据孤岛”问题普遍存在于政务大数据和企业大数据的开放与共享中。具体看来,“数据孤岛”问题的出现主要由如下的7个方面原因造成:(1)历史发展原因:政务大数据一直以来以部门为中心开展,导致跨部门的政务大数据共享存在门槛。企业早期发展追求利益至上,不愿过多开放与共享与利益无关的大数据资源。(2)共享意识原因:想要打破“数据孤岛”问题,首先需要国家层面或企业高层对大数据开放与共享的必要性、重要性有深刻的认识。(3)缺少约束的法律、法规:目前仅有一些条例、章程规定政府部门或企业需要进行大数据的开放与共享,却没有强制性的法律、法规推动开放与共享流程。7.3.4数据孤岛问题(4)缺乏开放与共享标准:掌握大数据资源的政府部门或企业部门,不知道如何开放大数据,共享大数据的范围不明晰,缺乏可参考的标准。(5)存在制约的机制:政府部门的绩效考评制约着政务大数据的开放与共享,担忧开放后的大数据对考评产生影响;企业则是受到利益的制约,担忧开放后的大数据对利益产生影响。(6)激励机制短缺:大数据的开放与共享缺少合适的激励方案,政府部门没有动力开放已存在的政务大数据,甚至忽略一些不太重要的大数据采集。企业层面的激励机制主要是利益,当大数据的开放与共享能为企业提升利润时,也能够进一步打破“数据孤岛”问题。(7)大数据人才匮乏:想要良好的开放与共享大数据,就必须要有合理的人才梯队推动完成,包括管理团队、技术团队和实施团队的建设。但是,目前无论是政府部门还是企业,大数据人才还相对匮乏。7.3.4数据孤岛问题“数据孤岛”制约了政府部门的政策执行和管理,以及企业的经营、管理与发展,也是政府部门或企业数字化转型必须解决的难题。“数据孤岛”主要会带来如下的问题:(1)数据重复:由于数据采集标准不同,各级部门在数据采集过程中必然会出现重复采集的情况,造成了大量重复、冗余且无效的数据,降低了大数据的质量和精准度。(2)影响决策:由于不同信息系统中的“孤岛”数据无法形成全域整体,且数据的共享往往缺乏时效性,导致政府部门或企业的决策没有可参考的全域大数据。(3)协作不良:由于跨信息系统的大数据来自不同的数据标准,无法直接进行简单的共享,并且复杂的底层数据安全权限也影响着数据的共享,最终导致政府或企业各级部门之间无法形成高效的合作。7.3.4数据孤岛问题(4)效率低下:政府各部门从自己的角度出发,往往发出重复率较高的政策,导致政策的效率低下。此外,企业各部门由于事务需求不同,也会出现重复“造轮子”的状态,导致企业的运营和发展效率低下。(5)体验较差:由于跨信息系统的数据标准不同,导致用户的体验混杂,面向政府的事务或企业的服务需要下载多个“APP”,且多个“APP”之间的数据共享不及时,操作方式各不相同,导致用户的体验较差。下面,分别从政务大数据和企业大数据两个方面,分析产生“数据孤岛”问题的原因、消除“数据孤岛”的举措。7.3.4数据孤岛问题政务大数据的“数据孤岛”政务大数据产生“数据孤岛”的原因主要是早期政务数据库的建设技术标准不同,各部门自行选择适用于自己业务的数据库平台,且所接入的网络通信标准也不同。随着大数据时代来临,各个部门的政务大数据都存储在异构的数据库中,导致跨部门的政务大数据开放与共享难以实现,出现了大面积政务大数据的“数据孤岛”问题。统计数据显示,各级政府部门有大量毫无关联的大数据资源沉积在信息管理系统中。一般情况下,大数据分析和挖掘的结果基本通过“数据烟囱”方式垂直向上级汇报,缺少同级或跨级的横向交流,形成相互独立的“数据孤岛”。这些数据孤岛彼此独立,管理分散,具有不同的标准,治理成本较高。图7-6给出了由于不同政务部门业务差异产生“数据孤岛”的原因。7.3.4数据孤岛问题政务大数据的“数据孤岛”图7-6由于不同政务部门业务差异产生“数据孤岛”的原因7.3.4数据孤岛问题政务大数据的“数据孤岛”政务大数据作为政府重要的资产之一,由于历史原因和开放意愿等问题,积累的数据量较大、数据呈现多源异构、分散的特性,难以有效进行开放与共享,造成的“数据孤岛”问题严重影响到政务大数据的价值,浪费了各级政府部门在政务信息化建设中的投入。政务大数据的“数据孤岛”问题在我国各省政府、各级部门的信息管理系统中较为常见。【案例7-4】省级政务大数据的“数据孤岛”问题。
2018年,广东省民盟《关于促进我省政府大数据平台建设的建议》的提案表明,截止到2018年1月,广东省有超过4000类政务大数据孤岛,3000多类政务大数据具有共享需求,当前省级编目的大数据开放与共享却只有400多例。7.3.4数据孤岛问题政务大数据的“数据孤岛”根据数据统计显示,广东省目前具有37个网络孤岛,44个机房孤岛,全省1068个政府各部门信息管理系统由200多家公司各自建设、运维。数据标准多样化且存在冲突,对开放与共享提出了不小挑战。目前,我国各省份政府部门的数据孤岛问题得到了一定的治理与改善。2018年山东省“实施新旧动能转换重大工程”的数据显示,截止到2017年底,山东省含有60余个省直部门专用网络孤岛,100余个机房孤岛,150余个电子邮件及会议信息系统孤岛,以及800多个业务系统孤岛。经过整合共享工作后,上述“数据孤岛”通过迁移至“政务云”上得以解决。此外,山东省17个省、市直部门关停260余个无法开放与共享的“僵尸系统”和“影子系统”。7.3.4数据孤岛问题政务大数据的“数据孤岛”近年来,我国各省份政府部门已经出台多项政策、法规,并构建云开放和云共享平台,以期解决政务大数据的“数据孤岛”问题。表7-8给出了部分省份解决政务大数据的“数据孤岛”问题的措施。7.3.4数据孤岛问题政务大数据的“数据孤岛”表7-8部分省份解决政务大数据的“数据孤岛”问题的措施7.3.4数据孤岛问题企业大数据的“数据孤岛”企业大数据的“数据孤岛”问题主要由多年的信息化建设形成。在信息化、数字化和智能化不断升级过程中,催生了企业大数据的“数据孤岛”问题。面向企业大数据,数据孤岛主要包含两个层面:(1)企业内部的“数据孤岛”:大型企业一般包含有多个事业部门,各个事业部门的经营活动都会产生大数据,但是各个部门的业务不相同,选择大数据采集、存储的平台、系统也不同。由于平台、系统的兼容性问题,不能在各个事业部门之间建立有效的数据开放与共享策略,进而形成“数据孤岛”。图7-7所示,某大型企业的人事部采用办公自动化系统(OA)管理人事,生产部则采用企业资源规划系统管理生产过程,而销售部门采用客户关系管理系统进行销售与客户的管理。7.3.4数据孤岛问题企业大数据的“数据孤岛”图7-7企业多个事业部门之间信息管理系统不同造成“数据孤岛”7.3.4数据孤岛问题企业大数据的“数据孤岛”由于三类信息管理系统的底层架构不同,当销售部门想要调用生产部门的数据,并根据企业生产状况制定未来的销售战略时,却因为生产部门使用ERP系统,无法直接在销售部门使用的CRM系统中读取ERP系统数据。长此以往,造成了各个部门之间的数据相互独立形成“孤岛”。随着时间的累计,不同业务部门的海量大数据均积累在特定的信息管理系统中,导致同一家企业各个部门之间的数据互通变得困难。7.3.4数据孤岛问题企业大数据的“数据孤岛”(2)企业之间的“数据孤岛”:大型企业的消费级大数据中通常都隐藏着巨大的商业利益,国内的消费者数据都存储在互联网“巨头”企业中。目前,消费者数据缺少法律、法规的限制,且共享这些数据并没有合适的激励政策。因此,各个互联网“巨头”企业开放大数据的意愿较弱,出现以个体互联网“巨头”为代表的“数据孤岛”。例如:网络购物大数据、出行大数据和娱乐消遣大数据等。互联网个体用户可能同时是网络购物、出行和娱乐消遣大数据的提供者,但是三者之间却形成了“数据孤岛”,无法有效挖掘出对个体用户有意义的信息。针对企业大数据的“数据孤岛”,其根本原因在于数据治理和数据标准的不统一,导致企业的数据无法方便的开放与共享。目前,一些大型企业已经对开始重视治理“数据孤岛”,另外也有一些企业专门从事协助大型企业消除“数据孤岛”的业务,例如钛铂数据、麦聪软件等。7.3.4数据孤岛问题企业大数据的“数据孤岛”【案例7-5】某软件:消除企业大数据的“数据孤岛”方案。消除企业大数据的“数据孤岛”,可以采用三个方面的策略:(1)连接数据孤岛集成全域数据:构建统一数据服务平台,该平台应该支持主流的分布式大数据平台(如Hadoop、Spark、Storm等)、数据库和数据仓库(如HBase、Hive),构建集成全域数据的接口,接收来自不同信息系统的多源结构化/非结构化数据,提供从多种云、碎片化的数据库中提取数据的健全功能。(2)创建可迭代“API”的“数据超市”:为了解决业务人员与开发人员之间的“技术鸿沟”,让企业中各个部门的数据能够“用起来”,构建可升级、迭代的低代码量数据调用“API”,形成“数据超市”。如图7-8所示,7.3.4数据孤岛问题企业大数据的“数据孤岛”一方面,开发人员能够不断迭代“API”,提升数据挖掘技术的开发效率;另一方面,业务人员能够申请使用现有版本的“API”,查看并使用企业现有的全域数据,构建更高效的业务。同时,业务人员将使用过程中的困难反馈给开发人员,通过不断升级、改造“API”,建设优化的“数据超市”。(3)全局数据权限管理:传统的企业数据权限管理方式,针对每种信息管理系统赋予单独的账号权限,操作复杂且密码容易遗忘。此外,业务人员跨系统设置相同的密码,也可能导致安全隐患。解决“数据孤岛”的同时需要构建全局数据管理权限,屏蔽底层分布式数据存储环境变更的影响,提升账号权限管理的效率,同时避免出现数据安全问题。7.3.4数据孤岛问题企业大数据的“数据孤岛”图7-8“API”可不断升级、改造的“数据超市”7.3.5大数据开放与共享措施针对大数据开放与共享的现状和挑战,分别从政务大数据、科学研究大数据、企业大数据和个人大数据四个方面,阐述大数据开放与共享的一些措施:7.3.5大数据开放与共享措施政务大数据开放与共享的措施(1)完善相关法律、法规:目前,为了解决政务大数据中的“数据孤岛”问题,各省份已经展开了不同层面的法律、法规制度完善。随着大数据的开放与共享带来的安全和隐私问题加剧,各省份还需要完善相关法律、法规,推出适应于政务大数据开放与共享的法律、法规。为了提升大数据开放与共享的意愿,立法部门工作人员应该深入基层调研,听取基层工作人员的建议,完善相关的法律、法规,构建大数据开放与共享的激励政策。此外,由于政务大数据的开放与共享需要面向社会公众,立法内容要明确开放和共享的大数据格式,协调政府各部门在统一的法律、法规下开放和共享政务大数据,提升开放与共享意愿,降低开放与共享带来的顾虑,为利用好政务大数据打好基础。7.3.5大数据开放与共享措施政务大数据开放与共享的措施(2)建设统一平台:如前所述,“数据孤岛”来源于政府各部门的平台不统一问题,国家和各省份目前已经开展建设统一的跨部门大数据开放与共享平台。针对开放和共享后的政务大数据,统一平台应该保证大数据的统一性和安全性,保障公开和共享的政务大数据不被攻击。对于不涉密的政务大数据,平台提供中间层将各部门格式不同的政务大数据统一转码为相同格式,提供开放的下载接口。定期分析政务大数据的公开、共享和被使用的情况,分析政务大数据在实际政策支持、经济发展过程中带来的效益。(3)接受公众监督:政务大数据的开放与共享需要满足统一格式,为公众提供了解政府各部门执行政策的过程。同样地,大数据的开放与共享过程也需要面向公众开放,接受公众的监督,让公众了解非涉密的政务大数据从采集、传输、存储、预处理到开放与共享的全部过程。在公众监督下,政府各部门能够最大程度避免问题发生,保障开放和共享的政务大数据质量。同时,统一的大数据开放与共享平台还应该开放反馈窗口,让公众能够及时发现并反馈政务大数据中的问题,提升政务大数据的质量。7.3.5大数据开放与共享措施政务大数据开放与共享的措施(4)加强制度建设:政务大数据的开放与共享离不开可靠的制度,政府相关部门应该在保证现有制度基础上,逐步完善开放与共享的制度。具体包含两个方面:一是确定统一的政务大数据开放与共享的时间,各级政府部门的大数据都遵照相应的时间制度进行开放和共享;二是建立政务大数据开放与共享的考核制度,对于及时公开政务大数据的部门给予相应的激励制度,对于未及时或不愿公开政务大数据的追究具体责任;三是设立大数据开放与共享平台维护的规章制度,将社会公众对于当前政务大数据的开放与共享反馈意见纳入维护进程中,不断优化政务大数据的开放与共享制度。7.3.5大数据开放与共享措施科学研究大数据开放与共享的措施(1)加强科学研究大数据的规范化:由于学科的多样性,科学研究中的数据形式各不相同,研究项目应该规定好各学科的科学研究大数据的标准格式,科学研究者按照标准进行科学研究,通过规范化的数据加工处理保障数据的及时性、可靠性和真实性。科学研究大数据开放与共享的内容,不但包含科学研究实体和科学研究数据的描述信息,还应包括科学研究数据的辅助工具等,保证开放后的大数据能够被公众使用,进行二次分析、开发和处理。此外,为了保障科学研究大数据的规范,还需要为科学研究工作者制定健全的绩效管理和评价机制,通过奖惩办法调动开放与共享科学研究大数据的积极性。(2)强化科学研究大数据的质量评价:在开放与共享过程中,科学研究大数据仅满足规范化还远远不够,还应该强化大数据的质量。质量评价主要包括:科学研究进程中的生产、管理、传播到再利用全部过程的评价。7.3.5大数据开放与共享措施科学研究大数据开放与共享的措施由于学科差异性,同类学科应该制定通用的科学研究大数据的质量评价体系,提升科学研究进程中标准化和规范化的程度。此外,还需要探索更便捷、全面的科学研究同行评审机制,以及评审和出版的全新方式。鼓励各级出版机构和大数据中心,积极探索并推动科学研究大数据的质量评价新方法,以期满足在大数据背景下的科学研究大数据的开放与共享需求。(3)积极革新科学研究大数据出版:科学研究的出版是大数据开放与共享的经典方式之一。传统科学研究仅出版论文,没有相应的科学研究进程中的数据支撑,往往无法进行有效的二次利用,不利于开放与共享。近年来,随着出版技术的日趋完善,越来越多的出版集团在论文出版的同时,还提供研究进程中的大数据和相关辅助软件的开放,例如:爱思唯尔(Elsevier)出版集团提供“CodeOcean”用于开放与共享科学研究中的源码、数据等,极大的革新了出版的方式。在未来,为了提升科学研究大数据开放与共享的效率与价值,还应该探索全新的科学大数据出版模式,提升科学研究大数据出版的质量。7.3.5大数据开放与共享措施科学研究大数据开放与共享的措施(4)应用新技术和新手段支撑开放与共享:科学研究大数据的开放与共享也将会带来诸多问题,例如数据侵权、数据安全以及隐私保护等。新兴技术和手段的出现,如区块链和安全多方计算等技术,能够保证开放与共享进程中的权利和安全问题,实现可追溯、可监控、可保护的体系,避免知识产权或数据中的隐私受到攻击风险。7.3.5大数据开放与共享措施企业大数据开放与共享的措施(1)破除跨部门的“数据孤岛”:要想打破企业内部部门之间的“数据孤岛”,就必须针对来自不同业务的异构信息管理系统进行全面的升级和改造,选择系统化且严密的集成系统,将各种业务、各个渠道的大数据综合到统一的信息管理平台中。企业自身应该重点挖掘“人无我有”的大数据,开放与共享具有竞争价值的大数据。此外,企业还需要构建统一对外的数据开放接口,并注重共享大数据的实际应用案例建设。(2)强化数据安全规范和保障:企业大数据的开放与共享也将涉及企业的隐私安全。因此,在大数据开放与共享进程中,还需要强化数据安全规范和保障机制。首先,企业内部需要树立安全理念,将大数据的安全作为影响企业声誉的关键环节;其次,建立合理的奖惩机制,奖励积极开放与共享大数据的部门,严惩造成大数据安全隐患的部门;最后,引入外部机制,监督阻碍企业大数据开放与共享的行为,提升企业大数据在经济发展中的有益作用。7.3.5大数据开放与共享措施企业大数据开放与共享的措施(3)完善人才培养与管理机制:企业对大数据人才梯队的建设也是重要手段之一。随着企业的逐步发展壮大,将会产生海量的大数据,这些大数据需要交由专业人士管理、分析。企业大数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《龙湖葵花宝典培训》课件
- 经济效益的年度跟踪计划
- 《数据图示饼》课件
- 沿海工程防护设备采购合同三篇
- 内部激励措施的年度优化计划
- 《通信技术原理》课件
- 冷拔钢相关行业投资方案
- 合结钢行业相关投资计划提议
- 食品加工合同三篇
- 《液压与气动》课件 1气动系统概述
- 2024年大学计算机基础考试题库附参考答案(完整版)
- 《旅游财务管理》课件-3货币的时间价值
- “奔跑吧·少年”重庆市第三届幼儿体育大会幼儿体适能活动规程
- 2024版国开电大专科《中国古代文学(下)》在线形考(形考任务1至5)试题及答案 (二)
- Q GDW 11445-2015 国家电网公司管理信息系统安全基线要求
- 自我效能感研究综述
- 简洁合伙协议书模板(标准版)
- 人教版四年级上下册英语单词默写表(汉译英)
- 政府会计-课后习题参考答案 童光辉
- 音乐节演出合作协议书
- 《学写文学短评》统编版高一语文必修上册
评论
0/150
提交评论