版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选大数据脱敏项目建设方案可编辑2016 年 5 月目录第 1 章 概述 31.1. 大数据现状说明 31.2. 大数据安全现状分析4第 2章建设目的 4第 3章项目范围 5第 4章建设原则 5第5 章 大数据安全建设方案65.1. 大数据脱敏方案65.1.1. 大数据脱敏设计架构 65.1.2. 大数据脱敏工作原理 75.1.3. 大数据敏感数据发现 95.1.4. 大数据脱敏技术方案1.2.5.2. 大数据安全系统配置部署2.0.5.2.1. 系统部署架构2.0.5.2.2. 硬件设备清单2.0.5.2.3. 软件清单 2.15.2.4. 兼容性设计2.1 5.2.5. 可靠性设计2.2
2、第 6 章 附录 236.1. 大数据安全调研表2.3.第1章 概述1.1. 大数据现状说明随着大数据规模性、多样性、高速性、真实性特征的逐步显现,以及数据资产逐渐成为现代商业社会的核心竞争力, 大数据对行业用户的重要性也日益突出。世界经济论坛报告认为, “大数据为新财富,价值堪比石油” ,大数据之父维克托则预测, 数据列入企业资产负债表只是时间问题。 同时, 大数据将推动国民经济各行业各领域的创新应用, 电子政务、 电子商务都将发生变化, 信息资源的战略重要性空前鼎盛, 大数据将成为经济社会管理决策的基本平台。 另外, 大数据也将引领商业模式的重要创新, 传统商业模式将开展大数据的挖掘, 信
3、息服务商将利用大数据开展个性化服务,移动互联网将开辟新型商务模式。大数据所能带来的巨大商业价值, 被认为将引领一场足以与 20 世纪计算机革命匹敌的巨大变革。 大数据正在对每个领域造成影响, 在商业、 经济和其他领域中, 决策行为将日益基于数据分析, 而不再是凭借经验和直觉。 大数据正在成为政府和企业竞争的新焦点。 各大企业正纷纷投向大数据促生的新蓝海。 Oracle 、IBM 、 MicroSoft 和 SAP 共投入超过15 亿美元成立各自的软件智能数据管理和分析专业公司。 在大数据时代, 商业生态环境在不经意间发生了巨大变化: 无处不在的智能终端、 随时在线的网络传输、 互动频繁的社交网
4、络, 让以往只是网页浏览者的网民的面孔从模糊变得清晰, 企业也有机会进行大规模的精准化的消费者行为研究。大数据将成为未来竞争的制高点。1.2. 大数据安全现状分析基于 Hadoop 生态系统的大数据平台随着企业的不断采用及开源组织的持续的优化、增强,已逐渐成为大数据平台建设的标准产品。然而Hadoop 最初的设计并未考虑其安全性, 这些平台专注于发展数据处理能力, 忽视了其他能力的发展,但Hadoop 生态系统作为一个分布式系统,承载了丰富的应用,集中了海量的数据, 如何管理和保护这些数据充满了挑战, 当前市场上, 大数据平台在数据本身的安全管控方面普遍存在严重缺失和较大的漏洞。从企业内部来说
5、,大数据平台的安全管控能力缺失,使得平台在数据存储、处理以及使用等各环节造成数据泄露的风险较大, 安全风险面广, 且缺乏有效的处理机制; 另一方面, 企业敏感数据的所有权和使用权缺乏明确界定和管理, 可能造成用户隐私信息的泄露和企业内部数据的泄露, 直接造成企业声誉和经济的双重损失。从外部来看,数据即价值,大数据平台中复杂、敏感、全面的数据无疑会吸引更多的潜在攻击者。 同时, 数据的大量汇集, 使得黑客成功攻击一次就能获得更多数据, 极大降低了黑客的进攻成本。 因此, 大数据将有可能成为网络攻击的显著目标。大数据平台安全能力的严重缺失和风险的普遍存在, 导致大数据平台本身是脆弱的,对企业数据安
6、全造成了极大的风险,对企业来说是难以忽视的风险点。第 2 章 建设目的通过本项目实施,可以实现如下目标:1 、针对大数据敏感数据信息,设计并落实敏感数据安全解决方案,实现敏感数据的模糊化,确保敏感数据信息安全可靠;2 、通过大数据平台安全方案的建设,填补XXXX 大数据平台数据安全防护方面的空缺,有效降低大数据安全管控方面的风险。第 3 章 项目范围大数据平台范围:本项目范围适用于基于开源 Hadoop 架构的大数据平台环境,包括Mapreduce 、 HDFS、 Hive 、 HBse 等大数据组件。第 4 章 建设原则大数据安全方案设计建设应遵循实用性、前瞻性、兼容性原则,其中:适用性原则
7、: 必须适用XXXX 实际大数据环境, 能够与大数据平台顺利结合,发挥安全管控效用;前瞻性原则:平台架构设计具有良好的前瞻性和扩展性,充分考虑未来大数据新技术的发展;兼容性原则:大数据安全平台应兼容基于Hadoop 的各版本的要求,包括发布版和开源版本。安全性原则:系统采取全面的安全保护措施,采用严格的访问控制机制、系统冗余机制、数据保密机制等,保证安全平台的安全性。第5章大数据安全建设方案5.1. 大数据脱敏方案5.1.1. 大数据脱敏设计架构大数据平台脱敏及模糊化模块主要包括两大功能:敏感数据发现和敏感数据脱敏。架构设计如下图所示:敬度化能脱及楣功地哆数据发现 敦感数无脱地敏感数据发现:通
8、过设置敏感数据发现策略,平台自动识别敏感数据,发现 敏感数据后产生报警,保障数据在产生阶段安全。敏感数据发现功能包括如下内 容:? 敏感信息规则库建立? 关系型数据检测? 敏感内容描述检测敏感数据脱敏: 针对 Hadoop 平台 Hive 、 Hbase 大数据存储组件结合用户权限提供动态数据脱敏功能, 保障敏感数据访问安全, 同时基于大数据安全分析技术, 发现敏感数据访问的异常行为, 并提供敏感数据视图, 实现全局化数据管理和对各种类别敏感数据脱敏的精细化管理。数据脱敏及模糊化功能模块是在数据库层面对数据进行屏蔽、加密、隐藏、审计或封锁访问途径的方式。 该模块作为一个网关形式部署, 所有需要
9、进行敏感数据动态脱敏的应用系统需通过该产品实现对数据库的访问。数据脱敏:当应用程序请求通过敏感数据脱敏模块时,对其进行实时筛选,并依据用户角色、职责和其他定义规则对敏感数据进行脱敏处理。脱敏的方式包括如下几种形式:? 数据替换 - 以虚构数据代替真值;? 截断、加密、隐藏或使之无效- 以“无效”或 * 代替真值;? 随机化 - 以随机数据代替真值;? 偏移 - 通过随机移位改变数字数据;访问预警:在大数据应用正常访问行为模型自学习基础上,进行应用异常行为分析、发现及告警功能强化应用安全管控,保证数据安全。5.1.2. 大数据脱敏工作原理通过认证授权服务进行认证登录后, 使用 JDBC 方式对大
10、数据平台数据仓库进行操作, 根据控制、 规则策略、 防火墙网络阻断等技术手段, 达到模糊化要求,再分配给业务、运维人员使用分布式文 件系统? 用户接口层:用户接口主要有三个:CLI, Client和WebUI 。其中最常用的是 CLI, Cli 启动的时候,会同时启动一个 Hive副本。Client是Hive的客户端,用户连 接至Hive Server 。在启动 Client模式的时候,需要指出 Hive Server 所在 节点,并且在该节点启动 Hive Server。WUI是通过浏览器访问 Hive。本方 案采用Client客户端Beeline的方式对Hive进行操作。? 数据脱敏平台:
11、客户端通过数据脱敏平台登录 Hive后,对Hive进行操作。通过脱敏策略 配置,使用户可访问数据进行脱敏,通过数据异常行为分析、发现,进行数据访问告警,保护敏感数据安全,并在WEB 前端进行视图展示。? 数据存储:Hive 将元数据存储在数据库中,连接到这些数据库( mysql , derby )的模式分为三种: 单用户模式、 多用户模式、 远程服务器模式。 元数据包括Database 、表名、表的列及类型、存储空间、分区、表数据所在的目录等。 ? Driver :完成 HQL 的查询语句的词法分析、语法分析、编译、优化及查询计划的生成。生成的查询计划存储在HDFS 中,并由 MapReduc
12、e 调用执行。? Hadoop 环境:Hive 的数据存储在HDFS 中,针对大部分的 HQL 查询请求, Hive 内部自动转换为 MapReduce 任务执行。5.1.3. 大数据敏感数据发现5.1.3.1. 建立大数据敏感数据规则防止敏感信息泄漏威胁的首要步骤是定义企业敏感信息, 通过建立敏感信息样本库,定义企业的敏感信息的具体特征。敏感信息库内置企业各类敏感信息的识别规则,包括但不限于:? 身份证号码? 手机号码? 生日? 信用卡号码?敏感信息规则应支持如下两类数据存储机制:? 结构化数据,如存储在数据库中的客户或员工记录等;? 半结构化数据,半结构化数据具有一定的结构性。例如: OE
13、M 是一种典型的半结构化数据模型。同时敏感信息规则应支持用户自定义各类敏感信息规则以便在不同应用场景中允许用户进行规则扩展。5.1.3.2. 大数据敏感数据检测脱敏系统支持对大数据平台存储的结构化和半结构化数据库、 表进行敏感数据扫描探测, 并对每个数据表进行抽样数据匹配, 基于敏感信息库来检测存储在大数据平台的敏感数据如:客户信息、交易数据等。脱敏系统将数据库中的包含敏感信息的表和字段标记出来以实现各类高级数据安全功能。 例如利用敏感数据标记实现以下需求: 用户数据库表中含有很多客户信息(如用户姓名、身份证号、账号、手机号等),实现定义规则:? 只向外传输姓名,不作为信息泄密事件? 姓名、账
14、号和电话等信息同时向外泄露,则就认定为信息泄露事件。数据检测支持在给定数据行的任意列组合的基础上进行检测。 例如, 接受单一姓名、 账号、 电话的检测, 也能够接受 “姓名” 和“身份证号码” 字段的组合,因此可以灵活、方便地进行敏感数据的检测。5.1.3.3. 大数据敏感内容检测描述用户管理人员采用内容描述匹配来辅助建立敏感数据样本库。内容描述匹配具有高度准确性, 对结构化和半结构化数据同样适用, 它通过用户输入关键字、模式匹配、文件类型、文件大小、发送人、接收人、用户名和网络协议等各类条件,来实现敏感信息的检测。1. 关键字检测支持多种模式的关键字检测:支持“ * ”和 “?”通配符检测;
15、支持忽略大小写检测; 支持多文种关键字检测; 支持多关键字检测。 支持支持临近关键字匹配,通过定义某一跨度范围内的关键字对等,达到减少误报。2. 正则表达式检测敏感数据往往具有一些特征, 表现为一些特定字符之间的组合, 这用正则表达式来进行规则定义。系统支持基于正则表达式的检测,实现对“规则字符串”过滤与检查。3. 数据标识符检测支持数据标识符检测。像身份证号码、手机号、银行卡号、驾照号等数据标示符都是敏感数据重要特征, 这些数据标识符具有特定用处、 特定格式、 特定校验方式。支持多种类型的数据标识符模板, 包括如下类型身份证号码、 银行卡号、 驾照、十进制 IP 地址、十六进制 IP 地址等
16、。同时提供了相应的接口, 用户可以基于实际情况自行编辑自己需要的数据标识符校验器,如话单、详单等。5.1.4. 大数据脱敏技术方案5.1.4.1. 大数据脱敏设计思路数据脱敏是在用户层面对数据进行屏蔽、 隐藏或封锁访问途径, 从而达到敏感数据保护的目的。1 、首先需要配置对于某个用户、某一数据库的表、列,确认采用何种脱敏方式;2 、用户的 SQL 指令在被数据仓库解析执行之前,会首先进行脱敏判断。如果对该用户来说, 其访问的某些数据被配置了脱敏方式, 那么数据仓库仅会将脱敏后的数据返回给用户,从而保证了原始数据对用户的不可见。流程见下图所示:精选5.1.4.2. 大数据脱敏技术原理分析大数据脱
17、敏模块位于应用程序和大数据平台之间, 保护存储在大数据平台中 的敏感数据。脱敏模块截取发送到大数据平台的访问请求, 并送到规则引擎进行 处理。脱敏模块提供配置管理工具,管理敏感数据脱敏的策略配置并建立连接和安 全规则。敏感数据动态脱敏模块通过改写应用系统发送的访问请求实现敏感数据 动态脱敏,处理流程如下:1、数据脱敏模块侦听并转发应用程序发送到大数据平台访问请求。2、当应用程序发送一个请求到大数据平台时,动态数据屏蔽模块收到该请 求并识别发起请求的程序名、用户名、语法等信息,根据规则引擎的策略配置来 确定转发该请求到大数据平台前需执行的动作。3、数据脱敏模块根据规则对应用程序发送的 HIVE语
18、法、Hbase语法进行改 写,并发送修改后的请求发送到大数据平台中。可编辑精选4、大数据平台处理该请求,并发送回给应用程序的结果。5.1.4.3. 大数据解析引擎技术实现数据解析引擎的实现机制如下:1 、网络协议解析:对网络流量进行应用层解析;2、语法智能分析:对应用层访问协议中的大数据访问请求语法进行智能识别;3、安全策略智能匹配:依据策略中的语法特征对流量中的请求访问语句进行匹配识别;4、请求语句改写:对符合安全策略智能匹配的请求语句,按照用户配置的模糊化策略进行语句重写;5 、协议转发:将改写后的请求语句重新构建成网络流量,并转发至大数据平台数据解析引擎的实现机制。其中核心功能是通过开发
19、脱敏Function 算法, 根据不用的用户和组、 角色、权限、资源( Server 、 Database 、 Table 、 Column )定制开发不同的模糊化脱敏规则。用户执行SQL 查询,通过用户名、权限、模糊化算法进行匹配,最终返回请求结果。可编辑authorizef)CheckResult脱敏算法5.1.4.4. 大数据脱敏方法数据脱敏方法可根据用户需求的不同而进行定制,我们在系统中默认提供了 最常见的两种脱敏方法示例如下:方法一:随机值替换脱敏本方式采用随机值替换(字母变为随机字母,数字变为随机数字)的方式来 改变查询返回的结果,该方案的优点是可以在一定程度上保留数据的格式, 且
20、用 户在不知情的情况下无法发现查询返回的数据是经过脱敏操作的。方法二:特殊字符替换脱敏与随机值替换不同,该方式在处理待脱敏的数据时是采用特殊字符 (如“*”)替换的方式,该方式更好的隐藏敏感数据,但缺点是用户无法得知原数据的格式,在涉及到一些数据统计工作的时候会有影响。在实际使用过程中,多种脱敏方法经常需要配合使用,对一张数据表中不同 资源使用不同的脱敏方法进行数据脱敏,示例如下:脱敏前:0idbc:hive2: /;G«tt 139 log thrtid f* tnttrrupttd.si.nc« u«ry is dont!Ip | countryclient
21、| Mt ion|:10000/> 1 tct 1p(Uuft:ryjclient,action froi e'erits;L, L. i 200. : i. W200. SB.77U5 FRI US IR USandroid I createi*oi<wlndws vpdiewieMdrNd I totI cr«ttw(e:MULL1 WLLb ro*4fl. QtIH Mtordil脱敏后:Q:曲曲巳"5"青Getting log thread is ,> 5Mz1; 1 lnterrupttdh si net qutry 1srp,
22、cwniry.cltcmfror gce ;done11joO1 .<1 | JL1 |址 MonI* 0 ,上, ,*/卜 .1lb 事1 58.0.L3| “TI an*'-d | creirtNotr Ir i11 56 3M),例.99 *l 5*5 I upd«r«Kot*1 66 ,工工3”'4n*d I updatefKrte1 6£.fr00 Afl. V *io11 createNote iTS*.5*1 w1*-5 1的1 NULL| NULL1 %ILLk _ _ Jl6 rotrt(B, Al 11II-* ! f*卜
23、T在这个示例中,我们对此表的三个字段分别用不同的脱敏方法进行了处理:第一个字段采用随机数替换,替换范围为前 IP地址前两个值。第二个字段采用特殊字符替换,替换范围为所有字符。第三个字段采用特殊字符替换,替换范围为第 3-6个字符。5.1.4.5. 大数据脱敏方法适用场景目前脱敏方法支持的常用操作主要有:查看表结构带常用条件的查询,如“ where ”、“ like”、 “where in ”等数据分组, max,min,avg,sum,count 等查询结果的 group by 分组统计目前脱敏方法不支持操作主要有:多表查询子查询(嵌套查询)用查询结果创建新表5.1.4.6. 大数据敏感策略配
24、置敏感策略管理模块, 主要实现模糊规则管理、 敏感资产管理、 脱敏场景规则管理。如下图所示:模糊规则管理, 主要实现对不同敏感数据类型进行模糊规则设置管理, 模糊 化规则如下表描述:适用傩型说时郎感字将串梗概由活:手机银行施后萼呼岫伯数字为主体的内容时值蒯日期、时飕对时间噜加一Wi通.时间-定郭瑞商:字符串替残全部内容为固定内容字符肆替找匹菖哈迪模雌内容为圆企内容砥厕殛值机交换同TJ上的字段内容的证号便字符昌支持1附即1啦身使证号,只对最后的顺序号出疔题翱眼等盼舐制字苍吊将内容套至为字串蒯字符肆数字模翱为数字、字母孰为宇母,其他保持原样不变NUMBER支持简单的条件/制理.支持>>
25、= <0等条杵殳理时恒指字段模棉日期、粕螂可设定对年、月、日、时、分,秒进行颗n辘期短字符那将对应字喇盼设定字苍1 .敏感资产管理,实现对敏感数据和疑似敏感数据的库表字段进行梳理、敏感确认过程以及对已有敏感数据资产的维护管理,另外还涉及各类数据库敏感数据资产对应的库表的管理。2 .脱敏场景管理,由于不同用户和数据处理情况需求,对于同样的数据源 需要设置不同的脱敏规则,需要定义出相应脱敏场景。3 .脱敏规则管理,实现在不同脱敏场景定义敏感数据资产的相应脱敏模糊化规则。脱敏策略管理页面:如上图所示,在管理页面中可根据需求定制、保存脱敏算法,并且可以“停 用”“使用”的配置选择是否激活算法,操
26、作灵活,管理便捷。5.1.4.7. 大数据敏感数据视图在大数据应用正常访问行为模型自学习基础上,进行应用异常行为分析、发现、告警及相关操作审计功能,便于管理员及时发现大数据平台中可能存在的风 险点及攻击行为,强化应用安全管控,保证数据安全。操作审计页面:0操作日志审计弼号 LOGJD APP_NAME USER_NAME APP_QROUP USE 工GROUPIPLOG_ID APP_NO0OD1 晓事-击I.号召曲法使雨中境物渣工七号13哲温母百中设网鼻 法1,廿|Q001幽 期填.号修报法脚R申融E;书耐I忡斑E法】!),* .用*上"45 Q 1 U 14|'J 博
27、得tl如上图所示,在“操作日志审计”页面中可看到与已使用的脱敏策略相 关的审计内容信息。5.2. 大数据安全系统配置部署5.2.1. 系统部署架构本次大数据安全平台的脱敏网关、安全基线扫描服务器工作模式都是独 立于大数据平台。其中数据脱敏网关部署为集群方式,最少部署两台服务器, 通过负载均衡设备对外提供服务,整体拓扑如下:业务用户11 / 国/接入交换机W?载均© / /+二二,横向扩娘1展集群数据脱敏网关集群_访问数据流核心交换机(出)访问数据流、(入)新增硬件设备安全基线扫描服务器1 =卡. iHiveHbaseNameNode DataNode大数据平台示例 s¥大数据平台运维用户;大数据应用图例4 ;以太网络5.2.2. 硬件设备清单应用模块主机型号主机数量CPU配置内存配置存储网络接口备注大数据安全X86 PC服务器2台(标配)8*2.4GHz 或更DDR31TSAS万兆网卡,需提供支管控平台-高64GB硬盘4个持万兆接数据脱敏网口的交换关机5.2.3.软件清单应用模块操作系统应用软件其他软件备注大数据安全管控平台-数据脱敏网关CentOS 6.564Bit自主开发大数据脱敏软件开
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度快餐连锁加盟合同协议书3篇
- 西南石油大学《体育课程标准及教学研究》2023-2024学年第一学期期末试卷
- 二零二五年智慧交通管理系统经济合同2篇
- 武汉铁路桥梁职业学院《影视特效处理(AE)》2023-2024学年第一学期期末试卷
- 二零二五年度酒店行业劳动合同与客户信息保密协议3篇
- 2025年度城市基础设施建设PPP合作合同范本3篇
- 2025年屋顶光伏发电系统组件供应合同2篇
- 2024房产中介服务合同
- 买卖双方商业合作详细合同范本版B版
- 苏州工艺美术职业技术学院《当代西方伦理学》2023-2024学年第一学期期末试卷
- 公共交通乘客投诉管理制度
- 不锈钢伸缩缝安装施工合同
- 水土保持监理总结报告
- Android移动开发基础案例教程(第2版)完整全套教学课件
- 医保DRGDIP付费基础知识医院内培训课件
- 专题12 工艺流程综合题- 三年(2022-2024)高考化学真题分类汇编(全国版)
- DB32T-经成人中心静脉通路装置采血技术规范
- 【高空抛物侵权责任规定存在的问题及优化建议7100字(论文)】
- TDALN 033-2024 学生饮用奶安全规范入校管理标准
- 物流无人机垂直起降场选址与建设规范
- 冷库存储合同协议书范本
评论
0/150
提交评论