基于 Spark 大数据平台的云上用户日志行为审计系统

上传人：1*** IP属地：湖南上传时间：2024-09-11 格式：DOCX 页数：10 大小：393.61KB 积分：9.6 举报 版权申诉

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

随着大数据及云计算的快速发展，越来越多的企业将业务迁移上云，极大地提高了效率，同时对云的审计也成为新的安全需求。与之对应的则是于云平台版本的不断迭代，不同厂家云平台日志格式的差异，种种因素都增加了日志审计的复杂性。现有的云审计系统多数是基于某一种云产品的标签化日志，但实际应用中事件日志多为海量的、未标签化的日志，因此从未标签化的海量用户日志中，发现和审计系统中的实际行为具有重要意义。本文将基于多云上用户行为产生的大量事件日志，通过流程挖掘模型，设计一种基于非标签化的云上用户日志的审计系统，同时在审计过程中可以根据行为追溯到产生该行为的原始日志，形成一条完整的证据链。1云审计技术研究现状及主要问题1.1云审计技术研究现状随着云的广泛应用，越来越多的业务迁移上云，极大地提升了效率、降低了成本。但是在使用过程中，云上的网络安全性也不容忽视。除了有一些常用的主动措施来提高云的安全性，还需要结合被动措施来保证云的安全性，云审计是一种常用的提高网络安全性的有效手段。云上常见的安全风险主要包括但不限于操作者身份不明确、操作过程不透明、操作内容不可知、操作行为不可控、操作事故无法定位等。除此之外，用户的过失和恶意操作也可能会危害云上业务及数据的安全。随着云计算技术的高速发展，系统透明度越来越低，用户和监管人员难以感知云上发生的违规操作，无法及时做出应对，降低了云操作系统的整体安全性。同时，云上日志具有海量性、多样性，日志中噪声日志占比高，有效信息分布随机等特点，无法直接对云上的日志进行分析。这些特点也导致普通的过滤算法无法充分过滤掉噪声日志。云版本的不断迭代，也是日志多样性的原因之一，更增加了日志处理的复杂性。此外，几款主流云产品的日志互不相同，难以用同一套日志模型从不同云中提取有效信息。1.2研究需求在云日志中，包含了系统内部的安全事件、用户访问记录、用户操作行为、系统运行、系统状态等各类信息。通过对云日志的分析处理，能够有效地获取云的运行状态，跟踪记录用户操作，极大地增强云的透明度和安全性。云日志的审计分析结果，能够指导对云平台资源的合理化配置、优化系统程序、增加防御机制、修复系统问题，提升云在运行过程中的稳定性、可靠性、安全性、合规性。1.3主要工作云用户行为审计系统通过分析云的运行日志，提取用户操作行为信息，从而记录用户操作行为，了解云的运行状态，及时发现云上发生的风险和违规操作，进而提高云的安全性。研究设计独特的云日志处理算法，能够高效、准确地从海量、格式不确定的原始日志中过滤掉噪声日志、提取有效信息，将其转化为结构化的、可供大数据分析的用户操作行为数据。基于操作行为数据，运用数据分析算法，可以对用户的操作行为进行行为审计、合规性分析等；通过多维度展示行为数据，对于数据泄露这一类复杂流程进行设计分析；同时还提供了数据追溯、数据完整性校验、审计策略、行为还原等功能。2云审计系统设计2.1云审计系统架构云上用户行为审计系统由云平台采集模块、数据分析模块、大数据平台模块、门户展示模块构成。云审计的系统架构如图1所示。图1云审计的系统架构云平台采集模块通过代理或应用程序接口（ApplicationProgramInterface，API），从云平台获取原始日志及云平台上的租户、用户、资产、业务信息等元数据，将原始日志写入大数据平台模块的分布式文件系统（HadoopDistributedFileSystem，HDFS）中，作为整个数据分析模块的输入。大数据平台模块包括数据的存储组件和大数据处理的引擎，存储组件为HDFS、SQL、Hbase，主要用来存储日志数据、日志模型、资产用户元数据；大数据处理引擎为Spark、SparkStreaming，主要用来批量处理大量数据。数据分析模块包括日志预处理、关联分析、日志结构化几个子模块。日志预处理模块调用大数据平台的Spark服务，实现过滤、模型提取、流程挖掘，得到日志模型。日志结构化模块调用SparkStreaming从HDFS中读取原始日志，根据日志模型，提取原始日志中的有效信息，并将原始日志转换为结构化日志信息；关联分析模块通过日志中提取的ID关联云平台的元数据，找到对应的用户、资产、权限信息，并根据审计策略判断该操作行为是否合规；同时关联分析模块还实现了运用图计算技术来识别云平台数据泄露路径的一些模型算法。门户展示模块则负责审计分析结果的多维度展示，让用户能够直观地了解当前系统用户操作行为分类统计、合规性状况、敏感资产等信息，并支持查阅系统记录的用户操作行为。同时，为了审计的整个证据链的完整性，也支持从行为溯源到原始日志的操作。2.2核心功能模块2.2.1日志预处理模块日志预处理主要实现了日志过滤、流程挖掘、模型提取，如图2所示。图2预处理流程日志过滤主要运用聚类算法从大量无用的云日志中过滤掉噪声日志，保留有效日志，从而提高流程挖掘的准确性和高效性。流程挖掘

主要实现了从过滤后的有效原始日志中提取出属于同一个“事件”的操作日志，将其放入某个事件对应的日志集合。模型提取主要实现了从原始日志中挖掘出某个操作对应的日志模型，日志模型包括：操作所触发的日志集合，集合中每条日志的正则表达式，集合中每条日志的关键参数及其含义。如图3所示，“事件”是指用户的一个操作行为，例如创建虚拟机、迁移虚拟机等操作都是一个事件，执行一个“事件”会触发多条日志，从采集到的日志中挖掘出事件的日志序列，获取其正则表达式，提取出描述“事件”的时间、触发者、操作对象等关键信息的参数，生成一个“事件”对应的日志模型。图3日志模型通过三步处理，最终能够提取出某个操作“事件”所对应的日志模型，此时再由人工标注程序提取出事件所对应的具体操作是什么、提取的参数分别是什么含义，从而得到完整的日志模型。2.2.2日志结构化模块日志结构化模块利用日志预处理模块中得到的日志模型，从原始日志中提取出用户操作行为和关键参数，并将其转化为结构化的数据，以便于后续的关联分析、审计等。结构化模块的流程如图4所示。图4结构化模块流程SparkStreaming读取HDFS中的原始日志，经过日志过滤模块，然后对于每行有效日志根据事件的日志模型库去匹配其正则表达式，如果匹配成功，则可以知道当前有效日志属于哪一个事件，待某事件的日志模型对应的日志都收集齐了，则从收集到的日志中提取出对应的有效信息，生成一条新的结构化的数据，并写入数据库中。结构化后的数据都包含操作者、操作内容、对象目标、时间、结果、失败原因、原始日志等要素。日志结构化输出的数据库表中的每一行表示了一个单独的“事件”，每一列表示了这个“事件”的要素。实际的事件日志只能包含有限的信息，因此提取出来的日志要素往往比需要的要素少，某个“事件”结构化后的数据记录的要素的饱满程度，是和该事件触发的日志中包含的信息量相关的。2.2.3关联分析模块关联分析模块首先根据日志结构化模块结果库中的ID信息，关联云数据库中的元数据，例如通过用户ID关联用户的名称、所属租户等，后续用于门户展示模块。同时根据关联后的信息，生成审计策略，依据审计策略触发告警。（1）告警分析。告警分析是根据审计策略检测出存在风险的行为的方法，存在风险的行为可以是某个独立的操作，也可以是某一系列操作行为的组合。审计系统主要是根据审计策略对结构化的数据所呈现的用户行为进行分析判断，从而确定用户的行为是否存在风险、是否已经导致问题或者可能造成危害。审计策略的生成方式主要有如下几种：①根据安全规范和需求，通过对“事件”的关键要素如操作内容、操作频率、操作对象、访问的黑白名单、访问权限、操作时间、操作地点、操作IP、操作是否成功等进行硬性的规定来生成策略，例如：禁止特定时间段内的某些敏感操作，直接禁止某些敏感操作，或者禁止某些特定的用户执行这些敏感操作。②根据用户的行为习惯，取其以往的统计平均值，自动学习生成相应的策略，包括用户经常访问的对象、发起访问的地点、访问频率、经常访问的事件、访问持续时间、访问过程中的网络流量等维度。一旦某次操作或者历史经验值不符合或者方差大于阈值，就可以判定为异常行为。③通过挖掘分析曾经安全问题发生前后的历史行为数据，采集问题发生前后哪些行为的统计值发生了异常变化，可以获得此类问题发生前后云上用户的操作频率、操作行为组合、操作发生时间、主要操作等方面的征兆信息，从而生成新的审计策略，达到同类问题发生时提前告警的目的。④系统支持复杂流程审计算法，能够从一系列连续的操作事件中，提取出用户的操作流程，并对其进行合规性审计，确保用户操作符合规定流程。例如在迁移虚拟机之前必须进行备份操作，如果没有备份，则视为违规。通过这些审计策略，能够有效地识别用户的违规和风险操作，生成告警，极大地提高云系统的安全性。告警信息中包含了审计策略的描述和触发本次告警的操作行为信息，以及分析所依赖的原始日志，能够从告警的行为追溯到关联的原始日志。（2）数据泄露检测。运用图计算技术识别云平台数据泄露的相关路径，还原云平台上因操作行为导致的数据泄露场景。先设置一个可能触发泄露的行为集合，再基于关系度构建子图的方法，筛选出资源和最远行为，获取影响路径元素集合，最终采用起点、必经点、终点的方式找出数据泄露的行为路径。该方法能够发现隐藏在正常行为序列中的数据泄露行为序列，最大限度地还原数据泄露场景的行为。2.2.4门户展示模块门户展示模块主要展示审计系统分析出的用户操作行为数据和生成的告警数据，并进行多维度的展示。从多种维度直观地展示系统的整体状态和风险情况。除了对某个租户或者云系统范围内的一段时间内的操作行为频率、违规情况等进行展示，还可以对某个特定的虚拟资源进行全生命周期审计，进而进行多维度的展示。此外，还可以对某个独立的用户全生命周期过程中的所有行为进行多维度的分析展示。2.2.5数据采集模块数据采集模块主要分为API采集和文本日志采集两种。其中，API采集主要是通过对接云平台的元数据服务来获得相关数据，文本日志则是通过与云平台的日志服务器对接或者通过在云平台内部部署日志采集代理的方式实现。将采集到的数据写入HDFS或者消息中间件中，由数据分析模块中的日志预处理模块进行标准化处理。3云审计系统实现3.1系统拓扑结构

系统拓扑结构如图5所示。用户需要通过堡垒机登录到前置机，然后在前置机上登录云审计系统，或者查看数据库。图5云审计系统拓扑结构3.2系统部署系统部署方式十分灵活，如图6所示，网络中的各种运行设备只需简单配置，将日志发送到数据层所在主机上（可通过日志接收代理转发日志数据），其余设备网络可通即可，对网络的适应性极强，既能够支持集中式的部署方式，也支持跨区域、分级分层、物理/逻辑隔离的大规模网络的部署方式，是可水平扩展的海量事件采集、存储、分析平台。图6云审计系统的可扩展性部署4结语本文主要从基于云上日志来审计云上用户行为的需求出发，描述了基于Spark大数据平台的信息提取方法，包括：日志过滤，过滤掉无

人人文库> 全部分类> 专业文献 > 工程机械

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于 Spark 大数据平台的云上用户日志行为审计系统

文档简介

温馨提示

最新文档

评论

基于 Spark 大数据平台的云上用户日志行为审计系统

文档简介

温馨提示

最新文档

评论

相关文档