多媒体网络信息整合与管理技术探讨_第1页
多媒体网络信息整合与管理技术探讨_第2页
多媒体网络信息整合与管理技术探讨_第3页
多媒体网络信息整合与管理技术探讨_第4页
多媒体网络信息整合与管理技术探讨_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多媒体网络信息整合与管理技术探讨摘要:大数据时代网络信息产生于多种媒体,多媒体网络信息数据需要科学的整合与管理才能作为数据决策的基础依据。为此,本文设计了Spark并行计算框架作为数据整合的环境,为多媒体网络信息设计了专门的数据仓库,利用数据仓库的ETL工具调度数据,完成数据抽取、转换与加载操作,并在数据仓库中集成Apriori算法挖掘多媒体信息间深层次的关联规则。此外,设计了OLAP的缓存机制与数据安全管理策略,以提高多媒体网络信息管理水平。多媒体信息是多种媒体数据结合的综合体,具体有文本、语音、图像、视频等形式。网络的开放性提供多媒体网络大数据形成的契机,即网络社交、在线教育、电子商务、新

2、闻传播等行业无时无刻不在产生图像、文字、语音等形式的多媒体网络信息。但是多媒体技术在改善人类生活方式与生活效率的同时,也造成了数据冗余的不良影响。由于人们对多媒体网络大数据的管理整合力度不足,所以大数据丧失了原本的事物预测、规律挖掘价值。本文结合大数据时代信息处理的热点技术营造了多媒体网络信息整合的高效计算环境,基于数据仓库设计一套高效且有效的数据整合管理方案,优化多媒体网络信息数据的使用价值。一、多媒体网络信息大数据整合(一)Spark并行计算框架大数据时代产生的多媒体信息数据呈海量规模增长,然而传统的串行计算环境每次只能执行单个指令,难以满足用户高效率、大规模数据整合需求。所以,对这部分数

3、据信息的整合需要在大数据并行框架环境下完成,确保每次能够执行多个数据计算指令以增加问题求解的范围,从根本上改善复杂性多媒体信息大数据整合计算的速度。根据开源计算框架Hadoop的性能不足,技术人员开发了全新的基于内存运算的Spark并行计算框架,采用弹性分布式数据集代替传统计算框架的核心数据结构,解决了数据整合运算期间产生的大量网络IO开销与内存IO开销问题,因此大幅度提升了大数据整合计算的效率,减少了资源占用率。在Spark并行计算框架下,多媒体大数据整合用户借助弹性分布式数据集可实现部分数据在内存中的缓存,并行计算操作执行可以循环使用这部分缓存数据。Spark并行计算框架为了灵活操作弹性分

4、布式数据集,设置了一部分特定算子专门为弹性分布式数据集运算提供服务。算子本质上是Spark的函数工具,因此,算子与弹性分布式数据集是Spark并行计算框架的核心构成。弹性分布式数据集为抽象化的数据结构,数据集在机群服务器内存中的存储形式被其定义为“分布式”,换言之,一个多媒体网络信息数据集被规划成数个数据块,一一分布存储在机群节点部位。Spark框架赋予每个多媒体数据块独特的BlockID标识,识别BlockID标识对应的元数据即可灵活执行对数据块的存储、传输等操作。此外,为了方便借助算子操作多媒体数据,多媒体数据块运算过程中被划分成多个区域。除了弹性分布式数据集与算子设定以外,Spark并行

5、计算框架引入了智能化任务调度机制,以改善大数据整合操作的调度问题。各个任务阶段可以根据实际运算量确定使用“串行”还是“并行”方式,阶段任务的中间结果不必要保存在HDFS内,进而减少Hadoop开启与任务调度过程中产生的开销问题。(二)基于数据仓库的多媒体网络信息大数据整合技术在多媒体网络大数据整合分析之前,有必要对其进行压缩处理,降低多媒体网络信息的冗余度,提高数据存在的价值度。所以,多媒体网络信息大数据压缩也是针对其多余部分进行压缩处理。例如,网络文件中如果反复出现同一符号,高于正常符号出现的频率,减少或者删除部分此符号即可达到数据压缩的目的。本文选取哈夫曼编码算法进行多媒体信息的无损无失真

6、压缩,最大程度维持数据信号的质量。在此基础上,利用数据仓库技术对多媒体网络信息大数据进行整合。数据仓库的体系架构设计,见图1.基于数据仓库的多媒体网络信息整合能够描述多媒体数据的历史性变化历程,存储整合数据的性能相对稳定,可以按照内容主题进行数据整合归类,为多媒体网络信息管理决策提供基础条件。分析基于数据仓库整合信息的过程:多媒体网络信息主要以文本、语言、图像等形式存在,对这部分数据进行压缩处理后需要采用ETL工具进行数据调度,以规范数据表达形式;ETL数据调度主要包括数据抽取、转换与加载。接下来构建CDC数据仓库,按照多媒体网络信息的主题要求进行分类整合存储,设计数据模型时发挥OracleB

7、IEE11g中间件作用。最后,通过数据仓库整合的多媒体网络数据可以作为特定行业的业务规划、关联规则挖掘以及决策分析的依据。以上是多媒体网络信息数据仓库构建的基本过程,为提高大规模数据整合效率与稳定性,设计了数据仓库的优化调度策略。同时,在数据仓库集成关联规则挖掘算法,辅助完成多媒体网络信息的关联度挖掘。1数据仓库的优化调度策略ETL是数据仓库全程使用的重要数据处理工具,完成文本、语音、图像等多媒体信息由网络云平台向数据仓库的抽取工作,根据数据规模的不同可使用全量抽取或者增量抽取。抽取期间以更加标准规范的方式约束数据质量,将有价值的数据转移到数据仓库中,排除冗余数据部分。为了保证ETL工具调度的

8、高效性与通畅性,基于萤火虫算法改进ETL任务过程,将一个ETL任务视为一个萤火虫,通过寻找每个萤火虫都可以聚集到最亮位置的方案,确定最佳的任务调度方案。萤火虫算法优化后的ETL调度数据运算的时间开销最低,并且不会打破ETL任务相互依存的关系。2数据仓库的关联规则挖掘策略网络运行产生的多媒体信息原本来自差异性源头,所以对应的数据结构也存在差异。经过ETL转换、加载处理数据可以规划到相应的数据模型之中,呈现一定的较为浅显的关联关系。而Apriori算法可以帮助数据仓库整合后的多媒体网络信息进行深层次、高效率的关联规则挖掘,获得数据之间的关联关系规律。定义存在XY,支持度与置信度采用s、c表示;其中

9、,X、Y分别表示规则的前件与后件,关联规则挖掘过程中,仅含有X的项出现在所有项集中的频率解释为支持度,而同时含有X、Y的项出现在含有X项集中的频率解释为置信度。Apriori算法挖掘关联规则主要分为两步,一是获得频繁项集,二是基于频繁项集得出关联性较强的规则,前提是规则不小于最小支持度与置信度。“频繁项集”是指在最小支持度之上的项集。关联规则挖掘遵循迭代原则,当不会出现后续频繁项集时停止运算。二、多媒体网络信息大数据管理(一)多媒体网络信息大数据的缓存管理多媒体网络信息在整合过程中以及客户使用期间都会产生不同程度的数据搜索指令,处理好数据搜索与缓存间的关系是提高多媒体数据利用与传输效率的关键。

10、OLAP(联机分析处理)是数据仓库分析数据的核心工具,以多维度形式灵活实现数据透视、数据上卷、数据下钻命令,以此得到决策性信息。因此,本文采用OLAP设计缓存机制解决多媒体网络信息大数据的缓存管理问题,以提高数据整合与数据使用的效率。详细的缓存机制结构。为用户端设计单独的缓存模块,并设置相应的内存型数据库。当搜索指令发送到缓存机制时需判断此部分内容是否存在于缓存模块,如不存在则需要立即缓存;若存在则需要到达用户界面,判断此部分内容是否存已经缓存,若已缓存则输出搜索结果,缓存结束;若没有缓存则需更新搜索指令语句,更新的方法是删除搜索已在缓存模块的查询指令,进而得到搜索结果输出,缓存结束。(二)多

11、媒体网络信息大数据的安全管理多媒体网络信息安全管理需要从运维阶段、数据加密、技术人员安全培训等方面入手,全方位保障大数据处于安全稳定运行之中。 1在数据运营与维护阶段,需要标记数据的准确来源,便于后期查询数据的传输经过,为不确定问题提供解决证据。欧盟对个人性质的多媒体网络信息数据已经形成了登记规范制度,以便用户对特殊性数据有效溯源。2数据加密技术可以良好解决多媒体网络信息的安全问题,对于构建的数据仓库可以使用SSL加密技术保护文本、图像等形式信息的安全性,即使是进行数据节点与应用程序交换行为也可以保障大数据处于安全传输状态。即使黑客非正常用途获得已加密数据后,也无法解密,无法探寻到多媒体数据中

12、的核心要义。3大数据管理人员的专业化水平与数据安全系数成正比,所以,一方面要聘请领域专业人才开展数据管理培训活动,定期更新技术人员的大数据知识储备量;另一方面,要制定严格的数据安全责任制度,确保恶意行为发现初期做好相应的安全方案工作,明确个人在数据安全中的责任,以奖惩方式约束技术人员的数据安全意识。在多媒体综合运用的时代,网络信息多表现为文本、语音、图像数据的结合体,需要对海量数据进行清洗、转换、加载重新保留有价值的内容,才能精准发挥其事物决策分析功能。为此,本文在Spark并行计算框架环境下,基于数据仓库对多媒体网络信息大数据进行有效整合。总体而言,本文解决多媒体网络信息整合的优势有两点:其一,Spark并行计算框架将弹性分布式数据集作为新的核心数据结构,有效降低数据整合中的网络IO开销与内存IO开销;其二,数据仓库采用ETL工具实现多媒体大数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论