大数据环境下的网络文学舆情控制系统_第1页
大数据环境下的网络文学舆情控制系统_第2页
大数据环境下的网络文学舆情控制系统_第3页
大数据环境下的网络文学舆情控制系统_第4页
大数据环境下的网络文学舆情控制系统_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据环境下的网络文学舆情控制系统摘要文章通过对网络文学现状、舆情控制的必要性;网络文学舆情特征;网络文学舆情监控系统设计三个方面进展讨论,以期人们可以快速、全面地把握信息内容和开展趋势。关键词网络文学;舆情控制;大数据环境1网络文学现状,舆情控制的必要性20 世纪 90 年代中后期,信息时代的降临和网络的普及,互联网、卫星等信息传播工具的出现,极大地丰富了小说的发表和传播渠道,同时也让小说的消费、传播方式发生了很大的变化。特别是对于互联网和这样的新媒体,每个人都可以成为小说的消费者和传播者。这时一些别有用心的人利用网络文学传播虚假信息,分布反动言论,欺骗网民、误导言论。还有一些低级庸俗、淫秽

2、色情、虚假欺诈等舆情信息在网上不断出现,危害网络与信息平安。网络文学言论对人们意识形态的影响已成为极其重要的因素。2网络文学舆情特征网络文学从一开始就呈现了与传统文学不同的特点。网络文学有以下特点:文字信息为主。网络文学,与网络新闻、网络视频、网络报纸等不同,网络文学主要以文字为主,几乎没有其他形式的信息表达。传播途径相对固定。网络文学虽然比传统文学传播途径灵敏,但是比起其他的网络信息,网络文学的传播相对固定,只有可记录的一些网站和地址可以发布。3网络文学舆情监控系统设计根据网络文学舆情监控的特征可设计一个多层次构造的监控体系。可分为数据接入层、信息预处理层、趋势分析层、应用层设计、系统管理。

3、3.1数据接入层设计要对网络文学舆情进展监控就要获取网络上的信息,而数据接入层就是完成这项工作的。由于网络文学的性质,文本为主和发布点相对固定决定了数据接入层设计的构造。数据接入层分为采集、传输和储存三个部分。3.1.1数据的采集由于网络文学发布点虽然多但是相对固定,所以不需要不连续的到网络各处寻找相关数据。建立网络监控,监控网络节点的发布、更新、修改,一旦发现情况,就对传输程序给以信息。同时,监控点以外也有可能发布网络文学。可以应用已经成熟的爬虫等算法,对全网、搜索引擎进展概率性搜索。以其结果建立新的监控节点,或提出报警。当发现监控节点更新或修改等情况以后,进入数据传输环节。数据传输环节就是

4、将找到的网络文学数据传回效劳器。由于这时在网络传输数据有可能遇到网络拥堵、站点暂时无法连接、页面缺失等不同的状况。应对这些情况需要建立循环队列下载、断点续传、设置有效时效等手段来保证下载数据的准确性和有效性。3.1.3数据存储当数据采集来了以后就需要将数据进展存储了。首先要选择存储介质,由于数据量大、难以采集,所以要选择容量大稳定可靠的存储介质。磁盘阵列是个比较好的选择。其次储存格式,由于几乎所有数据都是文本,所以建立比较简单的储存构造就行了。一般由文件头Head和数据Data组成。文件头包含网络文学的出处、地址、途径、采集时间等必要信息。数据为网络文学采集下来的原始信息,主要有一个或多个原始

5、网页。3.2信息预处理信息采集来了以后就要进展信息处理了。对于一篇是什么意思计算机是不知道的。要让计算机找出那些不适宜的文学作品就要教会计算机找到一些敏感的词汇并进展分析和判断。于是信息预处理又分为分词、去噪、加权等操作。3.2.1分词当计算机发现“ISISThe Islamic State of Iraq and Greater Syria这个词很容易和恐惧分子联络起来,但是当计算机看见“恐惧分子时,完全可能理解成“看起来好恐惧,分子真多, 所以假设面对中文信息不采用分词技术,那么会导致信息数据的无法使用。如今比较成熟的分词方法有不少,这里选取基于特征扫描的字符串匹配的分词方法。字符串匹配的

6、分词方法又叫作机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的机器词典中的词条进展匹配,假设在词典中找到某个字符串,那么匹配成功识别出一个词。这类方法简单、分词效率较高,但汉语语言现象复杂丰富,词典的完备性、规那么的一致性等问题使其难以适应开放的大规模文本的分词处理。识别出一个词,根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况,分为最大最长匹配和最小最短匹配。3.2.2去噪网页中的“噪音是影响基于网页内容的工作的质量的一个重要因素,快速准确的去除网页中的噪音内容是进步这些工作质量的关键技术之一。这里使用了一种网页净化的方法,该方法以一组启发式规那么为根底,

7、利用信息检索的技术以及网页的特征,提取网页的主题以及和主题相关的内容,从而到达网页净化的目的。3.2.3加权同样的一个词放在不同的环境下,对整篇文章内容的影响是不一样的,对于上面划词确定下来的关键词、敏感词要进展加权才能表现出它的性质。3.3分析和结论有了以上的工作以后,我们就可以对数据进展分析并得出结论了。对数据的分析手段有很多,这里我们采用相似性统计分析的统计学手段对其进展分析。相似性统计分析是在相似性检索的根底上再对检索出来的结果进展的一系列的统计分析操作。相似性检索的算法主要是基于特征词提取和倒排索引技术,详细描绘如下:1对资料库中的每篇文档进展自动分词和提取特征词。2对资料库中的文档按特征词建立倒排索引库,建立索引的相关属性,包括词频、位置以及文本长度等。3根据每篇文档中包含特征词的多少、位置、词频、文档的长度等信息来计算库中文档与待检索文档的相关度,相关度超过一定阈值的文档即可作为相关文档处理,并给出相关系数。4结论本文阐述了大数据环境下的网络文学舆情监控系统的研究与实现。文章首先分析了网络文学舆情监控的必要性,以及目前现状。针对网络文学舆情监控系统的体系构造和主要功能模块进展了设计,为系统各模块的功能、性能及技术实现设计了详细的解决方案。并且,对网络文学舆情监控系统的技术主体技术进展了深化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论