可行性报告-公众舆论安全监测系统的研制与应用_第1页
可行性报告-公众舆论安全监测系统的研制与应用_第2页
可行性报告-公众舆论安全监测系统的研制与应用_第3页
可行性报告-公众舆论安全监测系统的研制与应用_第4页
可行性报告-公众舆论安全监测系统的研制与应用_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE第13页共13页互联网公众舆论安全检测系统的研制与应用可行性报告

1.立项的背景和意义根据最新的统计数据,我国网民数量已经超过4.2亿,居世界第一位。如此数量庞大的网民群体,加之以自由言论的网络氛围和形态丰富多样的网络媒体形式,造成了互联网上海量的舆论话题。互联网上的话题和传统媒体上的话题有很多区别,最大的不同就是传统媒体上的报道往往是单向性的信息发布,而互联网上的话题往往具有突发性、直接性、丰富性、互动性、偏差性的特点。对于政府来说,这些数据中蕴含着大量的信息。正确合理利用这些信息,可以有效地了解民情民意,从而快速及时处理一些突发性公共危机事件,改进我们的管理和服务,促进社会的和谐、稳定和发展。互联网上的讨论和文章很多。对于政府来说,一方面,网民会在互联网上发表自己对政策以及政府部门的观点、意见和看法。这些观点信息能反映出那些好的、受人们拥护的政策,也包含许多针对性的批评(如:对于医疗事故的曝光和医院服务的批评),对尚待改进问题的建设性的意见(如:对如何优化公共交通的建议、对医疗社会保障的制度的建议、对中小学教育改革的建议等等)。另一方面,我国正处于经济发展的黄金期和社会矛盾的多发期和凸显期。一些看似平常的小事往往会酿成群体性事件。群体性事件,尤其是经过互联网的传播和放大,往往造成激烈的冲突对抗、严重的破坏性后果和恶劣的社会影响。如今网络上已经出现了一些矛盾很尖锐的公众舆论话题。这些话题很容易被强烈地放大,网络舆论从而成为了左右公众观点的很大的力量。因此对这些富含信息的话题和文章,特别是那些可能影响社会稳定和谐的敏感话题,政府需要第一时间了解信息,发现问题,尽快地解决问题。这对提高政府管理和服务水平意义重大,对于社会的稳定和发展意义重大,对于社会的发展和进步意义重大。另外,对于互联网上的恶意扭曲,扩大和传播不良信息的行文也能在第一时间进行打击,从而维护社会稳定和谐。2.国内外研究开发现状和发展趋势传统的网络舆情监控系统通常分为网络异常监测和常规趋势预测两方面。实际上,网络异常监测对于政府部门更为重要。因此,我们主要关心的是网络异常监测方面。针对网络异常监测,一般采用数据流高频项检测技术。该技术首先对所采集的关键词语料集进行必要的分词,然后对提取的关键词进行统计、聚类和人工分类,最后得到舆情关键词。在此基础上,针对所选的舆情关键词进行频度曲线绘制,针对关键词频度曲线进行必要的突变分析和关联分析。突发检测(BurstDetection)算法是针对关键词频度曲线的突变性分析的有效方法。目前国内对于文本数据的突发性检测研究尚处在初级阶段。国际上对文本词频的突发性建模(burstiness)多用DirichletCompoundMultinomial(DCM)模型。最新的方法是采用DirichletCompoundMultinomialLatentDirichletAllocation(DCMLDA)模型将话题检测和词频突发性检测结合在一起进行建模。这种基于词频的方法在话题发现方面多采用聚类算法。这种方法的缺点是:往往对网民评论的情感因素关注不足,而且通常是停留在热点话题发现的程度,没有进一步根据倾向性进行区分。最新的方法将自然语言理解技术中的文本倾向性分析技术引入舆情监控系统之中。该方法首先通过自然语言处理的分词技术得到热点话题和与热点话题有修饰关系的词语,然后基于词语倾向性词典对热点话题的修饰部分进行特征提取,最后使用机器学习的方法区分公众舆论对热点话题的情感倾向。已有的文本倾向性分类研究主要有以下三类方法,这些方法在解决一些特定问题上已经取得了不错的效果。第一种是基于机器学习的传统方法,将统计分类技术应用于文本倾向性分类。PangBo等人提取了包括词汇、词性、多元组等特征,用多种分类器设计方法进行了对比实验。第二种是基于语义的方法,先提取文本中代表情绪倾向的词汇,再对其进行统计计算,根据特定公式得出倾向性得分,这可以参考Turney的工作。他以点互信息PMI判断词汇倾向性并对所在文本进行了倾向性判别。第三种是结合了前两种的方法,以文本中倾向性的词汇为基础,量化得到特征向量训练分类器。在朱杰的工作中,他用基于评价对象和情感特征的文本向量模型,通过TSF-IDF加权方法,得到的文本情感倾向分类方法取得了不错的结果。相对于前两种方法,这种方法出现较晚,但由于综合了两者的长处,效果要好一些。综上所述,从算法角度看,目前的研究算法在短文本的分类,倾向性分析方面,在垃圾文章的过滤等方面还远远不够。另外,从系统的设计和实现角度看,目前已有的互联网舆情监控系统在功能上还远远不能满足实际应用的需求,这些系统还缺少下面这些功能:无法对微博,新闻评论进行分析;还没有自动过滤垃圾文章、自动分析文章的倾向性、自动对文章分类的功能;还不能针对政府部门的需要进行针对性的分拣和报告。这些正是开展该课题的动机。4.项目目标和研发内容4.1项目目标通过本课题的实施,将构建一个具备先进采集和分析功能的互联网舆情系统。系统集成了微博和新闻评论的采集功能,系统具备垃圾文章过滤、不同话题文章的分类功能的先进数据分析能力;系统还可以自动生成报告和发送预警信息。另外,通过本课题的实施,将实现4.2研发内容本课题的任务是对互联网公众论坛研制舆论安全监测系统。具体说,本课题的研究和开发任务包括如下几个方面:(一)数据收集。数据收集是一个基本任务,主要包括微博和新闻评论的收集。项目申请人所在单位已经具备了一般的博客和论坛的数据收集子系统。目前还缺少微博和新闻评论的收集。因此,这部分的工作集中在微博和新闻评论的收集子系统的研发,以及在用户行业相关的论坛、博客和新闻站点进行自动的数据收集和整理。(二)数据分析。数据分析是该课题的最重要和核心的部分,包括垃圾文章过滤、不同话题文章的分类和文章的倾向性分析三个子任务。(1)对话题不相关的文章进行过滤主要指对于诸如广告、自动回复等等无用的文章进行过滤。(2)对不同类型的热点话题进行分类是把文章按照不同的政府部分进行分拣,如:把文章按照医疗卫生、公安等部分进行分拣。(3)文章的倾向性分析是指该文章是积极的、支持的、正面的,还是消极的、反对的、负面的。申请人单位已经具有了文章的倾向性分析算法。因此,这部分工作不作为该项目的研究内容。(三)报告自动生成。主要是指根据公安等系统的工作方式和要求,制作和生成需要的报告。(四)信息发送。目前申请人所在单位已经具备了通过手机短信和电子邮件的方式进行及时的信息发送。在该课题中,还计划和公安部门的内网相联,从而可以将一般的信息和报告及时在公安部门的内网发布,让普通的公安人员阅读。(五)平台设计和实现。为完成该应用系统,需要进行平台的设计和实现4.2.1数据的收集(1)微博的采集由于微博数量众多,并且不少微博系统需要你有了微博的ID以后才可以查看到别人的微博信息,为简化采集流程,本系统的微博采集的主要思路是我们会注册一些ID去关注(FOLLOW)那些作为采集目标的微博,这样登录这些ID以后就会看到所关注的微博的更新。然后利用系统已有的网页结构化信息采集模块从这些ID采集所有关注的微博的内容。在关注微博数量不是特别多的情况下,用一个ID就足够了。当关注的微博数量超过微博系统所允许的关注目标数以后,才需要注册更多的ID。采集的架构设计如图1所示。图1微博采集架构图示(2)新闻评论的采集系统现已有新闻采集模块,需要加入评论的采集功能。考虑到新闻的时效性和系统的性能及反应速度,系统将只对指定的时间内(例如最近一个月内)的新闻采集其评论的更新。新闻的采集和评论的采集两个模块在数据上保持联系,但在运行上保持独立,如图2所示。新闻采集模块会采集新的新闻,而评论采集系统则会选择系统里面采集到的指定时间段内的新闻去采集其评论,并在数据层面将评论和其所针对的新闻关联起来。每次评论的采集根据评论的发表时间和上次采集的运行时间只采集新增加的评论内容。图2新闻采集架构图示4.2.2数据的分析数据分析是该课题的最重要和核心的部分。下面对于其中涉及的三个子问题描述可能采取的技术路线。我们把垃圾文章的过滤看成是一个分类问题,即对于一篇文章,判断其是垃圾文章或者非垃圾文章。当然,不同热点话题文章的分拣很自然地可以被看作是一个分类问题。因此,对于垃圾文章过滤和不同热点话题文章的分类我们可以采用统一的两类分类器设计方法。例如,针对垃圾文章过滤可以把所有的数据分为两类,一类是有用数据,另一类是垃圾数据。而针对不同话题(医疗,教育,公安等)的分类,我们可以简单地将教育和公安等话题分为非医疗类文章。在分类器设计部分我们主要考虑两种分类方法:1)Adaboost方法,2)先聚类再分类的方法。首先我们提取关键词向量作为文本的特征。具体做法是:先采用分词工具提取全样本集(训练和测试)的关键词,然后去掉无意义的词语(语气词,连接词等)得到一个关键词表,该词表共有N个关键词。每一篇文章的特征是一个维数与关键词表中词语个数相同的向量。我们考虑的两种方法都是用这种特征向量。Adaboost方法需要一个标注的训练集,以下以垃圾文件过滤为例进行说明。在训练集中,垃圾文件被标注为1,非垃圾文件标注为-1。第i篇文章可以用特征向量表示为:针对每一维有一个弱分类器:其中,是一个阈值,该阈值保证弱分类器的正确率在50%以上。给出训练样本:,其中是文章的特征向量,是每篇文章的标签。Adaboost的具体算法是:初始化:设正负样本分别有A个和B个。若,初始化其权重为,若,初始化其权重为。对每一个,归一化。对的每一维,训练一个弱分类器,计算器错误率为:。从中选出最小的一个,记为,计算。如果,则终止循环,否则增大错误样本权重为:。最终输出的分类器为:。在Adaboost方法中,如果训练集太小,不能保证分类器的性能。如果训练集太大,对训练集中的每一个数据进行标注的代价是非常昂贵的。我们考虑的另一个思路是先聚类再分类。对于垃圾文章过滤来说,虽然很多文章都属于垃圾文章,但是这些文章也自然的聚成一些简单的类别。通过先聚类再分类的方法,有可能使用更为简单的分类器设计方法就可以得到较好的效果。这是因为类别分界面可能更简单了,另外,如果只有少量的样本这种方法也可以得到不错的效果。以下针对不同话题分类的问题进行说明。假设我们一共有K个话题,那么我们需要设置一个合适的类别数用于聚类,该数目应该大于K。使用这个类别数对全样本集进行聚类。对过分割的聚类结果进行人工指导的合并,同时去除那些自成一类的野值点。根据得到的标签数据,进行分类器设计。4.2.3报告自动生成本系统将实现面向公共安全和公安系统的报告订制与自动生成功能。将根据公安等系统的工作方式和要求,制作和生成需要的报告。报告的生成需定义模板,然后系统会根据模板和实际的数据生成最终的报表,如图3所示。即最终报表的样式取决于模板的定制(定义)。根据不同用户的需求可以灵活的定义多种报表模板。图3报告生成图示在报表种类不是特别多的情况下,可以采用动态网页直接生成报表。如果报表种类特别多,可以采用开源的报表制作库。4.2.4信息的发送信息的发送主要分为预警模块和通讯模块,如图4所示。图4信息发送图示(1)预警模块实时监控采集数据,根据设定的预警条件触发数据警报并发送到通讯模块。预警条件可以根据文章的回复量,阅读量,或者关键词信息等设置,并可以根据信息的关注/严重程度设定预警级别。(2)通讯模块根据警报类型及级别触发不同的通讯方式将信息发送至相关人员。通讯的方式包括系统可以自动处理的电子邮件、短信,以及需要客服人员人工处理的电话通知等多种形式。另外,通讯模块还包括与其它外部系统(例如公安系统)的数据接口,可以将相关信息发送到外部系统。4.2.5平台的设计和实现本系统可以对全国各类互联网站点,例如论坛、新闻、博客、微博等进行实时扫描监控,第一时间获取客户有关的结构化的网络信息,例如文章的标题,内容,阅读数,回复数,发表时间,回复时间等。系统将对所有信息进行智能研判和分析,统计汇总舆论走势、舆论来源,并推荐阅读值得重点关注的文章,形成阅读性良好的报告。而对于突发事件,系统将第一时间以紧急情况警报的形式(邮件、手机短信、电话等)通知相关人员。系统的模块主要分为采集器、数据库、数据分析、应用服务,如图5所示。图5系统平台图示(1)采集器采集器采用跨平台的java技术,可以运行在各种操作系统上。另外,本系统的网络爬虫和一般的网络爬虫的区别是,本系统可以执行网页上的动态脚本(例如javascript,ajax等)以得到普通爬虫通过抓取静态页面无法获取的信息。采集器的采集目标可以包括新闻、论坛、博客、微博等各种类型的站点。(2)数据库系统的数据库目前采用开源数据库MySQL,以磁盘阵列组成存储模块,并利用其数据库复制技术实现数据库的异地实时复制。数据在异地复制数据库定时备份,使数据的安全性能够得到有效保障并且不影响主数据库的运行。(3)数据分析数据分析模块会对采集的数据进行人工智能分析处理,主要功能包括:垃圾文章(包括广告,无意义文章)的过滤,各类文章的分类,文章的倾向性分析等。(4)应用服务应用服务模块对数据管理员及终端客户提供各种数据服务。包括WEB服务,WAP服务,针对特定终端的其它服务,各种数据推送以及预警服务(例如电子邮件,短信等)等。5.关键技术和解决关键技术途径5.1项目主要技术及相关技术国内外专利申请和授权情况,本项目拟采取的对策本课题的研究对象是互联网公众舆论安全监测系统,这是一个复杂的软硬件系统。系统的研制与应用在技术上涉及广泛的多个技术学科,比如有计算机搜索引擎(网络爬虫)、数据库、数据挖掘、机器学习以及软件工程等等。就本课题的研究内容而言,主要涉及以下技术方面:搜索引擎技术。本课题中主要是指网络采集、网络爬虫的技术,尤其对新闻评论和微博的采集。数据库技术。本课题中主要是海量数据的存放和抽取。数据库需要同时支持格式化数据抽取和快速数据搜索。数据挖掘、机器学习。本课题中我们将研究垃圾文识别、文本的分类和网络行为异常发现。该领域的技术成果,绝大部分属于理论方法学研究范畴。经过科学文献和知识产权检索,我们发现,本课题涉及的各方面的技术方法绝大部分是公开科学文献。目前,产业界尚无对我们构成壁垒的相关技术保护。基于我们对相关产业界和学术界的深刻理解,我们认为,本课题组在多个方面具有突出的优势。只要充分发挥这些优势,可以顺利完成课题的研发任务。a.深厚的技术积累。项目参与单位宁波大象信息技术有限公司研发的产品“舆情快递”的系统总体基于云计算理念,可以提供公有云、私有云、混合云三种类型的服务。该产品的技术来源可以追溯到2002、2003年在清华智能技术与系统国家重点实验室的国家级科研项目。经过多年的持续的改进和开发,才形成了目前成熟商业应用的系统。应该说,本课题在此技术积累的基础上进行研究,已经占据了一定的技术制高点。b.优秀的研发实力。本课题的研发相关参与单位具有非常优秀的研发实力。清华智能技术与系统国家重点实验室在信息技术,尤其是智能信息处理、模式识别、人工智能、机器学习等领域具有一流的研究水平和深厚的学术积累。万里学院作为项目主持单位,在信息技术研究方面具有优秀的人才团队(电子信息学院、互联网技术研究中心、网络中心),团队具有极强的创新意识。宁波大象信息技术有限公司是一家高科技软件公司,公司在自动化、计算机、电子信息等领域具有高端技术人才储备。公司还拥有强大的顾问团队。c.强大的应用保障。共同申请单位宁波市公安局网警支队为本课题的顺利实施提供了强大的应用保障。网警支队是专门从事网络安全监测的公共安全部门。是本课题所研究的系统的最对口的政府应用部门之一。网警支队的参与为课题提供了系统研发的真实的、第一线的需求。另外,还可以为课题研发提供实验和测试环境。d.优秀的产业基础。宁波大象信息技术有限公司所推出的“舆情快递”互联网信息实时监测系统和服务已经在市场上占据了一定的制高点。尤其在宁波地区,该系统的推广效果极佳,多家政府和企事业单位已经安装系统,并对系统所提供的服务给予高度的评价。前期的成功的市场推广为本课题的开展积累了数据和用户需求。e.已有的知识产权保护。项目参与单位宁波大象信息技术有限公司注重知识产权保护。公司对自身研发成果已经进行了全面的保护:已经申请了多项专利(部分专利已经授权)和软件著作权。(见3.2.5.2课题难点及其解决途径我们认为,下面这三个方面的工作是本课题的难点。(1)微博和新闻评论的自动采集。这部分的难点在于软件的设计和实现。(2)垃圾文章的分类,各类文章分类。这部分的难点在于算法的设计。特别是高性能的算法的设计是非常困难的课题。(3)和公安内部网接口,进行自动的信息发送。这部分的难点在于接口协议的设计和软件的设计和实现。这三个方面难点的解决方法在第四节研发内容中已有描述,这里不再累述。5.3项目创新点我们认为,本课题创新点在于:1.微博和新闻评论的自动采集是本系统的一个创新点。据我们了解,目前类似的系统没有这样的功能。2.垃圾文章的分类,各类文章分类是本系统的较大的创新点。目前类似的系统没有这样的功能。7.年度进度和目标项目进度安排如下表所示。起始年月进度目标要求(每栏限80字)2011.06至2011.12完成项目总体方案分析与设计;完成项目详细设计及各模块实现方案设计;完成系统平台的方案设计和设备选型;完成关键算法的设计及选型;2012.01至2012.061)数据采集模块子系统的研发为每个服务器所要采集的信息的网站进行配置;设计和编写软件实现对不同形式信息的采集;设计算法实现对不同类型的格式信息进行采集;设计算法实现新的信息格式出现时,软件对信息格式的自适应性;2)数据分析子模块的研发数据预处理:如过滤垃圾文章等处理。为此,需要设计和实现算法实现数据的自动预处理。如:垃圾文件自动过滤算法。预警功能:根据系统设置的预警任务进行舆情发现和自动报警。为此,需要设计和实现舆情发现的算法。检索:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论