版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章网络舆情监测技术主讲:XXX导言
网络舆情监测技术非常复杂,涉及许多计算机与网络等方面的专业知识,对于新闻与传播的从业者和研究者而言,掌握网络舆情监测相关的基本技术原理,把握技术的基本发展方向以及它们对于网络舆情监测的影响,是十分必要的。目录第一节网络舆情监测数据采集第二节网络舆情监测数据分析第三节网络舆情监测可视化技术第四节大数据时代网络舆情监测技术遇到的挑战基础概念:索引统一资源定位符(UniformResourceLocator,URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。只要能够对资源定位,系统就可以对资源进行各种操作,如存取、更新、替换和查找其属性。基础概念:索引在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。第一节网络舆情监测数据采集
(一)网络爬虫网络爬虫(又被称为网页蜘蛛、网络机器人),是一种按照一定的规则自动地抓取互联网信息的程序或者脚本。一、数据采集基本技术第一节网络舆情监测数据采集
(一)网络爬虫1.网络爬虫的类型(1)批量型爬虫:批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。批量型爬虫是目前数据采集系统中最简单的爬虫系统。(2)增量型爬虫:增量型爬虫会保持持续不断的抓取,对于已经抓取过的网页会按照一定策略定期更新。增量型爬虫是目前数据采集系统中最常用的爬虫系统。(3)垂直型爬虫:垂直型爬虫只关注特定主题或特定行业的网页,其最大的挑战就是如何识别网页的内容是否属于指定行业或主题。一般只有垂直行业分析才会需要此类型的爬虫。一、数据采集基本技术第一节网络舆情监测数据采集
(一)网络爬虫2.网络爬虫的特性(1)高性能:爬虫系统在单位时间内下载的网页数量越多性能越高。(2)可扩展性:爬虫系统应该很容易通过增加抓取服务器和爬虫数量来缩短抓取周期。(3)健壮性:包括两方面,一是爬虫系统可以处理抓取中遇到的各种非正常情况,二是爬虫系统自身有一套健壮的容错机制。(4)友好性:包括两方面,一是保护网站的部分私密性,二是减少被抓取网站的网络负载。一、数据采集基本技术第一节网络舆情监测数据采集
(二)网页去重在当今的互联网环境中,有相当大比例的内容是完全相同或者大体相近的。这些网页不仅会增加数据采集系统的压力,而且会影响后续数据分析结果的质量,所以网页去重的问题尤为突出,已经成为提高数据质量的关键技术之一。在实际的数据采集系统中,往往是在爬虫阶段进行网页去重操作。当爬虫新抓取到网页时,需要和已经建立到索引内的网页进行重复判断,如果判断是近似重复网页,则按一定策略进行处理,如直接丢弃、打上相似标签。一、数据采集基本技术第一节网络舆情监测数据采集
(三)分布式技术分布式计算是一门计算机科学,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。面对海量的数据抓取任务,只有采取分布式架构才有可能在较短的时间周期内完成一轮抓取工作。常见的分布式架构有两种:主从式分布爬虫和对等式分布爬虫。一、数据采集基本技术第一节网络舆情监测数据采集
(三)分布式技术1.主从式分布爬虫(master-slave)是分布式技术中最传统的也是最常见的一种形式,它指不同的服务器承担着不同的角色,其中有一台专门的master服务器来维护待抓取的URL(universalresourcelocator,统一资源定位符)队列,它负责每次将URL分发到不同的slave服务器,而slave服务器则负责实际的网页下载工作。Master服务器除了维护待抓取URL队列以及分发URL之外,还要负责调解各个slave服务器的负载情况,以免某些slave服务器过于清闲或者劳累。一、数据采集基本技术第一节网络舆情监测数据采集
(三)分布式技术1.主从式分布爬虫(master-slave)一、数据采集基本技术第一节网络舆情监测数据采集
(三)分布式技术2.对等式分布爬虫(peertopeer)对等式分布爬虫体系中,服务器之间不存在分工差异,每台服务器都承担着一样的功能,各自负责一部分URL的抓取工作。由于没有URL服务器存在,如何分工就成了主要问题。一、数据采集基本技术第一节网络舆情监测数据采集
二、数据采集原理第一节网络舆情监测数据采集
网络爬虫的基本工作流程如下:(1)首先选取一部分精心挑选的种子URL。(2)将这些URL放入待抓取URL队列。(3)从待抓取的URL队列中取出待抓取的URL,解析DNS,并且得到主机的IP,将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。(4)分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。二、数据采集原理第一节网络舆情监测数据采集
(一)网页搜索策略1.广度优先搜索策略广度优先策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。2.最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,并选取最好的一个或几个URL进行抓取。只访问经过网页分析算法预测为“有用”的网页。3.深度优先策略从起始网页开始,选择一个URL进入,分析这个网页中的URL,选择一个再进入。三、数据采集常用方法第一节网络舆情监测数据采集
(二)网页更新策略1.历史参考策略是最直观的一种更新策略,它建立于如下假设之上:过去频繁更新的网页,那么将来也会频繁更新,所以为了预估某个网页何时进行更新,可以通过参考其历史更新情况来做出决定。三、数据采集常用方法第一节网络舆情监测数据采集
(二)网页更新策略2.用户体验策略一般来说,用户提交查询结果后,相关的搜索结果可能成千上万,而用户没有耐心去查看排在后面的搜索结果,往往只看前三页的搜索内容,用户体验策略就是利用搜索引擎用户的这个特点来涉及更新策略的。三、数据采集常用方法第一节网络舆情监测数据采集
(二)网页更新策略3.聚类抽样策略网页一般具有一些属性,根据这些属性可以预测其更新周期,具有相似属性的网页,其更新周期也是类似的。于是,可以根据这些属性将网页归类,同一类别内的网页具有相同的更新频率,并通过对各类别内网页采样的方式来确定更新周期。三、数据采集常用方法第二节网络舆情监测数据分析
(一)全文检索技术——负责命中目标信息全文检索技术是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能,还需要具有方便的用户接口、面向WWW的开发接口等。在功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等功能,外围则由各种不同应用具有的功能组成。在结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等,加上各种外围应用系统等共同构成了全文检索系统。一、数据分析基本技术第二节网络舆情监测数据分析
(二)文本挖掘技术——负责对数据进行挖掘分析文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,它已经成为数据挖掘中一个日益流行而重要的研究领域。与一般数据挖掘以关系、事务和数据仓库中的结构数据为研究目标所不同的是,文本挖掘所研究的文本数据库由来自各种数据源的大量文档组成,包括新闻文章、研究论文、书籍、期刊、报告、专利说明书、会议文献、技术档案、政府出版物、数字图书馆、技术标准、产品样本、电子邮件消息、web页面等。一、数据分析基本技术第二节网络舆情监测数据分析
(二)文本挖掘技术——负责对数据进行挖掘分析文本挖掘技术在网络舆情信息分析中的应用:对网络舆情进行描述;对网络舆情的关联性进行分析;对网络舆情信息的真实性进行判断分析,对传播主体的意图及态度倾向进行推论;对网络舆情的产生原因进行分析;预测和推论网络舆情信息的产生和变化趋势;一、数据分析基本技术第二节网络舆情监测数据分析
(一)全文检索技术原理目前全文搜索引擎通常使用倒排索引技术。倒排索引(invertedindex),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。二、数据分析原理知识延伸:正向索引在搜索引擎中每个文件都对应一个文件ID,文件内容被表示为一系列关键词的集合(实际上在搜索引擎索引库中,关键词也已经转换为关键词ID)。例如“文档1”经过分词,提取了20个关键词,每个关键词都会记录它在文档中的出现次数和出现位置。第二节网络舆情监测数据分析
(二)文本挖掘技术原理步骤:二、数据分析原理第二节网络舆情监测数据分析
(二)文本挖掘技术原理步骤:(1)文本预处理:选取任务相关的文本并将其转化成文本挖掘工具可以处理的中间形式。(2)文本挖掘:在完成文本预处理后,可以利用机器学习、数据挖掘以及模式识别等方法提取面向特定应用目标的知识或模式。(3)模式评估与表示:为最后一个环节,是利用已经定义好的评估指标对获取的知识或模式进行评价。如果评价结果符合要求,就存储该模式以备用户使用;否则返回到前面的某个环节重新调整和改进,然后再进行新一轮的发现。二、数据分析原理第二节网络舆情监测数据分析
(二)文本挖掘技术原理二、数据分析原理第二节网络舆情监测数据分析
(一)文档聚类首先,文档聚类基于文档之间的相似度,可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;其次,文档聚类可以将一个文档聚类成若干个类,提供一种组织文档集合的方法;再次,文档聚类还可以生成分类器以对文档进行分类。聚类方法通常有:文本挖掘中的聚类可用于提供大规模文档集内容的总括,识别隐藏的文档间的相似度,减轻浏览相关、相似信息的过程。三、数据分析常用文本挖掘算法第二节网络舆情监测数据分析
(二)文档分类分类和聚类的区别在于:分类是基于已有的分类体系表的,而聚类则没有分类表,只是基于文档之间的相似度。由于分类体系表一般比较准确、科学地反映了某一个领域的划分情况,所以在信息系统中使用分类的方法,能够让用户手工遍历一个等级分类体系来找到自己需要的信息,达到发现知识的目的,这在用户刚开始接触一个领域想了解其中的情况,或者用户不能够准确地表达自己的信息需求时特别有用。传统搜索引擎中目录式搜索引擎属于分类的范畴,但是许多目录式搜索引擎都采用人工分类的方法,不仅工作量巨大,而且准确度不高,大大限制了其作用的发挥。三、数据分析常用文本挖掘算法第二节网络舆情监测数据分析
(三)自动文摘互联网上的文本信息、机构内部的文档及数据库的内容都在以呈指数级的速度增长,用户在检索信息的时候,可以得到成千上万篇的返回结果,其中许多是与其信息需求无关或关系不大的,如果要剔除这些文档,则必须阅读完全文,这要求用户付出很多劳动,而且效果不好。自动文摘能够生成简短的关于文档内容的指示性信息,将文档的主要内容呈现给用户,方便用户决定是否要阅读文档的原文,这样能够节省大量的浏览时间。三、数据分析常用文本挖掘算法第三节网络舆情监测可视化技术
数据可视化(datavisualization)是研究数据和信息视觉呈现的学科。它解决的问题一方面是如何将冰冷枯燥的数据和信息用有趣直观的方式呈现给受众,另一方面也是视觉分析的方法,帮助人们理解大量的复杂的数据背后隐藏的故事和洞察。它是将计算机科学领域的理性逻辑思维与艺术设计领域的视觉传达思维相结合的一种方式。一、数据可视化技术介绍第三节网络舆情监测可视化技术
图形是直观呈现数据的直接方法。然而,将大量数据在同一个图表中画出来并不容易。早期的测绘、天气数据都需要长时间的手工绘制。随着计算机绘图功能的开发,手工绘画已经完全被自动绘图程序取代,其问题的核心转移为要以怎样的方式呈现数据,以便数据中的信息能自然地体现出来。一、数据可视化技术介绍第三节网络舆情监测可视化技术
可视化不是一个单独的算法,而是一个流程。一般来讲,可视化流程以数据流向为主线,整个过程可以看成数据流经一系列处理模块并得到转换的过程。用户通过可视化交互和其他模块互动,通过反馈提高可视化的效果。作为探索数据的工具,可视化有它的输入和输出。可视化的对象或者说研究的问题并非数据本身,而是数据背后的社会自然现在和过程。换个角度来看,可视化的最终结果并不是人们所看到的一系列像素,而是用户通过可视化从数据中得到的知识和灵感。二、数据可视化原理第三节网络舆情监测可视化技术
(一)可视化流水线可视化流水线模型,描述了从数据空间到可视空间的映射,包含串行数据处理的各个阶段:数据分析、数据过滤、数据映射和数据渲染。二、数据可视化原理第三节网络舆情监测可视化技术
(二)信息可视化参考流程其起点为输入的数据,终点是获取的知识。从数据到知识有两个途径:对数据进行交互可视化,以帮助用户感知数据中蕴含的规律;或按照给定的先验假设进行数据挖掘,从数据中直接提炼出数据模型。用户既可以对可视化结果进行交互修正,也可以调节参数来修正模型。二、数据可视化原理第三节网络舆情监测可视化技术
(二)信息可视化参考流程其起点为输入的数据,终点是获取的知识。从数据到知识有两个途径:对数据进行交互可视化,以帮助用户感知数据中蕴含的规律;或按照给定的先验假设进行数据挖掘,从数据中直接提炼出数据模型。用户既可以对可视化结果进行交互修正,也可以调节参数来修正模型。二、数据可视化原理第四节大数据时代网络舆情监测技术遇到的挑战
最早提出“大数据”这一说法的是美国麦肯锡全球研究院(MGI)于2011年5月发表的一篇研究报告《大数据:未来创新、竞争、生产力的指向标》。这篇报告预示了大数据时代的到来:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用预示着新一波生产率增长和消费者盈余浪潮的到来。”维克托·迈尔舍恩伯格在《大数据时代》一书中所列举的大量例证都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。一、大数据的由来第四节大数据时代网络舆情监测技术遇到的挑战
Volume(大量):数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。Velocity(高速):处理速度快。Variety(多样):数据类型繁多。比如,网络日志、视频、图片、地理位置信息等。Value(价值):价值密度低,商业价值高。二、大数据的特征第四节大数据时代网络舆情监测技术遇到的挑战
(一)大数据时代,对信息的加工是基础。据互联网专家介绍,大数据体量巨大,非结构化数据的超大规模和增长分别占总数据量的80%~90%,比结构化数据增长快10~50倍。从舆情产品服务的角度看,浓缩海量信息、抵抗“数据爆炸”已成为舆情工作的基本要求。因此,掌握数据抓取能力与舆情解读能力,通过加工实现数据的增值,将是未来舆情分析的必备技能。三、大数据对舆情的价值和影响第四节大数据时代网络舆情监测技术遇到的挑战
(二)大数据时代,对数据的解释是关键。目前,数据的可获得度已经空前提高,我们可以分析更多的数据,有时候甚至可以处理与某种特别现象相关的所有数据,实现真正的大数据挖掘和分析。数据的海量、及时、动态、开放有利于我们完善分析的效度和深度。同时,大数据也有价值密度低、传播速度快等特点,数据分析的模式是否科学,将直接影响数据分析的质量。三、大数据对舆情的价值和影响第四节大数据时代网络舆情监测技术遇到的挑战
(三)大数据时代,对趋势的研判是目标。
大数据的核心和目标就是预测,具体到舆情服务,舆情工作人员从互联网浩如烟海的数据中挖掘信息、判断趋势、提高效益,虽然获得广泛且实际的应用,但还远远不够。舆情分析人员要不断增强关联舆情信息的分析和预测,把服务的重点从单纯的搜集有效数据向对舆情的深入研判拓展,跟踪关联舆情,不再局限于危机解决,要辅之以决策参考,从注重“静态搜集”向注重“动态跟踪”拓展,从致力于“反映问题”向致力于“解决问题”拓展,使舆情产品和服务“更高、更快、更强”(视点高、预警快、处置强)。三、大数据对舆情的价值和影响第四节大数据时代网络舆情监测技术遇到的挑战
(四)大数据时代,分众服务是方向。数据的互通互联改变了数据库、应用软件和用户界面等系统之间的“孤岛”状态。舆情服务机构应树立大舆情观
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度物联网平台与设备采购合同
- 2024年度医疗器械采购合同:高精度医疗设备购买
- 2024年度保温砂浆生产线设备采购及安装合同
- 2024年度校园数字化建设设计与施工合同
- 2024年度专利许可使用合同关键技术参数与权益分配
- 2024年度仓储服务合同的服务条款和责任规定
- 04版公共车位销售与管理合同
- 2024年度企业员工福利IC卡发放与管理合同
- 2024年度版权许可合同:电影版权转授许可协议
- 2024年度大连二手房地产估价服务合同
- 工商企业等社会资本流转农村土地经营权申请表、农村土地经营权流转意向协议书示范文本模板
- 加热炉检修规程范本
- 固定资产清查合同
- 初中道德与法治培训心得体会
- 河道水体生态修复治理施工方案完整
- GH/T 1420-2023野生食用菌保育促繁技术规程松茸
- 职高学校班级家长会课件
- 第2课+新航路开辟后的食物物种交流+导学案 高二历史统编版(2019)选择性必修2经济与社会生活
- 妊娠期高血压护理质量考核标准
- 2023-2024学年上海市黄浦区八年级(上)期中数学试卷(含解析)
- IATF16949第五版DFMEA管理程序+潜在失效模式及后果分析程序
评论
0/150
提交评论