




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
I基于地理位置的微博事件分析与可视化系统摘要计算机网络和微博2.0技术改变了传统的社交网络形式,并迅速传播到社会之中。随着无线网络和智能设备快速发展,人们可以随时随地发布关于现实世界中社会事件的信息。重大社会事件通常首先反映在微博的内容中,以吸引用户的注意力并对其产生重大影响。因此,微博也是视频识别的热点。本文研究的目的是利用数据检索算法从复杂的微博内容和用户在有限时间内可以获得的事件信息中发现有价值的材料,协助有关政府当局在微博上监察民意,并就社会管理作出决定。首先,我们使用一个开放的界面,只在中国的微博网站上收集数据。其次是在数据传播、数据传输、评论、用户活动和移动强度五项指标的基础上,发展微博的地域特色。最后,将区域微博的日常数据与区域微博的地理特征进行了比较。本研究基于利用K均值、KNN和决策树算法的微博数据分析.以及R语言微博事件发展趋势的视觉分析。关键词:微博:事件识别:视觉分析:地理坐标分析;信息检索目录目录目录摘要 I目录 II1引言 11.1研究背景及意义 11.1.1研究背景 11.1.2研究意义 11.2国内外研究现状 11.3研究内容. 22微博地理数据的采集、检测及相关技术综述 42.1微博地理数据的采集方法 42.1.1网络爬虫抓取 42.1.2基于开放API的微博数据获取 42.2微博开放平台 42.2.1开放平台的概念 42.22Auth2.0授权 52.3微博事件检测算法 62.4Lucene&Solr和R语言 72.4.1Lucene&Solr介绍 72.4.2R语言 83微博特征地理规律性构建过程和指标 93.1微博数据获取及预处理 93.1.1微博数据获取 93.1.2微博数据预处理 113.2微博地理规律性构建指标 123.2.1微博发布数量 133.2.2微博评论数量 133.2.3微博转发数量 133.2.4微博用户活跃度 133.3微博数据库设计 143.4微博的时空分布特征 153.4.1微博的时间分布特征 153.4.2微博的空间分布特征 163.5微博地理规律性的构建 173.5.1微博数据的边界划分 173.5.2微博地理规律性指标的抽取 173.5.3微博地理规律性的构建 174微博事件检测框架 194.1微博事件的摘要抽取 194.2微博事件检测的流程 194.3微博事件的分类 204.4微博事件发展趋势分析 214.5微博事件检索 215结论 23参考文献 24第一章引言基于地理位置的微博事件分析和可视化系统第一章引言1.1研究背景及意义1.1.1研究背景Web2.0信息时代的到来标志着用户从“简单的信息接收者角色”转变为“信息接收者和创造者的双重角色”。随着社会网络的发展和消费者需求的变化,微博开始出现,开创了社会服务的新时代。此外,与传统社交网络进行比较,微博一方面提供了及时的信息传播,另一方面还创造了新的社交网络形式。用户可以关注自动形成社交网络结构的内容。与传统社交网络进行比较,微博更广泛、更开放、更自由、更灵活。通过微博转发功能,如果用户对微博内容感兴趣,特别是在其意见被领导者传递后,用户可以不受阻碍地进行复制。这将导致“裂变”传播效应。为了提高微博事件识别的准确性和全面性,本研究旨在对新浪微博的教育数据进行分析和研究。在新浪微博上,用户发布了各种形式的博客帖子,其中69.0%有图片、8.6%的博客包含短链接,一些用户共享视频。这些多媒体信息产品都是丰富的微博。微博内容的特点和短媒体的特点对传统的事件识别方法的可行性和有效性提出了严峻挑战。基于此,本文提出了一种考虑地理坐标的微博事件识别方法。1.1.2研究意义微博已经成为一个获取事件信息并在用户之间共享的平台。一个简单的用户不仅可以通过微博平台表达自己的感受。休闲娱乐,个人经历,获取信息,发展人际关系.一个商人可以通过微博平台为他的产品做广告,这为盈利提供了巨大的机会。政府机构。微博客平台致力于社会和奥林匹克趋势。制定法律、法规和政策的基本方法。微生物杀伤平台是一把双刃剑,它的传播也为谣言的传播提供了温床,这可能会使人们在微博上处于危险的边缘,危及社会的和谐与稳定。基于此,本研究的研究意义如下:(1)从社会角度来看,微博赛事识别是微博奥运态势管理的基础和入口,只有提高微博事件识别的准确性和可靠性,才能了解微博事件识别的发展趋势。(2)从政府的角度来看,涉及微博的案件可能包含负面因素,危及政府的真实形象,影响公共机构对政府的信任。(3)在微博中,基于微博内容的坐标得到事件的关注度。1.2国内外研究现状为了解决互联网上信息爆炸的问题,在网络主题识别技术上存在着一个空白,该技术侧重于社会关注。后来,这项技术被引入社交网络,用于研究微博平台上的数据。本文所指的微博是指微博平台用户发布的微博。并且开始向广泛的用户传播信息和评论,举办了具有重大社会影响的活动。对微博事件的研究主要分为四部分:(1)对微博事件的情感分析。在微博中发现热点,与微博内容中的情感词识别相比,也与用户的情感波动水平相比。(2)微博“热点”传播事件信息,探索社会控制。(3)检查和跟踪微博上的事件。王勇等人指出,他们考虑到独特的向量和大尺寸,所以应用突如其来的词语来描述微博内容的特点,采用PDF算法计算意外单词的权重,最后应用绝对分组算法检测微博。(4)找出微博负责人的意见。刘志明等人构建基本指标确定领导的微博意见,采用层次分析法对指标进行量化,确定权重,验证评估指标是否符合,最后结合3个微博事件确定领导意见。最后,利用改进的HITS算法对领导者进行识别。1.3研究内容.基于微博事件识别与经典数据挖掘相结合的理论研究。我们推荐一个基于地理坐标的微博事件识别框架。最后,利用微码采集的数据验证了该框架的可行性。研究时间表(图1.1)如下:图1.1论文研究路线图研究的各部分详情如下:第一章介绍了微博识别研究的背景和重要性、热点和微博研究现状,以及国内外微博研究的内容和方法。第二章重点介绍了GIS的收集、分析、识别及相关技术。本文主要探讨了相关的理论和技术。第三章介绍了地理规律性指标的形成过程及特征。详细论述了微博的发展过程、地理规律和特点。第四章主要介绍了识别系统,本章是本研究的主要内容。根据第三章的要求,本文提出了一种微博识别系统并进行验证。第五章是总结与展望,总结了研究的主要工作,分析不足并进行展望。基于地理位置的微博事件分析和可视化系统第二章微博地理数据的采集、检测及相关技术综述第二章微博地理数据的采集、检测及相关技术综述微博作为一种新的社交网络形式,其信息有着本质的不同。web2.0早期技术应用是用户表达想法、记录生活、分享知识和技术的良好平台。。与微博相比,博客帖子具有强大的专业内容,博客的长篇写作风格对博主来说具有很强的表达力。2.1微博地理数据的采集方法2.1.1网络爬虫抓取网络爬虫首先选择高质量网站上的几个URL作为其核心。通过宽度到第一个深度不断获取新页面URI,然后发送HTTP请求。您可以获取网站数据。收集的网站数据包含许多HTML标记,这些标记不符合分析用户数据的要求,但正则表达式可以用作网站的必填字段信息。正则表达式由几个常见字符和具有特殊含义的元字符组成。适当的网络内容可以用析取词来表达来获取我们需要的数据。一方面,由于常规术语的表述具有很强的相关性,因此每次都有必要分析网站的结构:另一方面,某些数据不仅存在于网站上,而且以数据库的形式存储。网络爬虫发现很难用传统的方式捕获黑暗的网络数据。此外,如果新浪微博改变控制规则,微博的整个数据采集系统就会崩溃。必须再次更改不同参数的设置。2.1.2基于开放API的微博数据获取该网站目前可在新浪微博上查阅。有两种访问模式:站点应用程序和移动应用程序。通过社交网络访问。开发人员可以调用开放的微博界面,如微博界面、评论界面、用户界面、定位服务等。获取符合您要求的数据。与网络上爬行动物数据如何记录不同,通过API获取的数据是结构化的。“新浪”微博支持的JSONAPI数据格式简单,占用带宽更少。它易于阅读、书写和分析。在分析JSON返回的数据后.结构化数据可以存储在文件或数据库中。2014年11月,新浪微博开放平台全面更新API界面。对用户信息界面的访问权限是有限的。第三方不得再从未经授权的用户处获取个人商业信息。认证原因、粉丝数量和问题数量。微博培训和最新微博内容(口语开放级别之后:UID和SREEPNAME只能是现在的用户)。如果应用程序希望使用用户的个人数据,则必须获得用户许可证。因此,如果BO想获得教育证书,那么它需要知道0AUTH20授权的程序和机制。2.2微博开放平台2.2.1开放平台的概念2007年,Facbook开放了平台。它吸引了许多第三方开发者来服务,并取得了显著的成果。此后,谷歌密切关注互联网发展的新湖,推出了谷歌应用引擎,它不仅可以使用谷歌提供的服务。您可以在平台上安装应用程序。谷歌为所有应用程序提供GB存储。软件系统可以通过显示软件接口(API)来增加软件功能,也可以使用软件资源来增加其功能,不用担心更改软件源代码。。2.22Auth2.0授权Autb2.0(openauthorization2.0,openauthorization20)明确定义了用于使用用户资源的安全、开放和简单的标准。在访问资源的整个过程中,第三方不需要访问用户帐户和密码,因此非常安全,有助于保护消费者隐私。(1)第一步:获取请求令牌。当微博用户通过第三方使用用户资源时,可以访问(查看微博内容)并服务(删除并添加微博内容),第三方必须首先访问微博服务器(请求地址:ht/p/i.si/iin/oub/requeloken,请求参数见表2.1)未授权的requesttoken.微博服务器会验证应用程序身份的合法性,然后返回一个未投权的requesttoken值和对应的秘钥,这个步骤对用户来说是透明的。表2.1获取未授权requettoken的请求参数(2)第二阶段:向用户授权。应用程序的第三方必须将微博用户引导到微博平台本身(htp://a//oauth/authorize)提供的分辨率页面,以验证登录并获得授权。如果微博用户不登录,用户必须输入登录帐号和密码。登陆后,用户将进入用户授权页面,向用户显示应用程序第三方的详细信息,建议用户选择同意或拒绝该授权。如果用户同意授权,微博服务器将把浏览器重定向至第三方应用指定的oauth_callback(事先指定的回调URL),同时返回oauthverifier和oauth_token(见表2.2)等信息(授权的requesttoken)。表2.2用户授权返回参数(3)第三步:获取accesstoken.第三方应用使用授权后的requesttoken值,再次向新浪微博服务器发送请求(请求地址,htp:/a/cout/accss_token),该请求要将oauth_consumer_key、oauth__token、oauth_verifier(上一步获得的值)等信息告知新浪微博服务器,请求成功后会返回acesstoken和accesstokensecret。这个步骤对用户而言也是透明的。(4)第四步:用accesstoken访问用户资源。该步骤主要是在认证成功后向服务器发送访问码,认证成功后第三方可以使用服务器上存储的资源数据,认证成功后,第三方可以使用存储在Microsoft服务器上的资源数据。图2.1Auth2.0授权流程图新浪微博开放平台为第三方规定了有效期,第三方必须获得一个用户的许可才能访问令牌。许可证有效期与第三方应用程序级别相关,对应用程序的访问(未通过开放微博平台验证)有效期为1天,正常有效期为7天。第三方开发许可证有效期为五年。如果处于登录模式的微博用户在过期前访问了分辨率页面,那么“新浪”微博将自动延长令牌访问期限,以减少用户再次分辨率所带来的问题。2.3微博事件检测算法常用检测算法如下:(1)K-means聚类算法。在没有预先设定的分类标准的情况下,K-Means算法可以根据对象的性质将对象N划分为k类,从而使同一类的对象更相似,而不是更少相似。该算法的主要思想是根据用户输入的参数确定类的个数,然后根据最小距离原则随机选择类中心的对象回到合适的课堂。(2)KNN分类算法。KNN算法使用投票机制对测量数据进行分类,这些测量数据分布在已知的得票最多的类别中。如图2.2所示,假设要分类的采样点(黑色实心点)的K=7最近邻是7个数字标记点,其中节点6和7属于C3、4和5类,属于C2类,节点1、2和3属于C1类。。图2.2KNN算法分类示意图(3)决策树分类算法。决策树是一种常见的培训组织方法。一旦建立了决策树模型,就可以重用。使用ID3、C4。和5。0.决策树由三种节点类型组成:决策节点、状态节点、结果节点。决策节点是所有数据对象都应归属的类,状态节点是数据对象的属性,结果是最终排序结果。2.4Lucene&Solr和R语言2.4.1Lucene&Solr介绍Lucene38是Java编程语言中的一个开源索引和信息检索系统。为了满足不同开发人员的需求,它还提供了其他语言的API。Lusene是最成功的开源搜索引擎,被广泛使用,包括在维基百科的背景下处理用户查询。Lucerne允许开发人员根据自己的需要定义索引规则、搜索和计算相应的公式。Apache推出了基于Lucene的企业搜索引擎服务器,该服务器具有高性能和高效的搜索功能。SOL优化了Lucine的查询比较算法,并提供了一个简单的英文搜索界面(见图2.3)。图2.3Solr检索入口界面2.4.2R语言R(40)是一个免费开放的软件,允许使用R进行统计绘图和数据分析(见图2.4)。在用R语言绘制地图时,用户可以通过制作特殊的统计图来微调不同的地图元素。研究语言将数据提取算法与统计分析相结合,可以满足不同用户对数据收集和分析的需求。图2.4R语言界面.第三章微博特征地理规律性构建过程和指标基于地理位置的微博事件分析和可视化系统第三章微博特征地理规律性构建过程和指标3.1微博数据获取及预处理3.1.1微博数据获取为了防止恶意用户访问,确保正常的反应速度,BlueVibo限制了一些开放特殊接口的访问频率。微博的开放平台主要局限于两个频率维度:用户分辨率和IP。通过提高应用程序的质量或作为合作伙伴参与应用程序,开发者可以更频繁地访问应用程序。限制对接口的访问频率给从Wybo实验中收集数据带来了一些挑战。微博“新浪”建议经常打3-5分钟的电话来调用接口,因此程序可以在线程中断3分钟后实现,这样可以避免频繁访问接口。用户帐号和IP访问API中account/rate.limitstatus(请求地址:ht:/:/api.wibo.co/2/accounot/rate_limitstausjson,此接口没有访问频次限制)接口来获取。接口访问后,会返回JSON格式的数据,对其进行解析就可以获得剩余调用频次,示例如下(示例参数说明见表3.1):表3.1频次查询接口参数说明图3.1微博数据采集程序流程在下图中,北京以地理位置收集微博为例(见图3.2)。北京115.7°-117.49°K和39.4°41.6°n位于北纬39“54'20”和北纬116°25'29的中心“K,它的总面积是16410.54平方公里。因此,它在纬度方向需要大约10个坐标设置,在经度方向需要大约11个坐标设置。因此,它需要大约110个坐标设置来覆盖整个北京市。(见表3.2,数据格式长度:宽度)。表3.2北京市部分微博数据收集坐标中心图3.2微博数据采集原理图表3.3地理微博数据(第一部分)表3.3地理微博数据(第二部分)3.1.2微博数据预处理从该方案中获得的数据可能是重复的和异常的,因此在制定地理规则之前必须对其进行预处理。如图3.2所示,基于上述数据收集方案,同一微博(abcdefghi)中包含的信息在不同的位置发布。当收集的样本包含有关微博中事件的特定数据时,它们被称为例外。微博数据中存在偏差的样本在一定程度上影响了微博地理规则的可靠性和标准化。本文使用两种方法来减少异常影响:(1)当在微博上收集数据时,该人会确定当前是否有任何地点,并决定是否收集该地区的微博数据。但是,用于建立微博地理规律的微博数据可能包含一些事件。(2)在第一阶段,根据确定抽屉位置卡片单位价值的规则,删除每天发送的评论和消息的数量。(由于后面提到的微博练习的数量、活动和强度与微博的积累无关,因此只考虑发送的评论和信息的数量(见图3.3)。图3.3微博数据去除奇异值示意图在统计数据分析中,通常使用方形图来描述数据样本的方差。方块图提供了数据分析中常用的统计信息:最大值、最小值、上下象限和平均值。此外,抽屉链可以反映异常数据。奇异性的判定准则影响着微博的完整性和可接受性.如果需要更高的值,检查微博是否正确,但降低了微博的百分比。相反,如果奇点值较低,会提高微博排名,但会降低微博排名,用户需要花费大量时间和精力阅读非事件微博。3.2微博地理规律性构建指标为了能够对微博事件进行跟踪,有必要根据收到的微博制定相应的地理规律性指标。本文基于以下指标进行构建:微博用户的传播、转发、评论数量和活动性。(见图3.4)。图3.4微博地理规律性指标3.2.1微博发布数量根据“五级需求理论”,人的需求包括物质需求、安全需求、社会需求和自尊需求。随着社会的进步和社会、经济、文化的发展,人们在满足最低层次的基本需求的同时,也会继续追求最高层次的需求。建立一个满足人民生理和安全需求的小康社会和法制社会,使人民依靠两个层次的低水平需求,不断努力提高三个层次的需求水平。人不是独立的,而是一个社会,人们渴望与他人交流并表达自己的想法。微博用户根据公开表达的意愿记录他们的经历,发布微博或者就事件发表意见和看法。3.2.2微博评论数量针对微博用户所在地区突发事件,出于对用户祖国的眷恋,会更加关注事件的发展,也会经常表达对事件的看法、建议和情感。不难理解,微博用户的评论不仅取决于个人心理因素,还与微博用户的评论密切相关。当前,我国正处于向现代化转型的关键阶段,一些社会的负面影响可能会对用户产生心理影响(如厌恶、同情感),尤其是在灾难性和社会性的微博事件中,很多用户经常提到。3.2.3微博转发数量微博本质上是对微博内容的推荐行为,在一定程度上反映了粉丝对微博创作者的认同。微博内容在被广大粉丝转发后迅速传到微博平台,毕竟引起了社会的极大兴趣。3.2.4微博用户活跃度轻松播放意味着在一段时间内至少发布一条微博的人的数量。每天都有数以亿计不同层次和不同特征的人和组织张贴在微博上,发布有关微博数量的信息。突发事件发生后,微博用户在公众表达和社会崛起动力的推动下,将围绕这一事件创建微博内容。用户的活动强度可能会偏离正常水平。2012年8月,湖南永州“探望妈妈”唐辉因“扰乱社会治安”被地方政府判处劳教一年半。微博网站发布后,“谭辉事件”成为舆论关注的焦点,最后在微博舆论监督下,依法取消劳教。“谭辉事件”是微博中一个典型的事件,在微博上迅速传播,大量网友参与到这一事件的舆论中,特别是34%的微博网友带有侮辱性的侮辱,34%的网友表示震惊和愤慨,22%的人对永州涉嫌扰乱公共秩序的行为提出质疑,18%的人发布了涉及劳教制度的微博。3.3微博数据库设计为了更好地管理和存储收集到的微博和微博调查数据,需要适当的数据库结构。根据本文的要求,设计了每日微博的数据表(Everyday表)、微博事件类型表(Type表)、微博事件表(Event表)、样本微博数据表(Sample表)、微博地理规律性表(Regularity表)五张表(见图3.5)。Everyday表中有Id(自增长Id)、Uid(用户Id)、Created_at(发布时间)、Longitude(经度)、Latitude(纬度)、Repostscount(转发数)、Commentscount(评论数)、Followerscount(粉丝数)、Mid(微博Id)、Content(微博内容)字段。Type表中有Id(自增长Id)、Eventtype(微博事件类型编号)两个字段。Event表中有Id(自增长Id)、Event_date(微博事件日期)、Event_name(微博事件名称)、Event_abstract(事件相关的摘要微博Id,参照Everyday表中Id)、Eventtype(微博事件类型,参照Type表中的Id)、Event_pic(微博事件发展趋势图的路径)、Eventdesc(微博事件发展过程描述)七个字段。Regularity表中有Id(自增长Id)、Reg_cluster(微博地理规律性所属聚类)、Start_time(起始时间)、End__time(结束时间)、Reg.publish(微博发布数量规律性)、Reg_reposts(微博转发数量规律性)、Reg_comments(微博评论数量规律性)、Reg_active(用户活跃度规律性)、Reg_movement(用户移动强度规律性)九个字段。上述结构满足定位地理坐标和搜索跟踪事件的要求。图3.5微博事件检测数据库结构3.4微博的时空分布特征3.4.1微博的时间分布特征微博每天按小时收集数据样本,发布、评论和转发统计微博,以及用户的活动性和流动性。由于单日微博统计不具有代表性,本文采用数日微博统计平均值来显示相关指标的时间特征。图3.7显示了转发次数(见图3.8)和用户活动(见图3.9)以及用户移动强度(见图3.10)。微博发现的5个地理指标随时间变化趋势如下:从0点到6点,用户多在睡眠中休息,5个指标数量减少,处于低水平。从6点到12点,微博用户开始活跃起来,5项指标的数量逐渐增多。下午12时至6时下午三时直至下午六时下午三时从18点到24点,用户经常结束一天的工作,进行休闲休息,有足够的时间和精力发布、转发和评论微博,用户的活动也在增加。图3.6微博发布数量的时间分布图3.7微博评论数量的时间分布图3.8微博转发数量的时间分布图3.9微博用户活跃度的时间分布图3.10微博用户移动强度的时间分布3.4.2微博的空间分布特征由于自然条件、经济发展、文化传统和地理环境的不同,微博用户在不同地理区域的行为也有很大差异。东部沿海地区比中西部地区更活跃的微博用户,经济发达的城市通常比经济落后的城市更活跃。即使在同一个城市,微博用户对同一类型微博的反应也因地区经济发展不平衡、文化传统等因素而有很大差异。从官方杂志《新浪》(见表3.5)公布的活跃微博用户区域分布数据可以看出,该国南部和东部地区经济实力雄厚、人口密度高、微博用户活跃度高(见图3.11),两个地区达到60%,增长10%,比全国其他五个地区。表3.5微博用户活跃度地区分布.图3.11新浪微博月活跃人群省份分布3.5微博地理规律性的构建3.5.1微博数据的边界划分至于所收集的微博数据,则须分为适当类别,以便与相关的微博地理规律进行比较。为了缓解微博地理规律性指标按时间分布不均的影响,有必要区分每日微博时间测量数据,也有必要按空间维度划分每日微博数据。本文用KNN分类算法和Vino图(VoronoiDiagram)确定了微博数据的边界。假设空间中存在任意三点A、B和P,AP和BP之间的距离分别用distance(A,P)和distance(B,P)表示,AB之间的垂直平分线将空间划分为A平面和B平面,则点P∈A平面的必要条件是distance(A,P)小于distance(B,P)(具体演示可以参照ht:///Info/People/chew/Delaunay.html)。3.5.2微博地理规律性指标的抽取要获取微博的时间和空间数据,您可以选择常规指标,如微博发布、评论、推荐、用户活动和练习强度。通过对四个时段的相应值进行分组,我们可以获得博客帖子、评论和推荐的数据。假设A点(LNGL,LATL)和B点(LNG2,LAT2)之间的距离可以用3.1公式计算,分别指定经度和纬度,R是地球半径:3.5.3微博地理规律性的构建微博地理规则的创建是揭示微博地理坐标事件的前提。因此,只有建立科学规范的微机器人地理结构,才能提高微机器人的效率,减少检测误差。设计过程分为七个阶段(见图3.12):(1)微博数据采集通过数据采集程序进行7天(实验条件允许数据采集时间较长,使适应更为规律),并记录在当地的微博数据抽样表中。(2)在对微博数据样本进行初步处理后,将进行K类,对用于建立微博地理规律的所有数据按相关类进行经纬度分类,然后按K类进行分类。。(3)根据上一节介绍的微博地理规律性指标抽样方法,决定微博用户发布、传输和评论活跃和移动微博用户数量及其数量。图3.12微博地理规律性构建流程图(4)步骤(3)创建并在本地地理模式表中包含用于后续微博检测的K类微博。第四章微博事件检索框架基于地理位置的微博事件分析和可视化系统第四章微博事件检测框架4.1微博事件的摘要抽取由于微博内容长度的限制,微博数据基本上比较短,所以这里的文档长度是用长文档中的微博数量来衡量的。NT指定集合D、FL、D中有多少文档表示文档D中的字数T(用于删除过时的单词),L指定文档D的长度(用于绘制文档D中的微博数量),以及文档D的长度:根据公式计算D文档中每个单词的权重,选择得分高于某个阈值的单词,并从文档属性项中选择代表一组微博主题的单词。根据事件集合E的主题,事件发生当天微博上的数据预览,得到了与事件相关的微博。微博内容的浏览量,以及微博作者拥有的粉丝数量:在公式A和K-3权重常数中,每个权重常数为1,βRWT是通过Wi微博客发送的消息的累积数量,CW是W微博客用户发表评论的累积数量。考虑到这三个指标之间的差异及其值,公式提供了必要的权重度量和分配。事实证明,该种微博事件摘要生成方法具有良好的实验效果。4.2微博事件检测的流程如何有效地识别微生物中隐藏的数据,图3.4和图4.1的对比显示了微生物地理特征的五个指标之间的显著差异。这样的异常往往预示着微博上的事件。基于以上阐述的微博地理规律,并结合具体地理坐标,微博事件的确定过程(见图4.2)如下:(1)通过Web收集数据,收集每日数据,并将其存储在本地Web的每日数据表中,作为待验证的数据。(2)根据微博空间数据的特点,将空间数据定义为多维数据。首先将微博数据库中的局部数据分类为KNN分类算法,然后将微博数据库中的数据分类为CN分类算法的训练样本。(3)根据微博所载数据的时间特征,将对将用于确定数据的时间维度进行区分。步骤2按0-6、6-12、12-18和18-24的间隔对微博数据进行排序和处理。(4)从微博的时间和空间测量数据中,我们可以得到用户的日常地理特征、评论、转发、活动和移动强度。(5获取在微博中检测到的日常微博的微博事件摘要,并将其纳入本地微博事件列表,作为微博事件搜索系统的数据源。图4.1突发事件发生时的微博特征图4.2微博事件检测流程图4.3微博事件的分类按照国家灾害分类标准50,结合微博实际分为5类自然灾害(如滑坡、沙尘暴、地震等),娱乐(如明星丑闻、历史文化、电视节目)。通过不断使用基于地理坐标的事件定义框架来处理每日微博;过一段时间,你就能在微博上获得足够的信息。计算与某一事件相关的所有微博的总和,以五个指标中的每一个作为该事件的总体特征。通过人工读取与这些事件相关的微博内容,确定微博类型并贴上标签(见表4.1)。表4.1事件标记的微博数据示意图4.4微博事件发展趋势分析本文以生命周期理论为基础,考虑外部因素的影响,分析了微博事件的发展趋势和波动性。分析微博用户兴趣水平和传播机制的变化,可以看到微博杂志的发展趋势。微博事件的性质和外部因素影响的强度在很大程度上影响事件的生命周期长短。与热门话题相比,微博数据更新更频繁。在相对较短的时间内,微博的生命周期可以进入下一个发展阶段,因此在研究微博的生命周期时,我们必须以最少的时间接受粒子。本文在“话题索引”的基础上进一步完善,并据此提
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年药物饲料添加剂项目发展计划
- 苏科版八年级数学上册教学计划(含进度表)
- 40个常见水果的英语
- oa系统涉密自查内容
- mark造句简单而短
- 一年级道德与法治下册 第三单元 自救自护我能行 第7课《春夏秋冬学自护》教学实录 苏教版
- 电容器电流的计算公式
- 电力安全工作规程2024版
- 因数与倍数(教学设计)-2023-2024学年五年级下册数学苏教版
- 山西省平遥县高中数学 第二章 基本初等函数(Ⅰ)2.2.1 对数与对数运算(3)教学实录 新人教A版必修1
- 2025年阜阳幼儿师范高等专科学校单招职业技能考试题库学生专用
- 2025年安徽工业经济职业技术学院单招职业适应性测试题库附答案
- 2025湖北市政建设集团有限公司管理岗位公开竞聘14人笔试参考题库附带答案详解
- 3.13跨学科主题活动-在线学习小能手 课件 川教版(2024)三年级下册信息科技
- 矿产勘探数据分析-深度研究
- 2025年北京控股集团有限公司招聘笔试参考题库含答案解析
- 2024年07月江苏银行招考笔试历年参考题库附带答案详解
- 2023中华护理学会团体标准-注射相关感染预防与控制
- 住宅房屋楼层修正系数表
- 高层住宅采暖施工方案有地暖
- 现有厂房内墙面改造施工方案(无尘车间)
评论
0/150
提交评论