开题-个人微博中公共事件检测算法的研究_第1页
开题-个人微博中公共事件检测算法的研究_第2页
开题-个人微博中公共事件检测算法的研究_第3页
开题-个人微博中公共事件检测算法的研究_第4页
开题-个人微博中公共事件检测算法的研究_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

个人微博中公共事件检测算法的研究,2013-6-25,目 录,一、微博的简介,二、课题研究的目的及意义,三、国内外研究现状,四、课题主要研究内容,五、课题进度安排,一、微博的简介,二、课题研究的目的及意义,三、国内外研究现状,四、课题主要研究内容,五、课题进度安排,目 录,1、微博的定义,什么是微博,微博是微博客(MicroBlog)的简称,或者叫“一句话博客”将您看到的、听到的、想到的事情写成一句话(不超过140个字),或发一张图片,通过电脑或者手机随时随地分享给朋友您的朋友可以第一时间看到你发表的信息,随时和您一起分享、讨论是目前发展最为迅猛的互联网业务,微博的定义,图中标记出了中文微博的基本信息,主要包括用户基本信息,个人标签,是否是认证用户,关注多少人,被多少人关注,发表微博数等;同时对微博中的短URL,哈希标签(由两个#号夹在中间的文字)进行了标注。,微博开放平台介绍,近年来,很多微博提供了开放平台。微博开放平台是微博功能的扩展,与平台所有的接入者分享微博庞大的用户资源和关系网络,致力于创造开放共享的互联网环境,构建共赢的互联网生态圈。 更希望通过开放的API 来让站点提供的服务拥有更大的用户群和服务访问数量。我们也可以通过开放的API来获取所需要的资源。,微博信息特征,微博信息特征,4、微博的数据特征,海量数据:短文本性:文本缺失性:实时性:丰富的社交信息:,一、微博的简介,二、课题研究的目的及意义,三、国内外研究现状,四、课题主要研究内容,五、课题进度安排,目 录,二、课题研究的目的及意义,选题的意义,选题的意义,1、提高用户的浏览效率,2、作为快速了解个人的依据,3、作为个人简历或回忆录,一、微博的简介,二、课题研究的目的及意义,三、国内外研究现状,四、课题主要研究内容,五、课题进度安排,目 录,三、国内外研究现状,1.Phuripadawat提出了基于命名实体加权的改进TF-IDF;2.Long提出了四基准选取话题关键字,从而建立图模型进行聚类;3.Weng提出了基于小波分析的图模型;4.基于概率的方法,Sakaki采用基于概率的时空模型;5.童薇提出了一种基于TDF的主题模型,LSA的微博事件检测方法,充分利用微博数据的语义相似度,时序相似度和社交关系相似度;,一、微博的简介,二、课题研究的目的及意义,三、国内外研究现状,四、课题主要研究内容,五、课题进度安排,目 录,四、主要的研究工作,1、微博数据的获取,系统的语料库全部来自新浪微博,用API文档 statuses/user_timeline接口获取用户发布的微博,进行信息采集用数据库保存,然后生成txt文本格式。,用户原创的、转发的、评论过的内容,以及超链接指向的网页题目。,2、对源数据的预处理,针对微博新的领域,预处理工作是本系统的核心工作之一。预处理部分主要包括如下几个模块。,3、分词的处理,所谓的组合词:它客观上表达一个独立的、特定的语义,但是却被分词系统错误地切分为多个词。组合词的生成:利用词共现频率来还原被分词系统切碎的词,修正分词结果,并标记组合词的词性。,4、公共微博事件检测,为了将相关的主题词聚到一起形成事件团 (Event Cluster) 以清晰地描述事件,根据从微博中抽取出来的主题词,构建了一个词共现图 (Word Co-occurrenceGraph),公共微博事件检测流程图,提取出的关键词,词共现构成的事件团,5、个人微博事件检测,6、课题研究的重点,1、源数据的获取 (用户原创的、转发的、评论过的内容,以及超链接指向的网页题目)2、组合词的生成与过滤3、关键词的提取与聚类4、根据模版匹配来提取公共事件,3、关键词的提取,词性:提取出名词和动词。词的位置:在一句话的前面,或者出现在hash标签里,或出现在超链接指向页面的标题里。转发数、评论数和赞数:如果这几个因素数量比较多,则可以也认为是说明某公共事件的关键词。词频(TF):主题词的频率必须大于其他所有词的平均频率。,一、微博的简介,二、课题研究的目的及意义,三、目前的研究现状,四、课题主要研究内容,五、课题进度安排,目 录,五、课题进度安排,2013年1月 4月 大量阅读文献,并进行总结2013年5月 6月 确定课题,完成开题报告2013年7月 8月 完成各项前期准备工作2013年9月 11月 完成事件模型的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论