话题发现与跟踪技术.doc_第1页
话题发现与跟踪技术.doc_第2页
话题发现与跟踪技术.doc_第3页
话题发现与跟踪技术.doc_第4页
话题发现与跟踪技术.doc_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

话题发现与跟踪技术一:方案提出1 利用网络爬虫Nutch将爬到的数据存储在表Crawler中2 将表中数据(标题和正文)进行特征向量提取,得到VSM(Vector Space Model)向量空间模型3 用KNN聚类算法进行第一次聚类得到微类集合4 用单连通算法(Single-Pass算法)进行第二次聚类得到精确的聚类结果5 根据热点事件发展曲线识别出热点话题6 话题呈现二:网络舆情分析1 系统总体结构:话题发现模型:1 主题网络爬虫定义:主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的URL队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。基本思路:按照事先给定的主题,分析超链接和已下载的网页内容,预测下一个待抓取的URL以及当前网页的主题相关度。2 信息采集流程:1)输入WebURL2)Web相应?3)否就结束;是就进行下一步4)初始化URL队列5)数据流(读取数据流类)6)信息分类存储(正则表达式匹配类)7)数据库(操作数据库类)8)添加到新URL队列9)重复第2)步直到URL队列为空3 热点分析过程包括:热点分析起始时间,热点信息显示,舆情采集信息和话题活性图4 存储记录存储一条记录时,程序首先通过MD5将网络爬虫提取的每一个字段值联合成一个字符串进行加密,映射成32位长的UDDI,作为此数据的标识。实现去重功能MD5去重复URL:Message-Digest是指字符串的Hash变换,即把一个任意长度的字符串变换成一定长的大整数。MD5加密以512位分组来处理输入的信息,且每一组又被划分为16个32为子分组,将这四个32位分组级联后将生成一个128位散列值。MD5算法是一个不可逆的字符串变化算法。特性:1) 任意两端明文书局加密以后的密文不含相同2) 任意一段明文数据经过加密后其具体结果必须永远是不变的三:热点事件发现1 TDT相关概念话题(Topic),事件(Event),报道(Story),主题(Subject)TDT也把包括一个核心事件以及所有与之关联的事件的总和称为话题。即话题就是关于某个事件的所有报道的集合。报道:指描述某个事件的新闻片段。话题:不是指一个大的主题,而是一个具体的事件。2 话题检测与跟踪分为五个子任务:1)报道切分(Story Segmentation)2)新事件检测(New Event Detection)3)关联检测(Link Detection)4)话题检测(Topic Detection)5)话题跟踪(Story Tracking)话题发现任务的本质是将输入的新闻报道流划入不同的话题类,并在需要的时候建立新的话题类,其过程等同于无指导的聚类过程,且属于一种增量聚类,一般可划分为两个阶段:新事件检测阶段和后续的新闻报道流中的报道划入相应的话题类阶段。3 热点事件内容特征自动抽取网络新闻中热点事件的发现及热点事件内容特征的自动抽取。主要包括:1) Web新闻网页的自动采集2) 网页正文的抽取及去噪3) 事件发现算法4) 热点事件判别5) 对热点事件不同层面内容特征的自动抽取事件发现算法:第一层:采用凝聚聚类算法对每天的语料进行聚类,得到每天的微类。第二层:采用Single-Pass聚类算法对用户选择的某一段事件内的所有天的微类,按照微类间的时间顺序进行聚类得到事件列表。4 热点事件发现1)网络新闻语料采集(爬虫)2)语料预处理文档向量化是计算文档之间相似性的基础,每个文档d表示成V(d) = (t1,w1(d);,ti,wi(d);,tn,wn(d);其中ti为特征向,wi(d)为ti在d中的权值。文档分标题和正文两部分,也对命名实体进行加权。特征向ti权重的计算,改进TF*IDF方法: 相似度计算:计算相似度建立相似度矩阵:余弦夹角公式:加入时间衰减函数T,描述如下:特征词权重:向量空间模型:向量空间模型(VSM):热点发现及跟踪:网页信息预处理:文档的向量表示:度量事件热度:(时间单元为一周)主题文章的向量表示:四:事件发现与跟踪五:热度,关注度等度量度量事件热度的三个特征量:话题关注度计算公式:六:算法实现:K均值算法:KNN算法:单连通算法:S

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论