(计算机软件与理论专业论文)基于兴趣的博客挖掘研究.pdf_第1页
(计算机软件与理论专业论文)基于兴趣的博客挖掘研究.pdf_第2页
(计算机软件与理论专业论文)基于兴趣的博客挖掘研究.pdf_第3页
(计算机软件与理论专业论文)基于兴趣的博客挖掘研究.pdf_第4页
(计算机软件与理论专业论文)基于兴趣的博客挖掘研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着i n t e m e t 的迅速发展,人们对信息的获取途径也逐渐增多,从传统的媒 体转向互联网,越来越多的用户习惯通过网络来寻找他们所关心的信息。与此同 时,网民也开始习惯于在网络上记录生活、展现自我,博客正是在这样的背景下 出现并成长起来的。 针对博客领域的挖掘研究随着博客的不断普及逐渐引起科研人员的重视,同 时对于博客作者的兴趣信息的提取和利用也开始吸引学者们的目光。因而,如何 以兴趣为基础,更好的对博客数据进行挖掘并得到我们需要的信息已经成为博客 挖掘领域的新课题。 本文针对基于兴趣的博客挖掘若干问题进行了研究,主要工作包括以下几个 方面: ( 1 ) 将博客作者兴趣用于博客圈的自动构建。在对传统以文本内容相似度 为依据的博客圈构建方法进行分析的基础上,提出了一种利用作者兴 趣自动构建具有明确类别的博客圈的方法。该方法以作者的兴趣类别 取代传统方法中的文本内容,通过对作者兴趣的聚类得到对应的博客 圈。这样生成的圈子不仅可以明确知道其类别,而且圈内的成员都具 有相同或者相似的兴趣集合,从而实现了真正意义上针对具有共同兴 趣爱好的博客作者而构建的博客圈。 ( 2 ) 提出了基于兴趣的信任传递模型。通过将兴趣信息引入到博客社区的 信任传递问题当中,利用兴趣作为领域因素来引导信任信息的传递过 程,从而对传统的信任传递模型进行了扩展和改进。基于兴趣的信任 传递模型充分发挥了兴趣在该领域的重要作用,使得信任信息严格的 在相同领域传播,其提高了信任传递的有效性和正确性,避免了许多 不必要的冗余传递,在一定程度上降低了预测信任关系算法的时间复 杂度。 ( 3 ) 提出了一种以访客评分为基础,以评论和访客兴趣为补充的博客排名 方法。在已知作者兴趣的情况下引入了熟知度的概念,并结合访客评 论信息对访客评分进行修正,计算出改进的博客综合得分。此外,还 使作者的自身得分参与到博客得分的计算当中,进一步提高博客得分 计算的可信度。实验结果表明,作者的兴趣和自身评分都对博客排名 的改进起到了一定的作用,这也为博客排名研究提供了新思路。 本文所做研究的创新之处在于将作者的兴趣信息引入到部分博客挖掘问题 摘要 当中,并对传统的方法进行了改进,提出了基于兴趣的解决方案,从而为相关问 题的研究提供了新思路。 关键词:博客挖掘兴趣博客圈信任传递博客排名 u a b s t r a c t ab s t r a c t t h eb o o m i n gi n t e r n e tp r o v i d e si n c r e a s i n g l ym o r ew a y sf o rp e o p l et oo b t a i n i n f o r m a t i o n f r o mc o n v e n t i o n a lm e d i at ow w w :m o r ea n dm o r eu s e r sa r eu s e dt o s e a r c h i n g i n f o r m a t i o nt h e yc o n c e r n e df r o mt h en e t w o r k a tt h es a m et i m e , c y b e r c i t i z e n sa l eb e i n ga c c u s t o m e dt or e c o r d i n gt h e i rl i f ea n ds h o w i n gt h e m s e l v e st o t h ep u b l i co nt h ei n t e r n e t u n d e rt h i sc i r c u m s t a n c e ,b l o gh a se m e 唱e da n dg r o w nu p r a p i d l y r e s e a r c hf o c u s e do nt h eb l o ga r e ah a sd r a w na t t e n t i o nf r o mt h er e s e a r c h e r sw i t h t h ep r e v a l e n c eo fb l o g m e a n w h i l e ,s c h o l a r sb e g i nt os h i f tt h e i rc o n c e n t r a t i o nt ot h e e x t r a c t i o na n du t i l i z a t i o no ft h ei n t e r e s to f b l o g g e r s t h e r e f o r e ,h o wt ob e t t e rm i n et h e i n f o r m a t i o nf r o mb l o gw i t ht h ef o u n d a t i o no fi n t e r e s ti san e wr e s e a r c ht o p i ci nb l o g m i n i n g i nt h i sp a p e r , o u rr e s e a r c hw o r kf o c u s e so nt h ei n t e r e s t - r e l a t e db l o gm i n i n g r e s e a r c h ,w h i c hi n c l u d e st h ef o l l o w i n gp a r t s : ( 1 ) i n t r o d u c et h eb l o g g e r si n t e r e s ti n t oa u t o m a t i c a l l yb l o g s p h e r ec o n s t r u c t i o n b ya n a l y z i n gt h ea p p r o a c h e so fb l o g s p h e r ec o n s t r u c t i o na c c o r d i n gt ot h e s i m i l a r i t yo ft e x tc o n t e n t , w ep r o p o s eam e t h o do fc l a s s - s p e c i f i e db l o g s h p e r e c o n s t r u c t i o nb yu s i n gb l o g g e r si n t e r e s t t h i sm e t h o dt r i e st oc l u s t e r b l o g g e r si n t e r e s tt ob u i l db l o g s p h e r er a t h e rt h a nt o u s et h ec o n t e n to f d o c u m e n ti t s e l f t h eb l o g s p h e r eb u i l tb yt h i sa p p r o a c hh a si t ss p e c i f i cc l a s s a n dt h em e m b e r si ni th a v et h es i m i l a ro rt h es a m ei n t e r e s t s i tb u i l d sar e a l s e n s eo fb l o g s h p e r ew h i c hs e l e c t s b l o g g e r sb yt h e i rh o b b i e s ( 2 ) p r o p o s et h ei n t e r e s t - b a s e dt r u s tp r o p a g a t i o nm o d e l b yi n t r o d u c i n gt h e i n t e r e s ti n f o r m a t i o ni n t ot h et r u s tp r o p a g a t i o ni s s u ei nb l o gc o m m u n i t y , w e l e a dt h et r u s tp r o p a g a t e sp r o c e s sb yi n t e r e s t s t h i sm o d e lh a se x t e n d e dt h e c o n v e n t i o n a lt r u s tp r o p a g a t i o nm o d e l s t h ei n t e r e s t - b a s e dt r u s tp r o p a g a t i o n m o d e lm a k e sf u l lu s eo fi n t e r e s ta n dr e s t r i c t st h et r u s tp r o p a g a t i o nr u ni nt h e s a m ed o m a i n s t h i sm o d e lg r e a t l yi m p r o v e st h ee f f e c t i v e n e s sa n da c c u r a c y o ft r u s t p r e d i c t i o n a tt h e s a m et i m e ,i ta v o i d sm u c hm e a n i n g l e s s p r o p a g a t i o nw h i c ht os o m ee x t e n tr e d u c e st h e t i m ec o m p l e x i t yo ft h e a l g o r i t h m ( 3 ) p r o p o s ear a t t i n g - b a s e da p p r o a c ho fb l o gr a n k i n g 、i 廿ls u p p l e m e n t a r yo f i i i a b s t r a c t c o m m e n ta n dr e a d e r si n t e r e s t w ei n t r o d u c et h ec o n c e p t i o no ff a m i l i a r d e g r e eo nt h eb a s i so fb l o g g e r si n t e r e s ta n dr e v i s et h ev i s i t o r sr a t i n gv a l u e l e f to nt h eb l o gb yc o m b i n a t i o no ft h e i rc o m m e n t s n l eb l o gr a t i n gc o u l db e c o m p u t e db yt h i s r e v i s e dr a t i n g f u r t h e r m o r e ,w ea d dt h es e l fs c o r eo f b l o g g e r si n t oc o m p u t a t i o no fb l o g sr a t i n gi no r d e rt oi m p r o v et h ec r e d i b i l i t y o fb l o gr a n k i n g a tl a s t , w ep r e s e n te x p e r i m e n t st ov e r i f yo u rm e t h o d t h e r e s u l t ss h o wt h a tb o t hi n t e r e s ta n ds e l fs c o r eo f b l o g g e r sp l a yi m p o r t a n tr o l e i ni m p r o v e m e n to fb l o gr a n k 堍i ta l s op r o v i d e st h er e s e a r c h e r sw i t hn e w t h o u g h t si nt h i sa r e a 功ec o n t r i b u t i o no ft h i sp a p e ri st h ei n t r o d u c t i o no fb l o g g e r si n t e r e s ti nb l o g m i n i n g a n dt h e i m p r o v e m e n tt o c o n v e n t i o n a lm e t h o d w ep r o p o s es e v e r a l i n t e r e s t - b a s e ds o l u t i o n so ft h e s ei s s u e s ,w h i c hb r o a d e n st h em i n do fr e s e a r c h e r sa tt h e s a m et i m e k e yw o r d s :b l o gm i n i n g ,i n t e r e s t ,b l o g s p h e r e ,t r u s tp r o p a g a t i o n ,b l o gr a n k i n g i v 图表目录 图表目录 图2 1作者兴趣类别联系图1 7 图2 2 文章分类正确率1 9 图2 3 博客圈构建正确率2 l 图3 1 简单的信任传递2 5 图3 2 不同领域的信任传递2 6 图3 3 b l o g c a t a l o g 目录结构示例2 9 图3 4o d p 中d i g i t a lc a m e r a 对应的分类3 0 图3 5 实验结果示例3 2 图3 6 两种方法的误差变化3 3 图4 1b l o g c a t a l o g 中博客页面内容组成3 8 图4 2 作者博客关系图3 9 图4 3 程序运行界面示例4 3 表2 1 文章类别统计表1 9 表2 2 博客圈构建情况( 1 ) 2 0 表2 3 博客圈构建情况( 2 ) 2 0 表3 1 符号表3 0 表3 2 误差对比示例3 2 表4 1 参数设置4 2 表4 1方法l 排名t o p2 0 的博客4 3 表4 2 方法2 排名t o p2 0 的博客4 4 表4 3 方法3 排名t o p2 0 的博客4 5 i i 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名: 1 钰月;日 第1 章绪论 第1 章绪论 1 1引言 随着i n t e m e t 的高速发展以及w e b2 0 技术的日益普及,互联网上出现了越 来越多的交互式应用系统,博客就是其中发展最为迅速的应用之一。 博客,英文翻译为w e b l o g ,简称b l o g ,意为“网络日志”或“网志”。该 词语最早由j o mb a r g e r 于1 9 9 7 年1 2 月1 7 日创造,并被p e t e rm e r h o l z 于1 9 9 9 年正式缩写为b l o g 。博客是一种通常由个人管理、不定期张贴新的文章、图像或 视频的网站。博客上的文章通常根据张贴时间,以倒序方式由新到i h 捎b y 0 。 而作为博客的内容,它可以是你纯粹个人的想法和心得,包括你对时事新闻、 国家大事的个人看法,或者你对一日三餐、服饰打扮的精心料理等,也可以是在 基于某一主题的情况下或是在某一共同领域内由一群人集体创作的内容。它并不 等同于“网络日记 。作为网络日记是带有很明显的私人性质的,而b l o g 则是私 人性和公共性的有效结合,它绝不仅仅是纯粹个人思想的表达和日常琐事的记 录,它所提供的内容可以用来进行交流和为他人提供帮助,是可以包容整个互联 网的,具有极高的共享精神和价值( 百度百科,2 0 0 9 ) 。 如今,博客已经成为众多网民的重要网络应用工具,2 0 0 9 年c n n i c 的统计 报告( 中国互联网络信息中心,2 0 0 9 ) 显示,2 0 0 8 年博客用户规模持续快速发 展,截至2 0 0 8 年1 2 月底,在中国2 9 8 亿网民中,拥有博客的网民比例达到 5 4 3 ,用户规模为1 6 2 亿入。在用户规模增长的同时,中国博客的活跃度有所 提高,半年内更新过博客的比重较2 0 0 7 年底提高了1 1 7 。博客数量的增长带 来了用户聚集的规模效应,这又使得博客的影响力得到进一步加强。 博客作为网民记录生活和发表评论的载体,其自身蕴含许多非常有价值的舆 情信息,如何充分识别、提取并分析利用这些信息,成为当前摆在研究人员面前 重要问题。博客挖掘( b l o gm i n i n g ) 则是对这类研究的统称,是继b b s 之后, w r e bm i n i n g 中一个非常有潜力、也很吸引人的研究领域。从一定程度上说,博 客挖掘能够在许多领域给人们带来好处。以商业为例,从博客中挖掘出的商业信 息可以为公司、企业创造商业利益,例如:将企业变得人性化,提高客户服务的 质量,为你的目标市场提供所需信息,带动其他网站的流量,提升产品的销量, 用广告创造额外收入等等。 当前博客挖掘研究主要集中在以下几个方面:关键信息识别与提取、社区发 现、重要性分析、博客搜索以及信息扩散等等。绝大多数的研究都采用基于链接 的或者自然语言处理等用于传统w e b 领域的挖掘算法对目标博客进行分析,近 年来也有学者提出了专门针对博客特点的挖掘算法,这些算法充分利用博客所独 第1 章绪论 有的特性( 如:t r a c k b a c k 引用) ,针对原有的w e b 挖掘算法进行改进,以使得 其可以适用于博客。 在众多的特性中,博客作者( b l o g g e r ) 的背景信息对于有效挖掘博客内容、 更好地引导挖掘算法的运行起到了至关重要的作用。在博客挖掘研究中,利用作 者的背景信息( 主要是作者的兴趣) ,可以自动识别与构建博客圈、发掘博客社 区中的热点趋势、实现基于博客的内容和产品推荐系统等等。因而,对于作者兴 趣的提取与利用则成为当今博客挖掘领域的热门课题。 1 2 博客挖掘研究现状 博客挖掘是博客研究( 杨宇航等,2 0 0 8 ) 的一个重要组成部分,它是指使 用数据挖掘技术从博客文档和博客活动中抽取感兴趣的、潜在的有用模式和隐藏 信息。它同w e b 挖掘一样,是一项综合技术。涉及数据挖掘、机器学习、人工 智能、统计学、以及信息学等多个领域。如前所述,在目前的博客挖掘研究中, 人们将重点放在信息提取、社区发现、博客搜索、信息扩散等方面,将常见的 w e b 挖掘算法及其改进的方法运用到博客中,充分发掘出其中的有用内容。 以下从几个典型的方面来分析博客挖掘的研究现状。 1 2 1 博客中的信息识别和提取 在博客中,作者通过文字记录自己的生活,也会对当今热门问题发表自己的 看法,通过自动识别和提取这些资源,我们可以得到许多有价值的信息。现阶段, 这类研究主要是通过统计词频,提取热门关键词表以反映一段时间的流行主题。 最初的对于文本中热门关键词的提取采用的是由j o nk l e i n b e r ge ta l ( 2 0 0 2 ) 提出的爆发行为( b u r s to f a c t i v i t y ) 的方法。他们认为,在文本流中,主题词往 往都是反复出现多次的词语,因而对于这种具有爆发行为的词语进行提取,可以 从一定程度上了解该文本所描述的主题。 m i z u k io k ae ta l ( 2 0 0 6 ) 根据类似的理论,提出了一种基于高频词条 ( f r e q u e n c ys e g m e n t s ) 的主题发现方法,其利用词频的动态变化构建阶段时间 内的词频向量表示和描述话题。由于该方法从词条出现的一开始就记录其出现的 频率,因而可以感知到词频非常细微的变化,是一种动态的主题发现方法。 在意见挖掘方面,w e iz h a n ge ta l ( 2 0 0 7 ) 提出了一种从博客中提取意见信 息的算法。该算法采用信息检索( i n f o r m a t i o nr e t r i e v a l ) 组件从文档集中提取主 题相关的文档,利用意见分类( o p i n i o nc l a s s i f i c a t i o n ) 组件对这些文档进行意见 分类,最后根据被检索的意见信息与通过分类器得到的各类意见进行相似度比 较,得出最为接近的相关意见信息,并返回给用户。 2 第1 章绪论 j a c kqc o n r a de ta l ( 2 0 0 7 ) 通过文本分类的方法,对法律博客( l e g a lb l o g ) 进行意见提取。他们将主题分析( s u b j e c t i v i t ya n a l y s i s ) 与极性分析( p o l a r i t y a n a l y s i s ) 引入到意见挖掘问题中,结合传统的机器学习方法,提出了针对专业 领域博客的挖掘算法。 除了主题与意见分析之外,a r u nq a m r ae ta l ( 2 0 0 6 ) 重点研究了隐藏在博客 中的故事发现。他们提出了一种内容社区时间( c o n t e n t c o m m u n i t y t i m e ) 的模型,结合文本聚类思想,充分利用博客文章的内容、时间戳以及博客的社区 结构来挖掘博客中潜在的讨论热点和故事。这也为博客中的重要信息提取开辟了 新的研究思路。 1 2 2 博客社区发现 随着w e b2 0 技术的不断发展,越来越多的人开始建立并维护自己的博客。 不同的博客之间通过友情链接和引用、评论相互关联,这在一定意义上构成了社 会网络,也就是我们所说的社区。不同的博客社区有不同的兴趣热点,各个社区 中的成员因为相同的或相似的话题聚集到一起,并参与到对这些话题的讨论之 中,他们也可以对别人的观点作出评论。 博客社区发现与传统的w e b 社区发现技术基本相同,即主要将社区发现作 为一个图的问题研究,不同博客之间的关系分别由图中的节点和边表示。然而在 实际针对博客的社区发现研究中,新的方法也不断的出现。 b e l l el t s e n ge ta l ( 2 0 0 5 ) 认为仅仅依靠基于排序( r a n k i n g ) 的方法对于 捕捉重要博客之间以及虚拟社区之间的相互关系是不够的。他们将博客的等级和 博客之间的社会学连接结合在一起,提出了一个可以发现多社区的框架。在该框 架中,一种通过对博客社会网络进行聚类而得到的所谓“山形 视图被用来发掘 博客空间中拥有不同兴趣的社区。 砧v i nc h i ne ta l ( 2 0 0 6 ) 从社会关系得到启发,认为可以通过将博客之间的 相互关系看成是一种社会超文本( s o c i a lh y p e r t e x t ) ( t h o m a se r i c k s o ne ta l ,1 9 9 6 ) 来发现隐藏在众多博客中的虚拟社区。他们建立了一种可以检测由博客构成的社 会网络中社区结构的模型,该模型通过模拟对行为的观察综合而得到现实社会网 络的过程,计算博客之间的相互关联度,并根据中心值排列,最后得出最可能的 虚拟社区。 此外,博客与博客之间的交互特性也成为博客社区发现的研究热点。y u r u l i ne ta l ( 2 0 0 7 ) 通过对博客社区的观察发现,博客作者行为的交互性是构成社 区的基本条件,从而提出了利用博客作者间的相互感知性( m u t u a la w a r e n e s s ) 来发掘隐藏在众多博客之中的虚拟社区的方法。其利用作者的个人行为和语义链 第l 章绪论 接结构,使用相互感知特性和基于排序的社区抽取算法发现社区。 不同的社区发现方法对社区的理解、预期的目的以及基本思路不尽相同,最 终得到的结果也有很大差异,博客社区发现的研究还有很长的路要走。 1 2 3 博客搜索 博客搜索是网页搜索中的一种,博客由于其自身的特点,与传统的网页搜索 存在着一定的不同之处:( 1 ) 博客搜索大部分是关于名实体的查询,包括用户感 兴趣的产品或某个领域的著名人物以及用户所处生活环境中的相关事物等( 如所 在的公司、同事等) ;( 2 ) 博客搜索的关注领域更多的集中于技术、娱乐和政治 等领域;( 3 ) 博客搜索对即时事件有着特别的关注,这种现象也与博客是即时事 件的消息和评论源头的假设相吻合。而在用户行为方面,博客搜索与传统的w e b 搜索十分类似,用户通常也只关注排序最靠前的几个结果( 杨宇航等,2 0 0 8 ) 。 在技术方面,博客的结构与传统网页有较大差异,这样,原本用于检索传统 网页的搜索引擎就很难有良好的表现。因而,随着时间的推移和博客的不断普及 壮大,专业的博客搜索引擎则日益涌现出来,其中具有代表性的包括:t e c h n o r a t i 、 g o o g l eb l o g s e a r c h 、i c e r o c k e t 、a s k e o mb l o g s e a r c h 、f r i e n d f e e d 等等。m a r s h a l l k i r k p a t r i c k ( 2 0 0 9 ) 对这些博客搜索引擎做了简单的评价。t e c h n o r a t i 是最著名 的博客搜索引擎,它提供了博客文章、作者、图片、视频、音乐和事件等不同类 型的博客搜索功能。g o o g l eb l o g s e a r c h 是近年来发展最为迅速且非常优秀的博客 搜索引擎,但由于其基于g o o g l e 著名的p a g e r a n k ( l a w r e n c ep a g ee ta l ,1 9 9 8 ) 算法,对于垃圾博客的过滤表现并不好。i c e r o c k e t 的特点在于它可以分析博客 的热点趋势、作者的意识以及其它很有用处的信息。a s k t o mb l o g s e a r c h 在速度、 正确率以及垃圾博客过滤等方面取得了良好的平衡,其可以根据相关度、日期或 者信息的流行程度对搜索结果进行排序,是结合了内容挖掘的博客搜索引擎,因 而受到许多用户的欢迎。 博客搜索如今仍然面临许多问题,如:博客领域的话题更加分散且观点各不 相同。因此,博客搜索不仅需要关注特定话题,还需要关注对话题的不同观点。 另外,由于博客文章内容和长短的随意性,包含情感信息的博客检索很难用传统 的方法来实现。 1 2 4 博客空间里的信息扩散 纵观人类的历史,社会结构和不同社会之间的关系在很大程度上是由存在于 它们之中的信息传递而形成的。在最近的十几年中,人们在研究这样的信息传递 之外,还对如何产生和影响它们也颇感兴趣。然而,互联网和w e b 的出现,改 变了信息扩散的物理方式。这使得大面积传播信息的基础设施不再成为障碍,因 4 第1 章绪论 为互联网可以在瞬间使信息传播到世界各地,尤其是博客这一个人信息发布方式 的日渐流行,更使得信息可以在一定范围的社区内快速扩散。 x i a o j u nw a n e ta l ( 2 0 0 7 ) 研究了信息在w r e b 页面中的扩散并将w r e b 的信息 扩散定义为文档在不同的网站之间的传递与复制。他们设计了一个基于机器学习 的系统来分析信息在网站之间的扩散路径并通过图形的方式展示给用户,从而让 用户了解到整个信息的扩散过程。 r a q u e ld ac u n h ar e c u e r o ( 2 0 0 8 ) 研究了在博客圈中社会资源( s o c i a lc a p i t a l ) 对于信息传播的影响以及人们对于这些资源的数量在认识上的不同会如何改变 信息传播的过程。换句话说,决定博客作者发布何种信息的动机究竟是什么,这 种动机与人们对社会资源的认知又有什么样的关系。实验的结果表明,在博客圈 中传递的信息主要是两类:个人信息( 关于自己的) 和有用信息( 从其它途径得 到的一般信息) 。同时驱动作者写日志的动机为:开创一块个人的空间、共享交 互关系、共享知识、积攒声誉以及博客自身的流行因素。 博客社区中的信息传递也被人们与商业领域相结合,a v a r 6s t e w a r te ta l ( 2 0 0 7 ) 通过对博客内容的分析,将信息扩散的路径形式化为频繁模式挖掘 ( f r e q u e n tp a t t e r nm i n i n g ) 问题。提出了一种新的数据挖掘算法,该算法可以发 现博客中的信息传递路径,从而帮助广告商合理安排自己的广告投放对象。此研 究将信息扩散与商业活动相结合,充分体现了这一领域研究的商业价值。 除了上面分析的几个典型的博客挖掘研究方向,当前在该领域还有许多值得 研究人员去探索的问题。总的来说,博客挖掘研究才刚刚起步,如何利用新方法 来解决这些问题正引起越来越多学者的注意。 1 3 基于兴趣的博客挖掘 前文提到,兴趣作为作者背景信息的主要构成部分,在博客挖掘研究中逐渐 被人们重视并得到了充分的利用。 1 3 1 兴趣及其属性 兴趣是个体以特定的事物、活动及人为对象,所产生的积极的和带有倾向性、 选择性的态度和情绪。人的兴趣具有以下几种属性( 伍棠棣等,2 0 0 3 ) : ( 1 ) 兴趣的广度:这是指兴趣范围的大小而言。有些人对新鲜事物十分敏 感,对什么事都发生兴趣;有些人则把自己局限在一个小天地里,兴趣的范围极 为狭窄。 人的心理的充分发展是常常与兴趣的广阔相联系的。历史上许多卓越人物具 有令人惊讶的渊博知识,就是因为他们具有广泛的兴趣。 第1 章绪论 ( 2 ) 兴趣的中心:这是指在广泛兴趣的基础上要有一个中心的兴趣。多方 面的兴趣只有在与某个中心兴趣相结合的情况下,才是一个珍贵的品质。 ( 3 ) 兴趣的稳定性:一个人必须有持久的、稳定的兴趣,才能经过长期的 钻研,获得系统而深刻的知识。有些人有多种多样的兴趣,但是不能持久,一种 兴趣迅速地被另一种兴趣所代替。这种见异思迁的人,很难有多大的成就。 ( 4 ) 兴趣的效能:这是指兴趣对活动能够产生效果的大小而言。有的人的 兴趣只停留在期望和等待的状态中,不能促使人去积极主动地努力满足这种兴 趣。这种兴趣缺乏推动的力量,不能产生实际的效果。有的人的兴趣则不然,它 能推动一个人去积极活动,它能产生实际的效果。 人的兴趣不仅是在学习、活动中发生和发展起来的,而且又是认识和从事活 动的巨大动力。它可以使人智力得到开放,知识得以丰富,眼界得到开阔,并会 使人善于适应环境,对生活充满热情。兴趣对人的个性形成和发展起到了巨大作 用。 1 3 2 与兴趣相关的博客挖掘问题 由于兴趣本身具有稳定性的特点,通过对人们的兴趣分析可以得到他们所喜 好的领域信息,并据此为其提供相应的服务。在传统领域,对于兴趣的研究已经 较为普遍,但由于博客自身的特殊性,目前,国内针对博客的兴趣研究尚处于初 步阶段,国外学者在该领域的研究则在一定程度上领先于我们。综合来说,与兴 趣有关的博客挖掘问题主要有:博客作者兴趣提取、主题发现、基于兴趣的推荐 系统等等。 x i a o c h u a nn ie ta l ( 2 0 0 6 ) 提出一种基于联合分类器的博客作者兴趣提取算 法。他们使用联合分类器来对博客页面进行过滤,从而将一个博客中的文章归到 事先给定的类别中,而将没有归属的文章剔除,最终统计文章的类别,根据各类 文章的多少排序,将排名最高的几个类别作为作者的兴趣集合。除了用联合分类 器对分类作出改进以外,该算法还加入了分层文本分类的思想,更进一步地提高 精度。 c h u n - y u a n t e n ge ta l ( 2 0 0 6 ) 认为,作者的兴趣应该从文字、时间以及交互 等特性上去分析。他们认为,作者对一个领域感兴趣,他会从三个方面表现出来: 文字上,在文章中较多运用该领域的词语;时间上,发表该领域相关的文章频度 明显高于其它文章;交互上,更倾向于对该领域相关文章发表评论。 y u i c h i r os e k i g u c h ie ta l ( 2 0 0 6 ) 在提取作者兴趣的基础上,通过对不同作者 的兴趣计算相似度,提出了一种自动检测博客中主题词的方法。该方法基于这样 的假设:如果一个词是主题词并且在一个博客作者的兴趣集合当中,那么该词也 6 第1 章绪论 应该出现在另一个与该作者有相似兴趣的作者兴趣集合当中。因而,拥有较高相 似度的博客作者所常使用的词条将被识别出来作为博客的主题词。 在基于博客的推荐系统方面,康楠等( 2 0 0 8 ) 根据博客的特点设计了面向 博客的兴趣挖掘和推荐系统b l o g d i g g e r 。在兴趣挖掘方面,他们认为:( 1 ) 用户 的兴趣具有稳定性,博客内容与兴趣相关;( 2 ) 如果某人浏览某个博客的时间较 长,可以推测此博客主题与该阅读者的兴趣相关。在博客推荐方面,被推荐的博 客要满足三个条件:主题相关性、内容丰富性以及博客的热门程度。该系统是国 内为数较少的基于博客的推荐系统。 y :ml ie ta l ( 2 0 0 8 ) 利用文本挖掘和信息检索技术设计了三个组件:用户偏 好、购买记录以及客户行为。这三个组件被应用到博客中以计算博客用户的偏好 分数,并结合博客的社会网络结构生成针对用户偏好的产品推荐。在该方法中, 用户偏好即为用户的兴趣,在整个系统的实现过程中扮演着重要的角色。 由此可见,兴趣是博客中与人关系最为密切的特性,是对博客作者的背景信 息最为直接的表示,拥有很高的研究价值。 1 4 本文的主要工作 本论文从博客作者的兴趣出发,着重研究了与之相关的博客挖掘问题。包括: ( 1 ) 将博客作者兴趣用于博客圈的自动构建。在对传统以文本内容相似度 为依据的博客圈构建方法进行分析的基础上,提出了一种利用作者兴 趣自动构建具有明确类别的博客圈的方法。该方法首先对博客作者的 兴趣进行提取,并以作者的兴趣类别取代传统方法中的文本内容,通 过对作者兴趣的聚类得到对应的博客圈。这样生成的圈子不仅可以得 到明确的类别,而且圈内的成员都具有相同或者相似的兴趣集合,从 而实现了真正意义上针对具有共同兴趣爱好的博客作者而构建的博客 圈。 ( 2 ) 提出了基于兴趣的信任传递模型( i n t e r e s t b a s e dt r u s tp r o p a g a t i o n m o d e l ,简称i b t p ) 。通过将兴趣信息引入到博客社区的信任传递问题 当中,利用兴趣作为领域因素来引导信任信息的传递过程,从而对传 统的信任传递模型进行了扩展,是对其的一种改进。基于兴趣的信任 传递模型充分发挥了兴趣在该领域的重要作用,使得信任信息严格的 在相同领域传播,其提高了信任传递的有效性和正确性,同时避免了 许多不必要的冗余传递,极大的降低了预测信任关系算法的时间复杂 度。 ( 3 ) 提出了一种以访客评分为基础,以评论和访客兴趣为补充的博客排名 7 第1 章绪论 方法。在己知作者兴趣的情况下引入了熟知度的概念,并结合访客评 论信息对访客评分进行修正,计算出改进的博客综合得分。此外,还 使作者的自身得分参与到博客得分的计算当中,进一步提高博客得分 计算的可信度。实验结果表明,作者的兴趣和自身评分都对博客排名 的改进起到了一定的作用,这也为博客排名研究提供了新思路。 本论文的创新之处在于,将作者兴趣引入到博客圈的构建从而使得生成的博 客圈具有明确类别、结合作者兴趣的博客评分以及博客社区中的信任传递更是为 该领域的研究开辟了新的思路。 1 5 本文的组织方式 全文共分为五章,具体的章节内容安排如下: 第一章概述了本文研究的背景和意义。介绍了博客挖掘技术的研究动态,详 细介绍和分析了典型的博客挖掘研究领域的相关工作。在此之后,总结出了人的 兴趣的特点以及当前在与兴趣相关的博客挖掘中,主要的研究方向和已有的成果 并指出兴趣在博客挖掘中所具有的重要意义。最后给出了本文的主要研究内容以 及创新之处。 第二章详细介绍了博客作者兴趣的提取以及如何利用作者的兴趣来自动构 建具有明确类别的博客圈。我们给出了基于新浪博客的对比实验结果,并对结果 进行了细致的分析,证明了算法的有效性。 第三章分析了现有的信任传递算法的优缺点,并针对博客这一特定的应用, 提出了基于兴趣的信任传递模型。该模型是对传统的信任传递模型的扩充,在一 定程度上提高了信任传递的准确度和效率,避免了大量无效的传递。一个基于某 英文博客社区的对比实验证明了算法的优越性。 第四章对博客排名算法进行了研究,并将作者的兴趣背景引入到博客排名的 计算当中。提出了一种以访客评分为基础,以评论和访客兴趣为补充的博客排名 方法。最后介绍了对应的真实世界实验结果,通过对实验的分析验证了研究的意 义和正确性。 第五章总结了全文,对所做工作和贡献进行了简要的介绍,并展望了进一步 的研究方向。 8 第2 章构建基于作者兴趣的博客圈 第2 章构建基于作者兴趣的博客圈 2 1概述 随着w e b2 0 技术的日益普及,博客正迅速成为互联网用户使用的热门工具 之一。围绕博客空间,形成了很多圈子,通常称之为博客圈。 顾名思义,博客圈就是若干个博客用户基于共同的话题、爱好或者志向搭建 起来的一个交流互动、展示自我的平台。在博客圈中,博客成员承担不同的角色, 包括圈主、管理员、资深成员以及一般成员,其中圈主和管理员都具有相应的管 理权限。博客成员在自己的博客中发表的文章,如果符合圈子预先设置好的主题, 都可以被自动收录到圈子的文章列表中。通过博客圈,广大博客用户可以更快更 方便的找到那些志同道合的“博友”,平等交流、共享智慧( 和迅网2 0 0 9 ) 。 博客圈的出现对于网络信息的趋向分析、意见挖掘、博客用户的内容推荐等 应用都具有重要的价值和意义。目前国内的主要博客提供商,如:新浪、网易、 搜狐等都推出了自己的博客圈,博客作者可以随意加入。博客圈的类别一般由人 确定,类别划分过粗将导致兴趣不同的作者聚集在一起,没有共同语言;类别划 分过细则使得作者的兴趣被切分,无法找到一个适合自己的圈子。更有部分作者 根本不清楚自己的兴趣爱好是什么,也就无从选择该加入什么博客圈。 在这样的背景下,如何自动生成类别并构建博客圈则成为当前博客研究的热 点问题。 2 2 相关工作 当前围绕博客圈而展开的研究有很多,x i a o d a ns o n ge ta l ( 2 0 0 7 ) 对如何识 别博客圈中的意见领袖( o p i n i o nl e a d e r ) 进行了研究,并提出了一个称为 i n f l u e n c e r a n k 的算法,用以自动鉴别意见领袖。他们认为,意见领袖是在社会 网络中拥有最具代表性观点的人,这些人对于我们更好的了解博客圈起到了非常 重要的作用。i n f l u e n c e r a n k 算法不仅可以对博客进行评分排序,同时还可以分 析每个博客对于整个网络所起到的贡献,并根据贡献值对博客进行排序,贡献值 最高的若干博客则被认为是意见领袖。 n i t i n a g a r w a le ta l ( 2 0 0 8 ) 通过对博客圈中的作者行为研究发现,活跃作者 不一定是具有影响力的作者。他们分析了构成影响力作者的因素并提出了一个可 以定量的识别具有影响力作者的模型。该模型主要从几个方面对博客进行统计分 析:( 1 ) 被认可度,包括指向该博客的链接以及引用该博客的网站数目;( 2 ) 受 9 第2 章构建基于作者兴趣的博客圈 关注度,主要是博客作者发起的讨论以及访客评论的多少;( 3 ) 思想创新度,即 某博客的内容与其它博客内容之间的差异程度:( 4 ) 内容信服度,即博客的观点 是否是可靠的,能否引起多数读者共鸣的。基于此模型的影响力作者识别算法为 后续研究提供了新思路,其本身在正确率上也有很好的表现。 在自动识别构建博客圈方面,除了前文提到的a l v i nc h i ne ta l ( 2 0 0 6 ) 和 y u r ul i ne ta l ( 2 0 0 7 ) 的方法外,b e i b e il ie ta l ( 2 0 0 7 ) 对博客文档的聚类进行 了研究,提出了一种新的聚类策略。该策略通过构建一个词条页面矩阵,对 博客的标题、正文以及评论赋予不同的权重并利用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论