林春教学提纲_第1页
林春教学提纲_第2页
林春教学提纲_第3页
林春教学提纲_第4页
林春教学提纲_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

林春2012.08.30FindingquestionmicroblogpostandrecommendanswersforitBackgroundMicroblogrevolutionChangesurfinghabitofInternet:usersfirstloginingmicroblogreach20%MaketheweblikearealsocialworldCharacteristicsofmicroblogdataMassiveuser-generatedcontent(containrareinformation)Complexandunderlyingrelationships(authorityuserorexpert)FastInformationpropagation(getfirst-handinformationabouthottopic)ChangesofinformationseekingapproachAskingquestioninsocialnetworkbecomeapopularform.这几天海鲜吃多了,上火了,脸上冒痘痘了,呜呜…怎么办?

MissionofmicroblogminingIdentifyingwhetheronepoststatessomethingbothersomeinstantlyandrecommendingasolutionorananswerforit.UnderlyingdemandIdentifyValuablesolutionRecommend1Copyright2012FUJITSUR&DCENTERCO.,LTDOurworkDemandIdentificationContentrecommendationUserrecommendationidentifythepostexpressingsomethingbothersomeoraskingforinformationcontent-basedmodel:topic&setimentdetectionclassifier-basedmodel:featureextraction&classifyrecommendlatestorexactcontentfromwebormicroblogmicroblogre-ranktogetbestanswercontent-based&collaborative

recommendationrecommendauthoritativeandinteresteduserauthoritativeuser:content-basedrecommendationinteresteduser:collaborativefilteringrecommendationCopyright2012FUJITSUR&DCENTERCO.,LTD什么是问题微博?首先必须满足是原创微博,其次满足以下条件之一:1.微博内容明确提出问题或询问建议,对于此类微博,如果其所提出的问题是客观的,可以回答,则认为是可推荐微博。问题的客观性是指其答案比较统一,导致问题的原因比较普遍和客观。如:“上火了,怎么办?”上火是普遍现象,可以为其推荐解决方法;而微博“社会,还真TMD有不要脸的,打坏了人,还不赔钱!我该怎么办,才可以让妈妈不上火”指明导致问题的原因是社会不公现象导致,因主观性较强,所以不为其做推荐。2.微博内容是陈述形式,陈述的内容不是记录型(记录完成某件事情)、评价型的(对某种现象的看法),分析内容的侧重点,如果其陈述的重点是将要或最近发生的事,且陈述的事实具有客观性和普遍性(客观性描述与1相同),并且该事实困扰着用户,还没有有效的解决方法或好的建议。例子心若闲,事多人忙心不忙;心不闲,事少心忙人不忙。(非问题微博)天气干燥,嘴唇上火起泡,怎么办?(问题微博)Copyright2012FUJITSUR&DCENTERCO.,LTD数据集数据集是从新浪微博中抓取,其中正例微博是通过关键字搜索,再进行人工标注得到,负例微博是从微博中随机抓取得到。训练集有6426条微博,正例662条,负例5764条,其中正例涉及的主题有:“胃好疼难受”、“头昏喉咙痛”、“脖子疼”、“牙疼”、“熬夜伤不起”等。测试集有3753条微博,正例302条,负例3453条,其中正例涉及主题有:“上火怎么办”、“油滴到衣服上”、“眼袋好重”、“纽曼怎么样”、“自动关机自动重启”、“佳能多少钱”、“父亲节送什么”、“快速消肿”等。Copyright2012FUJITSUR&DCENTERCO.,LTD系统实现原理本系统分为两大模块:问题微博识别模块和答案推荐模块。问题微博识别模块采用SVM分类器,提取微博4种不同的特征:情感特征(emotion)、事件特征(event)、词语情感特征(percent)以及外部特征(external),分类器在不同的特征实例集上训练模型,预测时,加载各种模型,采用投票方式得到最终类别。答案推荐模块:分别从web和weibo中获取相关内容推荐给用户。web推荐是将去除表情信息的微博作为查询,在百度知道中搜索,然后对其结果重新计算相似度,将最相关问题的答案返回给用户。weibo推荐是提取微博的关键字将其作为查询主题,在新浪微博中搜索,并对检索结果重排序,将前5条微博作为推荐内容。Copyright2012FUJITSUR&DCENTERCO.,LTD微博识别特征提取内部特征表情特征、事件特征、关键词情感特征外部特征知道特征、百科特征、微博特征分类使用SVM分类器进行分类集成预测对内部特征的预测结果进行相对投票结合相对投票结果与外部特征结果做绝对投票Copyright2012FUJITSUR&DCENTERCO.,LTD内部特征表情特征提取(emotion特征)输入:微博和悲观表情文档处理:判断微博是否含有悲观表情输出:含有,则返回1;否则,返回0事件特征提取(event特征)输入:微博处理:分词和词性标注,判断是否含有词性为t(时间),nr(人名),ns(地名),nt(机构)的词输出:四个二值数字(由0或1组成),如果包含以上词性,则返回1,否则,返回0.关键词情感特征提取(percent特征)输入:训练集和微博处理:1)将训练集根据表情符号分为3个部分:包含正面表情微博,包含负面表情微博和不包含表情微博。然后对其分词并统计各集合单词词频。2)对于输入的微博,将其分词和词性标注,提取词性为v,n,a,vn的词作为关键词,取其在(1)中提到的3个集合中出现的词频,并归一化,则单词w会返回三个值neg_ratio、pos_ratio、neu_ratio,整体微博的关键词情感特征即为其比值之和。输出:返回neg_ratio/pos_ratio和neg_ratio/neu_ratioCopyright2012FUJITSUR&DCENTERCO.,LTD外部特征:知道特征输入:整体微博信息(去除表情符号)处理:(1)将整体微博输入百度知道搜索,提取搜索结果第一个页面的所有问题,然后对其进行分词和词性标注,去除词性为w(标点符号)、r(代词)、u(助词)和没有被标注的词,统计剩余单词的词频,均值化(除以问题个数),并排序,得到问题单词列表(QuestionWordList)。(2)对微博分词和词性标注,去除词性为w、r、u和没有被标注的词,得到微博单词列表(PostWordList),其中每个单词词频为1;计算其长度L,从QuestionWordList中获取topL个单词,然后计算PostWordList与其之间的余弦距离。输出:余弦距离:浮点型Copyright2012FUJITSUR&DCENTERCO.,LTD外部特征:百科特征首先根据百科开放分类爬取其下的词条,最终保存词条及其上层类别(第一层类别或第二层类别)。如:词条:鱼香肉丝→烹饪→饮食→生活(目前只划分到“饮食”那一层的类别),则烹饪是第二层类别,饮食是第一层类别。输入:微博处理:1)统计其含悲观表情的个数,保存为e_count;

2)然后将其去除后,分词和词性标注,获取词性为n(名词)、vn(名动词)、v(动词)、a(形容词)的词,将其作为关键词,统计其个数key_count,并获取其对应的主题类别。则统计主题类别的数目topic_count和可以找到主题的关键词数目topic_key_count.;3)最后根据已有的疑问词列表,提取微博包含的疑问词个数r_count.4)最后根据以下公式,为微博打分。微博统计包含的

输出:处理过程得到的value值Copyright2012FUJITSUR&DCENTERCO.,LTD外部特征:微博特征输入:微博处理:1)去除表情符号,分词,词性标注,如果其长度小于等于5,则将具有词性标注的词作为关键词;否则,提取词性为n,vn,v的词,按照规则v+n,v+v,v+vn,n+v,n+n,n+nv及其组合提取关键词。2)将每个关键词作为输入,在微博搜索中检索结果,获取前10个页面的微博。返回的结果包括微博ID、微博内容、发送微博博主的分数,是否转发等。3)统计微博中转发条数比例(RT_ratio),名人微博比例(celeb_ratio),乐观微博比例(Positive_ratio),悲观微博比例(Negative_ratio),URL微博比例(URL_ratio)。4)每条微博的这5个信息量则是取关键词信息量的平均值输出:RT_ratio,celeb_ratio,Positive_ratio,Negative_ratio,URL_ratioCopyright2012FUJITSUR&DCENTERCO.,LTD分类器训练SVM分类器,其参数设置为“-S0-K2-D3-G0.16-R0.0-N0.5-M40.0-C1.0-E0.0010-P0.1”。训练集中存在正负实例不平衡现象,通过多倍复制正例使得训练集中正例、负例条数均衡来避免。Copyright2012FUJITSUR&DCENTERCO.,LTD答案推荐答案推荐包含两部分:基于web推荐和基于weibo推荐基于web推荐将除去表情符号的微博内容作为查询在百度知道中搜索,返回的第一个页面中的所有问题及其对应的第一个答案最为web返回的相关内容返回。具体流程图如下:Copyright2012FUJITSUR&DCENTERCO.,LTD基于weibo推荐目的:将微博搜索结果中最相关且信息量最大的微博内容返回。具体策略:(1)获取查询词首先,将除去表情符号的微博内容作为查询在百度知道中搜索,得到第一个页面中的所有问题集合,然后计算集合中所有词的词频并排序。其次,对微博内容分词,标注词性,取出词性为n,v,a,vn的词作为关键词,然后根据上一步得到的词频序列对候选关键词排序,最多取前5个词作为查询词。(2)微博搜索结果排序将查询词在微博搜索中进行搜索,取结果中的所有微博内容,对每条微博内容提取特征,打分,然后根据分数进行排序,取top5条微博结果最为推荐内容返回。Copyright2012FUJITSUR&DCENTERCO.,LTD实验结果分析问题微博识别根据以上介绍的分类器方法,微博识别精度为0.6822034,召回率0.52960527,其中关于健康类的微博其识别率相比其他类别高。其可能原因与训练集有关,训练集中正例包含的主题大部分是关于健康类别。答案推荐目前,基于百度知道返回的答案推荐结果要比基于微博搜索的推荐好,其主要原始是用于微博搜索的关键词不能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论