中文微博情感评测报告_第1页
中文微博情感评测报告_第2页
中文微博情感评测报告_第3页
中文微博情感评测报告_第4页
中文微博情感评测报告_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中文微博情感评测报告中文微博情感评测报告 提纲 研究背景及意义研究背景及意义 任务预备任务预备 任务分析与实施任务分析与实施 总结总结 背景 在web2.0大背景下,微博作为用户发 言、相互交流的重要途径,具有数量大、 更新快的特点,是从中发掘用户观点以及 情感倾向的可靠来源。针对微博的自然语 言处理研究已成为当前一个新的研究热点 和前沿课题,而情感分析就是其中一个热 点话题。 微博情感分析 l情感分析,包括观点挖掘、观点分析、主 客观分析等。情感分析的目的是从文本中 挖掘用户表达的观点以及情感倾向。 l主要技术:(1)情感词典与规则相结合的 方法(2)机器学习 意义 l过滤不合法网络舆论信息

2、,营造良好的网 络环境 l监督舆论的走势,辅助社会管理 l实现商品个性化推荐 l对社会计算的研究有重要的意义 提纲 研究背景及意义研究背景及意义 任务预备任务预备 任务分析与实施任务分析与实施 总结总结 任务清单 l 任务一:观点句判定 l 任务二:分析情感倾向 l 任务三:提取情感要素 技术准备 l 分类器:svm 、 crf l 情感词典扩充:加入网络用语和表情符号 l 中文分词技术:海量云分词 提纲 研究背景及意义研究背景及意义 任务预备任务预备 任务分析与实施任务分析与实施 总结总结 任务处理流程 构建特征集 人工标注 训练语料 训练集及训 练模型生成 预测集生 成及预测 人工标注 l

3、利用本团队自主开发的标注工具标注 l严格按照主办方提供的标注规则,从样列 文件中选取1219条具有代表性的微博进行 标注 l标注内容包括:是否为观点句、情感倾向 性、情感要素 训练语料 任务一:人工标注的1219条微博 任务二:任务一训练语料中451条为观 点句的微博 任务一特征集 特征序号特征类型特征内容描述 1链接是否含有url链接链接通常以http:开头。 2表情符号是否含有情感表情符号参考网络表情符号词典 3情感词是否出现情感词在基本的情感词典基础上,再加入包含情 感的网络用语作为情感词典的扩充。 4情感词个数情感词出现的个数 5标点符号是否出现感叹号和问号。! ? 6标点符号是否出现

4、连续的感叹号和 问号。 !,? 7反转词是否出现反转词。是否情感词前面存在反转词(情感词前3 个词之内) 8程度副词是否含有程度副词。很,特别等 9语气词是否含有语气词。啊,哪,啦,呀,吧,呢 10网络用语是否存在网络用语参考网络用语词典内容 11目标值是否为观点句 任务二特征集 特征序号特征类型特征内容描述 1链接是否含有url链接链接通常以http:开头。 2正面表情符号正向情感表情符号个数参考网络用语表情词典 3负面表情符号负向情感表情符号个数参考网络用语表情词典 4正面情感词正向情感词出现个数在基本的情感词典基础上,加入包含情感的网络 用语作为情感词典的扩充。 5负面情感词负向情感词出

5、现个数在基本的情感词典基础上,加入包含情感的网络 用语作为情感词典的扩充。 6反转词是否出现反转词。是否情感词前面存在反转词(情感词前3个词之 内) 7问号是否出现问号 8标点符号是否出现问号或者连续的问号。 9目标值情感正负 训练模型生成 网络用语、表情特征提取 提取特征 训练模型 格式转换 分 词 svm训练 人工标注语料海量分词格式 分词结果 训练集格式转换 预测集生成 网络用语、表情特征提取 提取特征 格式转换 分 词 待预测微博 海量分词格式 分词结果 预测集格式转换 预处理 预测集生成及预测细节 任务一分词前预处理 : 过滤类似 “我感 到很高兴”这样的主观抒发情感句,并 定为非观

6、点句。 任务二预测集生成:根据任务一的预测 结果,从中提取预测为观点句的微博 使用svm对预测集进行预测 评测结果 任务 微平均宏平均 正确率召回率f值正确率召回率f值 一0.6450.9590.7720.6490.9600.770 二0.8040.7710.7870.8090.7780.793 任务三流程 分词特征提取crf训练及预测 结构化标注 情感要素提取 任务三特征集 特征序号特征类型特征内容描述 1token即该词语名称分词所得的某一个词的名称 2postoken的词性该词的词性,可以在分词结果中 取得 3上下文窗口某token上下token的 特征 选取了上下文窗口为5的词语的 token 、pos特征 4目标值结构化标注 用于提取情感要素特征 训练集生成 使用与任务二相同的人工标注集作为训练 语料 结构化标注:tp-b 表示情感要素开始词, tp-e 表示情感要素结束词 so为情感词,bg为背景 情感要素确定 u标注为so,即情感词,作为微博情感倾向 u标注为tp-b或tp-e,则可能是情感要素 u没有标注tp-的角色,那么就认为该句没有 情感要素 总结 本团队在本次比赛中,运用自然语言处 理与机器学习的相关知识,结合自身的思 路与创新,对任务一(观点句识别)和任 务二(情感倾向分析)的评测取得了较为 理想的结果,而在任务三的实施方面由于 时间和精力方面的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论