下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 计算 机工 程 与科 学 , ( ) 值受词 性 因 子影 响 最 大, 词 长次 之 , 最 小) , 且 每个 系数在 ( , ) 之 间取 值 。为确定 一个 最 佳 组合 系数 , 本文 针对 六 种 可 能 的取 值 情 况 ( 精 度 为 ) 对微 博 短 文本 分 类 语 料集 多次 实 验 , 测 试 微 博短 文本 分类 的平均 准 确率 。实验 结果 表 明 , 当 ( , , )一 ( , , )时 , 平 均 准确率 取得 最 大 值, 即 , 因此 , 取 分别取 、 、 。 结 束 语 本文首先基 于词性组合 匹配 规则选 取微博短 文 本 的特征词 , 以提高微
2、 博短 文 本特征 词 的语 义表 达 能力; 其次根 据词 项 的 、 词性 与词 长 等 因子 构造 综合评估 函数估量词 项对微博短文 本 内容 主题 表示的贡献度 , 进 而对微 博短文本 进行特 征词选择 ; 然后 , 从语 义 的角度理解 微博短文本 特征 , 结合 词项 将本文的新算法 与单 独基 于词项 的 、 词长 、 词性 等 因子 的特 征词选 择算法进 行 比较 , 观测各个特 征词选 择算法与分类算 法相结 合时对微 博短文本分类 的效 果 。由于新算 法综合考 虑 了词 项 的 、 词性 与词长等 因子共 同度量词 项对微博 短文本 内容 主题 表达 所起 的作 用
3、 , 避 免 了仅基 于 词 项某一方 面因素 的 片面性 ; 以词 性组 合 匹配 规则 选 取文本 的特征词 , 提高 了微博 短 文本 特征 词 的语 义 表达能力 ; 从语 义 角度 来衡 量词 项与 微博 短 文本 内 与文本 内容 的语 义 相关 度 , 最 终完 成对 微博 短 文本 特征词 的选取 功能 ; 最后 与朴 素 贝叶斯 分 类算 法结 合使用 , 对微博短 文本 进行分类 。实验结 果表 明 , 与 基于词项 的 、 词性 与词长等 因子选取 特征词 的算法相 比 , 该 算法 有效 地提 高 了微博 短 文本 分 类 的准确率 , 从 而验 证了该算法 的优越性
4、。 参 考文献 : , , , , , ( ): ( ) 容 的语 义相关度 , 充分 考虑 了词 项 与文本 内容在 语 义上 的密切相 关度 。因此 , 新 算 法可 更好 地 提高 微 博短文本分 类的准确率 , 改 善分类 的效果 。 这一点可 以从如 图 和图 所 示 的数据 中得到 验证 : 结合分 类算法对微博 短文本进行 分类 时 , 新算 法与基 于词 项 的 、 词性 与词长 等因子 的特征 , , ( ) : ( ) 词选 择算法相 比, 在各 个微 博数 据 类别 对应 的准确 率与 召 回率上 均得 到 了提高 , 且 平 均值 分别 保 持在 与 左 右 。新算法有效 地提高 了微博 ( ) 一 : 一 一 ( ) : , ( ) 短 文本分类 的准确率 , 证 明 了该 算 法选 取 出 的特征 词可 更准确地表示微博 文本 内容主题 。 : 薄 稷 , ( ) : , , ( ) : ( ) 一 算法 。 日 一基于词长的算法 基于词性的算法 卜新 的算法 , , , ( ), : 图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论