


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、面向自动文摘的主题划分方法童毅见2019-11-4A主题的概念1,主题的定义现状:鲜有确切的关于主题的定义。2, 几个关于“主题”的定义 Labad泊认为主题是会话或讨论的主要问题 Chafe主题是正在讨论的命题所谓“主题”,是介于篇章与段落之间的一个语言单位,一个主题 表达或阐述一个相对独立的意义或话题3, 本文对主题的定义主题是用来描述一个话语片段所表达内容的一种直观方式,该话语 片段阐述了一个相对独立的意义或话题。主题不应是一个语言单位, 但是可以通过篇章集、段落集或句子集的方式呈现。1, 主题划分的概念主题划分就是将一个含有多个主题的话语(在本文中以文本方式体 现)切分成一系列单个主题
2、。 Reynar认为,作者在写作前,会在脑海中收集一些没有连接的主题, 在写作过程中为了保证文本的流畅,会有意无意的设置一些主题边界2,主题划分的分类主题划分可以分为层次划分(hierarchical segmentation)和线 性划分 (linear segmentation)从划分结果来看,线性划分还可以进一步分为连续划分和非连续划 分A主题划分对匂动丈摘的意义15有助于平衡摘要的结构,提高摘要的覆盖面如果采用传统的基于句子重要度从高到低抽取的方法,很容易 造成对次要主题的遗漏或忽略,并且容易导致主要主题的冗余。2, 主题特征对自动文摘的促进作用Louis.et al在比较话语结构特征
3、、语义特征和非话语性特征 (如主题词、句子位置等)在单文档自动文摘中的效果时发现, 基于话语结构特征的方法在摘要内容上效果最好A常见主题划分方法15基于词汇衔接理论的方法TextTiling> C99> dotplotting2, 融合特定语言现象和文本特征的方法1)特定领域的提示短语。例如右广播新闻文本中,joining us2)二元词组频率。避免单词频率引发的歧义问题;3)命名实体的重复。4)代词特征。3, 基于概率统计模型的方法PLSA (概率潜在语义分析)、LDA (Latent Dirichlet Allocation )以及 小世界模型ATSF算法由Kern &
4、 Granitzer提出,是一种基于滑动窗口技术的主题划分方法算法该算法在很多方面与TextTiling算法相近,也是一种基于词汇衔接理论的方法。根据文章呈现的评价结果,TSF算法在切分效果上要远好于TextTiling算法,并且只有OG丿的计算复杂度。TSF算法默认主题是由句子集组成YTY(£+!)WN伍十!)ad(乙+!)衍N| |(乙+!归帀|Dixon| |(T+!)9d|(山X3N| |(內"!畐毋!畐毋11 11 11 11匕十! 士叵£十! 士叵乙十! 士©T十! 士旦!士叵爭娜舉彭:IS丄V戶十!士叵W十!士与乙十!£叵* T十
5、!士乌!士旦b期圉卜Zkr.上(E+!)W!P (乙+!)#!P(T+!)W!P,'>TSF算法描述在每两个句子之间设置一个位置Z,给定窗口大小JF, FF反应了切分的最小 主题所含的句子数。在每个位置“建立rr大小的前驱块§处和后继块呼文。1)位置亍的内部块相似度记作疋,定义如下,IS _吩厂=心+吩巴聘CE _2其中私表示两个块之间的平均相似度。2)位置i的外部块相似度记作OS定义如下;3)计算位置的不相似度disSim.=L设定一个阈值q,如果f点的不相似度大于些 则将该点视作主题边界的候 选点。4)为了逋免连续的位置出现高的不相似度,我们釆用前向查看的方法,查
6、看距离为幵;如果该点的不相似度小于下一个点的不相似度,则此点不作为主题 边界点*A关于主题的呈现方式的讨论1, 句子集or段落集2, 主题的呈现方式与文本的特征、任务对主题颗粒度的 要求有关3, 自动文摘对主题划分颗粒度的要求4, 句子集ond段落集A以段彖集为主题表征的TSF算法段落j段落i+l段落i+2段落i+3段落i+41 11 11 11计算每个点的不相似度J J £切分结果段落j 段落i+l ;段落i+2 段落i+3 ;段落i+4-A面向匂动丈摘的主题划分策略文档、带权重根据权重主题抽取句子后期处理口引入代词特征对于切分出来的主题如果首段是代词,则认为切分不正确, 将前后两
7、个主题合并A主题划分评价1,传统的评价方法的不足文本切分和主题划分的区别召回率、准确率,F值等无法反应near miss现象Ref uuuuuuuuraraDCDnnuaaDDionao ODDDIIIIIIIRef UUUUUUraaDCDIOUDDQIIODA-l nnnnnmi2,引入参考切分3, 引入切分合理度RA切分合理度R记实际切分的主题个数为心参考切分的主题个数为肌1) 若必N,则R壬Pg£-12) 若心N,则R=NP(i)lr-1亠苴中P(i)表示每个实际切分点的得分,记肖前切分点离参考切分点的最短距 离为mindis(i),贝IP =一1min dis(i) +1A主题划分评价结果15内部评价:针对以句子集和段落集表征的TSF算法 (无关比较)类型主题表征文本数量C平均切分合理度平均准确率平均召回率T1句子集300.5878.6%95.2%T2段落集500.6783.8%97.5%2,外部评价:针对主题划分策略对自动文摘的影响(F值)文摘比主题划分传统方法10%0.5340.48820%0.5760.51430%0.607 0.492 A进一步改进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年保安证考试学习计划试题及答案
- 保安证考试实践题及答案
- 保安证考试成功经验试题及答案
- 保安证安全疏导考题及答案
- 智能 停车系统
- 电动汽车充电桩排名前十
- 2025年保安证考试模型试题及答案
- 济南工程职业技术学院《新闻事业管理》2023-2024学年第二学期期末试卷
- 2025年保安证考试准备指南试题及答案
- 兰考三农职业学院《连锁经营与管理》2023-2024学年第二学期期末试卷
- 网络运维从入门到精通29个实践项目详解
- 2023瓷砖店和装修公司合作协议完整版
- JCT2112-2012 塑料防护排水板
- 第14章欧姆定律复习说课稿 2022-2023学年苏科版九年级物理上册
- 《思维导图学习法》课件
- 化妆品功效评价
- 【眼科学基础】眼科症状学
- 中性盐雾试验报告
- 4.与食品经营相适应的主要设备设施布局操作流程等文件
- 母线槽工艺作业指导书
- 国家审计署计算机中级培训模拟题合集
评论
0/150
提交评论