语言节奏在话题追踪中的研究与应用_第1页
语言节奏在话题追踪中的研究与应用_第2页
语言节奏在话题追踪中的研究与应用_第3页
语言节奏在话题追踪中的研究与应用_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    语言节奏在话题追踪中的研究与应用    何婕摘要:语言节奏是语言中的重要特征,通过对语言节奏现象的分析,提出四种语言节奏:自然节奏,语法节奏,逻辑节奏和情感节奏。每种语言节奏都从相关方面反映了语言的特征,对语言特征进行提取达到话题追踪的目的。本文阐述了各种语言节奏的提取方法和节奏特征的提取方法。实验结果表面,在话题追踪任务中应用效果良好。关键词:文本分析;语言节奏;踪系统流程:tp391.1 :a :1007-9416(2017)02-0127-01现今,网络中存在有丰富的信息和知识,信息的来源和量已经不是人们关心的主要问题了,如何在海量的信息和

2、知识中,快速定位和挖掘到感兴趣的内容,已然成为当前研究的一个热点。本文在进行话题追踪任务时,与以往的分析文本内容和结构的方法不同,是从语言中的另外一种特征入手语言节奏1-2。具体分析了文本语言表达中,存在的各种语言节奏。阐述了语言节奏的获取方法和特征提取方法,提出了基于语言节奏进行话题追踪的方法。1 话题追踪系统流程话题追踪任务的系统流程是,首先将待追踪话题和待测报道文本进行模型化,然后对二者的模型进行相似度的比较,当两者的相似度满足判定阈值要求时,则可以判定待测文本属于对应的话题3。但是话题追踪任务不同于简单的相似文档比较。话题的主题内容会随着时间的发展而有所变化,因而,如何摒除内容相似性比

3、较在话题发展中的局限性。发现一定时间范围内同一话题的相关内容,是当前研究的难点重点。2 语言节奏性语言节奏是语言中固有的一种特征,是人们进行语言文字表达相关内容时,其中蕴含的有规律或者无规律的阶段性的变化因素,既要能够服务于抒发感情,表现主题,又要铿锵流畅,给人以共鸣。不仅语言文学艺术中存在纷繁复杂的语言节奏,在普通人的日常语言中也存在着语言节奏,狭义的语言节奏是指,语言中句子或者音节停顿的长短,音调的轻重缓急,起伏跌宕,循环往复,而产生的似音乐的节奏美感,多考虑的是语言的韵律4。3 语言节奏的提取语言节奏是文本的重要特征,能够反映文本的多方面特征。快速科学的从文本中,获取各種语言节奏,是亟待

4、解决的重要问题。在此,就如何进行各种语言节奏的提取进行了系统的讨论。3.1 文字序列文字序列是语言的文本体现,是由文字符号和非文字符号组成的。设任意长度的文字序列是由两部分内容组成的,但含有文字符号(word)和非文字符号(即标点和段落标记符号统称为punctuate),也就是说组成文字序列的符号wa取自两种符号集合:word,文字符号集合和punctuate,非文字符号集合5。文字序列是由文字符号和非文字符号交替出现的,在文字序列中挖掘出一定的节奏特征,从而完成语言节奏的提取工作。3.2 语言节奏获取语言节奏的获取是对文字序列进行操作的,现以语言自然节奏的获取为例阐述语言节奏的获取方法。在获

5、取的过程中,先对文字序列进行扫描,若遇到非文字标记符号时,则构建其自然节奏单元nru,并修改当前自然节奏码nrc。到文章或者文字序列结束时,完成其自然节奏码nrc构建,算法描述如下图1所示。因此,语言自然节奏码实际上就是由一串数字以及停顿级别编码构成的。语言中的其他节奏:语法节奏,逻辑节奏和情感节奏都是语言表达过程中的重要内容。文本序列中的非文字符号,可以将语言中的自然节奏表达出来。文本中文字符号可以进一步的将语言中其他方面的节奏信息表达出来。语言中的文字符号中包含有两种类型的词类:实词和虚词。实词可以说表达了语言中大部分的语义信息,即语言中实际内涵信息是由广大实词来表达的。语言中的虚词是做什

6、么用的呢?通过研究和分析。语言中的虚词,完成了语言中一大部分的其他方面特征表达6。3.3 语言节奏特征提取文本表达的内容和情感上存在众多差异,每一篇文档的语言节奏具有一定的唯一性。通过对文本中存在的语言节奏进行分析,得知语言节奏是在时间序列上展开的,一篇文章中某一时刻语言节奏标记或者语言节奏单元的出现,是与之前所有出现过的语言节奏标记和语言节奏单元概率相关的。因而,可以将语言节奏视为一个markov过程,并进一步提取语言节奏的特征。由于每一类语言节奏中的节奏标记是有限的,所以在语言节奏markov的过程中存在的状态也是有限的,因此,状态转移矩阵的规模就不会很大,对于文本分析的工作是非常有利的,

7、至此完成了语言节奏特征的提取过程。4 结语通过实验验证,语言节奏的特征分析在文章话题同一性发现中同样具有良好的效果。通过将一个时间段的多个话题的多篇文档,组织在一起,提取语言节奏并进一步分析语言节奏特征。对于语言节奏而言,通过语法节奏、情感节奏等综合特征可以大大提高文章话题同一性的发现,实现不同文章的话题分类。参考文献1郭庆琳,李艳梅,唐琦.基于vsm的文本相似度计算的研究j.计算机应用研究,2008(11):3256-3258.2金博,史彦军,滕弘飞.基于语义理解的文本相似度算法j.大连理工大学学报,2005(2):291-297.3杨华,姬东鸿,陈波.基于话题相关的文档集的无向基本要素网络的连通性探讨j.中文信息学报,2015(4):103-110.4邓莎莎.支持决策研讨的文本分析方法研

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论