基于英汉平行语料库的术语词典自动抽取_第1页
基于英汉平行语料库的术语词典自动抽取_第2页
基于英汉平行语料库的术语词典自动抽取_第3页
基于英汉平行语料库的术语词典自动抽取_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于英汉平行语料库的术语词典自动抽取

近年来,随着互联网规模的快速发展,越来越多的文件以多种语言形式在互联网上传播,这可以获得大量的多语平行语料。研究有效的方法从互联网上自动挖掘双语词汇和术语对获取,无疑是解决双语资源建设的有效途径。术语抽取技术是信息处理中的一个很重要的课题。针对不同的语料和研究目的,可以采用不同的研究方法。Champollion系统的目的是在对齐的英语和法语语料中抽取双语搭配词典,首先在英语语料中抽取有意义的连续搭配和不连续搭配,然后通过计算对齐语料中英语搭配和候选法语翻译间的互信息来抽取相应的翻译。本文的第二部分将给出整个算法的概要描述,第四部分将详细给出有关术语抽取的候选集的统计与生成,翻译概率的计算公式和意义,以及阈值的选取,最后将给出实验1语料与术语的编码英汉平行语料库中自动抽取术语词典的算法主要包括三部分:双语句子的对齐;英文语料的词性标注以及中文语料的切分与词性标注;术语词典的抽取。算法流程图如图1所示。1.1词语的选择和过滤在获得对齐语料后,我们对其中的英文语料进行了词性标注,中文语料进行了切分与词性标注。我们的目的是从已对齐和标注的语料中抽取术语词典,因此首先要将英文语料中有可能是术语的单词和词组选出。经过对语料的观察,对于英文术语的候选词,我们选取以下的词性模式:其中N表示名词,A表示形容词,P表示介词。对于中文术语的候选词,考虑到翻译时的词性变化,以及切分与词性标注都存在一定程度的错误,我们采用启发式的过滤来去除一般不可能是术语的词类,比如连词,数词,代词,副词等封闭词类以及一些高频词。这样,对于每一对对齐的中英文双语句子,我们都只留下可能是术语的单词。对每一个英文候选术语在整个语料库中统计与其相关的中文单词,并生成了一个术语的候选集合,用于进一步计算其翻译概率。1.2译频:的计算及求解在得到每一个英文候选术语在整个语料库中相关的中文单词所组成的翻译候选集后,用公式(1)来计算其翻译概率:其中fe表示该英文术语的词频,fc表示该中文术语的词频,而fec由公式(2)计算:其中LAV表示语料库中所有引文句子字符长度的平均值,Lei表示英文候选术语与该中文词同现句子的字符长度,N表示该英文词与所对应的中文翻译候选词共现的总次数。1.3基于共现次数的中文翻译在完成翻译概率的计算后,选取一个阈值来自动滤掉一些与该英文候选词无关的中文翻译,为了减少一些偶然的搭配,对于共现次数小于2的情况不予考虑,并且选取下面随词频变化的阈值来查找合适的中文翻译,如公式(3)所示:其中T0为初始阈值(正对不同语料应选取不同值),ac由公式(4)计算:1.4源语言和目标语言词汇的提取利用以上统计公式计算出候选词之间的翻译概率,并利用阈值过滤掉一些翻译后,可以按照概率的大小进行术语词典的提取。文献提出了一个贪心假设。该假设认为在同一句对中的源语言和目标语言词汇,只有不存在与这两个词汇相关的更高翻译概率的候选翻译对时,才可能成为翻译等价对。例如,由于“system/系统”、“file/文件”具有更高的翻译概率,可以排除同一句对中“system文件”和“file/系统”互为翻译的可能。2试验过程2.1具有中英两个版本本文工作使用了从互联网上下载的中国法律语料库,所有法律条文同时具有中英两个版本,并且中英文逐条对应,中文经过了分词处理。基本上不再需要进行句子一级的对齐和分词工作。在此基础上,对双语语料库进行了下列预处理。对中文和英文分别进行词性标注。2.2对句对的数量实验分别选择了1000个句对(共20605个汉字,17754个英语单词)、2000个句对(共58693个汉字,52944个英语单词)、5000个句对(共161079个汉字,145626个英语单词)、10000个句对(共328212个汉字,290942个英语单词)进行。下面以1000个句对为例,说明实验过程。2.2.1配置问卷集在生成候选集的同时,得到候选词的频率,部分结果如表1所示。2.2.2句子数(1)1000个英文句子字符长度平均值:字符总长度为109049,句子数为1000。所以,平均值=109。(2)部分英文与中文候选词之间的同现次数及翻译概率如表3所示。2.2.3regulation/条例que/质量respesiwell/产品质量核心产品再根据贪心算法原理,选取翻译概率最大的最为抽取结果,结果为:regulation/条例quality/质量responsibility/责任product/产品3结果分析3.1结果在对1000个句对、2000个句对、5000个句对以及10000个句对处理后,结果如表5所示。表6显示了实验抽取结果的一个片段。3.2结果分析3.2.1生成的调整方法错误经过对错误的翻译对进行分析,发现原因主要有以下几个方面:1)原语料中中文分词的错误,如本来是术语的词被切分开来,从而不出现候选集当中。2)词性标注的错误,导致生成的候选集不符合要求。3)中英文候选词的不一致,例如在英文候选集中,根据算法得到“fertilizer”和“compoundfertilizer”,而在中文候选集中,只有“复合肥”,导致“fertilizer”和“compoundfertilizer”所对应的中文翻译都是“复合肥”,其中“fertilizer/复合肥”是不完整的翻译。4)有些术语在语料中只出现一次,而我们算翻译概率时要求同现次数不小于2,所以只出现一次的术语对会被忽略。3.2.2循环的次数检测由于对每个英文候选词,需统计它与每一个候选中文词的共现次数,而在统计同现次数时又需从语料的第一句检测到最后一句,所以循环的次数为:英文候选词数目×中文候选词数目×句对数。经过对以上出现错误的分析,我们发现了产生错误原因的几个方面,这对我们如何修正以及下一步如何提高召回率和精度提供了重要的线索。4双语语料的翻译本文提出了一种从英汉平行语料库中自动抽取术语词典的算法。在对英文语料和中文语料分别进行词性标注后,对对齐双语语料中的名词和名词短语进行统计并生成候选术语集。使用了双语术语抽取的翻译概率的计算公式,并通过该公式对每个英文候选术语计算与其相关的中文翻译之间的翻译概率,最后通过设定随词频变化的阈值以及贪心算法来选取中文翻译。本文所提供的方法和经验公式可以用于任何领域的双语语料,其处理思想也可用于其它语种双语语料术语的自动抽取。对目前经验公式的进一步改进和完善将有助于提高精度,提高英文的词性标注,特别是中文的切分和词性标注的精度从而提高术语词典抽取的正确率。算法程序可以进一步简化以减少算法运行时间。N,AN,NN,AAN,ANN,NNN,NAN,NPN以表4为例,首先通过阈值过滤掉候选术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论