专业术语新词自动发现技术_第1页
专业术语新词自动发现技术_第2页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、专业术语新词自动发现技术 引言大多数的数字图书馆和Web应用所实现的信息检索都是在词表的基础上完成的,词表中 收 录了特左$业领域内的所有重要概念,并进行了文献资源的标引、组织1.词表需要不断 的丰富,不断的补充新词,以保证词表的容戢,但传统词表丰富工作是依靠人工维护的,不 能跟上知 识领域的快速发展 .因此,研究信息检索领域的F家把重点放到了词表的自动生成 上,即从自由 文本中提取词汇间的关系来自动构造词表 .该文针对科学技术领域专业术语新词发现的要求,提岀以概念为基本单位,通过概念之 间的属分关系和相关关系进行组织发现新词,对词表进行自动更新的机制 ?本方案的设汁特 点:(1)以概念为单元

2、组织词表 . 此处的概念就是指WordNet中的同义词集合,同义的词是 可以互换的,可以将同义词看成是一个单元,揭示同义词集合之间的关系,而不是词之间的关系2.(2)设计的基表不但包括词表本身, 而且还包括书目记录的信息 . 这些书目记录是已经标引好的记录,具有正确的分类和主题 . 这样,概念就可以与书目记录之间建立对应关系,利 用 这一对应关系丰富词表的内容 .(3)利用书目记录本身的信息和书目记录与概念的对应关系发现新词,并确左英所对应 的概念,自动丰富词表,从而提髙词汇的等同率 .下而,就从词表丰富工作中所采取的三个关键步骤来介绍 .1规范化切词后的英文标题从数据库中导岀的标题被切分后存

3、成文本文件,切分的结果中会存在一些英文的词组形 式, 它一般都会是科技文献论述的重要内容,需作为新词来对待 ?标题中英文的专指性一般很 强,但 是英文中的一些附带信息会使英文词组过于专指,或者由于大小写或英他格式不统一, 导致原本 的词组形式不被计算机所认识,从而影响后期的新词发现3-41.所以,这里对英文 进行以下处 理:2标题串中专业术语新词的提取2. 1停用词停用词指的是没有构词能力的词和标点符号,可以作为发现新词过程中的分隔标志. 在 发现新词时,如果遇到停用词,则说明前而几个词的组合已构成新词,而且对停用词后而的词继续进行新词处理 . 在这里,只用髙频的连词(如及、及其等)、最常用的

4、助词的、符号(?、 、等),一共14个. 在确左停用词时,先将词按照在标题中出现的次数排列,然后在髙频 词 中人工挑选岀停用词5.2. 2倒排档表将切分处理后的词串建立倒排档表,用来保存这个词和它所在书目记录中的位宜 .2. 3利用正向最大匹配(MM)算法发现新词(1)正向最大匹配算法的基本思想对每条书目记录中的切分后的标题, 用停用词做分隔, 对每一部分从左向右找出尽可能 长的 词的组合 .首先利用倒排档表找尽可能长的词的组合,然后判定这个标题中出现的几个 词的组合 是否在其他标题中也岀现了,最后判断此组合在所有标题中岀现的次数不小于预左的域值,则确定这几个词的组合是一个新词 .(2)发现新

5、词算法的基本思想新词是指有特左含义的短语,若它的意义确左,这里就把它当作一个词来处理?比如软件工程课程设计这个词,如果在分词软件中没有切成一个词,而是切成了如软件/工程/课程/ 设 计这种形式,现在的任务就是将其合并成软件工程课程设计的形式?苴基本思想就是如果几个词在不同的标题多次连续出现,而且出现次数超过特定的域值,就认为这几个词的组合可 能是一个新词1, 6.再通过停用词表过滤,保证这几个词中没有停用词,最后过滤剩下的多个词的组合就认为是新词 .例如,标题为软件工程课程设汁,切分后为软件/n工程/n课程/n设计/n 7.软件/n工程/n在标题中岀现17次,大于域值,软件/n工程/n课程/n

6、出现2次,小 于域值, 所以认为软件工程是新词,将这个词和这标题对应的记录号存入新词表中.软件/n工 程/n课程/n设计/n出现11次,大于域值,因为已经到了标题的结尾,所以也认为英是可能的新词.处理为软件工程课程设计 .将新词在标题中出现的次数填写在new.word(新词表)中的count_cn字段. 删除所有岀 现 次数小于域值的记录 . 在发现的新词的过程中可能包含一些新词的子串被当成新词的现象 , 比如软 件/工程/课程/设计中的工程 /课程被当成新词 .如果标题中岀现的软件 /工程/课程子 串全在软件/ 工程/课程/ 设计串中,则算法是不会发现软件 /工程/课程这个词的 ?但是,标题

7、 中有一个启动 /工 程/ 课程这个词串,因为启动工程课程出现次数小于域值,所以不能成为新词,但计算软件 /工程/课程/设计出现次数的时候连工程 /课程也计算进去,所以认为工程 /课 程是个新词 .在进行后处 理时,删除所有出现次数小于域值的新词记录的目的就是要去掉这 种情况造成的错误 .3确左新词对应的概念基本思想:由上一步的发现新词的算法可知,得到的新词一泄对应了数量超过一左域值的文献. 每篇文献都有一个或多个主题,每个主题对应一个或多个主题词,而每个主题词对应一个概念,即每篇文献可看作含有的主题词对应的概念的集合 . 这些文献对应的概念集合可 能相交或相 离,即他们可能有共同的槪念或者没

8、有 ?确左新词所对应的概念就是要看新词所在的文献集合中是否有大多数文献讨论同一概念 . 如果有这样的概念,则可以认为这个新词 与这个概念是对应的 .确泄新词对应的概念不但可以找岀新词与槪念之间的对应关系,也可以对新词进行过滤, 使发现的新词更加具有检索的意义 . 例如:剩余时间是我们在上一步发现的新词,但是它所出现的文献包含的概念很分散,没有一个概念能够同时在大多数文献中岀现,所以这个新词就 没有对应 的概念,也可以知道这个新词的专指性不强,没有检索意义 . 相反,例如自然码这个 新词所岀现 的文献包含的概念就很集中,其中汉字编码这个概念就在大多数文献中出现,所 以认为新词自然 码与概念汉字编

9、码是对应的 .同时也可以知道自然码具有检索意义,是一个 有效的新词 ?即有效词 为具有检索意义的词 .下而,对此思想用形式化的语言加以描述:4整体实验结果的分析这次实验共用了3130条有效的CNMARC记录,分3次导入数据库 .在每次将CNMARC记 录 导入数据库后进行了发现新词和确泄新词对应概念的工作,记录下相应的测试结果,并对结 果进行了一肚程度的人工分析统计 . 通过对书目记录规模不同的情况比较,发现了新词和确圧新词对应概念所得到结果的数量和质量的变化情况,也初步预测了其变化趋势. 通过分析 记录增加对发现新词和确定新词对应槪念的数量与质量的影响,统讣结果反映出以下问题:(1)切分出来

10、的不同词的数量基本上是随着不重复的标题数的增长而线性增长 ?若文献 数呈: 足够大,那么切分出来的不同词的数量应该趋近于切词系统词库中的词汇总数,而不应 该是线性增长 .(2)经过确左新词对应概念这一步,可以将新词中的无效词过滤掉,从而很大程度上提 高发现的新词的有效性 . 通过过滤, 也去掉了一些有意义的新词 (在表中没有对应概念的新词 中 的有效词列反映这些词的数呈:),但这种错误过滤的数量有限,基本上可以忽略 .(3)有效的有对应概念的词占有对应概念词的比例和有效词占发现新词的比例都是大体 稳左的 ?随着文献数量的增加, 有对应概念的新词中有效词的比例也在增加 ?通过找岀新词对 应 的概念,可以提高新词的有效性 .5结束语新词发现技术一直是自然语言

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论