(管理科学与工程专业论文)胜任力建模过程中智能化编码研究.pdf_第1页
(管理科学与工程专业论文)胜任力建模过程中智能化编码研究.pdf_第2页
(管理科学与工程专业论文)胜任力建模过程中智能化编码研究.pdf_第3页
(管理科学与工程专业论文)胜任力建模过程中智能化编码研究.pdf_第4页
(管理科学与工程专业论文)胜任力建模过程中智能化编码研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(管理科学与工程专业论文)胜任力建模过程中智能化编码研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

胜任力建模过程中智能化编码研究 摘要 自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题 之一,而对自然语言处理的研究也是充满魅力和挑战的。随着计算机和互联网 的广泛应用,计算机可处理的自然语言文本数量空前增长,面向海量信息的文 本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长,自然语 言处理研究必将对我们的生活产生深远的影响。 胜任力建模过程中,我们需要对大量的访谈记录进行人工编码,这是一项 既耗费人工又耗费时间的工作,本文中,我们将应用分词,句法分析,语法分 析,关键词提取,本体和语义的相关知识提出一种可行的胜任力建模过程中的 智能化编码方案。 在本文中,我也把方案应用在自己实际参加的胜任力模型开发项目里,在 一定程度上对自己的方案进行了验证。 关键字:自然语言,胜任力建模,编码智能化 t h er e s e a r c ho n i n t e l l i g e n tc o d i n gi nc o m p e t e n c y m o d e l i n gp r o c e s s a b s t r a c t n a t u r a ll a n g u a g ei st h ec r y s t a l l i z a t i o no ft h ew i s d o mo fm a n k i n d ,n a t u r a l l a n g u a g ep r o c e s s i n g ,a r t i f i c i a li n t e l l i g e n c ei s t h em o s td i f f i c u l to n e ,t h en a t u r a l l a n g u a g ep r o c e s s i n g r e s e a r c hw a sa l s of u l lo fc h a r ma n dc h a l l e n g e s w i t h c o m p u t e r sa n dt h ew i d ea p p l i c a t i o no ft h ei n t e r n e t ,t h ed e m a n ds u c ha s t h e c o m p u t e rc a l lh a n d l et h ev o l u m eo fn a t u r a ll a n g u a g et e x to fu n p r e c e d e n t e dg r o w t h , m a s s i v ei n f o r m a t i o nf o rt e x tm i n i n g ,i n f o r m a t i o ne x t r a c t i o n ,m u l t i l a n g u a g e i n f o r m a t i o np r o c e s s i n g ,h u m a n - c o m p u t e ri n t e r a c t i o na p p l i c a t i o n sr a p i d l yg r o w t h , n a t u r a ll a n g u a g ep r o c e s s i n ga f f e c to u rl i v e sal o t i nc o m p e t e n c ym o d e l i n gp r o c e s s ,w en e e dt oc o d i n gal o to fr e c o r d so f i n t e r v i e wm a n u a l ,t h i si sn o to n l yw a s t eo ft i m eb u ta l s oc o n s u m em a n u a l ,w ew i l l u s es y n t a xa n a l y s i s ,k e y w o r de x t r a c t i o n ,t h er e l e v a n tk n o w l e d g eo fs e m a n t i ct o f i n dar e l i a b l ew a yf o ri n t e l l i g e n tc o d i n gi nc o m p e t e n c ym o d e l i n gp r o c e s s i nt h i sa r t i c l e ,iu s em yc a s ei nt h ep r o j e c tw h i c hih a v ep a r t i c i p a t e da n di n s o m ed e g r e e ,t oc e r t i f i c a t em yc a s e k e y w o r d s :n a t u r el a n g u a g e ,c o m p e t e n c ym o d e l i n g ,i n t e l l i g e n tc o d i n g i v 插图清单 图2 1 上下文无关推导树1 2 图3 1 主题词典构建流程图2 1 图4 - 1 符号语义三角2 5 图4 2 素质特征本体3 l 图6 1 编码方案3 8 图6 2i c t c l a s 处理结果4 4 图6 3 关键词典规整化4 4 v i l l 表格清单 表6 - i 素质特征表3 9 表6 - 2 部分语义词典4 3 i x 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所 知,除了文中特别加以标志和致谢的地方外,论文中不包含其他入已经发表或撰写过的研究成果, 也不包含为获得金日b 王些盘堂或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 靴敝储辩:缈解隰7 “月夕日 f 学位论文版权使用授权书 本学位论文作者完全了解金日b 王些盔堂有关保留、使用学位论文的规定,有权保留并向 国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权金g l 王些左 璺! 一可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文者妊床哆 签字日期:刁 ) 1 年月印1 日 | 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名 蝴瓤7 年月垆 电话; 邮编: 致谢 值此论文完成之际,谨向导师徐枞巍教授致以最诚挚的谢意。从论文选题、 理论方法研究、调查研究、应用研究直到本论文撰写的各个阶段,都得到了导 师的悉心指导。导师渊博的学识,严谨的治学态度,一丝不苟的工作作风将永 远激励着我。同时在为人处世上导师也给予了我许多有益的教诲,将使我终生 受益。另外也感谢合肥工业大学管理学院给我提供了如此好的科研环境以及管 理学院各位领导对我的关心。 感谢同门师兄弟和各位老师的热情帮助,尤其感谢聂会星老师和聂静涛师 兄,在我论文的完成过程中提出了很多有益的意见和建议。在此祝愿各位学业 顺利,事业有成l 感谢我的家人多年来对我的支持和鼓励,他们永远是我的精神支柱。 v 第一章绪论 1 1 智能化编码的意义 人力资源管理的核心是要解决职位与人之间的动态匹配关系。这也衍生出 了基于职位的人力资源管理与基于胜任力的人力资源管理两条思路。前者是人 力资源管理的传统路径,到目前为止己经形成了较为完整的方法与流程,包括 信息收集方法、数据处理工具、职位说明书生成等,但由于传统方法过分关注 工作本身,便工作分析、人员选拔、绩效考核、团队激励等难以有机整合。而 随着人日益成为企业经营管理的核心,对人的内在素质,包括知识、技能、行 为、个性趋向、内驱力等因素与工作续效之间的联系的研究日益深入,基于胜 任力的人力资源管理越来越受到理论界及实践界的关注。从有关人事管理学会 得出的招聘效果的统计结果来看,对人才的预测信度和效度也反映出基于胜任 力方法的优势,如面谈只有1 4 2 l 可预测性,参考以往工作经验的数据为 2 5 2 8 ,推荐为3 0 3 6 ,一般性的测评为4 6 5 2 ,基于胜任力的可 预测性高达8 1 8 9 。可以说,基于胜任力的人力资源管理在很多方面都优 于基于职位分析的人力资源管理,从方法上来讲是对基于职位分析的传统人力 资源管理的挑战。 自m c c l l e l l a n d 发起的“胜任力运动,i l 】以来,经历了三十多年的研究和探 索,胜任力的研究已经遍布各行各业。各种各样的组织和企业努力实践着胜任 力的理论和方法,把胜任力作为其人力资源战略的基础。“通过确定那些少数杰 出人物身上已经很成功用以实现新战略并且实际上正在使用的素质特征,我们 就能让执行者更清楚看到哪一个胜任力或行为是他们在未来更为需要的” m e c l e l l a n d 。而且越来越多的迹象表明,胜任力的理念对于实现招聘,选拔、 任用、培训和薪酬等组织过程的优化和高效完成组织的整体目标等都具有重要 的影响。但是胜任力的理念是建构在检验知识、技能、特质和动机等在优劣者 之间差别显著且能反映高绩效的一些指标的集合,这些指标有的是可见的,有 些却是深层次的、潜在的但却是关乎成功与否的重要因素。探索这些潜在的因 素是整个胜任力框架中的最基础的工作。 胜任力研究是目前人力资源管理的前沿性课题,是将人力资源管理的“选、 育、用、留”等各个环节同企业或组织的战略相结合的桥梁,开展胜任力研究 有助于提高人力资源的整体水平以满足企业和组织的未来发展需要,提高核心 竞争力。 以胜任力为中心的人力资源管理将胜任力同人力资源的管理过程紧密相 连,而且同某些人力资源领域外的过程也相关。特别是胜任力的研究超越了传 统的以工作为中心的工作分析,将人的潜在行为特征差别绑定在组织未来的发 展战略上,通过胜任力描述员工、职位、组织工作单元或培训需求,并将主要 的人力资源管理活动联系在一起。可以说,没有胜任力,就无法讨论人力资源 的管理过程。 已有的胜任力研究在方法论上还有待发掘。目前的研究方法更多采用行为 事件访谈法和专家小组法及其相似的改进方法。这些方法的可靠性、科学性和 实用性还有待验证,这在一定程度上阻碍了胜任力作用的发挥。从已有的文献 看,胜任力研究存在理论和实践脱节的问题,更多的研究倾向于胜任力的模型 建立,而实证和应用环节的相关问题还没有得到充分重视和探讨。很多组织花 费了很大的精力研究出了胜任力模型,却发现无法付诸实践,原因大多是胜任 力的模型太过复杂,是一系列多层次多级概念性模型,模型信息较难实现与现 存的人力资源管理系统对接,无法实现信息在组织各系统问共享;而且模型的 构建需要大量的投入并且很多情况下需要人工干预。胜任力建模过程中的编码 过程正是这种情况,需要投入大量的人工。因此,若要探索能够实现模型提取 自动化的有效途径,达到快速建模目的。使胜任力编码智能化必须实现,这是 整个胜任力模型建模智能化的前提和必要条件,具有重要的理论和现实意义。 1 2 自然语言理解技术发展现状 人工智能的分支学科。研究用电子计算机模拟人的语言交际过程,使计算 机能理解和运用人类社会的自然语言如汉语、英语等,实现入机之间的自然语 言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇 编资料以及一切有关自然语言信息的加工处理。这在当前新技术革命的浪潮中 占有十分重要的地位。研制第5 代计算机的主要目标之一,就是要使计算机具 有理解和运用自然语言的功能。自然语言理解是一门新兴的边缘学科,内容 涉及语言学、心理学、逻辑学、声学、数学和计算机科学,面以语言学为基础。 自然语言理解的研究,综合应用了现代语音学、音系学语法学、语义学、语用 学的知识,同时也向现代语言学提出了一系列的问题和要求。 自然语言理解从2 0 世纪6 0 年代初开始研究,由于n 乔姆斯基在语言学理 论上的突破和此后各家理论的发展,以及计算机功能的不断提高,目前已经取 得了一定的成果,分为语音理解和书面理解两个方面。语音理解用口语语音 输入,使计算机”听懂”语音信号,用文字或语音合成输出应答。方法是先在计 算机里贮存某些单词的声学模式,用它来匹配输入的语音信号,称为语音识别。 这只是一个初步的基础,还不能达到语音理解的目的。因为单凭声学模式无法 辨认人和人之间、同一个人先后发音之间的语音差别,也无法辩认连续语流中 的语音变化;必须综合应用语言学知识,以切分音节和单词,分析句法和语义, 才能理解内容,获取信息。6 0 年代至7 0 年代初期,研究工作一直停留在单词 的语音识别上,进展不大。直到7 0 年代中期才有所突破,建立了一些实验系统, 能够理解连续语音的内容,但是还限于少数简单的语句( 见自然语言语音理解系 统) 。书面理解用文字输入,使计算机”看懂”文字符号,也用文字输出应答。 这方面的进展较快,7 0 年代初期取得突破,中期以后又有所发展。目前已能在 2 一定的词汇、句型和主题范围内查询资料,解答问题,阅读故事,解释语句等, 有的系统已付诸应用。由于绝大多数语种使用的是拼音文字,计算机识别拼音 字母已无问题,而输入又是按单词分别拼写,因此书面理解一般没有切分音节 和单词的问题,只需直接分析词汇、句法和语义。但是汉语用的是汉字,无论 是用汉字编码输入还是将来计算机能直接认识汉字,都要首先解决切分单词的 问题,因为输入就是一连串汉字,词和词之间没有空隔。书面理解的基本方 法是:在计算机里贮存一定的词汇、句法规则、语义规则、推理规则和主题知 识。语句输入后,计算机自左至右逐词扫描,根据词典辨认每个单词的词义和 用法;根据句法规则确定短语和句子的组合;根据语义规则和推理规则获取输入 句的含义;查询知识库,根据主题知识和语句生成规则组织应答输出。目前已建 成的书面理解系统应用了各种不同的语法理论和分析方法,如生成语法、系统 语法、格语法、语义语法等等,都取得了一定的成效。 目前存在的问题有两个方面:一方面,迄今为止的语法都限于分析一个孤 立的句子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因 此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来 所具有的不同含义等问题,尚无明确规律可循,需要加强语用学的研究才能逐 步解决。另一方面,人理解一个句子不是单凭语法,还运用了大量的有关知识, 包括生活知识和专门知识,这些知识无法全部贮存在计算机里。因此一个书面 理解系统只能建立在有限的词汇、句型和特定的主题范围内;计算机的贮存量 和运转速度大大提高之后,才有可能适当扩大范围 近年来,在自然语言处理中概念层次网络理论1 2 j ( t h e o r yo fh i e r a c h i c a l n e t w o r ko fc o n c e p t s ) 一h n c 理论引起了广泛的关注,该理论摈弃传统方法,力 图引导计算机模拟人类大脑对语言的感知模式去理解自然语言。h n c 理论在语 言的语义层面上构建了概念的层次网络,并提出了一种描述语句深层语义结构 的简明语句分类序列和表示式,建立了可由计算机接受和操作的公式和分析模 式,以使计算机具有理解自然语言的智能。 1 3 自然语言的特点 自然语言是人类历史长期发展约定俗成的产物。它带着几千年人类历史的 痕迹,非常的复杂,因此用计算机处理起来也就困难得多。: 1 自然语言充满着歧义。 2 自然语言的结构复杂多样。 3 自然语言的语义表达千变万化,迄今还没有一种简单通用的途径来描述 它。 4 自然语言的结构和语义之间有着千丝万缕、错综复杂的联系,一般不存 在一一对应的同构关系。 正是由于自然语言具备这样的特点,所以人工编码和计算机的智能化编码 也存在着很多的不同,如: 1 人工编码具有很多的主观性,即使对同样的一段话,不同的人进行编码 也会有不同的编码结果,编码不存在统一的标准。 人工编码的结果只在一个项目内可用,而不可以被很多项目共享。 3 计算机编码具有统一的标准 4 计算机很难精确的理解自然语言,所以; ! f 用计算机进行编码,效度和信 度是一个很大的问题 1 4 本文所作的工作及内容安排 本文尝试着解决在胜任力建模过程中编码智能化的问题,提出利用目前自 然语言理解技术来实现智能化编码,如计算机分词,构建主题词典,提取主题 词,利用本体技术构建语义词典等等。并把该方案用在对合肥一家电器生产厂 家的胜任力建模的访谈记录编码过程中。 第一章绪论主要是说明为什么要对编码过程智能化以及自然语言理解和 自然语言特点以及因此带来的人工编码和计算机编码的不同。 第二章自然语言信息处理主要介绍了现行的一些分词,语法分析,句法 分析等技术。 第三章主题词词典的构建主要阐述主题词构建的流程,并提出了关键词 提取的规则和关键词规整得到主题词的办法。 第四章基于本体的语义词典的构建本章主要介绍了语义问题的研究,知 识本体和语义之间的关系,并在此基础上建立了语义词典构建的办法 第五章智能化编码方案利用前几章所谈到的技术来制定智能化编码的方 案。 第六章应用利用已有的胜任力开发项目,把编码方案用在该项目上,验 证其可行性。 4 第二章自然语言信息处理 2 1 分词技术的介绍 2 1 1 分词的历史 汉语自动分词是对汉语文本进行自动分析的第一个步骤。可以这样设想汉 语自动分词过程的困难:如果把某个英语文本中的所有空格符都去掉,然后让计 算机自动恢复文本中原有的空格符,这就是词的识别过程。分词体现了汉语与 英语的显著的不同。英语文本是小字符集上的已分隔开的词串,而汉语文本是 大字符集上的连续字串。把字串分隔成词串,就是自动分词系统需要做的工作。 “词是最小的能独立活动的有意义的语言成分”,计算机的所有语言知识 都来自机器词典( 给出词的各项信息) 、句法规则( 以词类的各种组合方式来描述 词的聚合现象) 以及有关词和句子的语义、语境、语用知识库。汉语信息处理系 统只要涉及句法、语义就需要以单词作为基本单位,例如汉字的拼音一字转换、 简体一繁体转换、汉字的印刷体或手写体的识别、汉语文章的自动朗读( 即语音 合成) 等等,都需要使用词的信息。分词以后在词的层面上做转换或识别,处理 的确定性就大大提高了。再如信息检索,如果不分词( 按字捡索) ,当检索德国 货币单位“马克”时,就会把“马克思”检索出来,而检索“华人”时会把“中 华人民共和国”检索出来。如果进行分词,就会大大提高检索的准确率。在更 高一级的文本处理中,例如句法分析、语句理解、自动文摘、自动分类和机器 翻译等,更是少不了词的详细信息。 3 0 年代以来自然语言理解的研究大体上经历了三个对期:即6 0 年代以关键 词匹配为主流基于规则口1 的分词的早期、7 0 年代以句法一语义分析为主流的中 期和8 0 年代开始的基于知识的新一代自然语言处理系统。目前,新提出的基于 大规模语料库的自然语言处理思想正处于蓬勃发展阶段。 就目前的技术来看,不论采用那种自然语言理解方法,最首当其冲的就是 实现一个比较完善静汉语自动分词系统。也就是说,汉语分词方法的研究对于 自然语言理解这一领域是至关重要的。汉语分词方法研究的成败将决定自然语 言理解的成败。 2 1 2 分词的基本方法 1 基干字符串匹配的分词方法 这种方法是基于规则的分词方法,又叫做机械分词方法。基于规则的分词 方法一般都需要事先建立好一个分词词典和分词规则库。它是按照一定的策略 将待分析的汉字串与一个足够大的词典进行匹配,若在词典中找到某个字符串, 则匹配成功。基于字符串匹配的分词方法按照扫描方向的不同,可以分为正向 5 匹配和逆向匹配:按照不同长度优先匹配的情况,可以分为最大( 最长) 匹配和最 小( 最短) 匹配:按照是否与词性标注过程相结合,又可以分为单纯分词方法和分 词与标注相结合的一体化方法。 常用的几种机械分词“1 方法如下: 正向最大匹配聆 逆向最大匹配 最少切分( 使每一句中切出的词数最少) 还可以将上述各种方法相互组合,或者增加一些辅助性功能。其中一种方 法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别、 或切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小 的串再进行机械分词,从而减少匹配的错误率。 另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决 策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极 大地提高切分的准确率。 2 基于理解的分词方法 通常的分析系统,都力图在分词阶段消除所有歧义切分现象。而有些系统 则在后续过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的一 小部分。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和 语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、 总控部分。在总控部分的协调下,分词予系统可以获得有关词、句子等的句法 和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分 词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性, 难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词 系统还处在试验阶段。 3 基于统计的分词方法 从形式上看,词是稳定的字的组合,在上下文中,相邻的字同时出现的次 数越多,就越有可能构成一个词。因此,字与字相邻共现的频率或概率能够较 好地反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统 计,计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度,当 紧密程度高于某一个闽值时,便可认为此字串可能构成了一个词。这种方法只 需对语料中的字串频度进行统计,不需要切分词典,因而又叫做无词典分词法 或统计分词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、 6 但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的” 等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都需 要使用一部基本的分词词典( 常用词词典) 进行串匹配分词,同时使用统计方法 识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度 快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义 的优点。但由于早期计算机技术的限制,使得统计所需的大量生语料的获取和 处理面临困难,所以这种方法在计算机的早期阶段发展很慢。 4 基于规则和基于统计相结合的方法 基于规则的方法的优点是可以不必事先建立一个语料库,这种方法具有较 强的概括性,容易推广到一些尚未涉及的领域,但由于其描述语言知识的颗粒 太大,所以难以处理复杂的、不规则的信息。而且当规则数量增加时难以保证 其一致性和健壮性。基于统计的方法则需要事先建立一个语料库,但由于其全 部知识都是由计算机通过处理大规模真实文本而自动获取的,所以具有很好的 一致性和健壮性。而二者相结合的方法综合了二者的优点但同时也包含了二者 的缺点,主要是是规则库的建立的工作量太大,而早期由于计算机技术的限制, 对大规模真实文本的自动获取的难度也很大,所以在实际应用中有较大的难度。 5 基于语料库的统计分词方法 语言学的研究必须以语言事实作为根据,必须详尽地、大量她占有材料, 才有可能在理论上得出比较可靠的结论全是靠手工进行的,这是一种枯燥无味 传统的语言材料的搜集、整理和加工完费力费时的工作。计算机出现后,人们 可以把这些工作交给计算机去作,大大地减轻了人们的劳动。后来,在这种工 作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科一语料库语言 学哺1 ( c o r p u sl i n g u i s t i c s ) ,并成为了自然语言处理的一个分支学科。 语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、 语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典 编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。不言而喻, 语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于 手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂 现象获得更为深刻全面的认识。 上世纪8 0 年代,一方面由于计算机技术的飞速发展,大规模收集语料收 入计算机并加以处理成为可能:另一方面也是对旧方法的深刻反恩人们开始转 向大规模语料库,试图从中获取颗粒度较小的语言知识来支持大规模真实文本 的自然语言处理系统。从而使语料库的建设和语料库语言学成为一门计算语言 7 学的新分支而迅速崛起。语料库语言学的目的是企图通过对大规模真实的调查 来发现并总结自然语言的各种语言事实和语言规律。同时,语料库语言学希望 找到一种新的研究方法,在大量真实语料的基础上实现语言理解,这就是基于 统计的方法。它利用字与词、词与词间的同现频率作为分词的依据,可以没有 建立好的分词词典。 基于统计的方法解决了基于规则的方法的问题,其优点是不受应用领域的 限制。 2 1 3 分词的问题和难点 1 切分 我国计算语言学界对汉语分词问题研究比较透彻,很多分词系统的正确 率都可以达到9 7 甚至更高。然而,对于机器翻译系统来说,这个问题并不是 已经完全解决了。这是因为,机器翻译系统一般是以句子为单位进行处理的, 一个句子中只要有一处出现分词错误,整个句子就不可能得到正确的译文。 2 。未登录词识别 对于汉语这种词语之间没有空格分隔的语言来说,还存在一个未登录词的 识别问题。困难的主要原因在于,组成汉语未登录词的汉字可能本身又是汉语 词。 人类在识别未登录词时主要有两方面:一方面,某几个汉字是否与某一类 型的词( 如入名、她名等) 比较相似,是否符合该类词的一般组成规律:另一方面, 如果把这几个汉字当作一个未登录词,是否整个句子会更通顺,更易于理解。 现有的这一方面的研究工作,多从前一方面来预测可能的未登录词( 如人名、地 名、外语音译词等) ,取得了一些比较好的成果。其实人在理解句子的时候,后 一方面的因素同样起着相当重要的作用。但这种判断不仅仅用到了词语方面的 知识,更多地用到了句法、语义甚至语境方面的知识。在计算机自动分析中, 未登录词的识别往往处于词法分析阶段,还几乎没有或只引入了极少量的句法 和语义知识,因此在这一阶段实现这种判断是非常困难的。 3 切词歧义 汉语文本中含有许多歧义切分字段。切分歧义是影响分词系统切分正确率 的重要因素,也是分词阶段最困难的事情。切分包括交集型歧义和组合型歧义。 交集型歧义:如果字串a b c 既可以切分为a b c ,又可以切分为a b c 。如 “图形式”可能切分成“图形式”,也可能切分成“图形式”,正确的切分是 “图形式” 3 组合型歧义:如字串a b 是词,而a 和b 又可单独成词。如“他骑在马上” 切分为“他骑在马上”,而“马上过来”切分为“马上过来”。只有向分词 系统提供进一步的语法、语义知识才有可能做出正确的决策。排除歧义常常用 词频、词长、词间关系等信息,比如“真正在”中,“真”作为单字词的频率大 大低于“在”作为单字词的频率,即“在”常常单独使用而“真”作为单字词 使用的可能性较小,所以应该切成“真正在”。有时切分歧义发生在小段文字 中,但为了排除歧义,需要看看较长的一段文字。如“学生会”既可能是一个 名词,指一种学生组织,也可能是“学生会”,其中“会”为“可能”或“能 够”的意思。在“学生会主席”中只能是前者,在“学生会去”中只能是后者, 在“学生会组织义演活动”中歧义仍然排除不了,则需要更多的语境信息。 4 应用领域特点 面向特定领域的汉语分词,除了具有上述的一般性词法分析难点外,还具 有其它的一些难以解决的问题。因为,面向特定领域,有一些特定领域中专用 的词法、词组以及一些特别的词构造形式。因此,在面向应用领域的切分中, 除了要解决以上的问题之外,还要研究该领域中的特点,总结出需要解决的重 点以及难点。 2 1 4 本文分词技术的应用 中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多 层隐马模型的汉语词法分析系统i c t c l a s ”1 ( i n s t i t u t eo fc o m p u t i n g t e c h n o l o g y ,c h i n e s el e x i e a la n a l y s i ss y s t e m ) ,该系统的功能有:中文分 词:词性标注;未登录词识别。分词正确率高达9 7 5 8 ( 最近的9 7 3 专家组评 测结果) ,基于角色标注的未登录词识别能取得高于9 0 召回率,其中中国人名 的识别召回率接近9 8 ,分词和词性标注处理速度为3 1 5 k b s 。i c t c l a s 和计 算所其他1 4 项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分 词模块都或多或少的参考过i c t c l a s 的代码。 在后面的方案中采用了计算所汉语词法分析系统i c t c l a s 进行分词与词 性标注处理。 2 2 语法分析技术的介绍 语法分析作为自然语言处理过程的一个重要阶段,它的难度是很大的,为 此有许多研究者孜孜不倦地研究了几十年,并取得了可喜的成果。尤其是在国 外,己经涌现了许许多多的实用的分析系统:可是在国内,汉语句法分析的工作 才刚刚起步,虽然也取得了一定的成绩,但是对汉语句法分析的研究还需要进 行长期艰苦的探讨。 9 在对自然语言进行语法分析1 时,主要完成两个任务: 1 确定输入结构: 一般来说,语法分析包括对句子中词的处理,重点在于识别句子中的中心 动词,以及动词的主语、宾语和它们的修饰词或短语修饰等等。通常可以用语 法树的方式来描述,称为分析树( p a r s i n gt r e e ) 2 语法结构的规范化: 如果我们把大量可能的输入结构映射成较少的结构,那么下一个过程( 语 义分析) 就可能复杂化。甸子结构的规范化主要就是恢复被省略的信息等。另外 一种改变就是关于句子标准词序问题。 语法部分要完成的规范化工作有多少种是没有约定的。在理论上,语法类 型的相互组合关系是有限定的,但实际上很难约定,有些自然语言处理系统, 把语法规范化工作全都取消,直接由语义分析部分处理,这也是可以的。但是 对于有些复杂的语义规则处理闯题,实际上语法规范部分的工作仍单独存在, 保留在正常的自然语言处理系统中。 从形式上考虑,语言是一个句子的集合,其中每个句子是该语言词汇表v 中一个或多个符号( 词) 的字符串。文法就是这个句子集合的有限形式说明,说 明一种语言的广泛采用的方法,就是短语结构文法。 一个文法可抽象地描述成一个四元组:g = ( n ,t ,p ,s ) 其中: t :终结符词汇表,这是一些已被定义的词组成的表,属于不能再往下推导 的符号集: n :非终结符词汇表,这是一些用以说明文法的符号表,可往下推导:根据 词汇表的定义,词汇表:v = t v n p :产生式集合,每个产生式可以描写成:a b s :开始符,n 中的一个符号: 只要具体地给出了这四个部分, g i = ( n ,t ,p ,s , n = f s ,d ) , 就可以定义一个具体的形式语言。 1 0 t = 0 ,l ,2 ,a a ,9 p = f s djs d d o i 2 3 4 5 6 7 8 9 这个文法将产生所有非负的整数。( “”为“或”的意思) 。 短语结构文法没有作任何艰制,对于计算机语言来说太一般化了。因此, 乔姆斯基对形式语言的文法按其结构分为四类。即: 短语结构文法( 称为0 型文法) 上下文有关文法( 称为l 型文法) 上下文无关文法( 称为2 型文法) 正则文法( 称为3 型文法) 其中,研究较多的是l 型和2 型文法。 在上下文无关文法里,每条规则形式为;a - ) - x 其中。a 是个非终结符,两x 是个空或多个终结符_ 和非终结符的序列。 例如:s a s c s b 就是个上下文无关文法。 上下文无关文法广泛地用以描述形式和自然语言。如果把非终结符用“( ” 和“) ”括起来,用符号“:= ”代替“一”,用“”表示“或”的意思,则可 以利用这种文法进行句子的推导。推导也就是说什么样的句子可以由文法的规 刚生成,是应用产生式的线性序歹| j 。 例如:我们有文法: := := 张三李四 := := 喝吃 := 酒苹果 则句子“张三吃苹果”的推导如下: = = 张三( 谓语短语) = 张三 = 张三吃 = 张三吃苹果 这种推导司以用树的形式表不出来,如图4 1 所不。 句子 主语 谓词短语 j动允 l ii 围2 - i 上下文无关推导树 上下文有关文法伸,”1 是一种短语结构的文法,它必须满足这样的规定: x y y 的长度( y 中符号的个数) 大于等于x 的长度。这种限制充分保证我们的 上下文有关语言是递归的。例如:x a z x y z 在这里,a 替换为y 显然是有条 件的,即a 的前面必须是x ,后面必须是z ;因此称之为上下文有关文法。 很多自然语言文法的开发在5 0 年代就开始,到了6 0 年代,讨论了上下文 无关文法或上下文无关文法加上限制。事实证明,这种加限制的方法比上下文 有关文法更优越。 2 3 句法分析技术的介绍 语言分析按照词、句子和篇章三个层次来开展研究,其中句子的处理在三 个层次上具有承上启下的作用。所以句子处理是一个中心课题。 就目前来说,句子处理以自分词为基础,以句法分析“”3 和语义分析“3 “1 为核心句法分析就是应用句法规则和其它知识,将输入语句的词之间的线性次 序变换成语法那样的数据结构。 在句法分析的研究过程中,分析方法和理论经历了理性主义阶段和经验主 义阶段。在理性主义阶段的句法分析的主要方法就是基于规则的句法分析技术, 经验主义阶段的句法分析的方法主要是基于语料库的方法。 在句法分析的发展过程当中,在理性主义阶段到经验主义阶段的研究过程 中,从研究的方式上,又分为浅层句法分析( s h a l l o wp a r s i n g ) 和完全句法分析。 浅层句法分析也叫部分句法分析( p a r t i a lp a r s i n g ) 或语块分析( c h u n k p a r s i n g ) ,它是与完全句法分析相对的,完全句法分析要求通过一系列分析过 程,最终得到句子的完整的句法树。而浅层句法分析则不要求得到完全的句法 分析树,它只要求识别其中的某些结构相对简单的成分,如非递归的名词短语、 动词短语等。这些识别出来的结构通常被称作语块( c h u n k ) ,语块和短语这两个 概念通常可以换用。 9 0 年代以来,国外在英语的浅层句法方面做了不少工作,国内也有一些学 者采用英语中的方法探索汉语的浅层句法分析。本节就英语和汉语句法分析中 所应用一些技术进行简要的介绍。概括起来,句法分析的方法基本上可以分为 两类:基于统计的方法( 主要指用语料库的方法) 和基于规则的方法。当然也可以 采用规则和统计相结合的混合方法。 2 3 1 基于规则的句法分析 自然语言处理,传统上的做法都是根据上下文的搭配进行分析和生成。这 方面的研究,经过不断和长期努力,覆盖相当的语言现象,我们把它们叫做“基 于规则的系统”。在理论上讲,这样的过程是有限的,因为语言是亿万人民几千 年经验的积累,很多东西是约定俗成的,而且语言学内部还存在着不可避免的 相互矛盾性。另方面,语言规律随着社会的不断发展,新的词汇和语言现象 都会动态出现。所以单纯采用基于规则的自然语言处理系统,是难以应付世界 中的自然语言的复杂多变的现象。下面介绍一些基于规则的研究方法。 1 增加句法标记法 增加句法标记的句法分析包括一个状态转换器( t r a n s d u c e r s ) 序列,转换 器由正则式( r e g u l a re x p r e s s i o n ) 构成,即语法规则是有限状态语法的形式 大部分的规则系统都采用这种方法,如a b n e y 的语块分析系统 c a s s “耵( a b n e y ,1 9 9 1 ,1 9 9 6 b ) ,m o k h t a r c h a n o d ( 1 9 9 7 ) 等。 下面以a b n e y 的有限状态层叠“蚰( f i n i t e s t a t ec a s c a d e s ) 方法为例对些 加以说明。有限状态层叠包括多个层级,都只能在前一级的基础之上进行,级 的短语或高一级的短语。 分析逐层进行。每一级上短语的建立没有递归,即任何一级都不包含同一 分析过程包括一系列状态转换,用t i 表示。通常的状态转换操作的结果是在词 串中插入句法标记,而有限状态层叠则在每一级转换上用单个的元素来替换输 入串中的一个元素序列,就跟传统的自底向上的句法分析一样。 每一个转换定义为一个模式的集合。每一个模式包括一个范畴符号和一个 正则式。正则式转换为有限状态自动机,模式自动机合在一起就产生一个单一 的、确定性的有限状态层级识别器( 1 e v e lr e c o g n i z e r ) t i ,它以l i 一1 级的输出 为输入,并产生l i 作为输出。在模式匹配过程中,如遇到冲突( 1 i p 两个或两个 以上的模式都可以运用) ,则按最长匹配原则选择合适的模式。如果输入中的一 个元素找不到相应的匹配模式,则把它直接输出,继续下一个元素的匹配。 2 删除句法标记法 这种方法的思想来自词性标注。在词性标注中,首先从词典中查出每个词 可能具有的所有词性,然后根据上下文来消除歧义,从中选择一个正确的词性。 这种思想用到句法标注上就是首先标注出每个词可能的句法功能,然后根据上 下文来消除歧义,从中选择出一个正确的句法功能标记。也就是说,句法分析 包括两个主要步骤: ( 1 ) 给出输入词可能的句法功能标记( 与上下文无关,可能有多个候选) : ( 2 ) 删去在上下文中不可接受的句法标记,或从几个候选中选出一个最合 理的旬法标记( 即厨时排队其它标记) 。这样,句法分析实际上成了一个删除在 上下文中不合法的句法标记过程。 3 语法规则的自动学习在基于规则的方法中,主要的困难在于语法规则的 获取以及语法规则之间的优先顺序排列。e r i eb r i l l ( 1 9 9 5 ) 提出了一种基于转 换的错误驱动的学习方法,这种方法首先被用于词性标注,得到的结果可以和 统计方法相媲美。r a m s h a w m a r c u s ( 1 9 9 5 ) 把这种自学习方法用于识别英语中 的基本名词短语( b a s en p ) 。这种方法通过学习得到一组有序的识别基本名词短 语的规则。另一种语法规则自动获取的方法是采用机器学习中基于实例的方法 ( i n s t a n c e b a s e dl e a r n i n g ) 或基于记忆的方法( m e m o r y b a s e dl e a r n i n g ) 。 1 基于转换的规则学习方法 基于转换的学习方法以下列三部分资源为基础: ( 1 ) 带标注的训练语料库。对于b a s en p 识别任务来说,训练语料库要标 注出其中所有正确华南理上大学硕士学位论文的b a s en p ( 在此之前当然要先标 注词性) 。 ( 2 ) 规则模板集合。规则模板集合用于确定可能的转换规则空间。 ( 3 ) 一个初始标注程序。 基于转换的错误驱动的学习算法是: ( 1 ) 初始标注。把训练语料中所有的b a s en p 标记去掉,用一个简单的初 始标注程序标注出训练集中可能的b a s en p 把这个结果作为系统的底线 ( b a s e li n e ) 。 ( 2 ) 生成候选规则集在每个初始标注错误的地方,规则模板便用来生成 候选规则,规则的条件就是词的一l 下文环境,动作就是改正错误标记所要做的 1 4 动作。 ( 3 ) 获取规则。把候选规则集中的每条规则分别运用于初始标注的结果, 选出得分最高的规则( 得分为正确的修改数减去错误的修改数彳导到的结果) 。把 这条规则运用于初始标注的结果作为下一轮循环的基础,并把这条规则作为规 则序列孛的第一条规则输出。重复以下过程直到得分最高的规则的缛分为0 或 低于某个阀值为止;获取候选规则集,给其中每条规则打分,选择得分最高的规 则输出到规则集中,并把这条规则作用于当前语料库。 通过以上的自动学习过程就可以得到一个有序的规则集。b a s en p 识别的 过程是:首先运用初始标注程序标注输入句中可能的b a s en p ,然后顺序运用规 则集中的规则对初始标注的结果进行转换操作。 2 基于实例的规则学习方法 前面所介绍的基于转换的学习方法在学习过程之后得到的是识别短语的 规则,这样的规则描述在什么条件下一个序列是个基本名词短语,在什么条 件下不是一个基本名词短语。而基于实例的学习方法是通过学习得到一组短语 的组成模式。分析的时候利用这样的模式去和文本中的词类序列进行匹配。 c a r d i e & p i e r c e ( 1 9 9 8 ) 把标注好短语信息的语料库分为两个部分,一部分 用于训练,另一部分用于剪枝。首先从训练的语料中得到一组名词短语的组成 侧,然后把得到的这些规则应用到前枝的语料中,对这些规则进行打分。比如, 如一个规则识别出一个正确的短语得1 分,识别对这些出一个错误的短语得一1 分,这样根据每条规贝j 总的得分倩况对规贝i j 进行删减,去掉那些得分低的规则。 最后得到的组规则能保证得到较高的正确率。应用这些规则来识别文本中的 名词短语的方法很简单,就是简单的模式匹配方法,在到规则冲突时,采用最 长匹配原则。a r g a m o n e t a l ( 1 9 9 8 ) 并不是通过学习过程性地得到一组短语的组 成模式( 语类序列及其上下文环境) ,这些模式隐含在标注好短语的实例中。在 训练阶段,把标注好词性和短语边晃的语料用一个以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论