下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于统计的中文机构名实体识别的研究刘杰〔陕西理工学院计算机科学系陕西汉中723001〕LIUJie〔ShaanxiUniversityofTechnologyhanzhongshaanxi723001,China〕摘要:本文提出了利用隐马尔科夫统计模型的方法进行中文机构名实体的识别。同时,在此方法的根底上通过构建一元模型来补充识别那些缩写的和没有核心词的机构名,弥补了单一统计模型在机构名实体识别中的缺乏。实验证明该方法获得了较高的准确率和召回率,具有可行性。关键词:隐马尔科夫模型,中文机构名实体识别,一元模型,准确率,召回率TheresearchabouttheOrganizationEntityRecognitionbasedonstatisticAbstract:thisarticleputsforwardthemethodoftheChineseOrganizationEntityRecognitionthroughthemethodofusingstatisticmodelbasedontheHiddenMarkovModel.Atthesametime,thisarticlerecognizethoseOrganizationEntitywhichisabbreviatoryandwhichhavenonuclearvocablethroughdesigningSingleModelbasedonthismethod.Itcanoffsetthelimitationofsinglestatisticmodel.Theexperimentshaveprovedthatthismethodgainshigherprecisionandrecallanditisfeasible.Keyword:HiddenMarkovModel,ChineseOrganizationEntityRecognize,SingleModel,Precision,Recall引言命名实体是指句子中有确定含义的名词。在1998年召开的MUC-7中命名实体被分成人名(Person)、地名(Location)、机构名(Organization)、日期(Data)、时间(Time)、百分数(Percentage)和货币(Monetaryvalue)等七类[1]。中文命名实体〔ChineseNamedEntity,NE〕识别是指识别出文本中这些特定的实体。它是信息抽取、自动问答和信息检索等多种自然语言处理技术的实现根底[2]。机构名称一般泛指机关、团体、企事业单位和协会等。2004年度国家863中文信息处理与智能人机接口技术评测的命名实体识别评测结果显示:中文机构名识别的召回率仅为57.41%,准确率仅为64.64%[3]。2、中文机构名的特点及识别难点〔1〕形式多样,组成方式非常复杂。例如“西安制药厂〞、“中共陕西省委〞等。〔2〕机构名中含有大量的其它命名实体。例如“汉中市汉江制药厂〞等。〔3〕中文机构名用词非常广泛,加大了其识别的难度。例如“中国电信〞、“民生银行〞等。〔4〕机构名的长度极其不固定,导致机构名称的边界很难确定。〔5〕很多机构名都有简称,增加识别难度。例如“联想〞、“人大〞等。3、基于统计的中文机构名识别方法由于机构名的上述特点,假设要对各类机构名人工总结出统一的识别规那么实际上是不可行的。本文采用了基于统计模型的方法来识别。3.1基于隐马尔科夫统计模型[4]的机构名识别算法机构名中修饰词的词语选择和词性选择都是随机的。这两个层面上的随机性就可以构成一个隐马尔科夫链。那么机构名的生成概率可以通过词语的转移概率和词性的转移概率来共同描述。当该候选词组的生成概率大于给定的阈值时,就识别该词组为一个机构名。算法描述为:词组W=w1w2…wn,S=s1s2…sn,si是词组W经过切分后对应的词性,C=c1c2…cn,其中ci表示机构名用词。该词组作为机构名的生成概率和,根据贝叶斯算法得:公式1公式2对于给定词组和是固定的,所以只要求和即可:公式3其中,公式4公式5Nc(wi)是词wi作为机构名出现的次数,Nt(wi)是词wi在文本中出现的总次数,Nc(si)是词性si作为机构名出现的次数,Nt(si)是词性si在文本中出现的总次数,σ是采用线性折扣的平滑参数[5]。计算出P1(C,W)和P2(C,S)后和阈值σ1和σ2比拟,只有当P1(C,W)>σ1且P2(C,S)>σ2,我们认为词组W是一个机构名。其中都是统计值,经过测试,本文中取值分别为0.04、0.07、0.0007。3.2模型训练构建机构名核心词库机构名核心词是指标示为一个机构的中心词,例如“集团〞、“〞、“大学〞等。当扫描文本时,出现该核心词,那么认为产生一个候选机构名。扫描并识别〔1〕首先对要识别的文本进行分词[6]和词性标注[7];〔2〕假设已到达机构名核心词库末尾,识别结束;否那么从该词库中取出下一个核心词;〔3〕扫描文本,假设扫描到文本结束都找不到该核心词,那么转向〔2〕,反之记下位置L1,然后向前扫描到分隔符〔由分词和标注完成〕处并记下位置L2,那么从L2到L1之间的词组就是一个候选机构名;〔4〕计算出P1(C,W)和P2(C,S),并根据计算结果判定该词组是否为机构名;〔5〕从位置L1处的文本开始,转向〔3〕;3.3测试性能指标在测试中采用自然语言处理中使用最广泛的两个性能评测指标,即准确率和召回率[8],定义如下:准确率P(Precision)=准确率P(Precision)=召回率R(召回率R(Recall)=测试结果本文取1998年1月标注的《人民日报》语料库作为测试语料[9]〔其中机构名个数为11445个〕。机构名总数正确识别的机构名数错误识别机构名数正确率召回率0.040.0750.0008114458762176183.26%76.56%0.040.070.0007114459321169084.65%81.44%0.050.0750.0008114458616171583.40%75.29%4、存在的缺陷经测试分析,这种基于隐马尔科夫统计模型的识别方法虽然取得较好的识别结果,但存在两个很明显的弊端:首先无法识别本身没有核心词的机构名,例如“中国电信〞等;其次无法识别那些缩写的机构名,例如“北大〞、“联想〞等。4.1解决方案在这些没有核心词和缩写的机构名中,词〔字〕的选择都具有随机性,相互之间没有约束关系,可以通过一元模型补充识别。假设机构名类型用O表示,对于形如W=W1W2…Wn的词〔字〕串,建立一元模型:〔1〕单词〔字〕W1、W2、。。。、Wn作为机构名在真实文本中出现的总频次分别记为F(O,W1)、F(O,W2)、…、F(O,Wn);〔2〕单词〔字〕W1、W2、…、Wn在真实文本中出现的总频次分别记为F(W1)、F(W2)、…、F(Wn);〔3〕该单词串在机构名类型中出现的概率记为:P(O|W)=P(O|W1)*P(O|W2)*…*P(O|Wn)公式8其中,P(O|W1)=F(O,W1)/F(W1)P(O|W2)=F(O,W2)/F(W2)公式9…P(O|Wn)=F(O,Wn)/F(Wn)特殊地,当F(Wn)为0时,取P(O|Wn)=1。〔4〕P(O|W)假设大于与给定的阈值δ〔通过大量实验,为了取得较好的识别本文中取δ=0.200〕,那么认为该词〔字〕串为机构名类型。4.2测试结果根据这个方法,对测试语料中因没有核心词或缩写形式而没有识别出的218个机构名进行补充识别,得到如下识别结果:δ机构名总数正确识别的机构名数错误识的机构名数正确率召回率0.1802181543183.24%70.64%0.2002181692985.35%77.52%0.2202181472884%67.43%5、结束语本文研究了采用基于隐马尔科夫统计方法进行中文机构名实体识别,指出了该方法在实际应用中存在的缺陷,同时提出了构建一元模型作为补充识别的解决方案,在一定程度上提高了识别的准确率和召回率。在实际应用中,由于机构名长短不一,组成方式复杂多样,在识别中还有相当的难度,需要进一步研究解决。参考文献[1]吴学军。面向信息抽取的命名实体识别与模块获取技术研究[D]。东北大学信息科学与工程学院,2004[2]朱江涛。中文信息处理中命名实体识别问题的研究[D]。沈阳航空工业学院,2006[3]冯元勇,孙乐,李文波等.基于单字提示特征的中文命名实体识别快速算法[J].中文信息学报,2023,(1):106-109[4]孟伟涛.Web中文信息抽取技术研究及其在招聘信息系统中的应用[D].西安:西北大学,2007[5]ChengNiu,WeiLi,JihongDing,RohiniK.SrihariABootstrappingApproachtoNamedEntiytClassificationUsingSuccessiveLeanrers[J].ACL,2003:298一350[6]李盛.面向真实文本的汉语词义排歧系统[D].太原:山西大学,2004[7]张华平,刘群.基于N-最短路径方法的中文词语粗分模型[J].中文信息学报,2002,5:2-6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二四商铺租赁合同(含税收优惠条款)最终修订3篇
- 二零二五版车辆调度中心车辆使用管理协议3篇
- 个性化货物搬运服务协议2024年版版B版
- 二零二五年钢琴教育机构版权合作合同协议书3篇
- 二零二五年房地产项目工程造价咨询合同模板3篇
- 2025版二手车买卖居间合同模板4篇
- 二零二五年度体育馆场地租赁与体育赛事运营合同3篇
- 终止2025年度产品代理协议书6篇
- 二零二五年度校园打印设备共享平台合作协议3篇
- 二零二五年度房产买卖合同备案指南4篇
- 江苏省无锡市2024年中考语文试卷【附答案】
- 管理者的九大财务思维
- 四年级上册数学应用题练习100题附答案
- 2024年度中国电建集团北京勘测设计研究院限公司校园招聘高频难、易错点500题模拟试题附带答案详解
- 有关企业会计人员个人工作总结
- 人教版高中数学必修二《第十章 概率》单元同步练习及答案
- 干部人事档案专项审核工作情况报告(8篇)
- 智慧校园信息化建设项目组织人员安排方案
- 多旋翼无人机驾驶员执照(CAAC)备考试题库大全-下部分
- 2024年青海一级健康管理师高频核心题库300题(含答案详解)
- 2024年贵州省铜仁市中考文科综合试卷真题
评论
0/150
提交评论