浅谈针对明清小说文本的知识抽取方法_第1页
浅谈针对明清小说文本的知识抽取方法_第2页
浅谈针对明清小说文本的知识抽取方法_第3页
浅谈针对明清小说文本的知识抽取方法_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、浅谈针对明清小说文本的知识抽取方法摘要明清小说历经数百的流传,已成为中华民族的文化瑰宝,而针对明清小说文本的知识抽取那么是信息社会时代下古籍数字化研究的重要方式。本文首先介绍了文本知识抽取方法的研究现状,其次就当前明清小说文本知识抽取方法研究中存在的问题进行了探讨。关键词小说文本;知识抽取;中文分词;命名实体识别中图分类号:TP391.1           文獻标识码:ADOI:10.19694/j ki.issn2095-2457.2021.10.040引言明清小说的作者多出生或生

2、活在江浙皖一带,与这一地区有着不解之缘。例如:?西游记?作者吴承恩江苏涟水人,后定居在江苏淮安;?儒林外史?作者吴敬梓安徽全椒人,后迁居至今日的江苏南京;?三国演义?作者罗贯中那么出生于浙江杭州。由于小说作者的生活背景,这些明清小说内容多就地取材于当地的社会生活,反映了明清时期江浙皖地区的社会百态,例如?红楼梦?中的金陵指的就是江苏南京。因此明清小说在中国文化史和文学史上有着极其重要的地位,作为一种文化艺术的形式存在,小说表达了当时的社会愿望,更传播了积极向上的道德精神【1】。当今社会是互联网、大数据和人工智能的时代,在这样的时代背景下,如何利用智能技术进一步挖掘与研究这些小说的价值,并让其焕

3、发出新的生命力,将是古籍数字化工作者研究的新的挑战,而首要的任务就是抽取明清小说文本中的知识。文本知识的抽取是知识库或知识图谱构建的基石,有利于搭建真正面向普通型用户和专家型用户的明清小说智能信息检索平台;而其意义不仅在于对中华文化的保护与弘扬,而且有助于为社会群众提供信息咨询及效劳化功能。1文本知识抽取方法的研究现状明清小说多为电子文本形式,而文本中知识的抽取如图1所示,主要分为:分词与词性标注、命名实体识别和实体间关系抽取等三个步骤。一个小说的电子文本先经过分词与词性标注,形成标注后的文本,再从该标注文本中提取相关实体,即所谓的命名实体识别,依据上下文环境再找出实体间的相互关联,即关系抽取

4、,最后以实体及实体间关系为根底,构建小说知识库。首先,分词与词性标注是知识抽取的第一步。分词是指将一个句子中的字符切分为词的过程,而词性标注那么是为句中每个词赋予一个词性【2】,分词与词性标注是中文信息处理的重要技术之一。传统的分词与词性标注方法大致有三种,即基于词典的方法,基于统计的方法和基于规那么的方法【3】。例如:文献【4】利用分词词典建立Hash表,并利用最大匹配算法进行中文分词;文献【5】提出了统计方法与词典方法相结合的中文分词方法,该方法具有较好的领域自适应性;而文献【6】那么利用统计和规那么两者结合来进行汉语语义分析,从而实现对词语词性的标注。其次,命名实体识别是知识抽取的第二步

5、。命名实体识别的主要任务是从文本中将人名、地名、时间、年份等专有名称和有意义的词语找出并归类【7】。传统的命名实体识别方法多是基于统计学习的,例如:文献8在分析词语前缀、后缀以及其他组合的根底上,利用条件随机场来进行中文命名实体识别。文献9提出了一种基于层叠条件随机场模型的中文命名实体自动识别算法。最后,实体间关系的抽取是知识抽取的第三步。实体间关系抽取的目的是从语言文本中区分出假设干个实体间所存在的语义关系10。同样地,传统的实体间关系抽取依然是以统计学习方法为主,例如:文献11将实体关系分为包含与非包含两类,并利用条件随机场模型进行关系的抽取。近年来,随着深度学习技术的迅速开展,基于深度学

6、习的知识抽取方法逐渐有替代传统方法的趋势,各种基于深度神经网络模型的中文分词与词性标注方法、中文命名实体识别方法和实体间关系抽取方法层出不穷。这里仅以近三年的一些文献中的方法为例。2021年,文献12提出了一种用于中文分词的双向循环神经网络模型,该模型的特点是以长短时记忆网络作为模型的隐藏层;文献13针对词特征错误较多的问题,提出了字特征和词特征相结合的深度学习模型,从而提高了中文命名实体识别的正确率;文献14提出了一种适合多语言文本实体间关系抽取的神经网络模型,该模型是对基于单语言注意力机制的神经网络模型的改进和扩展。2021年,文献15提出了一种简单而有效的sequence-to-sequ

7、ence长短时记忆神经网络模型,该模型在对中文文本进行分词的同时,还可以进行词性标注,属于一种分词与词性标注联合模型;文献16探讨了深度神经网络在片段级中文命名实体识别中的应用;文献17提出了一种基于注意力机制的胶囊深度神经网络模型,并借助多例如和多标记学习方法来实现实体关系的抽取。2021年,文献18针对双向长短时记忆网络结构处理中文分词时输入特征不够丰富、语义不全等问题,提出了一种可用于中文分词的膨胀卷积神经网络模型;文献19提出了一种双重对抗迁移神经网络模型,并用于命名实体识别中;文献20提出了一种新的深度神经网络模型来实现端到端实体间关系抽取,而这种神经网络模型可以利用基于n-gram

8、的注意力机制来获取相互间有关联的实体。2当前存在的问题基于上节对文本知识抽取相关方法研究现状的总结,我们可以看出尽管当前知识抽取的研究如火如荼,但是针对明清小说文本的知识抽取研究仍然存在如下一些问题:1明清小说中使用的语言多为古白话文,这与现代汉语有所不同,而当前的知识抽取方法或模型主要是以现代汉语文本作为语料库或训练样本集的,并不能直接适用或完全适用于明清小说文本的处理上。2基于明清小说语言模式的语料库,即分词语料库、已标注词性的语料库、已标注命名实体的语料库和实体关系语料库,都比较少或都不够成熟。构建这些语料库将会是今后研究的重点。3當前的命名实体识别和实体间关系的抽取多针对结构化或半结构

9、化文本数据,而明清小说本文一般属于非结构化数据,其处理的难度远高于结构化或半结构化文本数据,因此这将是今后文本知识抽取相关方法或模型的研究中面临的巨大挑战。3结论针对明清小说文本的知识抽取研究还处于初级阶段,缺少实用性和通用性强的方法或模型。如何借助当前现代汉语文本知识抽取方法研究的已有成果,将是相关工作的研究者们亟须解决的重要问题。相信随着今后研究工作的深入展开,明清小说知识抽取方法上的丰硕成果定会为相关知识图谱的构建以及智能信息检索平台的搭建打下坚实的根底。参考文献【1】韩亮.浅析明清小说及其在中国文化历史上的重要地位J.商情,2021,32:259.【2】杨世超.古汉语分词与词性标注方法

10、研究D.华北理工大学,唐山,2021.【3】梁喜涛,顾磊.中文分词与词性标注研究J.计算机技术与开展,2021,2:175-180.【4】张海营.全二分快速自动分词算法构建J.现代图书情报技术,2021,4:52-55.【5】张梅山,邓知龙,车万翔,等.统计与词典相结合的领域自适应中文分词J.中文信息学报,2021,2:8-12.【6】陈小芳,张桂平,蔡东风,等.基于统计和规那么相结合的汉语术语语义分析方法C.第六届全国信息检索学术会议,黑龙江牡丹江,中国,2021:488-495.【7】孙镇,王惠临.命名实体识别研究进展综述J.现代图书情报技术,2021,6:42-47.8AaronL.F.

11、Han,DerekF.Wong,LidiaS.Chao,ChinesenamedentityrecognitionwithconditionalrandomfieldsinthelightofChinesecharacteristicsC.ProceedingsofIntelligentInformationSystemsSymposium,Warsaw,Poland,2021:57-68.9周俊生,戴新宇,尹存燕,等.基于层叠条件随机场模型的中文机构名自动识别J.电子学报,2021,5:804-809.10武文雅,陈钰枫,徐金安,等.中文实体关系抽取研究综述J.计算机与现代化,2021,8:

12、21-27.11黄鑫,朱巧明,钱龙华,等.基于特征组合的中文实体关系抽取J.微电子学与计算机,2021,4:198-200.12胡婕,张俊驰.双向循环网络中文分词模型J.小型微型计算机系统,2021,3:522-526.13张海楠,伍大勇,刘悦.基于深度神经网络的中文命名实体识别J.中文信息学报,2021,4:28-35.14YankaiLin,ZhiyuanLiu,MaosongSun,Neuralrelationextractionwithmulti-lingualattentionC/Proceedingsofthe55thAnnualMeetingoftheAssociationfor

13、ComputationalLinguistics,Vancouver,Canada,2021:34-43.15MeishanZhan,NanYu,GuohongFu,AsimpleandeffectiveneuralmodelforjointwordsegmentationandPOStaggingJ.IEEE/ACMTransactionsonAudio,SpeechandLanguageProcessing,2021,269:1528-1538.16王蕾,谢云,周俊生等,基于神经网络的片段级中文命名实体识别J.中文信息学报,2021,3:84-90.17NingyuZhang,Shumin

14、Deng,ZhanlingSun,et.al.,Attention-basedcapsulenetworkswithdynamicroutingforrelationextractionC.Proceedingsofthe2004ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,Brussels,Belgium,2021:986-992.18王星,李超,陈吉.基于膨胀卷积神经网络模型的中文分词方法J.中文信息学报,2021,9:24-30.19JoeyTianyiZhou,HaoZhang,DiJin,et.al.,Dualadversarialneuraltransferforlow-resourcenamedentityrecognitionC.Proceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics,Florence,Italy,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论