版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
题目:基于SVM的诗词风格分类(自然语言处理结课论文)姓名: 学院: 系: 专业: 年级: 学号: 2013年12月29日
[摘要]为了提高宋词风格划分的准确性,本文提出了基于SVM和协同学习的宋词风格自动判定方法,在小规模人工标注训练语料上,利用协同学习方法,在大规模未标注全宋词语料库上进行半监督学习,并训练得到风格SVM分类器。在本文搭建的模型系统上进行的实验表明,本文所提出的研究方法,初步解决了宋词的风格划分,也为后继的相关研究提供了理论依据和实验基础。[关键词]风格划分宋词SVM分类
目录第1章引言 -4-1.1研究背景及意义 -4-1.2计算诗学综述 -4-1.3本文的工作和主要内容 -5-第2章基于SVM的古诗场景时间判定 -6-2.1SVM概述 -6-2.2基于SVM的宋词风格判定 -6-2.3训练样本的获取 -7-2.3.1文本预处理 -7-2.3.2文本表示模型 -8-2.3.3特征选取 -8-2.3.4文本特征权重计算 -9-2.3.5训练集的标注与构建 -9-2.4SVM分类器的构建 -10-2.4.1协同训练算法概述 -10-2.4.2基于协同训练算法的半监督学习 -11-2.5实验与结果分析 -11-2.5.1实验数据 -11-2.5.2实验结果分析 -12-第3章总结与展望 -13-参考文献 -14-
第1章引言1.1研究背景及意义中国古典诗词源远流长,博大精深,是中华民族文化艺术宝库中的瑰宝。在信息化高度发展的今天,如何运用新的技术形式来传承、保护及开发中国古典诗词,对于传统文化的传承与发展至关重要。其中的宋词作为宋代文学的典范,赢得了众多文人骚客的青睐,成为中国古代诗词中的一颗璀璨的明珠。因此,通过对宋词进行研究进而了解宋代文化一直是语言文学研究工作者的一个研究热点。本文以宋词为研究对象,研究宋词风格的计算机自动分类。宋词的分类研究,可以帮助读者更好地把握整个诗歌的整体意境,了解诗歌的思想感情。1.2计算诗学综述本设计所依托的理论研究基础主要是计算诗学。厦门大学周昌乐教授在其著作《心脑计算举要》中首次提出了计算诗学这一概念。所谓计算诗学[1],指的是采用计算思想、方法和技术等从事诗歌(推而广之,也可以包括其他文学形式)的研究工作。广义的计算诗学,主要是对诗歌文本的各种规律的研究,例如诗歌机器分类、诗歌风格的计算机辅助归纳、诗学知识的计算机辅助发现、诗歌创作的计算机辅助系统工作、诗歌用词用语的统计、诗学语料库、文献库等等。而狭义的计算诗学,则主要是指使计算机系统具备诗歌理解、欣赏和创作的能力,如诗歌作品的计算机理解、计算机诗歌创作系统以及计算机歌曲创作系统等。由于诗歌语言的独特复杂性,计算诗学是计算语言学研究领域中充满挑战的一个年轻的研究分支。就中国古典诗词而言,自20世纪90年代后,北京大学计算语言学研究所、台湾元智大学中国语文学系、重庆大学计算机学院以及厦门大学艺术认知与计算实验室等不少学术机构和学者陆续在诗歌语料库及知识库的建设[2-4]、韵律分析[5]、风格分析[6-8]、情感分析[9]和诗歌自动生成[10-13]等领域开展了汉语计算诗学的广泛研究。北京大学计算语言学研究所与台湾元智大学合作,在90年代后期开发了“古诗研究的计算机支持环境”模型系统[14],初步实现了超文本阅读,全文检索、关键词检索以及计算机语言学辅助研究等功能。其随后开发的“宋代名家诗自动注音系统”将基于统计的语言模型与宋词的音韵特点相结合,采用条件概率策略、互信息策略以及规则策略三种多音字自动注音策略,实现宋词的自动注音[2]。重庆大学计算机学院的易勇博士在其论文“计算机辅助诗词创作中的风格辨析及联语应对研究”[15]中,对诗词采用向量空间模型表示,并用基于机器学习中的NaïveBayes等方法,首次提出了古典诗词的豪放婉约风格判析计算模型,并利遗传算法等方法对模型进行改进,取得了较好的判定效果。北京大学计算语言学研究所运用语言学的手段对古诗词进行研究,相供的研究成果能够对古诗词、古汉语领域的研究提供有益的帮助。在胡俊峰博士的论文“基于词汇语义分析的唐宋诗计算机辅助深层研究”[16]中,将计算语言学的技术根据古诗词的特点加以改造,取得了有益的成果。其系统提取积累了有关中国古诗词的语料及语言信息知识库,也为今后的古诗词、古汉语相关领域的研究奠定了良好的基础。厦门大学自2001年以来,在周昌乐教授带领下开始中国古典诗词计算化的研究工作,主要开展汉语隐喻分析与理解研究、诗词计算分析与创作研究以及诗歌机器翻译系统的开发等,并取得了不少科研成果,其中,周昌乐教授2010年在《软件学报》第3期发表的“一种宋词自动生成的遗传算法及其机器实现”[17]一文,在国内学术界具有比较大的影响,并引起了网民的广泛关注。1.3本文的工作和主要内容中国古典诗歌有着极高的文学造诣,在汉语言文化的成长、演变与传播中占有着极重要的地位。诗歌作为一种用高度凝结的语言表达丰富含义的特殊文体,是人类智慧在语言乃至思维层面的一个闪光点。本文结合了计算诗学领域相关研究成果对宋词的风格划分进行研究。主要研究内容涉及宋词特征的选取、协同训练的研究、宋词的风格判定。我们的最终目标是希望通过本文的研究,构建一个较完善的计算模型和系统,实现基于SVM的宋词风格划分。第2章基于SVM的古诗场景时间判定2.1SVM概述SVM(SupportVectormachine,支持向量机)[18]是在统计学习理论基础之上发展起来的一种全新的机器学习算法。它适合大样本分类,特别是文本分类。SVM基于统计学习理论的结构风险最小化原则,将原始数据集合压缩到支持向量集合,然后用子集学习得到新的知识,同时给出了支持向量决定的规则。将最大化分类间隔的思想和基于核的方法结合在一起,表现出很好的泛化能力。由于SVM方法有统计学习理论作为其坚实的数学基础,并且可以很好地克服“维数灾难”和“过拟合”等传统算法不可避免的问题,所以受到越来越多的研究人员的关注[19]。2.2基于SVM的宋词风格判定文本分类的历史可以追溯到20实际60年代,直到90年代结合互联网应用后得到了广泛的研究和应用。随着信息技术的不断发展,文本信息量的急剧增加,人们开始研究基于机器学习的文本分类方法。通过机器学习,文本分类不再需要过多人工参与,其准确性和稳定性也具有明显的优势。基于机器学习的文本分类系统主要包括文本预处理、文本特征的表示、分类器训练、分类器分类和分类评估,大致流程如下图所示。文本预处理训练文本文本预处理训练文本测试文本特征选取特征权值计算特征权值计算分类器训练分类器分类评估人工分类结果分类器评判结果训练过程文本测试过程图1基于机器学习的文本分类系统框图本文结合了相关文献及语料库的分析,将宋词的风格判定看作是两个文本分类问题,提取每一单句中的相关句法语义信息为特征,在相关宋词词典的基础上人工加工的小规模带标注的训练语料,采用半监督学习方法中的协同训练法,在大规模的不带标注的《全诗词》语料库上进行半监督学习,训练得到风格判定的SVM分类器,并对分类器的性能进行了测试和分析。2.3训练样本的获取2.3.1文本预处理文本预处理作为文本分类的第一个环节,有着十分重要的作用。对于文本的预处理,主要的目的在于减少文本噪声,改善文本质量,同时对文本进行适当的语义处理,为后续工作做好铺垫。本文中文本预处理过程主要是对古诗进行分词。这里所使用的分词工具是史晓东教授开发的专门针对古诗词训练的分词标注工具segtag。用此分词工具,本文对《全宋词》语料库中2万多首宋词进行分词标注。2.3.2文本表示模型自然语言形式的文本结构非常复杂,并不适合计算机处理。因而在分类前有必要将文本化成一个数学模型,该模型要能够尽量反映出文本内容,同时还要有对不同文本的区分能力。由此引入了文本表示模型的概念,即以一定的的文本特征的组合来表示文本,将非结构化的文本表示为结构化的模型。常用的模型有向量空间模型(VectotSpaceModel)、布尔模型(BooleanModel)和概率模型(ProbabilisticModel)三种。其中向量空间模型是当前应用最为广泛的文本表示模型[20],因此本文采取的文本表示模型为向量空间模型。向量空间模型最初由Salton等人在20世纪60年代提出,并在著名的SMART系统中得到应用[21]。其主要思想是将每篇文档映射到一组规范正交化特征向量张成的向量空间中的一个点,其形式化表示为文本,其中tij表示文档di的第j个特征,wij标识该特征的权重,反映特征项tij对表示文档di的重要程度,简记为。当所有文本都映射到向量空间中,文本间的相似程度可转为向量间的距离度量,常用的方法为计算向量间夹角的余弦(式1)。(式1)2.3.3特征选取本文在建模过程中,选择词作为文本的特征项。所谓特征选取,其实就是一个维数压缩的过程。如果将语料库中所有出现的词都作为特征,会使形成的空间向量维数过于复杂,而且对于不相关的特征的引入,有可能会影响之后训练的效果。因此,在前期的特征提取中,本文只选用了含义具体的名词(\n)以及反映时间信息的时间词(\t)作为训练集的特征,从而大大减少了特征空间维数。2.3.4文本特征权重计算通过特征选取,我们已经获取了最能表示文本的特征项集合,但是这些特征项对于文本的重要程度各不相同,有些区分类别的能力较强,有的则很弱。因此需要对特征进行加权,对于区分类别能力较大的特征项赋予较大的权重。常用的特征加权方法有很多,本文采用现今信息检索与文本挖掘领域最为常用的词频-逆向文件频率(TF-IDF)。这种方法考虑了特征项在文档中的重要程度和整个文档集中的区分能力。特征项ti在文档dj中的TF-IDF权重计算见式2。(式2)其中TFij表示特征项ti在文档dj中的词频,IDFi表示特征项ti在所有文档D中的逆向文件频率。nij表示ti在dj中出现的次数,nij的值越大,TFij越大;|D|表示所有文档的总数,表示出现过ti的文档数量,特征项ti在文档集中出现的越频繁,对于的IDFi越低。在本文的研究中,dj表示古诗的单句。由此可知TF-IDF权重倾向选择在特定文档里出现频率高,在整个文档集出现频率较低的特征项。利用这一方法,能够排除一些常用词所带来的影响。2.3.5训练集的标注与构建考虑到宋词中的风格一般分为豪放和婉约两类,所以在SVM训练集的标注的过程中也分为以上两类。本文选择《全宋词》语料库中的一部分古诗的单句,在《宋词鉴赏辞典》及相关诗词网站的基础上对其人工加工得到小规模带标注的文本训练语料。人工标注类别时由于语料库的数据较多,逐句人工判定标注的方法费时费力。因此,本文研究过程中,利用相关诗词网站中所提供的豪放与婉约分类下的宋词,将语料库中的宋词进行风格标注。通过上述方法,我们得到小规模带标注的语料,并在其基础上根据上述文本预处理、表示模型和特征选取以及权重计算等方法,最终获得宋词风格判定初始的SVM训练集。2.4SVM分类器的构建本设计的SVM训练采用的是目前比较流行的SVM工具LIBSVM,并利用协同训练方法,在大规模的不带标注的《全宋词》语料库上进行半监督学习,分别训练得到风格判定的SVM分类器。2.4.1协同训练算法概述协同训练算法(Co-TrainingAlgorithm)是半监督学习算法的一种,它由A.Blum和T.Mitchell在1998年提出。协同训练隐含利用聚类假设和流行假设,使用两个或多个分类器,挑选标注未标注样本进行相互标注学习,从而不断更新训练样本集和学习模型。之后又有很多研究者对协同训练进行了研究和分析,取得了很大进展,使协同训练成为半监督学习中非常重要的方面和成果。A.Blum和T.Mitchell对标准的协同训练算法提出了三个基本假设:(1)属性集可以被划分为两个集合;(2)每一个属性集的子集都足以训练一个分类器;(3)在给定类标记情况下,两个属性集是相互独立的。其中每个属性集构成一个视图,满足上述假设的视图称为充分冗余的视图。但是这一的前提条件比较苛刻,真实的数据中,满足充分冗余的要求往往很难达到。因此Z.H.Zhou和M.Li在2005年提出了Tri-training的算法[22],使用三个分类器,如果两个分类器分类结果一致,那么就将该未标记样本加入到已标记的样本中去。其算法流程如下图所示:算法:Tri-training输入:未标记样本集U,已标记样本集L,某种分类算法K输出:协同学习后得到的带标注样本new_L迭代:随机抽取样本L,分成3份,得到3个训练集L1,L2,L3,分别用于同一种学习算法训练出分类器C1,C2,C3。对于任意一个由算法K训练出的分类器Ci维护其对立训练集Li,将满足的样本加入到Li中,遍历U后,得到更新后的Li’,对于每个Ci,若,则对Ci利用新的训练集Li’重新训练,得到新的分类器Ci’对于每个Ci,若不满足Ci=Ci’,继续迭代终止条件:3个分类器都不再更新将3个训练器的训练集合并后得到new_L图2Tri-Training算法过程2.4.2基于协同训练算法的半监督学习本文基于传统的协同训练算法思想,选择人工标注的语料库作为初始样本集,采用协同训练中的Tri-training算法,在大量未标注的样本集上进行半监督学习。本文所采用的基于协同训练算法的半监督学习步骤如下图3所示。实验中已标记样本集L为1.3节中人工标注的数据集,未标注的样本集U选择《全宋词》数据库中大量未标注的宋词生语料,分类算法K选择目前常用的支持向量机的算法SVM。通过上述协同训练的方法,训练得到大量准确且已标注的SVM训练样本集。2.5实验与结果分析2.5.1实验数据本文以上节基于协同学习得到的大规模带标注的样本集作为实验数据,将其按2:1的比例分为训练集与测试集两部分,分别训练得到风格SVM分类器。整理得到季节和昼夜两个分类器所需的训练集与测试集数据如下表所示。表1风格SVM分类器实验数据介绍类别豪放婉约训练集340420测试集1712102.5.2实验结果分析对于分类器的评价指标有准确率(Precision,亦称查对率)和查全率(Recall,亦称召回率)。分类器在类别上的准确率(Precision)定义如下:(式3)同样的,分类器在类别上的查全率(Recall)定义如下:(式4)其中a表示测试文档集中本来属于类别而且被分类器分到类别的文档数,b表示测试文档集中本来不属于类别而且被分类器错误分到类别的文档数,c表示测试文档集中本来属于类别而且被分类器错误分到其他类别的文档数[29]。整个实验过程分为训练阶段和测试阶段,训练阶段我们将季节与昼夜两个分类实验中的训练集整理,利用SVM分类算法构造出季节分类器和昼夜分类器,并对两个分类器分别进行封闭测试和开放测试,结果如下表所示。表2风格分类器测试结果类别封闭测试开放测试准确率查全率准确率查全率豪放100%100%82.14%81.18%婉约100%100%84.16%85.00%平均指标100%100%83.15%83.09%图3风格分类器测试结果从上述结果看,季节分类器在开放测试和封闭测试中,准确率与查全率都比较理想,开放测试结果的准确率与查全率都在80%以上。对风格分类器的测试结果表明SVM分类器可以较好地完成了对宋词的分类要求,达到了预期的效果第3章总结与展望古典诗词作为中华民族文化艺术宝库中的瑰宝,对它的研究具有重要而深远的意义。本文主要着眼于对宋词风格的判定,采用专门针对古文的分词工具以及结合相关研究基础,人工加工了小规模带标注的语料,并利用协同训练,在全宋词大规模不带标注的语料上进行半监督学习,分别建立的对宋词风格(豪放与婉约)判定的SVM分类器。本文构建的实验系统采用全过程计算机自动执行方法,用户只需要输入宋词,确认后,从分词开始到最后输出场景划分结果每一步都由计算机自动完成,无需人工参与。系统测试结果表明,该系统可以较合理地完成宋词风格的判定过程,且全过程运行速度快,基本达到了预期的效果。今后待于进一步开展的主要研究工作有以下方面:(1)当前的研究用于训练模型的语料库较少,分类的方法也仅仅局限于支持向量机。在后继的研究中,一方面要适当地扩大训练语料库,一方面也可以尝试利用多种分类方法综合地应用于宋词的风格分类,从而提高分类的准确性。(2)关于宋词熟语料库和相关知识库的建立有待于进一步完善,目前对于宋词的分类,主要基于分词的结果在风格(豪放与婉约)方面展开,对于诗歌的主题方面的研究较少,为了使系统具有更强的实用性,有必要编撰相关宋词语义词典。参考文献[1]周昌乐.心脑计算[M].清华大学出版社.2003:195-203[2]穗志方、俞士汶、罗凤珠.宋代名家诗自动注音研究及系统实现[J].中文信息学报.1998(2)[3]俞士汶、胡俊峰.唐宋诗之词汇自动分析及应用[J].台湾中研院第3届汉学会议(2000).LanguageandLinguistics.2003-4(3):631~647[4]苏劲松、周昌乐、李翼鸿.基于统计抽词和格律的全宋词切分语料库建立[J].中文信息学报,2007(2)[5]罗凤珠、李元萍.中国古代诗词格律自动检索与教学系统[J].中文信息学报,1999(1)[6]YiYong、HeZhongshi、LiLiangyan.AdvancedstudiesontraditionalChinesepoetrystyleidentification[J].ICMLC05.2005[7]ZhongshiHe、WentingLiang、LiangyanLi、YufangTian.SVM-Basedclassificationmethodforpoetrystyle[J].ProceedingsofthesixthInternationalConferenceonMachineLearningandCybernetics.HongKong.19-22August2007(I
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 励志主题班会2
- 第三单元 走向未来的少年检测题(含答案) -2024-2025学年度九年级道德与法治下册
- 东阳市外墙防水施工方案
- 2024秋苏教版二年级上册数学教学计划及进度表
- 幼儿园的学期教学计划范文
- 学校教学计划-2024学校教学工作计划
- 《无机材料科学基础》课件
- 《不干胶电子标签》课件
- 学校园文化建设五年推进计划
- 《浅谈学术浮躁》课件
- 25《古人谈读书》练习题(含答案)
- 国际商务函电课后答案第二版李爽
- 相交线与平行线教材分析课件
- 园艺产品贮运学第章绪论
- 中国刑法课件
- 公路桥梁变更工程测量专项施工方案
- 消化性溃疡的护理查房完整版本课件
- 最全海参课件
- 国际贸易风险管理 课件
- 鼻咽癌 讲义课件
- 高中心理健康教育 找到适合自己的学习方法
评论
0/150
提交评论