基于SVM的初等数学问题自动分类的研究与应用_第1页
基于SVM的初等数学问题自动分类的研究与应用_第2页
基于SVM的初等数学问题自动分类的研究与应用_第3页
基于SVM的初等数学问题自动分类的研究与应用_第4页
基于SVM的初等数学问题自动分类的研究与应用_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、3啊放女哲UNIVERSITY OF ELECTRONIC SC I ENCE AND TECHNOLOGY OF CHINA硕士学位论文MASTER THESIS、泓、 论文题目基于SVM的初懿学问题自动分类的研究与应用学科专业学 号作者姓名计算机应用技术201421060235指导教师张智慧张景中 院士独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研充成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献

2、均己在论文中作了明 确的说明并表示谢意0论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘, 允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)分类号密级UDC 注学位论文基于SVM的初等数学问题自动分类的研究与应用张智慧指导教师电子科技大学成都申请学位级别 硕士 学科专业 计算机软件与理论提交论文日期2017.3.28论文答辩日期2017.5.12学位授予单位和日期电子科技

3、大学 2017年6月答辩委员会主席评阅人Research and Application of The AutomaticClassification of Elementary Mathematical ProblemsBased on SVMA Master Thesis Submitted toUniversity of Electronic Science and Technology of ChinaMajor:Computer Software and TheoryAuthor: Zhang ZhihuiSupervisor:NA.Zhang JingzhongSchool: Sc

4、hool of Computer Science & Engineering摘要众所周知,随着计算机信息技术的迅速发展,信息技术已经在我们生活的方 方面面有所应用。在教育领域,人们的目光也逐渐从线下老师辅导以及手工批阅 试卷,解题转向了基于人工智能的互联网智能教育。这种新型的数学教育理念实 现的一个重要前提就是对文本自然语言进行转换,通俗的讲就是把人类理解的数 学语句转化为事先定义好的计算机存储知识,来供计算机进行下一步的处理。这 些处理主要有解题,以及全流程判卷等等。这一前提也可以称为自然语言处理过 程。而分类问题又是自然语言处理的过程中的主要问题。本文主要分为两个部分,第一部分是对初等数学

5、问题文本进行分词,以及词性 标注和命名实体识别。第二部分是基于SVM对初等数学问题文本进行题型分类, 进而根据不同的类别转换成计算机推理所需的表现形式。在英文表达中,每个单词之间都是有空格的,但是中文则不同,所有的字符 都是连接在一起的,所以需要对中文的文本进行分词。但是数学表述中包含了较 多的有特定含义的符号,所以通用的分词方法行不通。因此需要针对数学表述构 造专门的分词器。同样,数学语言表达中的实体和普通语言表达的实体不同,普 通语言的实体更多是时间,地点,姓名等。而在数学表达中,包含重要信息的实 体往往是数学名词,比如三角形,以及各方程等等。因此需要针对初等数学方向 定义专门的命名实体,

6、然后进行提取。本论文采用条件随机场来进行命名实体标 注。初等数学问题中涉及的类型有很多,想要对初等数学问题进行自动求解,首 先要做的是把问题进行分类,然后根据不同的类别调用相应的求解方法。对经过 命名实体模型标注的初等数学问题文本进行文本预处理,包括去停用词,建立词 袋模型。在本论文中,通过卡方统计量来实现文本特征向量的选择。这样使用特 征向量通过选择降维技术能很好的减少计算量,还能维持分类的精度。最后,根据本文提出的方法,使用支持向量机实现了一套对初等数学问题进 行命名实体提取并且对题目进行分类的系统。该系统可以准确标注命名实体,为 后面解题等处理提供知识表示,同时有效的题目分类可以为后面解

7、题或者判卷做 推理剪枝。关键词:初等数学,支持向量机,题意理解,自然语言处理ABSTRACTIn the field of education, peoples eyes gradually from offline teacher counseling, manual marking the examination paper and problem-solving turned to artificial intelligence based on the Internet intelligence education. An important prerequisite for the

8、realization of this new type of mathematical education idea is to convert the text language. The popular talk is about converting the mathematical statement of human understanding into a pre-defined computer storage knowledge for the next step . These processes include problem solving, paper marking

9、 automatically and so on. This premise can also be called natural language processing. The classification problem is the main problem in the process of natural language processing.This paper is divided into two parts, the first pait is on the primary mathematics problem tokenization as well as Part-

10、of-Speech tagging, the second part is based on SVM on the primary mathematical problem text classification, and then according to different classification methods, the computer can be converted its presentation to solve the problem.In English, each word has a space between them, but the Chinese is d

11、ifferent, all the characters are connected together, so the first step is tokenization. But the mathematical expression contains more symbols with specific meaning, so the general segmentation method does not work. Therefore, we need to construct a special word segmenter for mathematical representat

12、ion. Similarly, the entities in the expression of mathematical language are different from ordinary language, and the entities of ordinary language are usually describe time, place and name. In mathematical expressions, entities that contain important information are belong to mathematical terms, su

13、ch as triangles, and equations. So it is necessary to define a specific named entity for the primary mathematical direction and then extract it. In this paper, the conditional random field is used to the named entity.In the elementary mathematics, automatic question solving involves many different c

14、ategory. Before we solve a question ,the question need to be classified. Then we excute a corresponding solution method according to its category. To classify the question, firstly we preprocess the Named Entity labeled text , the preprocessing includes removing stop words and establishing the bag-o

15、f-words model. Secondly, In this paper, we use the measure of Chi square statistic to choose eigenvectors. So that there is a good reduction in the amount of calculation in using the eigenvectors to reduce the dimension, meanwhile the accuracy of classification can be maintained.Finally, according t

16、o the method proposed in this paper, we have construct a system to classify the initial mathematical problems and classify them with SVM. The system can accurately mark the named entity, for the latter to solve the problem and other processing to provide knowledge, while the effective classification

17、 of the text can be used to solve the problem or make a reasoning pruning.Keywords: Elementary Mathematics, SVM, Problem understanding, Natural Language Processing目录 TOC o 1-5 h z HYPERLINK l bookmark19 o Current Document 目录IV HYPERLINK l bookmark27 o Current Document 第一章绪论1 HYPERLINK l bookmark30 o

18、 Current Document 1.1研究工作的背景和意义1 HYPERLINK l bookmark33 o Current Document 1.2国内外研究现状2 HYPERLINK l bookmark36 o Current Document 1.2.1自然语言处理的国内外研究现状2 HYPERLINK l bookmark39 o Current Document 1.2.2智能教辅系统的国内外研究现状3 HYPERLINK l bookmark42 o Current Document 13论文组织结构4 HYPERLINK l bookmark48 o Current Do

19、cument 第二章相关理论与技术6 HYPERLINK l bookmark51 o Current Document 2.1自然语言理解概述6 HYPERLINK l bookmark54 o Current Document 2.1.1自然语言处理处理的基本方法6 HYPERLINK l bookmark60 o Current Document Apache Thiift7 HYPERLINK l bookmark64 o Current Document 2.13中文自然语言处理工具8 HYPERLINK l bookmark74 o Current Document 2.2语言模型

20、10 HYPERLINK l bookmark77 o Current Document 2.2.1隐马尔可夫模型10 HYPERLINK l bookmark80 o Current Document 2.2.2最大炳模型11 HYPERLINK l bookmark87 o Current Document 2.2.3条件随机场模型11 HYPERLINK l bookmark90 o Current Document 2.3支持向量机13 HYPERLINK l bookmark93 o Current Document 2.3.1线性分类13 HYPERLINK l bookmark9

21、6 o Current Document 23.2软间隔最大化15 HYPERLINK l bookmark101 o Current Document 2.3.3核函数16 HYPERLINK l bookmark104 o Current Document 2.4本章小结18 HYPERLINK l bookmark107 o Current Document 第三章 初等数学问题分类预处理模型的构建19 HYPERLINK l bookmark110 o Current Document 3.1初等数学问题文本的特点19 HYPERLINK l bookmark116 o Current

22、 Document 3.2基于最大炳模型的初等数学文本的分词19 HYPERLINK l bookmark119 o Current Document 3.2.1初等数学语言分词方法20 HYPERLINK l bookmark126 o Current Document 3.2.2基于最大嫡模型的中文分词21 HYPERLINK l bookmark132 o Current Document 3.3初等数学文本的词性标注24 HYPERLINK l bookmark135 o Current Document 3.4初等数学文本的命名实体标注25 HYPERLINK l bookmark1

23、38 o Current Document 3.4.1初等数学命名实体类型25 HYPERLINK l bookmark141 o Current Document 3.4.2特征选择26 HYPERLINK l bookmark159 o Current Document 3.5基于实体属性改进的指代消解方法30 HYPERLINK l bookmark162 o Current Document 3.5.1指代的类型30 HYPERLINK l bookmark168 o Current Document 3.5.2数学实体模型的构建31 HYPERLINK l bookmark171 o

24、 Current Document 3.5.3指代消解32 HYPERLINK l bookmark174 o Current Document 3.6本章小节33 HYPERLINK l bookmark184 o Current Document 第四章基于SVM的初等数学问题的分类35 HYPERLINK l bookmark187 o Current Document 4.1初等数学问题的分类方式35 HYPERLINK l bookmark190 o Current Document 4.1.1基于提问方式的分类35 HYPERLINK l bookmark193 o Current

25、 Document 4.1.2基于知识点的分类36 HYPERLINK l bookmark196 o Current Document 种新型词袋模型的构建36 HYPERLINK l bookmark200 o Current Document 4.2.1命名实体替换36 HYPERLINK l bookmark203 o Current Document 4.2.2过滤停用词建模37 HYPERLINK l bookmark206 o Current Document 4.2.3同义词替换建模37 HYPERLINK l bookmark209 o Current Document 43

26、特征选择38 HYPERLINK l bookmark216 o Current Document 43.1基于卡方检验的特征提取38 HYPERLINK l bookmark219 o Current Document 43.2词频逆文档频率统计40 HYPERLINK l bookmark222 o Current Document 4.3.3文本向量化41 HYPERLINK l bookmark228 o Current Document 4.4基于SVM的初等初等数学问题分类算法42 HYPERLINK l bookmark233 o Current Document 一对多题型分类

27、器的构建43 HYPERLINK l bookmark236 o Current Document 一对一题型分类器的构建43 HYPERLINK l bookmark240 o Current Document SVM 参数选择44 HYPERLINK l bookmark246 o Current Document 4.5本章小节45 HYPERLINK l bookmark249 o Current Document 第五章初等数学问题自动分类系统的实现47 HYPERLINK l bookmark252 o Current Document 5.1初等数学问题分类预处理系统的设计与实现

28、47 HYPERLINK l bookmark255 o Current Document 5.1.1预处理模块的总体功能设计47 HYPERLINK l bookmark258 o Current Document 5.1.2预处理模块中各模块详细设计47 HYPERLINK l bookmark280 o Current Document 5.2初等数学问题的分类53 HYPERLINK l bookmark283 o Current Document 5.2.1分类模块的总体功能设计53 HYPERLINK l bookmark286 o Current Document 5.2.2分类

29、模块中各模块详细设计54 HYPERLINK l bookmark289 o Current Document 5.3初等数学问题分类测试56 HYPERLINK l bookmark303 o Current Document 5.4本章小节58 HYPERLINK l bookmark306 o Current Document 第六章总结与展望59 HYPERLINK l bookmark309 o Current Document 6.1总结59 HYPERLINK l bookmark316 o Current Document 6.2研究的不足和展望59 HYPERLINK l b

30、ookmark326 o Current Document 致谢61 HYPERLINK l bookmark329 o Current Document 参考文献62 HYPERLINK l bookmark378 o Current Document 攻读硕士学位期间取得的成果65第一章绪论1.1研究工作的背景和意义数学作为人类现代科技文明的基础,重要性不言而喻,对中小学生数学能力 的培养因此也成了国民教育的重要组成部分。在美国,数学问题的解决能力早在 80年代末就成为了学生成绩考核的重要标准;在日本,学生数学能力的培养也在 千禧之年成为初等教育的工作重点。学生在学习过程中常会遇到一些共性

31、的问题, 这些问题会给学生带来很大挫折,特别是在学生没有得力的人在旁辅导的情况下。当前,中国中小学教育仍是使用一名教师对多名学生的教育模式。学生在课 堂遇到的个例性问题很难得到针对性解答,因此除了国家主导的义务教育,在学 生和家长对高质量教育需求的刺激下,课外辅导班这种教育形式应需而生。但是 这种辅导班费用较高,辅导水平良莠不齐,对很多家庭来说都是比不小的开销。 在我国往往好的师资及其相关教育资源都在城市,而其他地方则相对落后。当今 时代,互联网发展迅速,作为互联网发展下的新产物,“互联网+”概念自从被提出 以后同,在教育行业也可以看到互联网正在不断渗透改造传统的教育模式,相关的 教学辅助软件

32、得到了师生的广泛使用。我们从上述对我国教育行业存在的问题的分析可以看出,教学辅导软件至少 需要具备以下三个功能:(1)能使每个学生得到针对性和自动化帮助;(2)无地 域限制性;(3)费用成本较低,是绝大多数家庭能够接受的费用。目前,已问世 的教育辅助软件很少能有满足上述所有条件的,比如一些教辅系统仅仅是提供了 一些教学中的视频资源,这种方式只是将内容呈现给了学生,无法针对学生进行 有效的个性化的学习;部分系统也仅仅是能做到对学生的客观题如选择题等进行 判卷,但这类型的题目都是已事先存储的,对于主观题的判断尚无法实现全自动 化囹,特别是那些使用自然语言描述的试题。对于这些试题,若想让计算机自动解

33、 题5,首要突破的难关就是让计算机读懂题目6。自然语言处理是一个由多方向综合而来的人工智能领域。随着近些年来计算 机处理的速度增加,自然语言处理已经在一些领域取得了很大的成果圆,比如搜索 引擎、语音输入等四。在初等数学领域中,自然语言处理也可以依据其数学文本的 描述特点进行处理。理解初数学描述语言的第一步是如何定义计算机的“理解”。从计算机的角度来 说,数学题意的理解着重于理解的数学表达形式是否能够让计算机进行演绎推理。 而不是通常语言文本中所要求的词法语法分析。其次要考虑的是如何去理解数学 题意。目前,对数学自动解题的体型主要集中在代数和应用题上。已知的一些解 题系统的解题能力十分有限,原因

34、如下:(1)初等教育涵盖的范围比较大,大体 分为代数、几何、函数。因此,解决小学的四则运算的方法并不适用于初等数学 的逻辑推理题;(2)初等数学语言更加复杂:相比小学数学,初等数学知识点更 多,另外,随着学生综合素质的提高,问题描述上,相应的语法也变得复杂。初 等数学题意理解的核心就是如何处理上述各问题。初等数学问题求解还设计到一 个关键步骤,那就是问题分类。初等数学解题涉及的知识体系复杂,对于不同题 型,构建不同的推理模型。所以,对于初等数学问题的自动分类在整个系统中 至关重要。1.2国内外研究现状初等数学的智能辅导系统问题大体上可以分解成两大模块,包括自然语言 处理,以及自动辅导解题系统。

35、自然语言处理是前提,知识表示是枢纽,自动辅 助解题是核心。1.2.1自然语言处理的国内外研究现状人工智能最初为了让机器能更好的为人民工作而提出来的。在它被提出之后, 其中一个重要的工程应用是让人与计算机的沟通更加智能和高效。随着各个领域 功能的逐渐细化,专门处理人类语言到计算机语言的研究领域越来越受到关注。 自然语言处理的早期,主要的处理技术是规则遍历,这种方法处理起来比较机械, 但是对于简单的业务也有一定的作用。近年,随着计算机计算能力的不断提升, 基于数理统计的机器学习方法成为主流。基于规则的自然语言处理方法,主要包括递归转移网络、有限状态转移网络Ml、 一阶谓词演算、短语结构语法、语义网

36、络等相关技术1习。该方法的优点是表达明 楚,但缺点也很明显,需要研究者针对每个语言进行大量相应语言的学习研究, 效果往往还没统计的经验主义好。在上世纪50年代,基于统计的经验主义在自然语言处理问题上不断取得突破, 该方法主要使用数理统计的数学方法来处理自然语言处理16。特别是随着计算机 性能的不断提升和机器学习研究成果的涌现,该方法的应用范围和效果都取得了 不错的进展。该方法同样存在问题,主要是效果主要取决与语料库的大小质量。 而语料的质量标准却还很难量化切。如果定义的标签种类过于多,则会造成信息 爆炸,严重影响效率,得到的模型泛化效果较差。如果标签定义种类过少,则可 能漏掉有用的信息。自然语

37、言处理需要解决的还有理解自然语言语义问题。在上述两种语义解析 方法中,基于规则的语义分析无法包涵所有事件,也没有很好的处理会引起歧义 的文本周。而且当规则集合越来越大时,规则之间常会发生互溶性问题。基于统 计的方法需要大规模语料的支持,如何建立一个大规模有效的语料库成为该方法 的重点。目前,国外的主要的自然语言处理平台有GATE、Stanford NLP NLTKoGATE 全称是 General Architecture for Text Engineering,在业界广受欢迎,它 有个信息提取框架,被很多研究和教学自然语言处理的机构所采用。该框架支持 自然语言处理的各个步骤,开发者只要按照

38、其规范完成相应功能即可。Stanford NLP是美国斯坦福大学一个教授开发的自然语言处理技术集合平台。在平台上集 合了很多自然语言处理需要的工具,比如词性分析,命名实体识别,共指消解系 统,情感分析,自举模式学习等。NLTK是一套NLP工具集,提供用于扩展的接 口,并且能将输入的样本数据进行可视化展示。在国内,比较出名的自然语言处理系统主要有ICTCLAS, LTP等。ICTCLAS 主要是使用层叠型马尔科夫模型进行中文分词。LTP是由哈工大发布的另一个中 文分词框架,包括语法分析,句法分析,语义分析。已经成为国内很受欢迎的处 理平台。1.2.2智能教辅系统的国内外研究现状早在上世纪60年代

39、,就出现了能够读懂题意并解答问题的智能辅导软件 STUDENTo该软件可以理解使用英语描述的代数问题。它是使用谓词关系模型来 表示自然语言文本,然后通过对关系模型的解析来求解问题。该软件的主要流程 如下:(1)预先在电脑中定义一些常用的句式以及将复杂的句子变成简单句子的 方法。(2)根据自定义的字典提取出关键词(3)将所有的单句转换为各自的关系 模型。由于该软件存储定义的句式比较少,所以很难覆盖复杂的句式。尽管如此, 该软件还是开创了智能辅导数学问题软件的先河。进入20世纪后,随着人工智能的发展,各类机器人开始斩头露角,具体到智 能教辅领域,各个国家纷纷从解题入手。只有解题,才能获取智能辅导学

40、生的高 地。因此智能教辅技术的核心也就是解题。但是从题目角度来讲,类别,难度等 因素使得对系统无法有统一的衡量标准。想要对比智能解题技术能力的高低,必 须要有共同的参照。现在国际上比较认同的就是各自国家的高考题目。也就是用 高考题来衡量机器人的解题水平,进而侧面反映智能教辅的能力。日本东京大学于2011年开始研发他们的高考机器人Torobo,该机器人的设计 目的是考入东京大学。但是这个机器人在数学这一科目上就遇到了瓶颈。通过每 一次的测试发现,其成绩增长十分缓慢。究其原因,发现Torobo更多依赖的是对 现有题库的学习,也就是说题库中的题目越多,Torobo的解题能力可能会越高。 而对于系统未

41、见过的题目,显得毫无办法。最新的预测显示,Torobo要想考上之 前所订立的东京大学的目标,需要学习的题目是百万级的。这无论是费用上还是 从数据上都是非常不现实的。在解题中,尤其是数学的解题中,主流研究方向都从传统的规则方法转向了 基于机器学习的方法上面。但是目前的研究结果表明因为题目的特征维度复杂, 很难训练出泛化能力好的模型。本系统作为将要参加高考数学的机器人,创新性的引入了推理思维,通过构 建解题所需的知识图谱,然后使用推理引擎在知识图谱上面进行推理计算US。 只有这样,才能是系统面对新出现的题目依然有较高的解题能力。因为题目无论 如何变化,所涉及到的知识点都在知识图谱上存在。1.3论文

42、组织结构当前,现有的初等数学题意理解技术更多是针对简单代数题和计算题I。对 于数学文本中描述的其它问题的理解效果十分有限。同时,对于初等数学问题进 行分类的各式效果也差强人意。本文主要是围绕初等数学问题建立实体抽取模型, 获得数学实体。然后在命名实体模型的基础上,对数学问题进行分类。本文主要是利用现有的自然语言处理方法来对初等数学问题进行题意的理解 以及进一步的分类。首先从初等数学问题出发,分析了初等数学语言的描述特点。 构建了一套基于数学信息的实体模型,讨论了基于实体模型的初等数学指代的可 行性,并且基于实体模型构建了初等数学指代体系。其次介绍了基于支持向量机 对初等数学问题分类的重点应用。

43、在对初等数学问题的分类研究中,使用高考题 为重点研究对象,提出了一套基于初等数学问题的特征提取方法。然后在现有特 征的基础上,对初等数学题进行特征向量化。最后将向量化的初等数学训练集进 行模型训练,最后得到初等数学问题分类模型。本论文共分为六个部分:第1章,绪论。介绍了本课题的研究背景及意义。对自然语言处理以及智能 教辅系统二者的国内外研究现状做了简要分析介绍;第2章,相关理论与技术。重点对本文所涉及的自然语言处理理论进行了分 析,还介绍了自然语言处理的常用方法。对一些统计学所涉及的常用模型也进行 了重点分析,同时介绍了支持向量机的相关理论。第3章,初等数学问题分类预处理模型的构建。重点介绍了

44、初等数学语言与 普通语言的不同,然后针对性的提出数学实体表示方法,最后通过自然语言处理 方法对其进行分词,词性标注,命名实体标注。第4章,基于SVM的初等数学问题的分类。通过对命名实体标注过后的初等 数学问题进行特征提取,进而进行文本向量化。通过对向量化的文本进行支持向 量机的训练,得到分类模型。第5章,初等数学问题自动分类系统的实现。分析了该系统的整体架构,对 其中的各模块的关键步骤进行说明。然后通过两套高考题目进行测试命名实体的 标注,以及题型分类。第6章,总结与展望。分析和总结本论文的不足,对研究过程中所遇到的问 题进行深入剖析,并对后续的研究做出进一步的规划。第二章相关理论与技术2.1

45、自然语言理解概述自然语言理解是人工智能与计算机科学与技术在处理语言问题中的一个重要 应用方向A】,目的在于使计算机能够理解人类语言中所包含的某些重要信息。在 最近的几十年里,由于自然语言理解的相关理论和技术的飞速发展,其广泛应用 在语音识别、信息检索、机器翻译文本挖掘等多个领域2324。自然语言理解和处 理不仅是一门社会需求十分巨大的应用性技术,也是一门具有非常具有科学研究 意义的自然科学。2.1.1自然语言处理处理的基本方法在初等数学问题解题系统中,无论解什么类型的题目,对于题意的理解是第 一步,题意理解的就是把人类理解的数学题目转换成计算机系统能够识别的知识 表示。自然语言处理的一些基本步

46、骤主要有分词,词性标注和命名实体识别。分词。处理中文自然语言问题的首要任务是分词,一个好的分词系统很大程 度上影响了语义理解的正确性2习。词是能够独立使用的最小语言单位,而很多孤 立语和黏着语言(如汉语,日语,藏语等)与西方屈折语存在较大的不同,西方 屈折语中每个词语之间存在空格,天然的将词语分割开来,而中文文本中没有类 似的标识符。因此,分词问题是计算机在处理孤立语及其黏着语文本时首要面临 的基础工作。近几年,由早期的基于规则的分词系统已经逐渐演变为基于统计学 分词方式,并且分词的准确性更高Ml。分词的效果也在不断的提高。在通用语言 中的分词已经达到了相当高的水平,但是在细化的各专业学科领域

47、还有待加强, 依然存在很多的挑战27。词性标注。自然语言中每个词都有其相对应的词性,而词性标注则是给文本 中的每个词语标上其对应词语的属性2引,例如:“中国”在经过词性标注则会标识 为名词。词性标注是词的一种泛化,在处理绝大部分自语语言问题的时候都需要 进行词性标注,因此词性标注是处理自然语言问题一项必不可少的关键步骤。但 是汉语的词性标注同样面临一些棘手的问题,比如常用词兼类现象严重,词性的 归类本身带有主观性。命名实体识别。命名实体识别是预先将中文表达中的每个词语定义为多个不 同的类别2刃,如景点名,人名,电子产品名等等。命名实体识别是自然语言进行 承载信息的重要单位,是对文本进行信息处理

48、一项基础性研究PS。命名实体识别 是机器翻译、问答系统、句法分析、信息提取、等应用领域中一项关键的技术, 它极大的推动了自然语言处理由理论走向工程的进程。一般来说,命名实体识别 的主要是识别文本中的预先定义的实体类。和早期的分词系统一样早期的命名实 体识别同样也是基于规则实现的,这种方法实现代价比较高,同时可移植性也受 到了限制。现阶段,由于大规模语料库的日渐完善,基于语料库的统计方法正日 益成为自然语言处理的主要方式。Apache ThriftThrift采用的服务端和客户端模式,其采用接口描述语言定义并且来创建服务, 具有自己内部定义的传输数据标准和和相应的传输协议规范o Thrift通过

49、IDL脚本 对传输数据的业务逻辑和传输数据的数据结构根据不同的运行环境来构建出其对 应的代码,图2-1显示了 Thiift的整体架构,可以看到,Thrift其中包含一个完整 的栈结构主要用于服务端和客户端的构建。Thrift的传输协议主要有两种,分别是 文本(text)和二进制(binary)的传输协议。而一般情况下采用的是二进制的传输协议, 相比文本传输协议而言,其传输效率更高,要求的带宽更低。但是有时候为了项 目中某些特殊的需求也会使用文本类型的协议。从服务模型方面看,它支持单线 程服务模型以及多线程的服务模型。从数据传输方式的角度看,Thrift支持阻塞式 数据传输和非阻塞式数据传输的两

50、种数据方式。图2-1 Thrift的整体架构2.1.3中文自然语言处理工具自然语言处理工具有很多,比如NLTK WordNet还有HanLP, LTP等,NLTK 是用来构建处理人类各种语言的Python程序包。WordNet重点在英语的词汇处理 上面能力强大。这里重点介绍的是LTP,它是由哈工大社会计算与信息检索研究 中心所开发的,在国内外自然语言处理方面有极高的影响力。LTP平台的总体结 构如图2-2所示。DLL APIWeb Service分析结果可视化词法分析句法分析语义分析依存句法 分析语义角色基于XML的应用程序接口基于XML的语言学知识资源和语料库资源数据操作传输与共享图2-2语

51、言技术平台架构LTP支持处理的基础技术有:词性标注。LTP采用的是基于最大嫡马尔科夫模型进行词性标注,这里支 持的词性类别是名词、动词、形容词、副词等。依存句法分析。通过分辨语言组成单位之间的相互依赖存在关系来表明其 相对应的句法结构。简单的说,依存句法分析就是识别句子中的“主谓宾”、“定状 补”等语法结构,并且对句式中的各成分之间的关系进行分析。解码方法采用的是 基于柱状搜索。语义角色标注。语义角色标注是一种轻量级的语义法分析技术,多用于标 注句子中某些短语为给定谓词的论元(语义角色),如主动发起、被动接受、事件 时间和发生地点等。推动了机器人答疑系统、重要信息提取和机器翻译等相关应 用的发

52、展。除此之外,ETP在自然语言处理方面还具有下述优势:LTP提供非常全面的自然语言处理工具包。常规的处理方法全部涵盖。ETP能够返回比较直观的结果,方便分析,也方便后续的系统对其进一步 的解析。LTP在处理“国内专家学者40余人参加研讨会”的文本的输出结果如图2-3 所示。解析结果可使用XML的语言表示XML是一种简单的可扩展的标记性语 言,多用存储数据,且与平台无关,方便跨平台调用。如图2-4所示为LTP对 “国内专家学者40余人参加研讨会”进行处理的结果显示。在数据获取上可以基于HTTP协议进行传输。这样的优点是支持跨平台、跨语言编程并且不需要配置高性能的机器。*国内专宗字者RootnlA

53、0QuanFeat .珊寸会专冢学者-Root图2-3语言技术平台可视化结果图 word id=r* cont=专pos=nr, ne=rOH parent=,2H relate=r,ATT semparent=,2n semrelate=nFeat7 word id=H2 cont=学者pos=n ne-0r, parent=5 relateATT semparent=,6H semrelate=nAgtr7 word id* cont二”研讨会” pos二”n” ne二”0” parent二”6” relate=,VOBu semparent=,6, semrelate=,Cont,7 图

54、2-4语言技术平台处理后的XML结构2.2语言模型2.2.1隐马尔可夫模型在隐马尔科夫模型(HMM)中,模型的每个时态的状态是不可见的,只能得 到模型的观察序列。状态的转移概率以及由每个状态到可观察结果的概率,我 们可以根据观察序列和这些转移概率得到概率最大的状态序列Hl。HMM可记为一个五元组:2= (S, K, A, B,勿)(2-1)其中,S为状态的有限集合,K是输出符号的有限集合,兀,A和8分别是 初始状态的概率,状态转移概率和符号发射概率。NP(X,Y)=RP(y,l 扁).P(x,ly,)(2-2)t=它的模型流程表示如图2-5所示。图2-5隐马尔可夫概率图模型隐马尔科夫模型在自然

55、语言处理领域中巳经被反复验证是一种成功的统计学 概率模型El。其训练速率快,效率高等众多优点在进行序列处理的时候,优势非 常明显,比如说建模简单,模型参数意义明确等,并且相关的应用实现算法也已 非常的成熟。属于一种在准确地匹配时候变数据的技术,除了在上述中的各优势 外,HMM在生物信息学信号分析、语音模式(如人脸、步态、表情等)识别、系 统故障诊断排查等的研究中运用广泛,并且取得了丰硕的成果。隐马尔可夫模型同样有它的局限性,比如说隐马尔可夫模型研究的前提是建 立在各个元素间是互相条件独立的,但是从工程角度讲,这种情况几乎不可能出 现。2.2.2最大炳模型关于最大嫡模型,一种最直观理解就是,当我

56、们需要对一个未知分布的随机 事件的概率预测时,对未知的部分不做任何主观性的假设W,同时我们的预测结 果必须满足全部已知的条件。从另一角度讲,在给定一组事实的条件下,选择符 合所有事实,且在其他方面尽可能均匀的模型35。在这种情况下,要想使预测的 风险降到最低,就必须使未知信息的概率分布最均匀WE。因为此时整个概率的 分布的信息嫡为最大,这就是最大嫡模型的由来。关于条件分布p(v I X )的炳为:H(P)= 一旗 P(y, x) logP(y I x) =P(x)P(y I x) log P(y I x)( 2_3)x,y首先对定义的全部约束条件,必须满足,然后在此基础上让信息嫡最大即可, 最

57、大嫡模型P*为:*八*p =arg 吁芝 H(尸)或尸 =argmin-Z/(P) (2_4)综上,可以得出形式化后的最大嫡模型定义:在给定数据集的条件下,定义函数特征fi(x, y), i = l,2.,n ,根据经 验分布得到满足约束集的模型集合C :min P(x)P(y I x) log P(y I x)S.r. Ep(Q = E(Q(2-5)p(贝x) = ly2.2.3条件随机场模型条件随机场的基本定义是,已知在给定随机变量X条件下,随机变量丫的马 尔科夫随机场/I。条件随机场更多用于对序列进行标注等问题I。这时,在条件 概率模型P(yix)中,丫是输出变量,表示这是个已知的标记序

58、列,x是输入变 量,表示是系统需要标注的观察序列4。在模型训练学习时,使用训练数据集并 利用极大似然估计或者正则化的极大似然估计来得到所要的条件概率模P(VIX)。 在最后的预测解码时,对于一组给定的输入序列X来预测求出条件概率p(ylx)最 大的输出序列(上标)Jo定义:设G = (V,E)是一个概率无向图,公式中的U表示图中所有的点的集合, 代表无向图中全部的无向边的集合。在给定的X的条件下,如果每个随机变量匕 都服从马尔科夫特性,艮F(匕 IX,匕,林)=F(匕 IX,匕,u)(2-6)对任意节点u成立,其中,w v表本的是和u两结点在图G =(V,E)中是相 邻的两结点的边,uv表示节

59、点以外的所有节点集。那么(x,y)就构成一个条 件随机场。条件随机场与隐马尔可夫模型不同,隐马尔可夫模型是在给定的当前状态的 条件下,来对下一个状态进行定义。通常最常使用的是线性条件随机场(Linear-chain CRFs),它是链结构的条件 随机场模型,其状态转换图如下图2-6表示:X=X.,Xi.1,Xi图2-6线性条件随机场的概率图模型令X = 玉,工2,.,气表示输入的观察序列,Y = 外2,.,乂表示对应的输出 有限状态的集合,则该序列的概率定义为:P(riX,2)ccexp 旗i,*,X,0 + De(m,X,0 (2-7)k Jk其中,。一i,y,X,,)一一对应的观察序列的标

60、记位i-l与标记位i间的转移特 征函数,sy,X,i)观察序列本身的i位置状态特征函数,也就是说f和s都是 表示不同类型特征的函数。将设有Y个转移特征,同时,设有K2个状态特征,记为:JiE,)-(,*),k = Ki+l;l = l,2,.,K2(2-8)并且记n写(K,X)=NOtJ,XJ)(2-9)i=l则可得(丫成况)=无fxp(;.(匕 X)(2-10)其中Z(X)=#p0F,(匕X)(5)j条件随机场作为一种常规的概率图模型,有很多显著的特点,比如它能够表 达远距离的特性依赖等,而且能够得到全局的最优结果。条件随机场相比于隐马 尔科夫模型,不要求各个元素间互相条件独立,经实验测试,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论