下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于Nlp的教师答疑系统设计1教师答疑系统的NLP的实现NLP是本系统的核心,解决学生提出的自然语言形式的问题,从本质上讲,就是以问题为查询需求,在系统问题资源库中进行搜索的过程。在自然语言查询时,学生提出的问题首先交给问题内容过滤部件进行过滤,如果问题里面含有禁用词汇,则提示出错,查询过程终止;否则,在问题库和答案库中进行搜索匹配;然后把满足条件的问题按照一定的标准进行排序,从而把最相关的若干个问题返回给学生。如果学生对查询结果满意,则查询过程结束;如果不满意,可以把问题提交到无解问题库,等待教师或其他学生回答,也可以通过站内信箱、异步讨论区互相讨论。问题查询的基本过程如下图所示。图1NLP查询的基本过程1.1分词分词是一切自然语言处理的基础,也是本系统回答自然语言提问的第一步。下面对分词所依据的词库、预处理和具体实现进行阐述。1.1.1词库设计词库是中文分词的依据,词库设计的适当与否将直接影响分词的准确程度,从而影响搜索的效率。根据查询过程中的各阶段对不同种类的词的需要,本系统设计了如下几个词库。1.停用词库在进行搜索的时候把哪些经常出现,但是又和语义关系不大的词统统都删选掉,直接执行忽略操作,这样大大的简化搜索条件,提高速度。2.专业词库答疑学科当中经常会用到的一些专业词语,是和一般的词典是不同的,它还包括了一些重要词组的搭配问题,这样做能够最大匹配分词法时提高分词的准确度,同样的是凸显出词汇的重要性。3.禁用词汇这就包含一些不正常词汇,比如说“法轮功”、“笨蛋”等等之内的,和政治、宗教以及色情相关的词汇进行筛选。1.1.2预处理预处理就是在分词之前首先把输入的问题分割成若干子串(这些子串一般是比较短的),然后对这些子串进行分词。问题分割的依据有两个:一是显式的标点、数字及其它非中文符号。这些符号在处理时也采用不同的规则,标点和数字直接过滤掉,考虑到问题中的英文单词,我们把连续的英文字母当作一个子串,如“OS”。二是停用词表中的词汇,主要是没有意义的词。比方说输入问题“请问JSP和ASP各自的优缺点是什么?”经过了分析,分割的依据就是英文和标点,问题被分成了5个子串:请问/JSP和/ASP/各自的优缺点是什么这样的话,就有一个非常完整的自然语言形式的问题就慢慢的转变成为5个短字符串,接下来就是选择适当的分词算法对字符串进行分词。1.1.3分词算法的实现作为网络教学平台的一部分,答疑系统主要是针对某个具体领域或具体学科的,所涉及的内容具有很强的专业性。学生所提问题包含的词汇也比较集中,重复率较高,并且在问题中一般都包含了表明问题性质的词、短语或语法结构。因此,本系统采用双向最大匹配法。只要词库设计得合理,分词的准确性能达到较高的水平。在双向最大匹配法是采用了一些歧义排除方法,先是通过正向和逆向最大匹配的到两组切分结果,然后是根据一些具体的情况来决定选择哪一组作为最终的分词结果。1.2问题过滤问题过滤是指对学生提出的问题内容进行检查,判断问题中是否含有非法词汇并做出相应处理。这一过程是判断问题中是否包含于禁用词库中的词,如果包含,则系统认为该问题是非法的,给学生出错提示,搜索过程终止。如果系统认为问题合法,则进行下一步的处理。1.3基于文本段的空间模型1.3.1文本段文本段是指文档中一个具有独立逻辑意义的文本部分。例如,一般文档中的标题、摘要、正文乃至参考文献部分都可以看作是一个文本段。实际操作中,文本段可以根据文档的表现形式予以确定。在本系统中,学生提出的新问题是一个文本段,一个有解问题及其所有答案一起看作为一个搜索文档,是一个整体,而这个有解问题及各个答案都作为此搜索文档的文本段。1.3.2特征向量本系统要用到的特征项是文本段的特征项,设文档集为C,文档D的第i个文本段记为Si,Si中第k个特征项记为Tik(k=1,2,…,n,n为特征项总数)。文档、文本段、特征项之间的关系如下图所示。图2文档结构图特征项权重的计算是基于文本段的向量空间模型中最重要的步骤。设文档集为C时,Tik在Si中的权重记为),(iikCSTw,计算公式可以通过公式得到。其中,tf(Tik,Si)表示特征项Tik在文本段Si中出现的次数;N表示文档集C中的文档总数,ikTn为文档集中包含Tik的文档数。1.3.3相似度与阀值本系统中,新提问题Q和搜索文档D的相关性首先由局部相似度最大值来度量,当最大值是超过了某一设定值的时候,就能够认为文档D与Q的相关性较大,能够满足学生的提问需求。当有多大文档符合的时候,就会按照Q和各文档的局部相似度的最大值进行降序排列,然后把问题返回给学生。1.4用户反馈用户反馈是让学生对检索结果进行判断,这些问题是否满足查询需求。如果满足则直接查看即可;如果没有查询到相关问题或学生对结果不满意,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论