(计算机应用技术专业论文)网络教育中答疑系统的研究与实现.pdf_第1页
(计算机应用技术专业论文)网络教育中答疑系统的研究与实现.pdf_第2页
(计算机应用技术专业论文)网络教育中答疑系统的研究与实现.pdf_第3页
(计算机应用技术专业论文)网络教育中答疑系统的研究与实现.pdf_第4页
(计算机应用技术专业论文)网络教育中答疑系统的研究与实现.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(计算机应用技术专业论文)网络教育中答疑系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆大学硕士学位论文中文摘要 摘要 近年来,以交互式教学和弹性学制为主要特征的网络教育得到了迅猛发展, 并逐渐被人们接受。网络教育教与学具有时空分离性,随着学生规模的不断扩大, 如何对不同个性的学生实施个性化指导和不断提高网上教学质量是其核心和关 键。 自动答疑系统综合运用自然语言理解、数据库和信息检索等技术,它能够从 问题知识库中搜索出最匹配的答案以及时解答学生用自然语言提出的问题,为学 生返回一个简洁、准确的答案。目前,在网络教育中还没有出现比较成熟和实用 的自动答疑系统。 研究并实现基于网络教育的自动答疑系统,可有效解决教师资源缺乏和教师 重复劳动的难题,即时解答学生学习过程中的疑难,极大保障学生的学习积极性, 并使教师将主要精力投入到教学研究和改革中,为提高教学质量奠定良好基础。 本论文首先介绍了网络教育答疑系统的关键技术,结合网络教育的实际需求, 给出了网络教育答疑系统的总体框架设计,并详细研究了答疑系统问题知识库中 数据的组织、数据的查询和管理,知识单元和候选问题集的确定,使句子相似度 匹配计算只需要在属于该知识单元的候选问题集的范围内进行,该方法能快速的 定位并查找匹配的记录,提高系统的查找效率。通过对专业关键词权重和关键词 语义的分析,结合各种句子相似度计算方法的优缺点,提出了答疑系统学生问题 和问题知识库中的问题进行句子相似度计算的方法。 为了实现问题知识库中知识的快速查找,本论文提出了以知识单元为最小组 织单位。学生提出的问题,通过本系统的分词,确定专业关键词;通过专业关键 词对问题知识库进行快速查找,形成候选问题集,最后对候选问题集中问句与学 生问句进行句子相似度计算。在句子相似度计算中,分析了基于关键词和基于语 义的句子相似度计算方法,在综合考虑句子的词、义相似性的基础上,提出了句 子相似度的新的计算方法。实验结果证明,本文所提出的句子相似度计算综合分 析法在查准率上具有较好的效果。最后,作者在网络教育教学支持平台中,利用 a s p n e t 实现了自动答疑问系统。 关键词:网络教育,答疑系统,数据组织,数据查询,句子相似度计算 重庆大学硕士学位论文 英文摘要 a b s t r a c t i nr e c e n ty e a r s ,m o d e r nd i s t a n c ee d u c a t i o nf e a t u r i n gi n t e r a c t i v et e a c h i n g , f l e x i b l e s c h o o l i n gs y s t e m , h a sb e e ng r a d l l a l l ya c c e p t e d t e a c g i n ga n dl e a r n i n go fm o d e m d i s t a n c ee d u c a t i o na r es e p a r a t e di nt i m ea n ds p a c e w i t ht h eg r o w t ho fs t u d e n t s , i n d i v i d u a lt u t o r s h i pa c r 掰d i n gt os t u d e n t sp e r s o n a l i t ya n dc o n s t a n t l yi m p r o v i n gq u a l i t y o f n e t w o r ke d u c a t i o nh a v eb o c o m ei t sc o r ea n dk e yi s s u e s a u t o m a t i cq u e s t i o na n s w e r i n gs y s t e m ( a q a s ) c o m b i n e sn a t l 瑚ll a n g u a g e p r o c e s s i n gt e c i m i q u e s ,d a t a b a s et e c h n i q u e sa n di n f o r m a t i o nr e t r i e v a lt e c h n i q u e se t c 1 1 a q a s nr d x l i l li m m e d i a t e l ys t u d e n tac o n c i s ea n da c a 2 r a t ea n s w e rt h a ti st h e b e s ts u i t e df r o mq u e s t i o nr e p o s i t o r y b u tm ln o wt h e r ei ss t i l ln om a t u r ea q a s e x p l o i t e d i nt h i st h e s i s , w eh a v es t u d i e da n da c t u a l i z e da na q a si nd i s t a n c ee d u c a t i o n t h i s s y s t e mc a ne f f e c t i v e l ys o l v et h ep r o b l e mo fl a c ko ft e a c h e rr o s o u r c ea n dr e p e a t e d a n s w e r i n gq u e s t i o n i fs t u d e n t ss u b m i taq u e s t i o nw h e nh ec o n d u c t so n l i n el e a r n , t h e s y s t e mw i l la n $ w o ri ti m m e d i a t e l y , t h u sg r e a t l yi m p r o v ep o s i t i v i t yo fs t u d y i n gf o r s t u d e n t s , a n dl e a v et e a c h e r sp r i l n a r ye n e r g yt ot e a c h i n gr e s e a r c ha n dr e f o r m i tw i l l e s t a b l i s haf a v o r a b l eb a s et op r o m o t et h eq u a l i t yo f d i s t a n c ee d u c a t i o n t h i sp a p e rf i r s ti n t r o d u c e ss o m ek e yt e c h n i q u e si na q a si nd i s t a n c ee d u c a t i o n c o n s i d e r i n gt h ea c t u a ld e m a n do f d i s t a n c ee d u c a t i o n , w eg i v eg e n e r a ld e s i g nf o ra q a s i nd i s t a n c ee d u c a t i o n , i n c l u d i n gd a t ao r g a n i z a t i o n , d a t aq u e r ya n dd a t am a n a g e m e n ti n q u e s t i o nd a t a b a s e b a s e do nc a l c u l a t i n gw e i g h to fs p e c i a l t yk e y w o r d sa n da n a l y z i n g a d v e n t a g e sa n dd i s a d v a n t a g e so f m lk i n d so f s e n t e n c e - s i m i l a r i t yc a l c u l a t i o n a , t h i sp a p e r i n t o d u c e san e ws e n t e n c e - s i m i l a r i t yc a l c u l a t i o nb e t w e e nt h eq u e s t i o nb r o u g h tf o r w a r d b ys t u d e n ta n dt h eo n e i nq u e s t i o nd a t a b a s e i nt h i sp a p e r , k n o w l e d g ec e l l ,t h el e a s to r g a n i z a t i o nu n i t , i su s e dt or e a l i z ee f f e c i e n t q u e r y t h ea n s w e ro f q u e s t i o ni nq u e s t i o nd a t a b a s e f i r s t l y , s p e c i a l i t yk e y w o r d si sg o t t e n b ys p l i t t i n gw o r dt e c h n i q t m ,t h e n w eu s et h o s ek e y w o r d st oi n q u i r eq u e s t i o nd a t a b a s e a n df o r mac o l l e c t i o n c a l l e ds e e dq u e s t i o n , f i n a l l ys a l t e n c es i m i l a r i t yc a l c u l a t i o ni s c o n d u c t e db e t w e e ns t u d e n t sq u e s t i o na n dt h eq u e s t i o ni ns e e dq u e s t i o nc o l l e c t i o n o nt h eb a s eo fa n a l y z i n gs e n t e n c e - s i m i l a r i t yc a l c u l a t i o nb a s e do nk e y w o r da n d s e m a n t i c , as e n t e n c e s i m i l a r i t y c a l c u l a t i o nw h i c h i n t e g r a t e sw e i g h t e d k e y w o r d s - s i m i l a r i t yc a l c u l a t i o na n ds e m a n t i c - s i m i l a r i t yc a l c u l a t i o ni si n t r o d u c * d , a n di s 重庆大学硕士学位论文英文摘要 i m p l e m e n t e db ya s p n e ti na q a sf o rd i s t a n c ee d u c a t i o n f i n a l l y , s o m ee x p e r i m e n ti s e x p l o i t e da n d s h o w st h a tt h es y s t e mb e h a v e sb e t t e rp e r f o r m a c e0 1 1t h er a t eo f v e r a c i t y k e yw o r d s :d i s t a n c ee d u c a t i o n , q u e s t i o n - a n s w e r i n gs y s t e m ,d a t ao r g a n i z a t i o n , d a t a q u e r y ;, s e n t e n c e - s i m i l a r i t yc o m p u t a t i o n i l l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重庆太堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:每泓签字日期:沙夕 年,月;日 学位论文版权使用授权书 本学位论文作者完全了解重庆太堂有关保留、使用学位论文的 规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许 论文被查阅和借阅。本人授权重庆太堂可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 保密() ,在年解密后适用本授权书。 本学位论文属于 不保密( 、) 。 ( 请只在上述一个括号内打“4 ”) 学位论文作者签名: 今氚毒 导:多历 签字日期:勿哆年j 月? 日签字日期:湖夕年s - 月刀日 重庆大学硕士学位论文 1 绪论 1 绪论 1 1 论文的目的和意义 构建学习型社会,是现代社会发展的必然趋势,是提高我国国民素质和消除 各类专门人才短缺对社会经济发展各项事业发展制约的有效途径。要建立学习型 社会,除了要让每个公民牢固树立起学无止境、终身学习的理念外,目前最有效 的方式就是依托网络教育构建终身学习体系。江泽民同志在第三次全国教育工作 会议上特别指出:“终身学习是当今社会发展的必然趋势。一次性的学校教育已不 能满足人们更新知识的需要,要以远程教育网络为依托,形成覆盖全国城乡的开 放教育系统,为各类社会成员提供多层次,多样化的教育服务”。 网络教育基于计算机网络平台,运用现代信息技术手段,构建了教学支持服 务系统。其最大的特点就是最大限度地开放教育教学资源,满足学习者个性化学 习需要,使学习者可以在任何时间、任何地点学习任何想学的知识内容,并能够 提供完善的教学支持服务。答疑系统作为教学支持服务的一种,在个性化、自主 式的学习中起到了非常重要的作用。 答疑是学生进行系统学习的有益补充,同时也是学生巩固知识的重要途径, 无论学习形式如何变化,答疑对于学生学习活动来说是必要且不可或缺的。在网 络环境下,学生在学习过程中不可避免地要碰到各种疑难问题。面对数量众多的 学生,教师由于时间和精力的限制,往往难以及时回答学生提出的所有问题,容 易挫伤学生的学习积极性;回答多个学生的同一或类似的问题导致教师重复劳动, 浪费了宝贵的教师人力资源。因此研究答疑系统实现的关键技术,建立一套高效 的、科学的答疑系统,将一些常见问题及解答放到问题知识库中,利用答疑系统 来自动满足学生的需求。这样不仅使学生在学习过程遇到的疑难及时得到解答, 保证了学生的学习积极性;还可以减轻教师的重复工作和辅导压力,使教师将主 要精力投到难点重点的教学研究和教学改革上,从而为扩大网网络教育规模、提 高教育教学质量提供有力的支撑和保障。 因此,在目前的网络教育教学模式中,加快对自动和智能答疑系统的研究和 应用,对进一步促进网络教育的发展有着重要的战略意义。 1 2 答疑系统国内外研究现状综述 1 2 1 国外研究情况 国外的教学网站一般都具有较好的交互、辅导答疑和反馈机制,并且每个学生 都由专门的教师负责,利用e - m a d l 、传真、信件、电话等进行答疑交流。同时, 重庆大学硕士学位论文1 绪论 国外也出现了一些比较成型的,能为用户解答非受限领域以及特定领域问题的答 疑系鲥1 】f 2 】【3 1 。这些典型的问答系统有; a s 踟v e s ( h t t p :w w w a s k j c e r e s c o r n ) 该系统是美国a s k j e e w s 公司开发 的。a s k j e e v e s 允许用户用自然语言句子提问,检索系统会自动分析用户的提问, 然后通过与用户的交互进一步明确用户的真正意图,这使得用户能够充分表达自 己的检索要求,这种检索方式检索到的网页比单纯基于关键词的网页更符合用户 的需求。但是,a s k j c e v c s 返回的结果仍然是网页,而不是问题的直接答案。 s t a r t ( h t t p :w w w a i m i t o d u p r o j e c t s i n f o l a b ) :是麻省理工学院开发的答疑 系统。于1 9 9 3 年开始发布在i n t c r n e t 上。该系统是第一个面向国际互联网的自然 语言问答系统,它能够回答针对m r r 信息实验室的地理学知识方面的提问,同时, 该系统的答案不局限于文本,也可以是图片、声音或者动画等。s t a r t 系统使用主 体关系对象三元组的形式存放系统知识以及回答问题,回答问题能力非常有限 【4 】【5 】。同时,该系统是以英文为母语的,只能识别用英语提交的问题。 a n s w e r b u s ( h t t p :w w w a n s w e r b u s c o r n ) :是一个比较成熟的答疑系统, a n s w e r b u s 是一个多语种的自动问答系统,它不仅可以回答英语的问题,还可以回 答法语、西班牙语、德语、意大利语和葡萄牙语的问题。 f a q f i n d e r :芝加哥大学人工智能实验室开发的f a q f i n d 一6 】【”。该系统预 先收集“问答对”到f a q 库,通过使用语义网分析与概念匹配技术,采用基于向量 的搜索引擎从知识库中抽取答案。 1 2 2 国内研究情况 国内网络教育答疑系统一般是作为网络教育教学支撑平台的一个子系统,而 不是一个独立的答疑系统。很多网络教育教学支撑平台只是提供了一些简单的答 疑方式,如让教师和学生通过留言板、b b s 、e - m a i l 、实时聊天等方式来答疑,这 种方式依靠人工来实现答疑。这些答疑方式对于远程教育来说有很多缺点:一是 耗费教师较多的时间来答疑,教师经常需要重复回答学生的提出的同样或类似的 问题;二是答疑经常会延时,有时学生提出的疑问很长时间得不到回复,这在一 定程度上影响了学生的学习积极性和学习效率。另外,国内已研发出一些可实现 自动回答学生提问的答疑系统,在一定程度上克服了以上的不足。这类系统大体 上可分为两类【s 】: 基于f a q 库的自动答疑系统。比较典型的是上海交通大学的远程自动答疑 系统。该系统的f a q 库存储了用户可能提出的问题塔解。系统根据用户输入的自 然语言句子,自动抽取其中的关键词,然后与库中问题进行关键词匹配,并将最 匹配的问题的答案从库中返回给用户。也就是,这类系统只是采用简单的基于关 键词的匹配技术,并没有涉及用户问句语义理解方面的技术。哈尔滨工业大学也 2 重庆大学硕士学位论文 l 绪论 开发过基于常见问题库的问答系统。与上面介绍的系统不同的是,它考虑了词语 的语义。采用基于语义的句子相似度计算方法来实现问题的答疑。该系统计算用 户提问与f a q 库中问题的词语语义相似度,进而得到句子之间的相似度,将相似 度满足一定条件的问题对应的答案从库中返回给用户,这种解答方式深入到了词 语的语义,其答疑效果比基于关键词匹配的答疑系统要好些。另外北京理工大学 也开发了类似的系统,它对用户问句进行了比较深入的理解分析,将理解结果表 示成问句向量,通过本体推理和语义相似度等策略来抽取问题的解答。 基于全文检索的自动答疑系统。基于全文检索的自动答疑系统主要利用了 信息检索技术来实现答疑。它的特点是知识库不是现成的问题一解答对,而是相关 文档库。对用户问句进行自然语言理解后,采用信息检索技术对文档库中的文档 进行检索后,将文档按与查询的相关度排序输出,最后系统从相关度比较高的文 档中抽取答案反馈给用户。华南理工大学就开发过类似的系统。 1 2 3 存在的主要问题 针对目前国内外网络教育中答疑系统的发展现状的研究发现,主要存在以下 问题: 国内网络教育在教育部的推动下,虽然发展比较快,但技术不够成熟,教 学支撑平台还不够完善,答疑系统也没有国外发展得快。目前国外的网络教育答 疑系统的研究成果已经能够在特定领域发挥作用,但是由于这些系统大都是以英 语为背景进行研究的,还不能直接移植到中文中来。这是由于中文在使用中比英 文要复杂得多,如中文需要进行分词处理,英语可以通过词形和时态等的变换来 帮助表达意思,而汉语很少具有这些形态的变化,只能以字义和词义为中心来表 达意思等。但是,我们可以借鉴国外的研究思路,应用到中文网络教育答疑系统 中 基于f a q 库的网络教育答疑系统的答疑能力毕竟有限,只能回答局限于 f a q 库中的问题,对于f a q 库内不存在的问题往往通过网络教育教学支撑平台答 疑系统自动给教师发e - m a i l 的方式来解决,这种答疑方式造成答疑延时,不能实 现及时解决学生在学习过程中遇到的问题,影响答疑效果,而且也会占用教师较 多的时间。基于全文检索的自动答疑系统,使系统可以回答的问题范围大大加大 了,答疑能力得到大大增强。但是,用户的全部问题都完全利用信息检索技术来 实现,系统的答疑速度会比较慢,一些用户常问的问题都要重复进行文档库的检 索,会很浪费时间,影响学生对系统的使用;但是对于完全基于f a q 库的自动答 疑系统,收集常见问答对是一个非常大的工作量。 从一定意义来看,目前国内网络教育答疑系统只是个信息查询系统,还存在 种种不足: 3 重庆大学硕士学位论文1 绪论 a1 ) 问题、答案表现方式不够丰富。现有的网络教育答疑系统主要还是以文本 为主,比如提问时只能采取纯文本的关键词的逻辑组合的形式。本系统在数据组 织时考虑了答案的多媒体表现形式。 2 ) 数据库管理功能不足。利用e m a i l 或留言板或b b s 来答疑虽然使用简单, 但管理起来不方便,不方便重复利用。有的系统虽然有数据库管理功能,但是也 还很不完善。本论文重点分析了答疑系统问题知识库中数据的组织。 3 ) 答疑的准确率和查全率都有待提高。答疑系统答疑的准确率和查全率不高, 主要表现在:仅仅通过关键词匹配,查出的答案经常答非所问。如何提高答疑的 准确率和查全率是本文研究的重点。 1 3 论文的主要研究内容 网络教育中答疑系统是一个具有知识记忆、数据计算、逻辑推理、知识学习 和实现友好人机交互的知识系统,它分自动答疑与人工答疑两大部份。它支持自 然语言的提问,自动检索问题并呈现有效答案,且具有知识库和用户信息库的管 理功能和教育意义的统计功能。在教学设计阶段,教师将学科最常见的疑难问题 及解答按一定的组织方式,存放到问题知识库中,当学生在遇到疑难问题时,通 过网络远程提交问题的自然语言描述,系统将根据学生提交的问题描述,对问题 知识库进行搜索,将搜索到的问题的答案呈现给学生。 当学生不满足问题知识库中给出的答案,则转到专家答疑模块,自动转发给 相应的教师解答,解答结果和问题将扩充到问题知识库中,以便其他学生遇到类 似问题时,能给予自动应答。 要设计和开发答疑系统,问题知识库中数据的组织方式将影响学生对问题知 识库的搜索效率;学生问题和问题知识库中问题的匹配( 句子相似度计算) 将影 响答疑系统对学生问题回答的准确率和查全率。基于以上分析,本文对网络教育 答疑系统的研究和实现主要从以下几个方面进行研究。 问题知识库的数据组织 专业关键词权重的计算方法 基于句子相似度计算的问题搜索技术 教育自动答疑系统设计及其实现。 1 4 论文的组织 本文内容组织如下: 本文第二章简单介绍了网络教育答疑系统的关键技术; 本文第三章介绍了网络教育中答疑系统的总体设计,包括答疑系统总体结构 4 重庆大学硕士学位论文 l 绪论 设计和各功能模块的主要作用和细分。根据网络教育答疑系统的用户和各用户在 系统中所起的作用,结合重庆大学网络教育实际情况,提出和设计了网络教育答 疑系统的总体框架。 本文第四章研究了网络教育答疑系统问题知识库中数据的组织。首先分析了 网络教育答疑系统问题知识库中数据组织的现状和不足,提出了答疑系统问题知 识库按知识单元进行组织的方式;为第五章的查询和匹配时缩小查询范围提供依 据,提高查询效率。 本文第五章分析了基于关键词的向量空间模型方法、基于语义词典的方法和 基于依存的方法的优缺点,结合网络教育答疑系统的实际提出了在网络教育答疑 系统中实现句子相似度计算的方法。 本文第六章详细介绍了网络教育答疑系统的实现。 s 重庆大学硕士学位论文 2 网络教育中答疑系统关键技术研究 2 网络教育中答疑系统关键技术研究 2 1 引言 要设计和开发一个高效的网络教育答疑系统,需要从问题的表示、解决问题 的手段、答案的表示以及对最常见的i n t e r n e t 的使用方式的支持四个方面加以考虑。 特别要研究网络教育答疑系统的关键技术,如汉语分词技术、数据检索技术、数 据库技术以及句子相似度匹配技术等。现对以上关键技术作一简单介绍: 2 2 汉语分词技术 汉语分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用前 景。网络教育答疑系统的实现也需要对学生用自然语言提出的问题和问题知识库 中的问题进行分词处理。汉语分词技术基本上可以分为两类:基于字符的方式和 基于词的方式。基于字符的方式是一种机械化的分词方式,根据预设的词长来切 分汉语字串。基于词的方式主要又可分为基于统计的分词方法、基于词典的分词 方法和基于理解的分词方法三种。目前多数分词系统采用基于词典的分词方法, 把其它两种基于词的方式作为补充,用来消解歧义、查找未登录词等。根据本文 在后续章节研究的实际情况,下面结合网络教育答疑系统的实现仅对基于词典的 分词方法进行详细介绍,并结合网络教育答疑系统的实际情况进行相关的分词研 究。 基于词典的分词方法是按照一定的策略将待分析的汉字串与一个“充分大的” 机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功,识别出 一个词。 常用的基于词典的分词方法是最大匹配法。这种方法中,首先取出可能成词 的最大数量的汉字,形成一个汉字串,到词典中去匹配。如果成功,则识别出一 个词。如果不成功,则减去最后一个字,对剩余的汉字串进行匹配。根据扫描汉 字串的方向的不同,最大匹配法可以分为正向最大匹配法和逆向最大匹配法,还 可以将正向最大匹配法和逆向最大匹配法结合起来构成双向最大匹配法。一般说 来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。因为汉语歧 义中交集型歧义的比重较大,而且通常发生在三个字的情况,汉语实际语料中a b c 形式的字串切分成a b c 的概率高于切分成a b c 的概率。统计结果表i j i j 9 ,单纯 使用正向最大匹配的错误率为“1 1 6 9 ”,单纯使用逆向最大匹配的错误率为 “1 2 4 5 ”。但这种精度还远远不能满足实际理解语义的需要。实际使用的分词系统, 都是把基于词典的分词方法作为一种初分手段,还需通过利用各种其它的语言信 6 重庆大学硕士学位论文2 网络教育中答疑系统关键技术研究 息来进一步提高切分的准确率。利用基于词典的方式进行分词,无法正确识别出 词典中未登录的词条,片面地增大词典的规模也不能完全涵盖这些未登录词。 在网络教育答疑系统中,很多专业关键词的分词和处理就很困难,如果计算 机不能识别专业关键词,分词和语义理解就无从谈起,所以需建立专业关键词库。 怎么建立网络教育答疑系统的专业关键词库昵? 根据现有的一些大型词典( 如知 网) 的组织方式( 规则) ,可以参照其规则组织专业关键词库。要建立专业关键词 库,首先要建立规则;因此下面先对知网进行介绍,然后描述专业关键词库的构 建。 知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概 念之间以及概念所具有的属性之间的关系为基本内容的常识的知识库。 知网中存放概念的知识词典是知网系统的基础文件,该文件中每一个词语的 概念及其描述构成一条记录。在知网中,“概念标注”的含义是对概念的义原解释, 知网概念的标注并不是简单地描述为义原的集合,而是采用知网义原和关系的组 合来进行标注。 知网对概念的描述是比较复杂的。在知网中,每一个概念用一个记录来表示, 如下所示: n o = 0 1 7 1 4 4 wc = 打 g c = v e 阻网球, 牌, 秋千,斌极,球确很棒 we = p l a y g e = v e e = v d e f = e x e r c i s e l 锻练,s p o r t l 体育 其中n o 为概念编号,wc ,gc ,ec 分别是汉语的词语、词性和例子, we 、ge 、ee 分别是英语的词语、词性和例子,d e f 是知网对于该概念的定 义,我们称之为一个语义表达式。其中d e f 是知网的核心。我们这里所说的知识 描述语言也就是d e f 的描述语言。d e f 项是一个概念的义原解释,用来计算语义 等。 为了建立专业关键词库,我们可以根据知网对概念的描述,对网络教育答疑 系统中专业关键词库进行构建。具体实现方法如下: 由于知网是对常识知识进行了本体( o n t o l o g y ) 分析而得到了义原的概念。 本文也需要对各专业学科领域进行了本体分析,提取了各专业学科领域概念,这 些概念是各专业学科中的常用概念;提取这些常用概念的目的是为了对专业关键 7 重庆大学硕士学位论文2 网络教育中答疑系统关键技术研究 词进行语义解释。 对于各专业学科领域内的专业关键词,可以利用领域本体,义原和关系的 组合来标注。对于某些复杂的概念,若直接采用义原和领域本体混合标注困难较 大,可采用知网概念,领域本体、义原及其关系相融合的标注方法【射。 例如: n o = 2 0 0 0 3 8 wc = 单用户操作系统 g _ c = n 畛 w e = g p 陟 d e f = o p e r a t i n gs y s t e m 臊作系统, * s i n g l e u s c 圳单用户,拌0 1 0 2 2 5 其中编号0 1 0 2 2 5 是知网概念愫作系统”的编号,由于某些概念如果用领域本 体和义原标注将非常困难,关系很难描述清楚,如嘘拟设备”,缓冲技术等领域 概念,此时就需加入知网概念来辅助标注领域概念。 2 3 数据检索技术 在网络教育答疑系统中,数据检索就是根据学生输入需要解答的问题,自动 从问题知识库中将相似程度最大的问题解答呈现给学生。网络教育答疑系统数据 检索模块主要功能是找出问题知识库中与学生所提出问题相匹配的问题解答。根 据问题知识库中问题答案对的表现形式、数据检索的表示方式和实现方式的不同, 可以将数据检索模型分为三种:布尔模型;向量空间模型;概率模型。 由于概率模型在实际应用中用得较少,本节只对前两种模型分别进行介绍。 2 3 1 布尔检索模型 布尔模型( b o o l e a nm o d e l ) 是基于集合理论和布尔代数的最简单的检索模型, 也是其他检索模型的基础。在传统的数据检索模型中,布尔检索模型( b o o l e a n r e t r i e v a lm o d e l ) 是非常常用的检索模型。布尔检索可以从以下几个方面理解【1 0 1 : 布尔检索模型是建立在文档表示的基础上的,文档的表示是由一组关键词 或标引词进行描述的,这与答疑系统中提到的通过关键词来表示问题知识库问题 答案对或学生提问语句是相同的。 为了便于查询,文档是以倒排文档的方式存储的,倒排文档( i n v v r t c df i l e ) 是文档中抽出的每一个特征的标示( 如:关键词) 作为存贮单元,并按某种顺序 ( 字顺序,分类号,序号) 排列,同时在每一个标识后面注明相应的文档的存取 重庆大学硕士学位论文2 网络教育中答疑系统关键技术研究 路径。不同类型的标识可形成不同的倒排文档,如著者倒排文档( 即著者索引) , 主题倒排文档( 即主题索引) 等等。答疑系统中文档的存储方式是文档向量表示 之后,生成词汇一文本矩阵,进行矩阵转换之后,以矩阵方式存储的。 用户查询则是由一组关键词或标引词构成的布尔逻辑表达式,应用“与、 或、非,逻辑关系连接查询的关键词,检索是对关键词逻辑表达式的匹配。例如: 查询“计算机网络的概念是什么”,需要提取关键词“计算机网络”和慨念”,查询 的逻辑表达式为“计算机网络a n d 概念”。一个文档当且仅当满足查询布尔逻辑表 达式时,它才被检索出来。 布尔检索模型查询简单,经过某种训练的用户可以容易地写出布尔查询式, 因此容易理解通过使用复杂的布尔表达式,可以方便地控制查询结果。另一方面, 从查询的结果和查询的表达上都不是令人满意的。布尔检索模型对于匹配的文档 要么相关,要么不相关,这种检索的效果不是很好。没有考虑文档之间的相关性。 逻辑算子“与”意味着全部;或”意味着任何一个;“非”意味着没有,对于复杂的 逻辑表达式不是很容易就能表示的。许多用户发现很难用布尔逻辑来表达他们的 查询要求。 布尔模型存在以下缺点嘲: 1 ) 布尔表达式对用户的检索意图的描述不全面,不能完全表达出用户的检索 需求; 2 ) 布尔模型精确匹配的特点可能导致检索出太多或太少的文档; 3 ) 布尔模型的检索策略是基于二值逻辑的,一篇文档要么是相关的要么是无 关的,不存在部分匹配的情况,这种本质缺陷使它无法完成相关文档的排序,只 能将检索结果简单输出,不能反映关键词对于文本的重要性,缺乏定量分析,排 在前面的文档不一定是最符合用户意图的文档。因此不能提供比较好的检索性能。 布尔模型的优点:具有简单、易理解、容易在计算机上实现且检索速度快等 优点,在很多检索系统中得到应用。 2 3 2 向量空间模型 向量空间模型( v e c t o rs p a c e m o d e l ) 认识到布尔模型中的二元权重的局限性, 从而提出了一个适合部分匹配的框架。它在查询串和文档之间分配给索引词非二 元的权重,这些权重反映了数据库中的每篇文档与用户递交的查询串的相关度, 并将查询返回的结果文档集按照相关度的降序排列,所以向量模型得到的检索结 果文档只是部分地匹配查询串。 向量空间模型( v s m ) 引入了将匹配度进行量化的机制;假定词在文档中的 重要程度不一样,用权值来区分词的重要性,每篇文档由多个加权索引词构成的 一个索引词向量来标识。这样文档和查询串的相似性就可以通过数值来衡量大小, 9 重庆大学硕士学位论文2 网络教育中答疑系统关键技术研究 即:相关度。 向量空间模型广泛采用余弦值法计算相关度,它指在向量空间里表示文档和 查询的词向量夹角的余弦值。检索出的文档可以按照相关度的递减顺序排列,这 个过程称为相关排序。通过人为地规定期望相关度的下界来筛选检索结果,能形 成不同大小的输出文档集合。 此外,在向量空间模型中还能类似地计算两篇文档之间的相似度,然后将文 档集合中所有的文档按照彼此的相似度关系归类,称为聚类。如果用户认为聚类 中的一篇文档与查询有关,可以将聚类中的其它文档取出参考,从而提高了检索 效果。 因此,向量空间模型的优点在于: 索引词加权的算法提高了检索的性能部分匹配的策略使得基于秩( r a n k ) 返回 的检索结果文档集更接近用户的检索需求。根据结果文档对于查询串的相关度可 以对结果文档进行排序。 2 4 句子相似度计算技术 句子相似度计算一般分为三个等级,分别为语法相似度、语义相似度,语用 相似度,计算句子之间的语用相似度一直是人们的目标【1 2 】。 在自然语言处理领域中,计算句子相似度的方法有很多。不同的方法很大程 度上依赖于汉语句子的不同表示形式。目前对句子相似度计算的方法主要有:基 于关键词的方法、使用语义词典的方法【1 3 儿堋、使用编辑距离的方法【1 5 】【1 6 1 、基于统 计的方法旧、使用骨架依存的方法【1 8 】【1 9 j 、基于语境框架的方法【2 0 】、基于属性论的 方法【2 1 】以及基于多特征融合的句子相似度计算方法【2 2 1 。 网络教育答疑系统中的句子相似度计算技术是在分词的基础上,从问题知识 库中匹配出与学生提问最相关的问题,设计一个比较理想的相似度匹配算法就显 得非常重要。通常做法是系统根据问题相关信息采用相似度算法来计算相关度。 在问题相似度算法计算中,普遍的做法就是直接根据初始问题匹配出的关键词集 合与问题库中的现有问题库中问题所包含的关键词集合进行关键词匹配,根据匹 配个数的多少进行降序排列,其中关键词集合对答疑系统的正确运行则有着至关 重要的影响。关键词一般由名词、动词、形容词这几类实词组成,虚词在语句中 没有实际的意义可忽略不计。关键词按照词性应该被赋予不同的权值,通常名词、 动词和形容词的权值比较大。在网络教育答疑系统中,专业关键词的确定和权重 计算很重要。 1 0 重庆大学硕士学位论文2 网络教育中答疑系统关键技术研究 2 5 数据库技术 在网络教育中,要设计和开发答疑系统,数据的组织方式直接影响了答疑系 统的效率。对远程教育中答疑系统数据库管理系统的研究主要从数据入库分类管 理、数据分类查询管理和人工管理数据三个方面进行研究 1 ”。数据入库分类管理 研究:支持从不同来源的原始数据库的导入,例如,从期刊论文数据库导入。数 据分类查询研究:随着答疑数据库中所存放疑问和解答信息越来越多,它必将成 为教学过程中的有用资源,因此数据查询模块为学生和教师提供多方面的查询功 能。我们根据向量空间模型对问题以及问题资源进行相似性匹配,从问题资源中 提取相似程度最高的问题提交给学生。匹配率是考察问题相似度的唯一衡量尺度, 使匹配率达到一定程度的问题及其答案呈现给学生。人工管理数据研究:尽管可 以实现一定程度上的自动入库管理,但是很多时候还需要人工对问题进行分类入 库等工作。 在网络教育答疑系统中,需采用数据挖掘技术,通过分析学生在课程学习过 程中提出的问题,可以发现教师授课过程中的缺陷,教师可以借此调整授课方式 和授课内容。同时,系统还可以通过分析学生的提问和浏览查询行为中分析出学 生个性化的学习特征并给出适当的建议。 另外,功能完整而强大的答疑系统,能够将来自各地的学生们的问题和老师 的解答组织起来存放至相应的答疑库中,随着问题与解答资源的逐步积累,自动 答疑命中率将不断提高。还可以通过各种方式进行查询统计,使答疑活动集中、 高效而且系统。 2 6 本章小结 本章主要介绍了网络教育答疑系统中涉及到的一些关键技术,他们包括汉语 分词技术、数据检索技术、数据库技术、句子相似度计算技术。这些关键技术在 构建和实现网络教育答疑系统中起到了关键的作用。 重庆大学硕士学位论文 3 网络教育答疑系统的数据组织技术研究 3 网络教育答疑系统的数据组织技术研究 3 1 引言 数据组织是指在数据库中按照一定的方式和规则对数据进行归并、存储、处 理的过程。对于学科的知识组织,传统教学中,教学顺序的依据都是教材。按照 n e l s o n ,l b o s s i n g 的见解,教材组织有三种方式:第一种是逻辑式组织,其要点是 顾及学术研究的体制,一切由易到难,由浅而深,注重逻辑顺序,有条不紊,纲 目井然。第二种是心理式组织,其要点是以学生为本,注重学习者的兴趣与需要。 第三种是折衷式或教育式组织,这是调和前两派的组织方式,视学科与学习者两 方面的需要及情况,兼采前述两种组织的精神,而不趋于极端。 教材的传统的单位是课( l e s s o n ) 。每一学科每一学期的教材都要分成若干课, 课的数量较多,范围较小,通常一二小时即可完成教学。流行的单位是单元( u n i o , 使学生的思维活动有一个段落,将教材或学习经验构成一个个有机的单元。单元 包含两个侧面:一是依据学生的思维结构和过程,进行教材和学习活动的程序设 计的单元;二是依据这种计划,知道学习者的思维活动,以形成一定的概念与技 能的单元。 一般认为,理想的单元的特征是:单元应以适合学习者的切实的目标为中 心加以组织;通过单元系列,应当有助于学习者的全人格的发展;各类单 元应以生活经验为基础,上升到发现原理的教材单元,再返回经验单元;单元 内容应当是学习者力所能及的;单元要适应能力、性别的个别差异,提供多彩 的活动。 在网络教育教学和答疑系统中,知识材料的组织与传统教材的组织有很大的 差别。内容的区别。传统教材中,对应每一个知识点,只有一种材料组织方式; 而在网络教学环境中,教学材料非常丰富,对应每一个知识点,都有多个教学材 料,它们的难度不同,认知类型不同,相应的教学形式也不同。组织方式不同。 传统教材中,知识都是以书本为载体,因此教材有其特有的线性的特性;而在网 络教学和答疑系统中,知识的组织是以超媒体的方式组织的。内容的呈现方式 不同。传统教材中,知识都是以文本的方式呈现的,辅以少量的图片;在网络教 学和答疑系统中,内容的呈现方式可以是多种多样的,文本、图像、声音、动画 等多种媒体表现形式。 网络教育答疑系统知识库中数据的组织要根据不同的科目,按照知识点和呈现方 式的不同,进行恰当的组织,以提高搜索效率。 在教学设计阶段,教师将学科最常见的疑难问题按一定的组织方式,存放到 重庆大学硕士学位论文3 网络教育答疑系统的数据组织技术研究 问题知识库( f a q 库) 中,当学生在遇到疑难问题时,通过网络远程提交问题的 描述,系统将根据学生提交的问题描述,对问题知识库进行搜索,按照检索内容 相关程度的高低,将对该问题的解答呈现给学生。 当学习者不满足问题知识库中给出的答案,则转到专家答疑模块,自动转发 给相应的教师解答,解答结果和问题将输入到答疑库中。或将问题公布在答疑中 心,征求解答,若有人( 教师或学生) 对其解答后,系统将通知该学生。如果问 题具有较高的价值,教师将该问题的解答归纳到问题知识库中,以便其他学生遇 到类似问题时,能给予自动应答。 3 2 网络教育答疑系统知识库中数据组织的现状和不足 对大多数的答疑系统来说,答疑库中的问题和答案没有很好的组织,就是简 单地堆积问题和答案。相对于这种简单堆积问题和答案的方式,要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论