版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浅析网络教育搜索引擎的智能化排序研究
搜索引擎的排序算法就是当用户输入查询关键词后,迅速在索引库中检索出文档,并将文档按照一定的规则进行合理排序,以使用户需要的文档尽可能排在前面几页,以便用户能快速查询到自己需要的信息。对于基于关键词检索的搜索引擎,通过Robot收集并索引的信息资源量非常庞大,比如Google可以搜索的网页高达33亿页。当用户进行搜索时,系统往往回返回数量巨大的检索结果,增加用户的负担,也降低了搜索引擎的效率,因此排序算法研究在搜索引擎中占有一种核心的地位。一、现代搜索引擎的排序技术1.1传统搜索引擎的排序技术传统搜索引擎的排序算法是对提取的每个关键词赋予一个权值,表示该网页与关键词之间的相关程度,不同的搜索引擎在计算权值时使用了不同的方法,但它们都以关键词在网页中出现的位置和频率为基本依据:1、关键词出现在标题中的网页可能比只出现在其它地方的网页更符合要求;2、关键词出现在网页的前面可能比只出现在网页的后面更符合要求;3、同一个关键词的出现多次的网页又可能比只出现一两次的网页更符合要求;把这些因素综合起来考虑便可得出一个计算关键词权值的公式。然而这种排序算法却有其局限性,由于网络资源的数量巨大,权值相同的两个网页质量却可能相差很远,而且很多网页设计者为了使网页能排在检索结果的前面,在其页面上堆砌关键词,或在重要的位置放置和网页内容无关却很流行的词汇,以达到增加浏览量的结果。1.2现代搜索引擎的排序技术现代搜索引擎为了达到较好的检索结果都使用新的基于超链分析的排序技术。其中以L.Page等提出的PageRank最为经典。PageRank算法由于在Google中得到成功的应用而被美国《时代》杂志评为“1999年度十大网络技术”之一。1、PageRank算法PageRank使利用网络自身的超链接结构给所有的网页确定一个重要性的等级数[1],当从网页A链接到网页B时,就认为“网页A投了网页B一票”,从而增加了网页B的重要性,最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化。同时PageRank还要分析为其投票的网页的重要性,重要的网页所投之票有助于增强其他网页的“重要性”,也就是说网页的重要性决定着同时也依赖于其他网页的重要性,而这个重要性的量化指标就叫PageRank值。2、算法的实现当搜索引擎接受到用户的关键词提问后,对提问式进行分析并从索引库中找到和搜索关键词匹配的所有网页信息,然后通过排序系统对网页进行相关性排序。3、PageRank算法的发展现在搜索引擎一般采用基于网页内容分析和基于超链分析相结合的方法进行相关度分析,也就是排序系统将网页的PageRank值与文档分词后的信息以及链接文件中的网页描述信息相结合起来确定检索结果排序的权值,这样就能客观地对网页进行排序,从而极大限度地保障搜索出来的结果与用户的查询相一致。二、网络教育资源的特色对搜索引擎的要求网络教育是建立在互联网上的,但却又不同于互联网,主要表现在教育资源的特点和学生的行为方式上。2.1网络教育资源的特点[2]同互联网上的信息一样,网络教育资源在数量上也是巨大的。但是,不同的网络教育资源分布虽广,但其内容之间的关联度和稳定性却是很强的,而且具有良好的可分类性。2.2学生学习行为的特点:网络教育中的学生获取知识的主要来源是从网络中查询自己需要的教育资源,但是学生不同于一般的网络用户,具有自己的特色:1、学生处于学习状态,对专业知识了解少;2、学生对网络的驾驭能力差,具有一定的盲目性;3、对于海量的信息资源,学生往往缺少耐性,不容易找到自己所需要的知识。2.3对搜索引擎的查询排序要求1、搜索引擎要能从学生的查询语言中提炼出学生的查询要求,并能更加知识结构对查询要求进行扩展联想,对所需资源进行准确定位。2、搜索引擎要能根据每个学生的学习特点对其提供资源,要能建立学生的兴趣“档案”,确定学生的兴趣范围,以便更准确的将学生所需知识排在前面。三、一种基于兴趣模型的排序方法研究3.1学科知识结构的构建在网络教育环境中,学科领域知识的分类是相对稳定而且准确的,因此首先以此为基础构建一个学科知识分类结构[3],这个结构是用分类树的方法建立各种学科知识概念之间的上下层关系,上层概念是其所有下层概念共同属性的概括,下层概念则是对上层概念的细化。整个概念树形成一个整体,每个概念节点都可以以学科分类代码为基础进行概念编码标识,并且每个概念都带有一个集合,是该概念同义但不同描述元素组成的集合。集合可以根据需要进行添加、删除、修改等操作。每个概念可与其它概念建立相应的关系,这种关系是不同于分类中上下层关系的横向关系。3.2兴趣模型的建立对于学生来说,其学习行为基本上是在本学科范围之内的,因此其兴趣范围较一般用户稳定,同时每个学生根据自身的学习特点不同,对知识概念以及概念之间的理解也不相同,这就构成了每个学生的个人兴趣所在。因此可以通过智能代理系统根据学生所表现出的兴趣趋向去构建学生的兴趣模型。1、智能代理系统的研究1)智能代理的特点[4]智能代理技术是人工智能研究的新成果,是信息世界种的软件机器人。它是代表用户或其他程序,以主动方式完成一组操作的机动计算实体。智能代理的特点是具有不断学习增长智能、适应信息和用户兴趣动态变化的能力,从而提供个性化的服务。2)网络教育中的智能兴趣代理智能兴趣代理[5]是通过对学生学习行为的分析和研究,了解和掌握学生学习的情况、需求、能力、进度、兴趣等,从而呈现符合个性的学习资源,使得每个学生身边仿佛有了解针对自身特点进行教学的“老师”而获得个性化的教学服务。其智能化的表现在于不断学习,适应学生兴趣动态变化的能力,从而实现查询的个性化。智能兴趣代理的基本思想是在概念树的基础上,通过学生对检索结果的反馈信息,逐渐建立各概念节点的横向联系,采用对学生的学科概念子树上的各节点及节点之间关系的等级计算,得到学生兴趣点的概念和关联等级排序。不仅可以得到学生感兴趣的关键词,还能得到学生所感兴趣的一组相互有关联的兴趣词,以此来确定学生的兴趣趋向。2、兴趣模型的建立当学生在第一次使用该搜索引擎系统时先进行基本信息的注册,包括个人信息、学科信息等。系统根据学生的基本信息,将概念网中相应的学科类别记录在学生的个人信息库中。当学生提出查询请求时,检索模块对学生的查询请求进行概念扩展,并将检索到的网页按照与各关键词的相关度进行排序,并将结果返回后,智能兴趣代理开始对学生的反馈行为进行分析,这里可采用学生打分及分析学生行为模式的方式:1)由于学生浏览网页时具有一定的盲目性和偶然性,需要学生对其浏览的网页进行评分。兴趣代理只关注评分及格以及学生进行下载或复制部分内容的网页。对于这些网页,兴趣代理提取出词频大于一定值的领域词,在学生的个人学科子树上将这些领域词之间加上关联等级值。2)在学生对一次检索结果进行遍历后,将每个关联边的所有等级值相加,存入信息库中。对学生的每一次检索都重复上述过程,对关联边进行等级值的叠加。这样经过叠加后,关联边的等级值越高,概念之间的关联性越强,如果多个概念之间的关联性都很强,则可认为反映了学生的兴趣趋向,构建了学生的兴趣模型。四、结束语参考文献[1]曹军,Google的PageRank技术剖析,情报杂志,2002.10,15-18[2]程智,《网络
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 宠物寄养行业发展趋势
- 服务业消费者行为研究
- 集成化分立器件应用
- 2024年度法律服务合同:彩钢瓦房建设法律服务与咨询
- 2024年度金融科技服务与支持合同
- 家居清洁服务品牌竞争力提升策略分析
- 电子工程中的光电技术
- 2024年度北京市商业空间墙绘设计及施工合同
- 2024年度建筑工程合同:某开发商与施工方关于建筑项目的施工合同
- 04版北京二手住宅定金合同
- 2024-2025学年湖南省常德市小学六年级英语上册期末同步自测试卷及答案
- 2024年足球课堂教学设计教案5篇
- 高职劳动教育方案(2篇)
- 2024石灰石粉混凝土
- 《无机化学》课件-分子间作用力
- 北京科技大学第二批非教学科研岗位招考聘用公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版
- 非连续性文本阅读之客观题3大陷阱-备战2024年中考语文考试易错题原卷版及解析版(原卷版+解析版)
- 安全教育年度计划养老院
- 中国文化概论(中英文字幕)智慧树知到期末考试答案章节答案2024年华侨大学
- 2024年职业病宣传周知识竞赛考试题库350题(含答案)
- 房地产经纪指南:业务流程介绍
评论
0/150
提交评论