网络检索系统的设计方案_第1页
网络检索系统的设计方案_第2页
网络检索系统的设计方案_第3页
网络检索系统的设计方案_第4页
网络检索系统的设计方案_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于 Lucene 的网络教学资源检索系统的设计与实现李勇 1 王移芝 2(1. 北京理工大学,北京 100081;2. 北京交通大学,北京 100044)摘 要 在网络教学资源平台中加入资源搜索功能, 有利于学习者快速定位 学习资源。本文在开源搜索引擎 Lucene 的基础上,设计并实现一个网络教学资 源检索系统。首先介绍如何用XML来组织网络教学资源,接着分析了系统的功 能目标和体系结构, 最后对系统的索引构建和检索系统实现中的关键技术进行探 讨。关键词 网络教育;教学资源;资源检索; Lucene;X M L1 前言随着网络教育迅速发展, 各种形式的网络教学资源日趋丰富, 信息的种类也

2、在不断的扩展。一方面越来越 多的非结构化信息不断出现,如文本、图像、动 画、音频、视频等,这些资源都属于非结构化数据,与之相应的网络教学资源的 组织却不尽如人意,找到所需要的教 学资源是一件费时费力的事。另一方面大 量的冗余信息、过载信息使得用户难以准确快速地找到他所需求的信息和资源。在此背景下,本文结合校重点教改项目“数字媒体资源建设的研究与实 践”,其总体思想是开发以 XML 为结构和内容载体的数字媒体资源库,并将其 以丰富的表现形式在浏览器中显示出来。 笔者在本文中主要讨论如何在数字媒体 资源平台中加入中英文搜索引擎。使用Lucene和XML技术设计并实现一个Web 搜索引擎,可对数字媒

3、体资源平台中的全部文本、图片、视频、动画等资源进行 搜索,以便学生和教师用户快速定位和找到所需 要的数字媒体资源。Lucene 不是一个完整的全文索引应用,而是一个用 Java 写的全文索引引 擎工具包,它可以方便地嵌入到各种应用中实现针对应用的全文索引、 检索功能。 可以把 Lucene 当成一个支持全文索引的数据库系统 1 。 其组织结构如图 1所 示。 Lucene 包含了大量的抽象类、接口、文档类型等,需要根据具体应用来定 义实现,本文通过扩充 Lucene 包来完成中文的全文检索功能。查询语句4org.apach&lucene. queryPaser查询结果org apach

4、e luc ene analysis被索引文件org apache luc ene. s earch对外接口arg. apachd luc ene. do cumentwg. apache luc ene. index索引文件. org. apache luc ene. stor eorg apache luc ene. util基础结构封装图1 Lucene系统的结构组织图2系统功能目标设计本文实现的教学资源搜索引擎主要由四大功能模块组成:(1) 存储模块:本系统在资源的组织上,将资源的相关信息用XML文件来 存放,使其独立于各种平 台,以便数据能够方便地进行传递。把搜索到的信息 也存进单一

5、的XML文档中,相对于每个独立文件,它可以减少索引程序进行文件定位和打开关闭文件所需要的时间,这在数据量比较大的时候效果特别明显2 o资源存储描述如图2所示。在系统中,对资源源数据描述包括资源描述、知识点描述、关键词描述、试 题描述、用户信息描述。资源描述是对系统中各种资源的描述信息包括资源 ID、 资源关键字、资源章节、资源类型、资源存放路径等信息;资源信息的描述采用 了 IMS的内容包装规范,这种规范的优点是可以清晰地描述资源的结构及相关 资源的存储位置,同时具有很高的扩充性,为搜索引擎的应用提供了方便。(2) 文档分析模块:该模块主要针对 XML文件,其主要功能是把XML标签 去掉。(3

6、) 索引模块:主要负责新建索引、更新索引,以及维护数据索引。索引 程序需要对XML文档中的文本、图像、动画、音频、视频等数据进行索引,为索 引程序的运行过程建立运 行日志,并存盘。(4) 检索模块:以Web页面作为用户检索的界面,对数据进行检索,支持 高级查询,对检索结果提供方便的查看方式。Ident i ferKryV or dTypi'Topic"TopicELesooLrccTje 巳 曰'fiesooLrccTjcFilelueFil«IueLocal i. odl Autllfiir图2资源描述XSD文件的直观图3系统结构图与XML处理3.1系统结

7、构图图 3 搜索引擎结构图Lucene 本身只是一个组件,而非一个完整的应用,所以若想让 Lucene 在数 字媒体资源平台上 运行,需在 Lucene 基础上进行必要的二次开发。 在本系统中 利用 Jsp+Javabean 技术,构建搜索引擎模式。 Jsp 负责页面处理,数据和逻辑 处理 则由JavaBeans完成。图3为搜索引擎的结构图。3.2 XML 文档处理根据系统词典,用MM法对资源关键字和描述分词后,接着要建立索引,Lucene对文件进行索引使 用的是IndexWrite类。因为Lucene本身只能对TXT 文件和HTMI文件进行索引,所以要对其它的文档进行索引,还必须扩展 Luc

8、ene 的文 件内容分析器 2 。资源文件的信息以XML文档存储,XML中有大量的标记,如在“vResources><type>04v/type>< /Resources”中的 “<type > ”和“</ type >”对搜索来说是噪音信息,这些标记必须首先去掉,才能进行进一步的处 理。其基本原理是在碰到“ <”或“ </'标记时,就向下 找>”标记,找到后, 将“<”或“</”同“ >”之间的内容在一张标记词表中检索,这张词表包括了 课件文件中的大部分标记。如果 检索成功,则去除这些标记。4

9、lucene 检索系统的实现4.1 索引构建索引构建模块将上述处理后的数据源 XML文档转化为Lucene所能使用的索 引文件(docume nt)。将一条数据信息添加到索引文件中,首先创建了类 Docume nt的一个实例,它由一个或者多个的域组成。其域为实际文档的一些属 性。比如对于XML数据源中一条网络教学资源的信息记录,它的域可能包括资源 名称、资源描述、资源关键字、 资源所属目录等。 不同类型的 Field 来控制文 档 的哪些内容应该索引, 哪些内容应该存储。 其次向文档中添加域, 每个域包含两 个属性,分别是域的名字和域的内容。本系统中分别是Res_Name和Res_Desc,存

10、储需要索引的资源名称和描述。 最后把准备好的文档添加到了索引当中。 当把 索引文档都添加到索引中后,要关闭索引,这样才保证把添加的 文档写回到硬 盘上。创建索引最重要的类是 IndexWriter ,其构造器有 3个参数,分别为存储索 引文件的路径、分 词器及布尔变量,用于控制是重建索引,还是复用原有索引 4。修改该索引器所使用的语言分析器,使其支持中文分词。本系统采用了 基 于字典的前向最大匹配法(MMS)的中文分词器,并且在生成索引器时将支持 此中文分词器作为参数传递给索引器, 成为索引器的成员, 使其在索引过程中使 用 该语言分析器进行分词。 IndexWriter 方法即为 Index

11、Writer ( “RSindex” , new MMSstandardAnalyzer() , true )。4.2 检索系统的实现用户在搜索页面中 输入需要查询的关键字后, 将关键字送到 Lucene 的查询 分析器中。这里的查询分析器使用的是 Lucene 核心中的 Query2parse 类,对用 户提交 的查询关键字组成的逻辑表达式进行分析。 对己建索引的搜索进行搜索, 在类中建立一个新的方法 search (String ),参数 indexDir 为索引建 立的目 录, queryString 为查询的字符串,这里搜索过程主要用到两个对象IndexSearcher和Query。I

12、ndexSearcher用来找到索引数据,Query用来处理 搜索请求 5 。然后被调用进入 Lucene 的搜索入口,再对索引进行查询,然后返回查询结 果。检索时,用户提交检索关键字,先调用的Lucene查询分析器分析用户提交 的查询,然后调用 IndexSearcher 类进行搜索, 就是按查询分析器所形成的查询 条件Query对Lucene索引进行搜索匹配,在经过 Lucene的排序后返回结果为 类,可以通过它再访问Document索引文件field中的内容,最 后输入用户查询、 调用检索器,将检索器返回的查询结果即多个 hits分页显示在 Web结果页面。 在本系统中,用户可以通过关键

13、字、 资源类型检索相关资源, 单击“检索资源”, 显示资源检索结果页面。5 总结本网络教学资源检索系统是基于 Luce ne开放源代码技术的二次开发利用, 在查询方式、检索结果处 理和分类检索等方面有较大的改进。同时,它放弃了 传统教学资源搜索引擎的基于数据库匹配的查询方式,采用了 XML来组织存放资源的相关信息。该方法不仅采 用了基于字典的前向最大匹配法分词检索技术, 还支持动态更新Lucene文档索引等许多新技术。当然,本系统在许多方面仍需 要改进,如对查询条件中“or”语法的支持、更智能的中文切分与信息过滤等,这些有待于进一步的开发和深入探讨。参考文献1 王莉云,王华,陈刚,姚乃明;基于的Luce ne全文检索系统的设计与实现J 计算机工程与设计,2007 (12)2 李 毅,杨善林,刘业政,顾铁军基于XML的网络课件环境中搜索引擎 的实现J.武汉理工大学学报,2003 (6)3 晁岳峰,曹作良,郭英玲.基于Lucene的搜索引擎在远程教育平台中的 实现J.天津理 工大学学报,2005 (12)4 lucene 官方网站 http :/jakart

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论