网络信息检索与搜素引擎系统开发

上传人：d*** IP属地：贵州上传时间：2020-12-22 格式：DOC 页数：7 大小：64.51KB 积分：9.6 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、网络信息检索与搜素引擎系统开发考试参考资料 Brilliance搜索引擎：从互联网等信息源中以一定的策略采集所需信息，经加工处理(如对网页进行去重处理、抽取信息、索引、生成主题词标引、生成自动文摘、信息分类、对相似网页进行聚类等)，将用户感兴趣的内容按照一定的规则排序后，以超链等形式提供给用户的系统。搜索引擎主要包括信息采集、信息加工、信息检索与检索结果提供这几个部分搜索引擎分类：目录索引式搜索引擎、自动式搜索引擎、元搜索引擎、分布式搜索引擎自动搜索引擎：利用Robot采集相关网页。在进信息加工后(如：分析页面内容;生成索引; 摘要;分类)，根据用户给出的查询项进行检索，并将检索结果按相关性

2、排序(可根据匹配程度、查询项出现的位置/频次、网页链接质量等)后返回给用户。优点：自动采集，信息量大，更新较及时。缺点：检索时缺乏在语义层次上的深层分析。查准率查准率(precision)用来评价检索结果中有多少文档是和用户需求相关的。查准率=检索结果中和查询相关的文档数检索结果中的文档总数100%查全率查全率：文档库中所有相关文档中到底有多少被系统检索出来查全率=检索结果中和查询相关的文档数文档库中所有和查询相关的文档数100%网络信息检索的未来：1.以智能化为核心的智能检索2.多媒体信息检索3.跨语言检索4.个性化检索案例检索1. 输入待解决问题的要求、初始条件及其他相关信息2.

3、根据问题要求及初始条件，从案例库中提取一组与当前问题相似的案例3. 从相似的案例中找出最接近当前问题的案例，通过对目标方案的修改来解决当前问题。4. 问题解决后，当前的解即可新的案例存入案例库中，以备后用页面遍历算法广度优先：先采集完同一层的网页，在采集下一层的网页。深度优先：先沿一条路径采到叶节点，再从同层其他路径进行采集网页信息抽取的大致流程1、通过网络蜘蛛爬取页面，预处理后得到纯文本页面信息；2、对页面进行预处理，去掉JavaScript、图片、Flash等无关内容；3、找到对应的头部和尾部标志，并在其中抽取相应的内容；4、将抽取到的属性信息存入数据表。对Lucene Demo的测试1

4、、控制台方式（1）建立索引。在控制台cmd方式下输入：“java org.apache.lucene.demo.IndexFiles“d:workshopdocs”(设待索引文件在d:workshopdocs下)，则对目标文件夹(即d:workshopdocs)下所有文件建立索引，同时在当前命令行所在位置将生成index文件夹。（2）javaorg.apache.lucene.demo.SearchFiles，则在当前路径下找index文件夹并进行检索，要在存放索引文件的父目录中执行上述语句。这时将会出现“Enter Query:”提示符，在其后输入关键字后回车，即可得到查询结果，不支持中文检

5、索。2、Web方式 cmd模式下利用Lucene自带的Demo对指定位置的html文件建立索引并存放在指定的位置。（1）将D:lucene-2.4.0lucene-2.4.0luceneweb.war复制到Tomcat安装路径的webapps，输入http:/localhost:8080/luceneweb，会打开lucene的自带的Demo程序。（2）在新建的这个luceneweb文件夹下新建一docs文件夹，将一些txt、html等类型的文件复制到这个docs中。（3）对指定路径下的文件建立索引。cmd下输：java org.apache.lucene.demo.IndexHTMLcrea

6、te index“D:eclipsejavaTomcat 5.5webappslucenewebindex”“D:eclipsejavaTomcat 5.5webappslucenewebdocs”第一个参数是存放索引的目的地，第二个参数是存放待索引的文件的源位置（4）为使Lucene的demo能找到索引文件，需修改Tomcat安装路径下的webappsLucenewebconfigration.jsp，使之能指向正确的索引位置。修改“String indexLocation”使之指向正确的Index文件夹，String indexLocation= “.webappslucenewebind

7、ex”;（5）在Tomcat运行状态下，在浏览器中输入http:/localhost:8080/luceneweb。在文本框中输入关键字，如“Lucene windows”，按照指定的与关系来进行检索。Lucene索引和检索的主要流程步骤1：构建索引，实例化IndexWriter。在IndexWriter的构造函数中，第一个参数是有关索引位置的，如果采用FSDirectory方式，就要指定存放索引的位置；第二个参数是绑定分析器Analyze；第三个参数为设定是否用增量索引（true为删除原目录中所有内容新建索引；false为在原索引上追加索引即增量索引）。步骤2：构建Document并创建Fi

8、eld。步骤3：调用IndexWriter实例的addDocument()方法将Document添加到索引。步骤4：实例化IndexSearcher，构建检索字串后可将其交由QueryParser分析处理。具体地，索引和检索过程中可能涉及的主要代码如下。（1）构建索引：按照某种方式（如FSDirectory方式）指定存放索引位置及使用的分词分析器后构建索引：IndexWriterwriter = new IndexWriter(INDEX_STORE_PATH，new StandardAnalyzer()，true);（2）将指定的Field加入索引中：用IndexWriter的addDocu

9、ment方法实现：write.addDocument(bookname);（3）关闭索引：write.close();（4）构建检索对象：示例代码：IndexSearchersearcher = new IndexSearcher(INDEX_STORE_PATH);（5）给出查询字串：示例代码：String querystr= computer design;（6）指明检索字段及使用的分析器，这里使用的分析器要和建立索引时使用的一致，示例：QueryParserparser = new QueryParser(bookname, newStandardAnalyzer();（7）指定可能的逻

10、辑运算，如假定采用逻辑“与”，示例代码：parser. setDefaultOperator(QueryParser. AND_OPERATOR);（8）生成Query对象，示例代码：Query query= parser. parse(querystr);（9）得到检索集，示例代码：Hits hits= searcher.search(query);（10）显示检索结果，示例代码：For(inti=0; i 0) h = test.search(line); test.printResult(h);elsebreak; public LuceneSearch() try searcher =

11、 new IndexSearcher(IndexReader.open(Constants.INDEX_STORE_PATH); catch (Exception e) e.printStackTrace(); / 声明一个IndexSearcher对象private IndexSearcher searcher = null;/ 声明一个Query对象private Query query = null;public final Hits search(String keyword) System.out.println(正在检索关键字 : + keyword);try / 将关键字包装成Q

12、uery对象query = QueryParser.parse(keyword, contents,new StandardAnalyzer();Date start = new Date();Hits hits = searcher.search(query);Date end = new Date();System.out.println(检索完成，用时 + (end.getTime() - start.getTime() + 毫秒);return hits; catch (Exception e) e.printStackTrace();return null;public void p

13、rintResult(Hits h) if (h.length() = 0) System.out.println(对不起，没有找到您要的结果。); else for (int i = 0; i h.length(); i+) try Document doc = h.doc(i);System.out.print(这是第 + i + 个检索到的结果，文件名为： +doc.get(path);System.out.print(，它的分值是：+ h.score(i)+n); catch (Exception e) e.printStackTrace();System.out.println(-)

14、;2package testlucene;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.InputStreamReader;import java.io.Reader;import java.util.Date;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.

15、lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.lucene.index.IndexWriter;public class LuceneIndex public static void main(String args) throws Exception / 声明一个对象LuceneIndex indexer = new LuceneIndex();/函数实现参加下方/ 建立索引Date start = new Date();indexer.writeToIndex();/函数

16、实现参加下方Date end = new Date();System.out.println(建立索引用时 + (end.getTime() - start.getTime() + 毫秒);indexer.close();public LuceneIndex() try writer = new IndexWriter(Constants.INDEX_STORE_PATH, new StandardAnalyzer(), true); catch (Exception e) e.printStackTrace();/ 索引器private IndexWriter writer = null;/

17、将要建立索引的文件构造成一个Document对象，并添加一个域contentprivate Document getDocument(File f) throws Exception Document doc = new Document();FileInputStream is = new FileInputStream(f);Reader reader = new BufferedReader(new InputStreamReader(is);doc.add(Field.Text(contents, reader);doc.add(Field.Keyword(path, f.getAb

18、solutePath();return doc;public void writeToIndex() throws Exception File folder = new File(Constants.INDEX_FILE_PATH);if (folder.isDirectory() String files = folder.list();for (int i = 0; i files.length; i+) File file = new File(folder, filesi);Document doc = getDocument(file);System.out.println(正在建

19、立索引 : + file + );writer.addDocument(doc);public void close() throws Exception writer.close();1.1搜索引擎主要包括信息采集、信息加工、信息检索与检索结果提供1.2网络信息检索技术的未来以智能化技术为核心的智能检索、多媒体信息检索、跨语言检索、个性化检索。2.1网络信息采集的网页遍历算法广度优先与深度优先。（网站采集，全局URL采集）2.2网络信息抽取大致有两种：基于知识工程的方法和基于机器学习的方法。3.1搜索引擎一般是指从因特网等信息源中以一定的策略采集所需信息，经加工处理，将用户感兴趣的内容按照一定的规则排序后，以超链接等形式提供给用户的系统。3.2搜索引擎的分类：目录索引式搜索引擎，自动式搜索引擎，元搜索引擎，分布式搜索引擎。（百度，谷歌是自动（分布）式）。4.1 Lucene的测试环节控制台方式步骤1：建立索引。步骤2：在cmd控制台上执行查询命令。web方式步骤1:将D:lucene-2.4.0lucene-2.4.0luceneweb.war复制到Tomcat安装路径的webapps文件夹下。步骤2:为了后续的测试，在新建的

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

网络信息检索与搜素引擎系统开发

文档简介

温馨提示

最新文档

评论