用java编写搜索引擎_第1页
用java编写搜索引擎_第2页
用java编写搜索引擎_第3页
用java编写搜索引擎_第4页
用java编写搜索引擎_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.1.1 准备工作环境(10分钟) 2009-10-29 10:02 罗刚 电子工业出版社 我要评论() 摘要:自己动手写搜索引擎第1章遍历搜索引擎技术,本章从快速实现基本的搜索入手,然后深入展开分析搜索的基本技术。本节为大家介绍准备工作环境(10分钟)。 标签:搜索引擎自己动手写搜索引擎 Oracle帮您准确洞察各个物流环节第1章 遍历搜索引擎技术搜索引擎是我们每天上网经常使用的功能,本书介绍的搜索技术需要Java编程语言基础。本章从快速实现基本的搜索入手,然后深入展开分析搜索的基本技术。1.1 30分钟实现的搜索引擎首先从一个简单的搜索引擎入手,实

2、现一个简单的指定目录文件的搜索引擎。实现之前需要读者具有Java开发方面的基础知识。1.1.1 准备工作环境(10分钟)首先要准备一个Java的开发环境。当前可以使用JDK 1.6。JDK 1.6可以从Sun的官方网站下载得到。使用默认方式安装即可。然后要使用的是一个用来管理搜索引擎索引库的jar包,叫做Lucene。目前可以从/java/docs/index.html下载到最新的Lucene,当前的版本是2.3。另外,使用集成开发环境Eclipse,其开发界面如图1-1所示。(点击查看大图)图1-1 Java开发界面如果需

3、要用Web界面搜索,还要下载Tomcat,当前可以从/下载到,推荐使用Tomcat 5.5以上的版本。然后增加Tomcat的内存使用量,防止内存溢出。如果是在Linux下,可以用vi编辑器修改./catalina.sh文件,增加行:1. JAVA_OPTS=-Xmx600m如果是在Windows下,可以用文本编辑器记事本修改./catalina.bat文件,增加行:1. setJAVA_OPTS=-Xmx600m【作者提示】如果不增加内存使用量,运行时可能会出现java.lang.OutOfMemoryError异常。1.1.2 编写代码(15分钟

4、) 2009-10-29 10:02 罗刚 电子工业出版社 我要评论() 摘要:自己动手写搜索引擎第1章遍历搜索引擎技术,本章从快速实现基本的搜索入手,然后深入展开分析搜索的基本技术。本节为大家介绍编写代码(15分钟)。 标签:搜索引擎自己动手写搜索引擎 Oracle帮您准确洞察各个物流环节1.1.2 编写代码(15分钟)搜索引擎的基础在于对全文索引库的管理,在Lucene中,通过IndexWriter来写入索引库。伪代码如下:1创建IndexWriter,准备写索引;2遍历要索引的路径;3优化索引。下面是主要的实现代码:1. publicvoidgo(

5、)throwsException 2. longstart=System.currentTimeMillis(); 3. if(verbose) 4. System.out.println(Creatingindexin:+indexDir); 5. /创建索引目录或者建立增量索引 6. if(incremental)System.out.println(-usingincrementalmode); 7. 8. Index=newIndexWriter(newFile(indexDir),newStandardAnalyzer(), 9. !incremental);/打开或创建索引库,in

6、dexDir是索引存放的路径 10. 11. Filedir=newFile(sSourceDir);/待索引的文件存放的路径 12. indexDir(dir);/索引路径 13. index.optimize();/索引优化 14. index.close();/关闭索引库 15. if(verbose) 16. System.out.println(indexcompletein:+(System.currentTimeMillis()-start)/1000); 17. 下面这段代码把文件内容加到索引库:1. privatevoidindexFile(Fileitem) 2. if(v

7、erbose)System.out.println(AddingFILE:+item); 3. Newsnews=loadFile(item);/把文件中的内容加载到news对象 4. if(news!=null&news.body!=null) 5. Documentdoc=newDocument(); 6. /创建网址列 7. Fieldf=newField(url,news.URL, 8. Field.Store.YES,Field.Index.UN_TOKENIZED, 9. Field.TermVector.NO); 10. doc.add(f); 11. /创建标题列 12. f=

8、newField(title,news.title, 13. Field.Store.YES,Field.Index.TOKENIZED, 14. Field.TermVector.WITH_POSITIONS_OFFSETS); 15. doc.add(f); 16. /创建内容列 17. f=newField(body,news.body.toString(), 18. Field.Store.YES,Field.Index.TOKENIZED, 19. Field.TermVector.WITH_POSITIONS_OFFSETS); 20. doc.add(f); 21. try 22. /文档增加到索引库 23. index.addDocument(doc); 24. 25. catch(Exceptione) 26. 27. e.printStackTrace(); 28. System.exit(-1); 29. 30. 31. 完整的代码可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论