下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Lucene视频教程-基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎一、Lucene视频教程课程内容介绍: 1、整体思路 整个课程,按照一个从无到有的过程来展开。所有的数据,来自于互联网,用heritrix去抓取。对于抓取的数据,进行去重,去标签,然后利用lucene 和 solr 进行索引和搜索。如下图所示: 在网页去重、解析html讲解java开发,在搜索服务工具的封装中,讲解设计模式,项目的前端采用jquery,后台采用SSH2。 2、Lucene视频教程内容安排: 一、理论部分: 2.1、搭建heritrix 1.什么是网络爬虫
2、2.网络爬虫能做什么 3.Heritrix原理 4.Heritrix搭建 2.2、如何进行主题抓取 1.什么是主题抓取 2.主题抓取的意义 3.主题抓取的策略 4.如何用heritrix进行主题抓取 2.3、heritrix优化 1. ELFHash算法 2.关于robot.txt 3.将heritrix打包成工具 2.4、解析html页面 1.java正则表达式 2.基于模板获取网页内容 3.利用htmlparser解析html 2.5、中文分词介绍 1.Lucene自带的分词 2.ICTCLAS 3.IK 4.利用机器学习的算法识别中文文章中的领域词 2.6、网页去重 1.网页去重的意义
3、2.网页去重的主要方法 3.什么是tf*idf 4.基于指纹算法的网页去重 2.7、Lucene4.6快速索引与搜索 1.如何用lucene创建索引 2.如何用lucene搜索结果 3.Lucene中intfield怎么搜索 4.Lucene的结果高亮显示 2.8、Lucene4.6索引的相关操作 1.创建索引 2.修改索引 3.删除索引 4.索引优化 2.9、Lucene4.6的query、及queryparser 1.TermQuery 2.BooleanQuery 3.TermRangeQuery 4.NumericRangeQuery 5.PrefixQuery 6.PhraseQue
4、ry 7.MultiPhraseQuery 8.FuzzyQuery 9.WildcardQuery 10.queryparser 2.10、Lucene的Filter及自定义排序 1.Filter 2.Lucene自带排序及指定权重 3.Lucene自定义排序 2.11、Solr快速索引与搜索 1.什么是solr 2.为什么工程中要使用solr 3.Solr的原理 4.如何在tomcat中运行solr 5.如何利用solr进行索引与搜索 2.12、Solr的查询及Filter 1.solr的各种查询 2.solr的Filter 3.solr的排序 4.solr的高亮 2.13、Solr的fa
5、cet介绍 1.solr的某个域统计 2.solr的范围统计 2.14、Solrcloud集群搭建 1.zookeeper简介 2.solrcloud集群搭建 2.15、搜索服务的工具封装 1.工厂模式 2.封装搜索服务_lucene 3.封装搜索服务_solr 4.将lucene与solr封装成可以配置的工具,可以支持任何业务系统 二、Lucene视频教程项目部分: 2.16、Lucene视频教程项目实战 1.项目需求分析及框架选择 2.Struts 2.3.16介绍 3.Struts 2.3.16整合Spring 4.0.1 4.Spring 4.0.1整合hibernate 4.3.1
6、5.利用jquery-easyui 1.3.5 做后台管理页面 6.Heritrix 在工程中的运用 7.封装好的搜索框架在工程中的运用 8.Flexpaper模仿百度文库 9.文件上传 10.相关代码编写 11.搜索结果优化 12.项目总结 三、Lucene视频教程课程亮点 3.1 对heritrix进一步封装,可以按照需求配置,单独运行。 3.2 对lucene 4.6.0与solr 4.6.0进行封装,通过配置就可以对绝大多数的业务系统进行数据库及其文件的索引、搜索。 3.3 对目前最新的ssh(struts 2.3.16 spring 4.0.1 hibernate 4.3.1)整合,并结合目前最新的版本的jquery-easyui 1.3.5,构建了一个完整的垂直搜索引擎。 3.4 整个课程的理论部分,参看了大量的核心期刊论文,并针对目前中文分词,用纯java代码实现了一种基于无监督的识别方法。另外,实现了文本的特征抽取TF*IDF算法,最小编辑距离算法,文本相似度算法(传统的夹角余弦及指纹算法)。L
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校庆2024元旦联欢晚会闭幕词(3篇)
- 北京市顺义区2023-2024学年高一上学期期末考试化学试题(含答案)
- 江苏省镇江市2023-2024学年四年级上学期语文期末试卷(含答案)
- 记忆绕口令地理学习更轻松
- 设备购买合同范本示范
- 诚信广告自律保证书
- 详勘地质项目投标
- 语文大专论述习作考核卷
- 语文课引发的大学教育反思
- 负责到底的爱情保证
- 幼儿园小班上学期语言绘本-雪人
- Unit4NaturalDisasters教学设计高中英语人教版
- 人工智能在网络安全的应用详述
- 维保期证明书
- 海南师范大学《高等数学》2020-2021期末试卷B
- 安全管理人员任命的通知
- 贝多芬第九合唱交响曲教学设计
- 地铁站给排水施工方案
- 非暴力沟通(完整版)
- 跨境电子商务实务-教案
- 煤层气瓦斯地震勘探技术
评论
0/150
提交评论