充电网全文检索数据索引_第1页
充电网全文检索数据索引_第2页
充电网全文检索数据索引_第3页
充电网全文检索数据索引_第4页
充电网全文检索数据索引_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、充电网-全文检索解决方案2021-08-03目录一.全文检索数据来源3二.数据抓取规那么4三.中文分词-庖丁中文分词库4四.全文搜索效劳器Solr5五.全文搜索UI页面6一. 全文检索数据来源1. 课程数据:Ø 所需检索字段:id唯一标识索引、课程名称、课程简介、授课教师、所属教师机构、课程类型、发布时间、购置量、点击量、收藏量;Ø 点播课程:课件名称、课程有效期;Ø 直播面授课程:报名开始时间、结束时间、开课日期;Ø 面授课程:面授地址Ø 排序字段:发布时间、综合评价;Ø 课程数据分词查询字段:课程名称、课程简介、授课教师、发布时间

2、;2. 工程数据:Ø 需要检索字段:id唯一标识索引、工程名称、工程简介、工程类型、所属机构、工程类型、工程包含课程、报名开始时间、结束时间、发布时间、购置量、点击量、收藏量;Ø 工程数据排序字段:发布时间、综合评价 ;Ø 工程数据分词查询字段:工程名称、简介、所包含课程3. 教师数据:Ø 需要检索字段:id唯一标识索引、教师名称、教师简介、教师地址、教师评分,入住时间、包含课程名称Ø 教师排序:教师评分,最后登陆时间;Ø 教师分词查询字段:教师名称、教师简介、教师地址、包含课程;4. 机构数据:Ø 所需检索字段:id唯一标

3、识索引、机构名称、机构简介、机构地址、机构评分、入住时间;Ø 机构偏序字段:机构评分、入住时间;Ø 机构分词查询字段:机构名称、简介、机构地址、包含工程课程、Ø 注:四中数据同时出现排序优先级Ø 工程>课程>机构>教师Ø 机构排序:最后登陆时间,综合评价二. 数据抓取规那么1、增量抓取,每间隔1小时做一次4类数据的数据抓取。2、全量更新,每间隔6个月做一次4类数据的全量更新。三. 中文分词-庖丁中文分词库中文分词使用“庖丁中文分词库,基于Apache开源协议。庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的

4、,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了 国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。能够对未知的词汇进行合理解析四. 全文搜索效劳器SolrApache Solr (读音: SOLer) 是一个开

5、源的搜索效劳器。Solr 使用 Java 语言开发,主要基于 和 Apache Lucene 实现。Apache Solr 中存储的资源是以 Document 为对象进行存储的。每个文档由一系列的 Field 构成,每个 Field 表示资源的一个属性。Solr 中的每个 Document 需要有能唯一标识其自身的属性,默认情况下这个属性的名字是 id,在 Schema 配置文件中使用:id进行描述。Solr是一个高性能,采用Java开发,基于Lucene的全文搜索效劳器。文档通过 利用XML加到一个搜索集合中。查询该集合也是通过 收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论