下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、ElasticSearch是什么以及应场景ElasticSearch是个分布式,性能、可、可伸缩的搜索和分析系统看了上这段话,估计很多都懵了,这个是啥。我们先从搜索说起,先介绍下点1、什么是搜索百度、Google:我们想寻找个我们喜欢的电影或者书籍就会去百度或者Google搜索下。互联搜索:电商搜索商品,招聘站搜索简历或者岗位IT系统的搜索:员管理搜索,会议管理搜索2、如果数据库做搜索会怎么样在软件开发,数据都是存储在数据库的,如电商站的商品信息,员的信息等等,如果从员度去做搜索功能,我们会这么设计以上会存在个问题:1.如果表记录上千万上亿了这个性能问题,另外个如果有个本字段要在模糊配置,这个
2、就会出现严重的性能问题2.还不能将搜索词拆分开来,如上这个只能搜索名字是“张三”开头的员,如果想搜出“张三”那是搜索不出来的。总体来说,数据库来实现搜索,是不太靠谱的,通常性能也会很差3、什么是全检索、倒排索引和Lucene举个简单的例:如最近上映的热剧(碟中谍6:全解),我们想搜索下全解这个电视剧,可是在输的过程,不输了”全解”,我们看看百度这个返回了什么,百度返回的结果确实是我想要找到的内容,现在我们介绍下全检索和倒排索引是什么我们看看下这个图,假如我们有很多数据”全解电影,全解海报,全解评论,全解章”等等信息,从数据到构建倒排索引的过程我们图中标记为“1”,通俗点讲就是,倒排索引就是讲数
3、据中的词拆分构建个表,将关键字拆出来,后带上这个章的documentid号,例如中间这个就是倒排索引了。全检索就较好理解的,就是当我们输“全解”,会被拆分成”全”,“解”2个此,2个词去倒排索引去检索数据,检索到的数据返回。整个过程就叫做全检索如果这个数据库的思维来做的话,假如共100W的记录,按照之前的思路就是扫描100W次,且每次扫描,都需要匹配那个本所有的字符,确认是否包含搜索的关键词,且还不能将搜索词拆解来进检索如果是利倒排索引的话,假设还是100W,拆分出来的词语,假设有1000W个词语,那么在倒排索引中,就有1000W。我们可能不需要检索1000W词,有可能检索1次,就能找到我们需
4、要的数据,也有可能是100W次,也有可能是1000W次lucene:就是个jar包,包含了封装好的各种建倒排索引,以及进搜索的代码,包括各种算法。我们就java开发的时候3、ElasticSearch是什么Lucene是单机的模式,如果你的数据量超过了台物理机的容量,你需要扩容,将数据拆分成2份放在不同的集群,这个就是典型的分布式计算了。需要拷贝容错,机器宕机,数据致性等复杂的场景,这个实现就较复杂了。ES解决了这些问题1、动维护数据的分布到多个节点的索引的建,还有搜索请求分布到多个节点的执2、动维护数据的冗余副本,保证了旦机器宕机,不会丢失数据3、封装了更多级的功能,例如聚合分析的功能,基于
5、地理位置的搜索ElasticSearch的功能1. 分布式的搜索引擎和数据分析引擎搜索:站的站内搜索,IT系统的检索数据分析:电商站,统计销售排名前10的商家2. 全检索,结构化检索,数据分析全检索:我想搜索商品名称包含某个关键字的商品结构化检索:我想搜索商品分类为化品的商品都有哪些数据分析:我们分析每个商品分类下有多少个商品3. 对海量数据进近实时的处理分布式:ES动可以将海量数据分散到多台服务器上去存储和检索海联数据的处理:分布式以后,就可以采量的服务器去存储和检索数据,然然就可以实现海量数据的处理了近实时:检索数据要花费1时(这就不要近实时,离线批处理,batch-processing);在秒级别对数据进搜索和分析ElasticSearch的应场景1. 维基百科2. The Guardian(国外新闻站)3. Stack Overflow(国外的程序异常讨论论坛)4. GitHub(开源代码管理)5. 电商站6. 志数据分析7. 商品价格监控站8. BI系统9. 站内搜索ElasticSearch的特点1. 可以作为个型分布式集群(数百台服务器)技术,处理PB级数据,服务公司;也可以运在单机上,服务公司2. Elasticsearch不是什么新技术,主要是将全检索、数据分析以及分布式技术,合并在了起3. 对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 季节性库存管理的工作计划
- 运动技能竞技活动拓展计划
- 烟台大学《数据结构与算法课程设计》2022-2023学年第一学期期末试卷
- 年度班级工作任务计划方案
- 信阳师范大学《Java语言程序设计实验》2023-2024学年第一学期期末试卷
- 西南林业大学《固体物理学》2022-2023学年第一学期期末试卷
- 幼儿园应急事故培训
- 西京学院《外国文学》2021-2022学年第一学期期末试卷
- 西华大学《Java程序设计》2023-2024学年第一学期期末试卷
- 西北大学《人物素描写生》2021-2022学年第一学期期末试卷
- 基于单片机的数字频率计课程设计
- 公司撤诉申请书范本
- 六年级语文上册第七单元教材分析课件
- 消防维保指导价格
- 叶酸年终工作总结范文通用8篇
- 国民经济行业分类新旧类目对照表-266
- 教师岗位分类管理
- 品质中心职能说明书
- 解说经皮毒专题知识讲座
- 2022年平凉市庄浪县人民医院医护人员招聘笔试模拟试题及答案解析
- 内蒙科大社区社会工作教案08社区照顾
评论
0/150
提交评论