下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、ElasticsearchBERTElasticsearchBERT构建搜索引擎作者:Hironsan编译:ronghuaiyang导读强强联合,看看是否能有1+12的效果。在这篇章中,我们使个预先训练好的BERT模型和Elasticsearch来构建个搜索引擎。Elasticsearch最近发布了带有量字段的本相似性搜索。另,你可以使BERT将本转换为固定长度的向量。旦我们通过BERT将档转换成向量并存储到Elasticsearch中,我们就可以使Elasticsearch和BERT搜索类似的档。本使Elasticsearch和BERT按照以下架构实现了个搜索引擎。这,我们使Docker将整
2、个系统划分为三个部分:application,BERT和Elasticsearch。这样做的的是为了更容易地扩展每个服务。系统架构1. 下载预训练 BERT模型先,下载个预先训练好的BERT模型。以下命令是下载英版本的例:$ wget /bert_models/2018_10_18/cased_L-12_H-768_A-12.zip$ unzip cased_L-12_H-768_A-12.zip2. 设置环境变量你需要设置个预先训练好的BERT模型和Elasticsearch的索引名作为环境变量。这些变量在Docker容器中使。下的例将jobsearch指定为索引名,以及./cased_L-
3、12_H-768_A-12为模型路径:$ export PATH_MODEL=./cased_L-12_H-768_A-12$ export INDEX_NAME=jobsearch3. 启动Docker容器现在,我们使Docker compose来启动Docker容器。这要启动三个容器:application容器、BERT容器和Elasticsearch容器。$ docker-compose up注意,我建议你分配更多的内存(超过8GB)给Docker。因为BERT容器需要内存。4. 创建Elasticsearch索引您可以使create index API向Elasticsearch集群添
4、加新的索引。创建索引时,你可以指定以下内容:设置索引索引中字段的映射索引别名例如,如果你想创建带有“title”、“text”和“text_vector”字段的“jobsearch”索引,可以通过以下命令创建索引:# index.jsonmappings: dynamic: true,_source: enabled: true,properties: title: type: text,text: type: text,text_vector: type: dense_vector,dims: 768注意:text_vectordims值必须与预先训练的BERT模型的dims匹配。5. 创建
5、档旦创建了索引,就可以为某个档建索引了。这的要点是使BERT将档转换为向量。得到的向量存储在text_vector字段中。让我们把你的数据转换成个JSON档:Title,DescriptionSoftware Developer,lorem ipsumChief Financial Officer,lorem ipsumGeneral Manager,lorem ipsumNetwork Administrator,lorem ipsum脚本执完成后,可以得到如下的JSON档:_op_type: index, _index: jobsearch, text: lorem ipsum, titl
6、e: Saleswoman, text_vector: ._op_type: index, _index: jobsearch, text: lorem ipsum, title: Software Developer, text_vector: ._op_type: index, _index: jobsearch, text: lorem ipsum, title: Chief Financial Officer, text_vector: .6. 索引档将数据转换成JSON后,可以向指定的索引添加个JSON档,并使其可搜索。$ python example/index_documents.py7. 打开浏览器总结在这篇章中,我们使E
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工程监理年终个人工作总结
- 2022年个人年度工作计划范文合集
- 小学建议书范文集合五篇
- DB45T 2653-2023 桑叶红茶加工技术规程
- DB45T 2636-2023 内河LNG燃料动力船舶改造技术规范
- 2025试验检测委托合同
- 开展同学聚会创意活动的策划方案
- 委托书合同范文锦集七篇
- DB45T 2487-2022 供港澳苋菜设施生产技术规程
- 高中历史必修3教案
- 文学常识(全)课件
- 管理学(浙江财经大学)知到章节答案智慧树2023年
- 探究“燃烧的条件”实验的改进与创新(共11张PPT)
- 《戴小桥和他的哥们儿:特务足球队》交流课课件
- 2023届高考英语一轮复习 语法填空:人物传记类 专项练习10篇有答案
- 年5万吨含锡废料综合回收再生利用项目环评报告
- GB/T 22900-2022科学技术研究项目评价通则
- GM/T 0003.2-2012SM2椭圆曲线公钥密码算法第2部分:数字签名算法
- GB/T 28426-2021铁路大型养路机械钢轨探伤车
- 保安服务项目服务质量标准及日常检查考核标准
- Camtasia-Studio使用教程课件
评论
0/150
提交评论