基于Sphinx构建准实时更新的分布式通用搜索引擎平台_第1页
基于Sphinx构建准实时更新的分布式通用搜索引擎平台_第2页
基于Sphinx构建准实时更新的分布式通用搜索引擎平台_第3页
基于Sphinx构建准实时更新的分布式通用搜索引擎平台_第4页
基于Sphinx构建准实时更新的分布式通用搜索引擎平台_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

孔雀V–CtrlV百度文库集文件编号:20121223-02整理人:http://www.ctrlv.cc/基于Sphinx构建准实时更新的分布式通用搜索引擎平台标签:搜索引擎、分布式、Sphinx、MySQL、并发前言:

2008年7月,我写过一篇文章《基于Sphinx+MySQL的千万级数据全文检索(搜索引擎)架构设计》。有不少网友希望阅读全文,我将该文档整理了一下,分享出来。文档解压后大小为7.33M,共19页。

本站下载地址:

/book/sphinx/sphinx_mysql.zip

新浪下载分流:

/f/6728201.html

上述文档架构存在的局限,我在2008年12月的文章《亿级数据的高并发通用搜索引擎架构设计》中已经指出:一是MySQL本身的并发能力有限,在200~300个并发连接下,查询和更新就比较慢了;二是由于MySQL表的主键与Sphinx索引的ID一一对应,从而无法跨多表建立整站查询,而且新增加类别还得修改配置文件,比较麻烦;三是因为和MySQL集成,无法发挥出Sphinx的优势。虽然如此,但对于一些写入量不大的搜索应用,已经足够了,或许对很多人会有帮助。

正文:

在这之后,本人基于《亿级数据的高并发通用搜索引擎架构设计》开发的Sphinx分布式通用站内搜索引擎平台,已经在生产环境运行9个月以上,经过运营中的不断完善与改进,目前已形成了一套可扩展的分布式通用站内搜索引擎框架。CMS、视频、论坛等产品发生的增、删、改操作,文本内容实时写入自行开发的

HTTPSQS

高性能简单消息队列服务,通过队列控制器更新索引和存储。提供支持XML、JSON的API查询接口,支持亿级数据的索引、分布式、中文分词、高亮显示、自动摘要、准实时(1分钟内)增量索引更新。

下面是Sphinx新的搜索架构中技术关键点实现方式的一些介绍,与大家分享、交流一下:

1、一元分词和中文分词的结合:

①、一元分词位于索引更新模块。Sphinx索引引擎对于CJK(中日韩)语言(必须是UTF-8编码)支持一元切分,假设【反恐行动是国产主视角射击网络游戏】这段文字,Sphinx会将其切成【反恐行动是国产主视角射击网络游戏】,然后对每个字建立反向索引。如果用这句话中包含的字组成一个不存在的词语,例如【恐动】,也会被搜索到,所以搜索时,需要加引号,例如搜索【"反恐行动"】,就能完全匹配连在一起的四个字,不连续的【"恐动"】就不会被搜索到。但是,这样还有一个问题,搜索【"反恐行动游戏"】或【"国产网络游戏"】就会搜索不到。对于这个问题,采用位于搜索查询模块的中文分词来处理。

sphinx.conf配置文件中关于UTF-8中文一元分词的配置如下:...省略...

indext_source_main{

source

=t_source_main

path

=/data0/search/sphinx/data/t_source_main字段u2<50并且u2>90)

&filter_range=u1:1.23,99.645,false;u2:1034.3,7834.56,true

(浮点数范围过滤器:字段u1>=1.23并且u1<=99.645,字段u2<1034.3并且u2>7834.56)

6、搜索结果前台页面示例:

7、同一套服务器平台与API接口,通用于各类产品:

示例:

金山游戏文章与视频搜索:/result.php?w=%

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论