



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于Heritrix和Sphinx的购物比拟搜索引擎研究基于Heritrix和Sphinx的购物比拟搜索引擎研究随着网络商品的极大丰富和分类的细化,搜索引擎已成为购物信息的重要来源。比拟购物搜索引擎是一种基于专业化的垂直搜索引擎,通过对电子商务网站或者局部实体店的商品信息进展采集和整理,向消费者提供特定准确的商品信息及相关辅助设施,减少信息不对称,优化购置决策;同时,帮助商家降低推广本钱获得针对性极高的目的用户,是将来网络购物搜索的开展趋势。然而,目前国内的比拟购物引擎普遍追求大而全,在细化用户需求和购物体验上较为欠缺。商品信息比拟侧重价格方面,对影响购物体验的其他因素,诸如商家信誉、折扣降价
2、、用户评价、退换条款等较少涉及。本文提出采用Heritrix和Sphinx技术搭建购物搜索引擎,将国内大型B2网站作为爬取信息来源,运用聚焦爬虫技术将目的定为抓取与用户某一特定体验主题内容相关的网页,以期更好的细分消费者人群,有针对性地满足用户体验。一、Heritrix和Sphinx技术特点1.1Heritrix工作原理Heritrix是一款基于java语言开发的开源网络爬虫,用于对网上的资源进展归档,建立网络数字图书馆,目前已经建立了400TB的数据。Heritrix爬虫每次只对一张网页的内容深度复制,包括获取图像以及其它非文本内容,抓取并存储相关的内容。详细筛爬过程中,爬虫先从队列中取出下
3、一个URL,通过HTTP协议将对应的网页爬取下来,然后解析内容,并且提取出包含的URL,将其中新发现的URL追加到队列中。最后将网页存放到本地磁盘的网页库中。爬取过程在积累到一定数量网页时即可终止,或者在队列为空的时候终止。1.2Sphinx工作原理Sphinx是一个基于SQL的全文检索引擎,本系统所采用的是基于Sphinx研发并独立发布的reseek,是一款专攻中文搜索和信息处理的中文全文检索/搜索软件,它适用于行业/垂直搜索、论坛/站内搜索、数据库搜索本文由论文联盟.LL.搜集整理、文档/文献检索、信息检索、数据挖掘等应用场景。Sphinxreseek整个系统主要由索引建立和维护程序索引程
4、序indexer、查询效劳程序后台效劳程序searhd、辅助工具程序searh,spelldup等三大局部组成。二、比拟购物搜索引擎系统构建2.1系统架构系统整体架构由四局部组成:1由Heritrix扩展而来的爬虫系统,负责从互联网抓取商品相关的信息。2ySQL数据库,存储由Heritrix抓取的数据。3Sphinx全文索引效劳器,负责对商品建立全文索引。4Tat效劳器,负责向客户端提供搜索效劳。详细系统整体架构图如图1。在初始化阶段,Heritrix任务需事先通过配置和测试,确认后可由Linux系统通过rn来自动调度。根据用户输入的商品信息,网络爬虫的每个抓取任务只负责单个购物网站数据的抓取
5、,但每个任务的线程数量可由实际情况进展调整。筛爬启动和完毕时间通过Bash脚本来监控,每隔一定的时间去检测相应的进程是否已经完毕,假如某个抓取任务完毕,那么设定好下一次启动的时间间隔。在本文构建的模型中采用ySQL数据库存储筛爬的信息,但直接从ySQL数据库生成全文索引读取比拟费时,因此采用基于SQL的全文检索引擎Sphinx结合ySQL,以主索引+增量索引的形式,大局部的搜索都集中在Sphinx全文索引中,少量数据可能需要直接访问ySQL数据库,这样可以使应用程序更容易实现专业化的全文检索。详细运行过程中通过rn设定方案任务,每隔一定的时间,Sphinx会从ySQL数据库生成增量索引,然后执
6、行主索引和增量索引的合并,并且在后台操作过程中,一直可以向客户提供搜索效劳。2.2数据存储模型的建立目前各种购物平台和测评网站给出的商品信息异常复杂,每个网站的页面都有自身特定的格式,一样商品在不同网站上也不尽一样,尤其是不同类型的商品在属性上差异极大,因此,需要建立统一的数据模型存储数据,也即通过多张表可以描绘各种类型商品的根本属性,而不需要针对每种商品建立不同的存储表。本设计中构建了商品表、商品别名表、品牌表、信息采集表、信息采集元数据表、商品途径表、网站表、店铺表和商品类别表等一系列数据模型。以商品信息表为例,如表2-1所示。表2-1商品表dity字段名定义类型特性说明idbigintu
7、nsigned自增、主键商品idnaevarhar255非空、全文索引商品的名字brand_idbigintunsigned外键品牌idinstane_idvarhar50非空ISBN,ISR,型号等is_uniquebl非空是否唯一datetiedatetie非空创立时间instane_id可以是型号、货号、ISBN、ISR等用来区分商品的编号。大局部商品都会有型号instane_id,因此只要有一样品牌且型号一样,就可以肯定是同一种商品。brand_id指向brand,指品牌如TL,也可指出版社或消费厂商。商品的名字需要用Sphinx建立全文索引。2.3信息提取流程通过设置起始网站,然后根
8、据需要提取并更新网页上的商品信息,在信息提取过程中通过判别程序进展断定,对已存在商品添加商品别名,不存在的商品添加商品信息,最后更新店铺信息。2.3.1商品信息提取判别提取产品的信息包括商品名称、市场价、最高价、促销价、促销描绘、销量描绘、评价、URL、店铺、类别、属性,其中对ISBN或ISR、品牌和型号属性要特殊处理,由于不同商家在添加商品信息时可能会有文字上的差异,提取时要结合Sphinx建立的全文搜索引擎仔细设计匹配规那么。假如商品属性中有ISBN,那么可以肯定是图书,假如有ISR字样,那么肯定为唱片。这两种编写都具有全球唯一性,因此可以设定商品表中的is_unique字段为真,判断时以
9、此编号为准。在没有全球唯一编号的情况下,大局部商品可通过品牌+型号的方式来判断是否为同一商品。其中型号可能有别名,如货号等。其余情况,以商品名字来判断,由于不同商家会往商品名称里参加很多其他信息,通过名字来判断同一商品可靠性较低。2.3.2商品信息更新流程商品信息更新分为店铺信息更新和类别更新两个局部。店铺更新是在商品添加成功以后来处理的,一般每个商品都会有默认ntext购物网站,个别商品可通过网页找到对应店家,此时就适用更新店铺流程,更新店铺最终是为了让此次采集时的上下文环境更加明确,以便将来对采集数据进展分类处理。类别更新针对局部能从商品信息页面中获取的网站而言,为可选功能。三、模型构建理论本文基于Heritrix和Sphinx技术搭建的购物搜索引擎在理论中把淘宝网、天猫网、卓越亚马逊、当当网作为重点爬取对象,能实现针对这些主要购物网一般商品的搜索。搜索结果页面如图2所示。商品比拟结果页面如图3所示。四、总结本系统通过Linux系统的脚本管理技术,将Heritrix网络爬虫技术、Sph
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 铜仁幼儿师范高等专科学校《综合英语:化学1》2023-2024学年第二学期期末试卷
- 辽宁冶金职业技术学院《运动技能强化与训练五》2023-2024学年第二学期期末试卷
- 武汉电力职业技术学院《四书导读》2023-2024学年第二学期期末试卷
- 四川卫生康复职业学院《测量学B》2023-2024学年第二学期期末试卷
- 天津医科大学《有氧团操》2023-2024学年第二学期期末试卷
- 湘潭医卫职业技术学院《体育统计》2023-2024学年第二学期期末试卷
- 南充职业技术学院《汽车基础英语》2023-2024学年第一学期期末试卷
- 生命的姿态500字作文(三篇)
- 2025年安徽省池州市平天湖建设工程有限公司招聘笔试参考题库含答案解析
- 山东泰安公开招聘社区工作者笔试带答案2024年
- 硫酸生产技术 二氧化硫催化氧化的化学平衡及动力学
- 浙摄影版(2020)信息技术三年级上册第一课认识计算机(课件)
- 第七讲-信息技术与大数据伦理问题-副本
- 校园安全常识测试题卷
- 建筑用玻璃ccc标准
- 新版PFMEA自动判定
- 第一课中国人民站起来了
- 高考阅读理解(main-idea)(课堂)课件
- 有限元分析研究汇报课件
- 超越广告-南京林业大学中国大学mooc课后章节答案期末考试题库2023年
- 境外货物管控应急预案方案
评论
0/150
提交评论