版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
垂直搜索引擎相关技术及其系统设计与实现,搜索引擎论文绍兴图书馆数字化工程经过10余年的建设,当前已拥有较为完善的软、硬件设施,积累了一定规模的数字资源,在特色数据库建设以及公共图书馆数字资源整合门户建设方面已具雏形,相继开通了多项数字化服务项目.2018年绍兴图书馆数字资源访问、下载量突破了80万篇(册)次.但同时,绍兴图书馆这些数字资源本身是零散的、孤立的,不利于读者的利用,而且绍兴地区各个图书馆之间资源因缺少有效的整合统筹途径,各自独立为营,资源重复建设的情况比拟突出.因而,实现具有实用性、整合性、统一认证、可扩展、可配置的数字资源门户(分享)平台,进而为读者提供统一服务入口,从各类资源与应用中获取个性化信息是很有必要的.提高数字图书馆的查准率、查全率是实现智能化知识服务的基础.在图书检索中,用户的查询请求一般用一个或几个本文关键词语来表示,而这往往很难忠实表示出用户的检索请求,导致用户真正需要的文档因本文关键词语的选择不当而无法检索出来.通用搜索引擎采集信息的速度跟不上网络资源的增长速度,检索词的命中率不到75%.绍兴市图书馆数字图书馆于2020年建成,为绍兴市图书馆量身定制一个垂直搜索引擎,提供个性化知识服务,对其数字图书馆建设是有意义和必要的.1国内外研究现在状况当前,国内基于垂直搜索引擎方面的研究大都集中在原理、算法等方面.邹嵩等通过研究最大长度匹配算法,提出了改良后的最大长度匹配算法以提高检索效率.夏斌等以用户对农业信息搜索需求为研究背景,采用向量空间模型对农业主题进行辨别,并采用网页内容和链接分析相结合的方式方法,设计实现了一个中文农业信息垂直搜索引擎.汲业等根据生活服务领域网页信息的特点,提出了一种面向生活服务领域的垂直搜索引擎模型,给出了该模型在信息采集、信息抽取、索引建立和信息检索等4个功能模块的详细算法及实现方式.刘博卿参军事工程兵的角度出发,对垂直搜索引擎进行系统研究,研究表示清楚垂直搜索引擎具有很强的针对性、智能性和实时性.而基于用户行为分析方面的研究,国内主要集中在算法研究阶段.王微微等针对现有的用户模型不能及时根据用户本身兴趣偏移进行更新的问题,提出了一种基于用户行为反应的兴趣度模型更新算法,实现用户兴趣的自动更新,得到针对新用户兴趣的推荐商品列表以及推荐商品的个性化排序,进而向用户进行个性化推荐.于升峰等从全面分析用户上网行为入手,构建网络行为数据库,采取区别不同用户的个性化主动RSS推送服务方式,提出了一种基于用户行为数据库的主动式知识服务形式.王存睿等结合用户行为时间序列和操作频次,融合FP-GROWTH算法设计了用户特征挖掘算法,建立网络形式的用户行为特征表示出方式方法,并设计了相应的用户行为采集系统.张宇红介绍地方文献作为特色馆藏进行主题标引的案例,其目的在于资源的共建分享.2垂直搜索引擎相关技术2.1知识组织系统知识组织系统(KnowledgeOrganizationSystems,KOS),是随着数字信息组织技术及人们对信息组织需求的发展,由信息组织向知识组织变革而产生的各种语义工具的统称.知识组织系统的类型最早期是分类法,其后出现了叙词表、概念地图、语义网络以及本体等.利用知识组织方式对图书等资源进行重新标引,能够揭示其语义特征进而支持相关推理.利用领域知识对资源进行二次加工和整合,能够赋予资源专业化、语义化特征,因此克制了通用搜索引擎基于本文关键词语匹配查全率缺乏的问题.特色数据库正是利用知识组织系统进行再加工而构成的能够知足用户个性化需求的文献资源库,它依托图书馆馆藏文献资源,针对特定读者的信息需求,对某一学科领域或某一专题中有利用和珍藏价值的文献信息进行收集、整理、分析、评价、处理、存储等,并根据某一标准数据格式和规范将其数字化.2.2垂直搜索引擎垂直搜索引擎又称专业或主题搜索引擎,是专门针对普通搜索引擎查询的信息量大而且查询不准确、深度不够等特点提出的新查询服务工具.垂直搜索引擎具有浓郁的行业和领域特色,是专为检索某一学科或主题的信息而产生的查询工具,专门收录某一方面、某一行业或某一主题的信息,对解决实际查询问题要比搜索引擎门户有效得多,其特点就是专、精、深.相比拟通用搜索引擎的海量信息无序化,垂直搜索引擎则显得愈加专注、详细和深切进入.垂直搜索引擎凭借明确的检索目的定位,对网页进行选择性收集,信息采集量小,更新及时,因此能有效解决通用搜索引擎的弊端.垂直搜索引擎正在以其日趋精准化、人性化的信息检索服务,提升人们对搜索引擎的使用率和认同度,助推了搜索引擎的快速发展.垂直检索引擎主要由内容抓取、建立索引以及检索系统组成.内容抓取主要是通过蜘蛛程序从信息源抓取数据.内容抓取牵涉的关键技术点有爬行途径分析、增量抓取与全抓取、信息构造完好性、信息唯一性辨别、多网页信息整合、自动标引等.建立索引是指把抓来的信息建立类似书目的数据文件,以实现高速检索.检索系统就是提供搜索功能的网站,网站的详细表现形式大不一样,但是都提供全文搜索功能.垂直搜索是对行业信息进行深度的加工,有效的整合.本文重点研究利用知识组织系统,对其图书检索内容进行分析,提供网页搜索无法做到的专业性、功能性,为用户提供深一步的服务和完好的体验.3系统设计与实现本系统以绍兴市图书馆为应用环境,利用知识组织方式对图书资源进行标引构成特色数据库,同时通过用户画像的建立,实现用户个性化垂直搜索服务.绍兴图书馆图书检索垂直引擎系统的原理如此图1所示,本系统主要由3个功能模块组成:用户建模模块、知识加工模块以及垂直搜索服务模块.3.1用户建模模块用户建模模块,是指通用对用户阅读网站等行为和用户相关的日志进行分析进而构成用户模板库等.IP地址是系统用户最主要的特征,阅读器Cookie能够将一样IP地址下的用户进一步细分.绍兴图书馆图书检索垂直引擎系统正式采用两者结合进行用户辨别.用户的行为能够通过如下方式表示:userInfor=<IP,Cookie,url,rfUrl,pageTitle,stamp,status>.华而不实url是访问的网址,rfUrl是前一个url,pageTitle是页面标题,stamp表示当下时间,status表示状态.用户辨别以及行为定义之后,系统能够复原用户在网站上的阅读行为并进行跟踪.绍兴图书馆图书检索垂直引擎系统通过用户辨别、页面行为跟踪,以及建立用户画像三个经过实现用户行为分析.3.2知识加工模块知识加工模块用于系统对资源进行加工,资源的加工精度决定了对外服务的质量,主要包括元数据管理以及知识加工等内容.系统各类用户各负其责,知识专家和领域专家对元数据进行管理,知识编辑人员通过知识组织库对图书资源进行标引等知识加工,进而构成特色数据库.本文中的特色数据库,能够采用顺序文件、索引文件、倒排文件等形式来组织.经过知识加工后,能够揭示隐含的有价值的信息.元数据管理包括元数据更新以及发布.元数据存储在专用的数据库中,分为索引目录和关系映射数据库.索引目录用于检索,关系数据库用于元数据与原文的关联记录.元数据仓储提供OAI-DP服务,供其它应用系统调用,并返回XML格式的结果.在绍兴图书馆图书检索垂直引擎系统中知识组织库采用本体来描绘叙述.本体能够使用资源表(t_re-source)将类和属性等信息组织起来.本体中的资源采用URI进行唯一标识,而URI是由namespace和lo-calname组成的.字段type记录资源的类型:类、实例、属性.绍兴图书馆图书检索垂直引擎系统存储表构造信息如表1所示.图书检索服务主要牵涉到的类包括书籍(Book)、作者(Author)、出版社(Publisher)和读者(Reader).图书检索牵涉到的图书类的主要关系有hasPublisher,hasPublishTime,hasCategory,hasKeyWords,hasPrice,hasWords,hasLanguage,hasAuthor,hasBorrowedTimes等,主要包括书籍的中文名称、语种、行业、出版时间、字数、价格、作者和借阅次数等信息.系统通过关系的连接,来到达添加信息语义的目的,例如中文与类图书名相关联构成中文图书,出借次数与行业相关联构成行业热门书籍.实例的基本信息存储在单独的实例表t_instance中,实例存储的主要字段有instanceID和instance-Name,以及每个实例的属性及属性值.系统采用基于三元组的存储思想,将instanceID,propertyID和value视为一个三元组,直接存储在表中.3.3垂直搜索服务模块垂直搜索服务模块是绍兴图书馆图书检索垂直引擎系统对外服务的模块,面对用户输入的响应,尽可能提供应用户满意的结果,提供垂直搜索和个性化资源推荐等服务.相对传统搜索引擎,垂直搜索引擎由于覆盖整个行业,搜索相关性更高层次,更符合用户意图.同时,绍兴图书馆图书检索垂直引擎系统由于知识组织系统的参与,数据构造化的因素,检索结果更是少而精.垂直搜索流程如此图2所示.用户输入检索词后,系统提取用户画像确定其关注的领域信息,然后对用户输入的检索词进行扩展等推理,并将推理结果交给检索模块进行检索,最后向用户返回检索结果.个性化推荐是以用户满意为中心的主动推送服务,是根据用户的不同兴趣和特点,提供有针对性的服务.系统根据不同时间用户行为的变化不断调整、丰富用户画像,寻找用户最相近兴趣和特点的人的近期情况,直接推送用户感兴趣的图书等信息.4结束语。绍兴市图书馆在主题标引方面已经获得了一定的成果,为数字图书馆图书检索垂直引擎的应用打下了基础.本文利用知识组织方式对数字图书馆图书资源进行标引等加工,构成特色数据库;同时,通过跟踪用户行为建立用户画像,在图书检索中引入垂直搜索引擎,以其专、精、深的特点,将显着提高查准率、查全率.特色数据库的建设以及个性化的服务,为绍兴市图书馆等中小型图书馆在知识时代的发展提供新的契机.以下为参考文献:[1]张敏.基于本体的垂直搜索引擎的研究[J].软件导刊,2018,9(2):13-15.[2]邹嵩,赵诗阳,周新志.垂直搜索引擎中分词技术的算法研究[J].计算机技术与发展,2020,22(2):131-137.[3]夏斌,丁立,乔红波,等.中文农业信息垂直搜索引擎的设计与实现[J].河南农业大学学报,2018,44(6):715-717.[4]汲业,陈燕,杨健,等.生活服务领域垂直搜索引擎的设计与实现[J].计算机工程,2018,36(24):24-26.[5]刘博卿.基于军事工程兵的垂直搜索引擎研究[J].科技创新导报,2018(18):6.[6]王微微,夏秀峰,李晓明.一种基于用户行为反应的兴趣度模型更新算法[J].辽宁大学学报(自然科学版),2018,38(1):40-45.[7]于升峰,蓝洁.基于用户行为挖掘和RSS技术的知识服务形式研究[J].情报探寻求索,2018(8):93-95.[8]王存睿,王元刚,陈婧
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2030年中国学校家具行业发展现状及前景规划研究报告
- 2024-2030年中国婴儿洗护用品市场运行动态及前景趋势预测报告
- 2024-2030年中国女性洗液行业市场营销模式及发展前景预测报告
- 2024-2030年中国多型腔热流道管坯模具境外融资报告
- 2024年标准简易个人鱼塘承包合同模板版B版
- 梅河口康美职业技术学院《高级语言程序实践》2023-2024学年第一学期期末试卷
- 茂名职业技术学院《语文教学设计与实施》2023-2024学年第一学期期末试卷
- 微专题定量测定型实验突破策略-2024高考化学一轮考点击破
- 吕梁职业技术学院《生物学科专业导论》2023-2024学年第一学期期末试卷
- 2024年某科技公司与某航空公司关于机载娱乐系统的合同
- 2024年华润电力投资有限公司招聘笔试参考题库含答案解析
- 垄断行为的定义与判断准则
- 模具开发FMEA失效模式分析
- 聂荣臻将军:中国人民解放军的奠基人之一
- 材料化学专业大学生职业生涯规划书
- 乳品加工工(中级)理论考试复习题库(含答案)
- 《教材循环利用》课件
- 学生思想政治工作工作证明材料
- 2023水性环氧树脂涂层钢筋
- 国开《Windows网络操作系统管理》形考任务2-配置本地帐户与活动目录域服务实训
- 环保设施安全风险评估报告
评论
0/150
提交评论