版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、HX-2055 信息检索系统方案目录一项目意义2二系统设计 32.1技术原理32.2系统构架5三系统功能63.1 信息采集 63.2中文自然语言处理 63.3全文检索功能 73.4格式文件检索 8一 项目意义随着互联网的快速发展, 每天有数千万条信息生成, 包括文字信息、 图 片信息、视频信息、语音信息等,通过百度、谷歌等大型商业搜索引擎可以 找到自己想要的信息,但是也存在很多弊端。百度、谷歌等大型商业搜索引擎的搜索原理是基于网络爬虫( Spider ) 在世界各地百万台服务器上爬取网页数据, 然后存储到数据库之后展现给查 询用户,随着网站数量以及网络上信息更新的快速化, 这些网络爬虫不能保
2、证把所有的信息都抓到, 尤其是特殊行业的行业信息, 即便是抓到了也不一 定能够在众多数据中展现出来。 所以,对于一个部门来讲, 有必要存在一款 互联网信息检索系统来检索某一个行业的信息,每天自动在各大行业网站、 政府网站等数据库中检索最新信息, 通过自建的网络爬虫进行目标数据的抓 取、存贮、归类、展现。通过自己的信息检索系统,可以让自己部门每天轻松地获得世界各地、 各个部门都发生了什么, 有哪些新的政策, 方便管理层在最新的信息数据下 快速做出正确的决定。据统计,内部网上的信息每年以 200%的速度增长,其中发布到互联网 上的信息只占到信息量的 1%-2%,而 98%以上的信息是发布在内部网上
3、的。 内部网上的信息既有网页形式的,也包含其他 Word PDF XML等多种格式 的数据。因此,面对内部网中海量异构的信息资源, 如何帮助用户快速找到 他们所需要的信息是一个主要的技术挑战。搜索引擎能帮助用户方便、 快捷、安全地获取内部网上的信息, 在满足 高效的同时, 更重要的是保证了较高的查全率和查准率, 能提供智能化的概 念扩展搜索, 极大的提高工作效率。 内部网搜索引擎将组织中分散管理的信 息整合在一起, 在组织层面上实现新的增值与共享, 从而有效实现组织内容 利用的最优目标。搜索引擎的目标是实现内部网全文检索。 系统可对实施了内部网站资源 进行爬行, 无论内部网上的数据源在何地、
4、以何种形式存在, 都能够对其快 速地访问, 通过准确的分词建立索引, 从而实现高质量的搜索查询。 搜索引 擎的主要目标包括:(1)较高的查准率。搜索系统支持按词索引、按字索引,同时实现中 文自动分词。(2)较高的查全率。搜索系统可搜索各类异构的信息资源,包括传统 的网页信息、Word PDF XML等不同格式的文档以及各类主流数据库的表 中记录。(3)智能化的检索结果排序。安全搜索系统应采用相关度分析技术, 将用户需要的信息排在结果列表的前面,屏蔽无用和错误的信息。二 系统设计2.1 技术原理HX-2055互联网信息检索系统(以下简称 HX-2055)是针对特殊行业、 政府部门、决策部门设计的
5、一款高效率互联网信息检索系统, 采用国际一流 程序算法设计, 系统构架与谷歌和百度的搜索引擎拥有共同的技术特点, 能 够保证系统对实时信息的快速采集、归类、展现。在当今信息爆炸的时代, 每个单位或个人都在为信息的快速增长做出了 各种贡献。信息的种类也在不断的扩展, 越来越多的非结构化信息不断出现, 包括企业的各种报表、帐单、电子文档、网站的各种元素、图片、传真、扫 描影像,以及大量的多媒体的音频、视频信息等等。所有的存储数据中,有 85%采用的是非结构化格式的,非结构化信息每三个月增长一倍。由于信息 格式的差异很大,所以基本无法整合为统一的接口供政府工作人员或广大群 众方便使用。全文检索是计算
6、机程序通过扫描文章中的每一个词, 对每一个词建立一 个索引,指明该词在文章中出现的次数和位置, 当用户查询时根据建立的索 引查找,类似于通过字典的检索字表查字的过程。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务 的软件系统。全文检索系统的核心则具有建立索引、处理查询返回结果集、 增加索引、优化索引结构等功能。HX-2055全文检索系统的主要目标是实现 文本索引的快速构建 (Index Construction) ,动态文档集的索引维护 (Index Maintenance) ,短语查询 (Phrase Query),Top-K 查询的快速处理 (Top-k Query Proc
7、ess)以及各种检索模型(IR Model)等。高性能和灵活的架构也使HX-2055全文检索系统可以应用在内外网检索、 专业系统资料检索、行业 专业数据库检索。urn .-sr.ixiI MIK Notes J XX?XLSTPT.PDKOCIUWPSJiML,Kraiumpi41他网络Lmd 卜 de采集子就悄h 阴网 讪内14 姑HTIPhlrack4柑.a込乩滞肚Sqlscrv urSybaseMyitql虫引了系嫌菱昇泱?;1睿器适配关键词分析1Cftche fi 谢字段关联同义带銘自动撷关廈图1. HX-2055系统原理HX-2055 可以实现对内部网络和外部网络的信息抓取、归类、展
8、现。对于外 部网络,HX-2055采用网络爬虫定时对各大行业网站、政府部门网站进行数据爬 取,通过对海量数据的挖掘可以建立庞大的外网数据库,通过一流的数据整理算法,简单、快捷、方便的展示给使用者。HX-2055 也可以对内部网络进行数据的挖掘、分析、整理、展现。HX-2055通过基于局域网的网络爬虫算法,可以对政府、行业内部网站、单位内部服务器资源等数据源进行数据的抓取,包括内部网络的新政策、新闻通知、日常文档、 文件资料等。HX-2055搜索引擎的系统体系架构如图所示内部网用户搜索请求返回结果搜索结果排序VI数据库卄爬行控制数据源注册、资源描述、策略描述索 引 库爬行器用户提交搜索、安全过滤
9、g 数据I电子 电子:一;库表文档邮件匸j :内部网站 数据源1数据库数据源2文件系统 数据源3邮件系统 数据源n内部数据*索引模块图2 HX-2055内部网络搜索系结构图引擎实现了下列主要功能:(1)爬行器:爬行器根据资源描述信息对内部网中各种异构的资源信息进行爬行,获取所有能够获得的资源信息,资源信息的格式应包括:Web网页、 Word PDF Excel、PPT等格式的办公文档、各类主流数据库的表中记录。(2)索引器:通过中文分词技术,对爬行到的资源信息进行解析,建立索 引文件。(3)搜索:用户提交其搜索条件,搜索条件经过特定处理后,在索引文件中检索出所有满足搜索条件的资源。2.2系统构
10、架全文检索系统统一搜索平台的总体架构采用三层(数据层、应用层和表现层)可扩展的 设计,使整个系统不受硬件平台的限制,具有良好的扩展性和可管理性。袁现属信事检飯朋务栓竄烏缁栓索应闿忌应用服势巾囘祥 Web I eg I c WebsHpher 1 chug al $養褴主检只I 组合腔烹 牡赛跌抿 犠皈管理滌蜿疋现氏恚曾理词典傅理S据维护甬户管理权删f理葉引营理羸引创理 I 窮引同毋 I 素引笔略 I 購引雀扌户二系统功能3.1信息采集1、采用多线程并发搜索技术。2、提供多种米集范围控制方式,包括在指定网站内,在指定域内,以及在 指定IP地址范围等方式。3、可以设置多种网站采集控制方式,包括采集
11、的网页大小、超时限制等。4、提供高效更新功能,对于已经采集过的网站,更新时只采集发生变化和 新加入的资源。5、可以灵活设定采集结果的存储方式,具有开放性。3.2中文自然语言处理1、内嵌自动分词系统,有效提高了分词准确性。2、在应用层上,提供自动分类和摘要功能;3、支持按词索引、按字索引、按关键词索引,适应不同应用环境的需求;4、内嵌相似性检索技术,提供文章的相似性检索和聚类功能 3.3 全文检索功能1、支持 Web Browser/Web Serve检索方式;2、智能中文分词: 采用先进的自动分词系统, 根据大量的语料统计和分析, 建立了上万条的歧义排除规则,因此检索 “华人 ”不会把仅仅包含
12、 “中华人民共和 国”的文章检索出来。3、支持结构化数据和非结构化数据的混合检索;4、允许使用文中的任意字、词、句和片段进行检索;5、全方位检索手段:与、或、非、异或;6、对数值、日期等特征字段可以进行比较和范围检索;7、支持任意一致的通配符检索 (模糊检索 );8、支持多网站的全文检索9、具备中文自动分词系统,能有效提高分词准确性10、采用智能中文分词技术,建立高效索引库11、支持实时索引( 1分钟内)12、支持增量式实时索引13、多线程设计,支持大量并发用户访问,每秒并发达到 50个以上14、支持在结果中查询15、支持GBK、BIG5、UTF8、GB18030等编码,采用 UTF8编码方式实现多 语言和多文种内容的检索及展现。16、支持中文、英文和中英文混合检索17、多样化排序,包括按抓取时间排序、按相关性排序18、多种条件组合检索:包括标题、正文以及日期范围检索19、支持关键词逻辑表达式组合检索20、检索结果支持基于查询关键词的动态摘要21 、支持检索关键词的高亮显示22、将所检索到的信息可按设定的模版显示23、检索结果模板自定义如:如文章标题、文章栏目、简介、作者、点击率、时间以及文章类别等24、支持根据自动分类的类目进行检索25、采用 KNN 、SVM 为基础的相关性算法3.4 格式文件检索支持 MS OFFICE, PDF, HTML, 可以对 .pdf;.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年物流货物托管协议3篇
- 二零二五年度个人质押担保户外用品质押借款合同3篇
- 安溪高二月考数学试卷
- 初二上新观察数学试卷
- 2025年度xx苏州租赁房屋租赁合同续租意向书3篇
- 四年级数学(三位数乘两位数)计算题专项练习及答案
- 一年级数学计算题专项练习1000题汇编
- 2025年度搬家保洁一体化服务合同3篇
- 常州九上期中数学试卷
- 北京初中毕业数学试卷
- 《XL集团破产重整方案设计》
- 智慧金融合同施工承诺书
- 术后甲状旁腺功能减退症管理专家共识
- 【7道期末】安徽省安庆市区2023-2024学年七年级上学期期末道德与法治试题(含解析)
- 汉字文化解密学习通超星期末考试答案章节答案2024年
- 国家开放大学电大本科《工程经济与管理》2023-2024期末试题及答案(试卷号:1141)
- TBT3134-2023机车车辆驱动齿轮箱 技术要求
- 河北省石家庄市桥西区2022-2023学年七年级上学期期末地理试卷
- 口腔修复学专业英语词汇整理
- 【图文】化学纤维质量检验标准
- 婚丧报备表(共4页)
评论
0/150
提交评论