




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
0 HX 2055HX 2055 信息检索系统方案信息检索系统方案 1 目录目录 一一 项目意义项目意义 2 二二 系统设计系统设计 3 2 12 1 技术原理技术原理 3 2 22 2 系统构架系统构架 5 三三 系统功能系统功能 6 3 1 信息采集信息采集 6 3 2 中文自然语言处理中文自然语言处理 6 3 3 全文检索功能全文检索功能 7 3 4 格式文件检索格式文件检索 8 3 5 性能指标性能指标 8 2 一一 项目意义项目意义 随着互联网的快速发展 每天有数千万条信息生成 包括文字信息 图片信息 视频信息 语音信息等 通过百度 谷歌等大型商业搜索引擎 可以找到自己想要的信息 但是也存在很多弊端 百度 谷歌等大型商业搜索引擎的搜索原理是基于网络爬虫 Spider 在世界各地百万台服务器上爬取网页数据 然后存储到数据库 之后展现给查询用户 随着网站数量以及网络上信息更新的快速化 这些 网络爬虫不能保证把所有的信息都抓到 尤其是特殊行业的行业信息 即 便是抓到了也不一定能够在众多数据中展现出来 所以 对于一个部门来 讲 有必要存在一款互联网信息检索系统来检索某一个行业的信息 每天 自动在各大行业网站 政府网站等数据库中检索最新信息 通过自建的网 络爬虫进行目标数据的抓取 存贮 归类 展现 通过自己的信息检索系统 可以让自己部门每天轻松地获得世界各地 各个部门都发生了什么 有哪些新的政策 方便管理层在最新的信息数据 下快速做出正确的决定 据统计 内部网上的信息每年以 200 的速度增长 其中发布到互联网 上的信息只占到信息量的 1 2 而 98 以上的信息是发布在内部网上的 内部网上的信息既有网页形式的 也包含其他 Word PDF XML 等多种格式 的数据 因此 面对内部网中海量异构的信息资源 如何帮助用户快速找 到他们所需要的信息是一个主要的技术挑战 搜索引擎能帮助用户方便 快捷 安全地获取内部网上的信息 在满 足高效的同时 更重要的是保证了较高的查全率和查准率 能提供智能化 的概念扩展搜索 极大的提高工作效率 内部网搜索引擎将组织中分散管 理的信息整合在一起 在组织层面上实现新的增值与共享 从而有效实现 组织内容利用的最优目标 搜索引擎的目标是实现内部网全文检索 系统可对实施了内部网站资 源进行爬行 无论内部网上的数据源在何地 以何种形式存在 都能够对 其快速地访问 通过准确的分词建立索引 从而实现高质量的搜索查询 搜索引擎的主要目标包括 3 1 较高的查准率 搜索系统支持按词索引 按字索引 同时实现中 文自动分词 2 较高的查全率 搜索系统可搜索各类异构的信息资源 包括传统 的网页信息 Word PDF XML 等不同格式的文档以及各类主流数据库的表 中记录 3 智能化的检索结果排序 安全搜索系统应采用相关度分析技术 将用户需要的信息排在结果列表的前面 屏蔽无用和错误的信息 二二 系统设计系统设计 2 12 1 技术原理技术原理 HX 2055 互联网信息检索系统 以下简称 HX 2055 是针对特殊行业 政府部门 决策部门设计的一款高效率互联网信息检索系统 采用国际一 流程序算法设计 系统构架与谷歌和百度的搜索引擎拥有共同的技术特点 能够保证系统对实时信息的快速采集 归类 展现 在当今信息爆炸的时代 每个单位或个人都在为信息的快速增长做出 了各种贡献 信息的种类也在不断的扩展 越来越多的非结构化信息不断 出现 包括企业的各种报表 帐单 电子文档 网站的各种元素 图片 传真 扫描影像 以及大量的多媒体的音频 视频信息等等 所有的存储 数据中 有 85 采用的是非结构化格式的 非结构化信息每三个月增长一 倍 由于信息格式的差异很大 所以基本无法整合为统一的接口供政府工 作人员或广大群众方便使用 全文检索是计算机程序通过扫描文章中的每一个词 对每一个词建立 一个索引 指明该词在文章中出现的次数和位置 当用户查询时根据建立 的索引查找 类似于通过字典的检索字表查字的过程 全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务 的软件系统 全文检索系统的核心则具有建立索引 处理查询返回结果集 增加索引 优化索引结构等功能 HX 2055 全文检索系统的主要目标是实 现文本索引的快速构建 Index Construction 动态文档集的索引维护 Index Maintenance 短语查询 Phrase Query Top K 查询的快速处理 Top k Query Process 以及各种检索模型 IR Model 等 高性能和灵活 4 的架构也使 HX 2055 全文检索系统可以应用在内外网检索 专业系统资料 检索 行业专业数据库检索 图 1 HX 2055 系统原理 HX 2055 可以实现对内部网络和外部网络的信息抓取 归类 展现 对于外 部网络 HX 2055 采用网络爬虫定时对各大行业网站 政府部门网站进行数据 爬取 通过对海量数据的挖掘可以建立庞大的外网数据库 通过一流的数据整 理算法 简单 快捷 方便的展示给使用者 HX 2055 也可以对内部网络进行数据的挖掘 分析 整理 展现 HX 2055 通过基于局域网的网络爬虫算法 可以对政府 行业内部网站 单位内部服务 器资源等数据源进行数据的抓取 包括内部网络的新政策 新闻通知 日常文 档 文件资料等 5 HX 2055 搜索引擎的系统体系架构如图所示 图 2 HX 2055 内部网络搜索系结构图 索引模块 索 引 库 爬 行 器 搜索结果排序 数据源注册 资源 描述 策略描述 用户提交搜索 安全过滤 数据库 爬行控制 内部数据 库 Web 页面 数据 库表 数据库 数据源 2 电子 文档 文件系统 数据源 3 电子 邮件 邮件系统 数据源 n 搜索请求 返回结果 内部网用户 内部网站 数据源 1 引擎实现了下列主要功能 1 爬行器 爬行器根据资源描述信息对内部网中各种异构的资源信息进 行爬行 获取所有能够获得的资源信息 资源信息的格式应包括 Web 网 页 Word PDF Excel PPT 等格式的办公文档 各类主流数据库的表中 记录 2 索引器 通过中文分词技术 对爬行到的资源信息进行解析 建立索 引文件 3 搜索 用户提交其搜索条件 搜索条件经过特定处理后 在索引文件 中检索出所有满足搜索条件的资源 2 22 2 系统构架系统构架 全文检索系统统一搜索平台的总体架构采用三层 数据层 应用层和表现层 可扩展 的设计 使整个系统不受硬件平台的限制 具有良好的扩展性和可管理性 6 三三 系统功能系统功能 3 1 信息采集信息采集 1 采用多线程并发搜索技术 2 提供多种采集范围控制方式 包括在指定网站内 在指定域内 以及在 指定 IP 地址范围等方式 3 可以设置多种网站采集控制方式 包括采集的网页大小 超时限制等 4 提供高效更新功能 对于已经采集过的网站 更新时只采集发生变化和 新加入的资源 5 可以灵活设定采集结果的存储方式 具有开放性 3 2 中文自然语言处理中文自然语言处理 1 内嵌自动分词系统 有效提高了分词准确性 2 在应用层上 提供自动分类和摘要功能 3 支持按词索引 按字索引 按关键词索引 适应不同应用环境的需求 7 4 内嵌相似性检索技术 提供文章的相似性检索和聚类功能 3 3 全文检索功能全文检索功能 1 支持 Web Browser Web Server 检索方式 2 智能中文分词 采用先进的自动分词系统 根据大量的语料统计和分析 建立了上万条的歧义排除规则 因此检索 华人 不会把仅仅包含 中华人民共和 国 的文章检索出来 3 支持结构化数据和非结构化数据的混合检索 4 允许使用文中的任意字 词 句和片段进行检索 5 全方位检索手段 与 或 非 异或 6 对数值 日期等特征字段可以进行比较和范围检索 7 支持任意一致的通配符检索 模糊检索 8 支持多网站的全文检索 9 具备中文自动分词系统 能有效提高分词准确性 10 采用智能中文分词技术 建立高效索引库 11 支持实时索引 1分钟内 12 支持增量式实时索引 13 多线程设计 支持大量并发用户访问 每秒并发达到50个以上 14 支持在结果中查询 15 支持 GBK BIG5 UTF8 GB18030等编码 采用 UTF8编码方式实现 多语言和多文种内容的检索及展现 16 支持中文 英文和中英文混合检索 17 多样化排序 包括按抓取时间排序 按相关性排序 18 多种条件组合检索 包括标题 正文以及日期范围检索 19 支持关键词逻辑表达式组合检索 20 检索结果支持基于查询关键词的动态摘要 21 支持检索关键词的高亮显示 22 将所检索到的信息可按设定的模版显示 23 检索结果模板自定义如 如文章标题 文章栏目 简介 作者 点击率 8 时间以及文章类别等 24 支持根据自动分类的类目进行检索 25 采用 KNN SVM 为基础的相关性算法 3 4 格式文件检索格式文件检索 支持 MS OFFICE PDF HTML 可以对 pdf rtf d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房屋租赁合同新规
- 物业管理与维护服务合同
- 度建筑项目劳动合同
- 工业机器人技术与应用模拟题含答案
- 建设工程合同管理策略与实践
- 系统集成项目进度管理
- 租赁合同续约补充协议书范文
- 2024年7月份聚丙烯基压阻传感材料线性度协议
- 2025年部编版道德与法治四年级下册第一单元复习课教案
- 联合站管理案例分享会
- 2025浙江温州市公用事业发展集团有限公司招聘54人(第一批)笔试参考题库附带答案详解
- 新能源汽车驱动电机及控制技术 课件 项目4 驱动电机控制系统结构原理与检测
- 小学生防诈骗课件
- 2025年菠萝种植市场分析报告
- 2025年湖北省中考道德与法治模拟卷(1)(含答案)
- 绘本故事《奶奶的青团》
- 2024年北京电子科技职业学院高职单招(英语/数学/语文)笔试题库含答案解析
- 新标准大学英语(第二版)视听说教程2答案
- 玻璃瓶罐的缺陷产生原因及解决方法
- 206前列腺穿刺活检临床路径
- 《基于智慧云课堂的互动教学研究》课题研究中期阶段性总结报告
评论
0/150
提交评论