整合全文检索系统解决方案_第1页
整合全文检索系统解决方案_第2页
整合全文检索系统解决方案_第3页
整合全文检索系统解决方案_第4页
整合全文检索系统解决方案_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、用友知识管理检索系统解决方案维思比科技(北京)有限公司2010年 4 月 20日1目录(一)现状及总体目标 11.1 、背景介绍 11.2 、现状 11.3 、总体目标 11.4 总体设计 21.4.1 系统结构图 31.4.2 信息采集工作原理 31.4.2.1 数据采集 31.4.2.2 数据分析 51.4.2.3 数据写入 5(二)功能及界面设计 52.1 整合搜索 62.1.1 拼音提示 错 误!未定义书签。2.1.2 拼音纠错 72.1.3 相关推荐 72.1.4 多维度智能导航 72.1.5 二次检索 72.1.6 精确查询与模糊查询 72.1.7 多维度排序 72.2 硬件配置

2、72.7.1 服务器配置 72.7.2 网络带宽配置 82.7.3 软件配置 8(三)开发进度安排 83.1 实施流程 83.2 实施进度 8(四)投资概算 94.1 软件产品 94.2 定制开发 94.3 培训费用 94.4 总体预算 9(五)运行维护和培训 125.1 维护 105.2 培训 115.2.1 培训人员 115.2.2 培训目标 125.2.3. 培训内容 125.2.4. 培训方式 125.2.5. 培训时间 12(六 ) 附录 132一)现状及总体目标1.1 、背景介绍用友软件股份有限公司(以下简称“用友” )成立于 1988年,致力于用信息技术推动商 业和社会进步,提供

3、具有自主知识产权的企业管理/ERP软件、行业解决方案、服务,是亚太本土最大的管理软件提供商,是中国最大的管理软件、ERP软件、集团管理软件、财政管理软件、 人力资源管理软件、 财务管理软件, 客户关系管理软件及小型企业管理软件提供商。随着社会的进步, 信息技术的发展, 一个公司在不断向前发展的过程中会累积相当多的 数据, 而且随着时间的推移, 这些数据累积的越来越快。 这些飞速增加的数据一方面为公司 积累了一个非常庞大的知识库, 成为公司的宝贵财富, 而另一方面却产生了一些问题, 就是 要从这些信息库里查找一些资源越来越费劲, 而且这个问题随着数据增加, 越来越快的呈现 出来。由于这些信息库之

4、间的信息是孤立的,它们之间没有任何联系,随着数据越来越多, 查找这些信息耗费的人力物力成本却在不断增加,人们需要在不同的系统之间搜索整理数 据,而且搜索的效率越来越低。 怎样在多个孤立的数据孤岛里快速找到希望得到的数据,成为一个困扰大家的难题。 众所周知, 现在是信息社会,谁能在第一时间内掌握一些资料,谁 就有可能在第一时间对某些问题做出反应,从而在一些领域取得领先。1.2 、现状用友软件股份有限公司和各事业单位、 各部门之间的内部信息系统很多, 像知识管理系 统、团队管理系统、PMP、服务支持网站、GBU营销、EBU营销系统等等,关于知识管理 系统使用情况的调查可知, 当前的知识管理系统有大

5、量的文档、 附件, 而且这些历史积累的 文档知识非常重要, 目前这些文档主要分布在各个服务器上, 工作人员查找相关信息非常困 难。随着公司的发展,各种类型的文件也会越来越多,而且存放在各个不同的系统中,形成了一些信息孤岛。 要想查找一些资料, 效率非常低, 已不能适应具体工作的需要。 长期下去, 会极大的阻碍公司的发展。整合检索,迫在眉睫。1.3、总体目标“整合全文检索系统”主要针对企业中存在的这些信息孤岛,利用先进的技术,把它们整合到一起,高效的生成透明、多维的检索结果,即使有些信息可能是用户本无了解或未能 清楚记忆并表达的,并按照最新的互联网体验模式展示给用户。检索结果的动态呈现、 多维呈

6、现将会为用户提供发现信息的最佳途径。配合主题词表,即使用户输入错误,系统也能自动推荐正确的表达供用户选择。总之,整合全文检索系统将帮助网站的终端用户、企业内部用户、管理人员或者其他类型的使用者准确获取信息,成为易于部署、管理方便、使用便捷的信息桥梁。总体方案如下图所示:检索条宫需话宫坯理行业知识障换心弓1.4总体设计31.4.1系统的结构图4#142信息采集工作原理信息采集工作主要分为三部分,关系库和文件系统数据采集和数据分析、数据写入。142.1 数据采集数据采集主要通过 VSP数据库网关系统(VSP Gateway)来完成。VSP Gateway是面向Oracle、DB2、SQL Serv

7、er、Sybase、MySQL 等主流关系数据库和 Lotus Notes 系统的数据 交换桥梁,可以整合多种异构数据源,将不同系统的数据实时同步、无缝集成到VSP全文数据库管理系统,协同工作,充分利用VSP全文数据库管理系统的强大检索性能来提供便捷高效的在线检索服务,实现企业级信息资源的统一搜索。同时, VSP 数据库网关系统也支持从政府、企业内部积累的或者正在持续增加的格式 文本、 XML 文件、 Excel 文件、 Access 等文件内提取数据。VSP 数据库网关系统具有以下 10 个特点:易用性创建采集任务步骤简单, 可一次性配置, 自定义更新周期,自动定时运行采集任务,无 需人工干

8、预。实时性 全文数据库与关系数据库的数据实时同步,保证查询结果的准确性。安全性数据采集不改变原有数据库的存储和业务应用,支持身份验证。开放性在数据转化的过程中进行数据的加工和整合。支持增量数据数据采集可以保证持续变化的关系型数据库内的增量数据向全文数据库自动添加。 支持多个目标监控通过并发操作,VSP数据库网关系统可以同时监控多个目标数据库。直接调用底层接口VSP 数据库网关系统直接调用各种系统的最底层接口,试用简单,配置方便,现有系 统不需要增加任何的接口驱动。跨平台应用除微软 SQL 、 Excel、Access 产品外,支持跨平台交换其余的数据源所含数据。 异常状态处理在数据环境运行异常

9、情况下,可以自动报警,保证业务安全平稳运行。支持的版本全面如上述表格所示, VSP 数据库网关系统不仅支持的关系型数据库类型全面,而且支持 的版本也丰富,并且可以抽取 Lotus Notes 系统内数据。1.4.2.2 数据分析VKM Server 全称是 VSP Knowledge Management Server ,囊括自然语言处理模块的多个 功能。目前支持 Windows, Linux 下运行,以可配置的方式动态加载功能模块。自然语言处理工具是为了梳理加工采集后的结构化、 半结构化和非结构化信息, 比 如从非结构化文本中抽取结构化数据。 系统将自动采集处理信息, 利用知识库的内容自 动

10、标引信息,实现概念检索。1.4.2.3 数据写入网关系统获取数据后调用 VKM 进行数据分析, 然后将得到的结果写入到 vdb 数据库供 web 系统调用。1.4.3 数据库系统VSP全文数据库(VDBServer )提供海量信息的分布存储和即时索引,并提供全文检索 和高级检索功能, 是我们实现高效精准检索的坚实基础。 由于数据库系统没有用到开源 的软件技术, 全部由自己研发, 具有自己的知识产权, 所以具有非常高的稳定性和灵活 性。一方面稳定性帮助我们快速地查找到需要的信息, 另一方面的灵活性能确保我们随 着需求的不断改进实时调整产品,使之能快速的适应新的需求,满足用户的需要。6(二)功能及

11、界面设计2.1整合搜索Logo搜索条件含拼音提示J搜石 口在结果中查询拼音纠错7#搜索结果维度搜索结果维度#排序方式精确查询模糊查询搜索结果分页展示区域命中的关键词高亮显示相关推荐版权信息82.1.1拼音提示如果您不清楚某个词语的写法,可以直接输入拼音进行查询,维思比搜索引擎会自动提示相应的查询字。例如:输入baiyun ”,系统会自动提示一些拼音为baiyun ”的词给用户参考。Daiyuni白云约2714条记录J白云机场釣丄25U条记录白云区釣9瑶记录1 丿如果您不清楚某个词例如:输入语的写法,可以直接a 1”baiyun ,输入拼音进行查询,系统会自动维思比搜索引擎会自提示一些拼动提示相

12、应的查询音为 “ baiyun”字。的词给用户参考。9#2.1.2拼音纠错由于汉字输入法的局限性,我们在搜索时经常会输入一些错别字,导致搜索结果不佳。针对这种情况维思比搜索提供了拼写纠错功能。例如:当用户想搜手机,而误输入为“收集”时,系统会提示是不是在找“手机”由于汉字输入法的例如:当用户想搜局限性,我们在搜索手机,而误输入为时经常会输入一些“收集”时,系统错别字,导致搜索结会提示是不是在果不佳。针对这种情找“手机”。况维思比搜索提供了拼写纠错功能。#由于常常找不到例如:当用户输入合适的关键词,“白云机场”时,维思比会根据日系统会推荐一些常搜索行为,推女口:国际机场、启荐与用户输入关德机场等

13、词供参键词含义相同或考查询相近的其他词。2.1.3相关推荐由于常常找不到合适的关键词,维思比会根据日常搜索行为,推荐与用户输入关键词含义相同或相近的其他词。例如:当用户输入“白云机场”时,系统会推荐国际机场、虹桥机场、成田机场、浦东机场、启德机场等词供参考查询。关于白云机场扩建工程可硏工作推讲会的会议纪要摘要:漣机扩捋会纪(2007)新号白云机场扩建工程指聲部附件;白云机场扩建工程 硏阶段工化计划白云机坊扩崖工程项目建议书已经完廠评甘,并提交评怙意见至园戲2 阶段要全力抑好可研编制r报批、评审以及环评、土地預审、规划许可等相关工作,力争 日期:200T-12-7 状茶:已归档 来源:21收文艮

14、关搜索:白云机场国际机场虹桥机场成田机场浦东机场启麹场:2.1.4多维度智能导航以检索内容的不同属性为维度,生成动态导航目录。 用户只要点击不同属性, 就能缩小信息检索的范围,从而快速、准确找到满意的信息。鉴技日獅狛M 硕瀚加刚知曲幽伽1 ;iflir 1 iriviliiviiHiBiiiFri i mi iv id iii i n v-id i-i rii r riii tai i ildTi i i b*i ii ph id feifeii rriri iftl韋立阴呦常)酬asm K询曲ssmi粋期糊站o元数据搜索引擎,将搜 索结果的所有属性和 结果列表一起显示;自 动生成分类导航树。

15、例如:当搜索一个文 件时,文件的类别属 性和检索的结果都 会展示在导航界面 处。11i * I J IB K | | | | | Bl I d I 1 Bl LI HI | | | | id k -| ! Rj| & i d lil |H |,| B| | | | dj32.1.5二次检索当一次搜索结果不理想时,可以在前一次搜索结果范围内,继续进行搜索。C lr州基地1据素P在结果中直询当一次搜索结果不理想时, 可以在前一次搜索结果 范围内,继续进行搜索。例如:当用户搜索“白云机场”时,第一次查询结果也许不 理想,所以用户可在查询到的结果中再定位查询,在结果总 继续查找“广州基地”,让数据更加

16、精确。2.1.6精确查询与模糊查询启发式搜索除了支持关键词精确匹配,还支持检索关键词先分词后检索,返回更多检索结果,根据检索结果的匹配程度决定结果列表显示顺序。2.161精确查询排序方式:谙选挥排序方式-二|精确查询#援索白云机场養癖葩查谊结果页次:1丹0页戏下是第1-10I启发式搜索除了支持关键词精确匹配, 还支 持检索关键词先分词后检索,返回更多检索 结果,根据检索结果的匹配程度决定结果列例如:当检索“白云机场”时,含有“白云机场” 的会排在检索结果的最前面,含有“白云,.机场”的会排在后面#表显示顺序#2.162模糊查询懈方式:卜灘翳就式-切制直询K索为云加鈿2血1囲,页ft: 1/21

17、9flTS第卜10餐(inBffo 016)提高信息的查全率,让每一条信息都不查漏。例如:当检索“白云机场”时,含有“白云机场”的 会排在检索结果的最前面,含有“白云,.机场”的会排在后面,含有“白云”、“机场”都能检索到。2.1.7多维度排序默认结果是根据最新的互联网搜索体验,按照检索关键词的相关度进行排序,排序的结果与词频直接相关,并可以人工干预排序结果。用户还可以根据其他属性进行排序。默认结果是按照检索关键词的相关度进行排序,排 例如:可根据不同字段,比如时间,部门、人名等进序的结果与词频直接相关,并可以人工干预排序结行排序展示,方便用户根据不同需求查询。果。12#2.2硬件配置2.2.

18、1服务器配置系统采用两台HP服务器作为主运行系统, 提供WEB数据库,采集处理工作。1台高性能的PC机连接在网络的前端,负责对数据进行采集,同时将采集的信息数据提供到处理系统。应用服务器:序号产品名称规格及型号单位1应用服务器HP DL380 G5台DL380G5, 1个双核CPU,单机配置8G内存,146*2GB硬盘,1块千兆网卡,SCSI卡采集服务器:序号产品名称规格及型号单位2采集服务器HP DL380 G5台#DL380G5, 1个双核CPU,单机配置8G内存,146*2GB硬盘,1块千兆网卡,SCSI卡2.2.2软件配置序号软件名称1数据库网关系统2整合全文检索系统3My SQL客户

19、端MSSQI客户端4应用服务器iis5VDB3.0数据库系统(三)开发进度安排3.1实施流程实施流程主要如下:1. 需求调研2. 系统设计3. 功能开发4. 测试5. 部署6. 系统试运行3.2实施进度1. 需求调研(5天)2. 系统设计(10天)3. 功能开发(22天)4. 测试(10天)5. 部署以及使用文档(3天)6. 系统试运行(30天)(四)投资概算知识管理检索系统建设总费用主要由软件采购和二次开发费用构成。系统试运行期间, 维思比提供免费的一次培训。具体明细如下。4.1软件产品4.1.1已购产品已购产品名称说明金额(元)VSP增强型全文数据库管理系统V2.0对数据库进行维护的客户

20、端75000VSP GATEWA数据同步工具(针对不同数据库)MSSQL MYSQL的数据迁移600004.1.2升级产品升级产品名称说明金额(元)VSP增强型全文数据库管理系统V3.0软件升级22500VSP GATEWA数据同步工具(针对不同数据库)软件升级18000升级产品报价:40500.004.1.3加购产品加购产品名称说明单价(元)数量折扣金额(元)VKM自然语言挖掘及知识库系统V2.0支持拼音提示、相关短语提 示、拼音纠错等功能10000010.550000大附件文本抽取工具(针对每类 附件)pdf ( 1.4)、rar、zip、word、PPt500070.517500加购产品

21、报价:67500用友作为维思比的重要客户,基于良好的合作关系,对于该项目所涉及的多套商业软件,维思比给予最低的折扣。产品报价:108000.004.2定制开发应用开发人员标准报价(人/工作日)工作量总价工程师6802315640高级工程师8503227200项目经理95054750定制开发费用报价:475904.3培训费用维思比提供一次3个工作日的免费培训,培训的细节请参考运行维护和培训服务。4.4总体预算软件产品报价 108000元整定制开发费用 475900元整共计人民币 拾伍万伍仟伍佰玖拾元( 155590)人民币(五)运行维护和培训5.1维护为了及时了解和准确掌握运行系统需求、意见和建

22、议,不断提高服务质量,乙方的工程师将与甲方的系统维护人员建立紧密联系,保持沟通,及时全面地了解软件系统的运行状况。试运行阶段:乙方将根据甲方的实际需要派专业工程师现场支持软件系统的运行。正式运行期:乙方将提供操作级、维护级的支持,同时还提供以下几种服务方式:应甲方申请的应急现场服务;7*24小时热线服务;电子邮件支持服务。5.1.1服务方式(1) 软件系统试运行期应甲方要求,乙方应为甲方提供该软件系统一个月的试运行期,软件系统试运行从软件系统交付、正式安装上线运行次日开始计算。乙方承诺,在软件系统试运行期内, 若维思比软件系统出现问题或故障,乙方将指定有经验的技术人员到现场进行故障处理,保障软

23、件系统的运行和维护。(2) 软件系统维护保修期保修期内的维护范围:对软件系统提供技术支持及服务。热线服务:提供热线电话或 Email、传真等途径随时回答用户的各种技术问题并在24小时内提出解决方案。不定期跟踪:软件系统验收完毕后, 乙方不定期通过电话跟踪使用情况,及时了解存在的问题, 并随时给予解决。必要时,乙方将派遣技术人员现场回访,了解系统的运行情况,听取意见 和建议,解决存在的问题。5.1.2服务标准问题级别乙方响应解决时间A级要求乙方第一时间安排人员进行解决,保证 系统正常运行根据问题,要求即时响应、尽快 解决B级要求乙方安排人员进行解决,并提交解决 完成时间。在承诺的解决问题时间点前解决C级乙方可以根据情况安排人员集中解决。双方协商时间解决A级故障:导致整个应用失败,用户无法使用或不能按照正常方式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论