全文检索系统整体方案说明_第1页
全文检索系统整体方案说明_第2页
全文检索系统整体方案说明_第3页
全文检索系统整体方案说明_第4页
全文检索系统整体方案说明_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、WORD格式整理版专业学习参考资料专业学习参考资料1全文检索系统方案1.1全文检索需求系统提供模糊检索、分类搜索、高级复合搜索、全文检索、图片内容检索、跨库检索等多种检索途径;支持字索引和词索引;检索条件具有完整的关键词布尔逻辑运算AND、OR、NOT能力,支持复合式布尔逻辑运算查询,并且可以配合多组左括号(与右括号)作关键词查询优先级的设置;提供用户多次递进查询的功能,用户可根据上一次查询关键词得到的检索结果集,增加查询关键词与缩小搜索日期范围,而得到更准确的查询结果集;能够支持对以上文件中的中文(简体/繁体)、英文、日语、韩语内容实现关键字检索;支持对Word、TXT、PDF等多种主流文档

2、格式全文检索,并提供开发接口以支持特殊文档格式的全文检索;在数据源数据发生更新时,能在索引库中反映出来,保证搜索的信息为最新,即支持增量索引机制;用户可自行设定时间,让系统自动定时进行更新索引;对于百万级记录数的搜索以及结合模糊搜索等查询方式,搜索时间不得超过10秒;提供跨数据源、数据格式的搜索;同过相关性搜索,能够把和搜索条件相关联的信息搜索出来;不但能够对图片的描述信息进行搜索,还能对图片内容的检索;提供COM与SOAP的搜索接口(Interface)可让其它应用程序或查询网页能够提供用户查询入口和查询结果的呈现,用户可通过应用程序或浏览器访问全文检索服务器,提交查询条件,可在浏览器中查看

3、检索结果;查询结果集中应包含结果集总数、命中的结果文件的完整路径,以及符合关键词出现的内容片断;在搜索结果集中,关键词应被标识出来,用特殊的字体及颜色和其他文字进行区别,查询者可在查询结果片断中一目了然的看到关键词出现的位置;查询结果可按照关键词命中次数,命中结果文件的修改时间,大小等条件进行排序;可提供用户对检索命中结果文件在索引库中进行标记,从而再次检索时,不在标记过的文件中进行查询;全文检索系统总体方案系统将采用以下全文检索流程。Folder/ShareFolderwithDocumentsFuzzySearchSynonymPhraseWild-CardMulti-fieldFilte

4、rIRMSTermExtractTermIndexWebSiteRobot/SpiderByURLEntryAIRMS.IndexerAdapterDataSourceComposerFileExtractoraRDBMS(ODBC/OLEDB/JDBC)IndexDatabaseAAplicction(lUsrInterfeceeLotusDominoR5,R6(NSF)FileNET內容管理针对企业内部的信息,包括文件服务器上的文件、网站网页、ERP等系统存放信息的数据库信息、办公应用中的公文档案文档已经内容管理系统中流转的内容,本系统提供了两种数据适配器来提取其中的正文内容和属性内容,形

5、成一个相对结构化的数据虚拟层;本系统的索引引擎(Indexer)对结构化的数据虚拟层进行中文切分词、文件特征分析和逐步索引,以及其它索引算法,生成索引数据库;使用者(user)在搜索页面中输入查询字串等搜索条件并提交给本系统后,本系统的全文检索查询引擎(Searcher)会在索引库中进行搜索,并将符合搜索条件的搜索结果返回给使用者;使用者(user)可于查询结果页面,进一步链接到信息原文查看详细内容。对于系统管理,管理员可通过相应web方式的管理程序来管理整个系统运行环境及设置文件;并通过索引引擎(Indexer.exe)实时或定时创建索引,更新索引数据库的内容,使检索信息维持在最新状态。全文

6、检索系统带来的效益高效率的整合搜索,大幅减少组织成员在取得信息时花费的时间!本系统和其它搜索系统只针对特定信息源搜索不同,它能对企业内部绝大多数的信息创建索引和搜索,具备强大的信息整合及快速回应能力,让企业成员以单一搜索页面、简易的操作方式,即可在最短时间内,完整、准确、及时地掌握企业内外所有信息,不必再耗费大量时间的找寻信息!信息过量不会造成企业成员的信息焦虑!通过本系统强大的索引/搜索能力,大量的信息也可在瞬间过滤出符合使用者条件的信息,不必担心迷失在漫漫的信息洪流之中!非结构/非组织的信息,不再是知识管理的盲点!文件/档案以及非经过分类管理的信息,因为附加信息稀少,往往成为知识利用上难以

7、判断、分析的信息。本系统直接针对内容全文分析、关联,使这类信息同样可让使用者以检索方式,快速筛选利用!整合容易,使用简易,导入迅速,易于接受!套装化、模块化的设计及灵活的整合能力,能在企业内迅速的安装设置;操作方式简单,企业成员易于接受,导入方便。以最经济的时间、人力及费用成本为企业创建信息流通、充分分享的知识环境。全文检索系统平台架构本系统基于组件化和松散耦合架构和设计,系统平台架构示意图如下:CustomizationDataSynchronizationaAuthorityImport/ExportrMassagingJrConfigurationClassificationElUnst

8、ructuredData7匡园函Semi-StructurecfDataStructuredData整个系统主要分为信息整合、信息萃取和服务、应用整合三个部分。信息整合此部分主要作用是将企业内部存储于不同应用系统中的结构化信息、半结构化信息、非结构化信息通过本系统提供的两种数据适配器进行信息提取,形成一个相对结构化的数据虚拟层,以备后期信息萃取和服务。信息萃取和服务在信息整合层形成的相对结构化的数据虚拟层基础上,本系统将对其中的每笔记录进行中文切分词、索引、文件特征分析、自动分类等各种演算算法处理,形成可以提供搜索服务的索引库。用户利用本系统的搜索引擎处理提供的强大的搜索功能,如中文同音搜索、

9、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等,快速、准确、完整、及时、有效地搜索到符合自己搜索条件的信息。应用整合本系统还提供了完整的外部程序整合机制。所有组件均提供SDK完整开发接口,方便应用整合和应用扩展。1.4.1信息整合此部分主要提供对企业内外部非结构性数据信息源建立自动化数据汇入功能。根据用户实际需求,用户可以选择导入包含Text、MicrosoftOffice、XML、RTF、PDF、HTML、MHT、AutoCAD及E-mail(含附件文件)等格式及文件影音附件(如影片的文件名或摘要、图片的文件名或摘要、及文字)自动化建立索引数据,建立索引数据所处理之文字包括繁体中

10、文、简体中文等;同时用户可以选择导入数据库数据,如Oracle、InformixSybase、MSSQL等。此外和Notes系统也已经有了无缝整合,可挂载NotesComposer对nsf库中正文及附件信息索引,在做索引的过程中自动把每笔记录的权限键入索引库。本系统提供可挂载的数据适配器(DataAdapter),将异质的数据来源与数据结构进行汇整与粹取,亦扮演将非结构的信息结构化,可以很容易地分析特殊档案格式和管理复杂的数据源结构(如递归、巢状等)的多功能设计,以方便信息检索与管理。以e-mail含附件为例,e-mailAdapter可解析e-mail内文,而当选购officeAdapter

11、后,原来的e-mailAdapter即可解析office相关的附件文件,可视需求额外购买PDF、ZIP、RAR、OCR等不同数据适配器,即可交互搭配使用。搭配使用本系统的TXT、MicrosoftOffice、RTF、PDF、HTML、E-mail及FileMeta资料提取器,将可解析TextMicrosoftOffice、XML、RTF、PDFHTML、MHT及E-mail(含附件文件)及文件影音附档(如影片的文件名或摘要、图片的文件名或摘要、及文字)等格式,包括繁体中文、简体中文、英文Unicode等;使用数据库数据适配器,将可支持数据库数据汇入处理如Oracle、Informix、Syb

12、ase、MSSQL等。1.4.2信息萃取和服务此部分须提供对数据提取的内容所包含的信息,进行数据处理分析,包含:分类模式建立自动分类功能。针对非结构性数据建立词库,词库须包含同音词库、同义词库、专业词库。自动分类机制与专业词库须具备自动学习与修正之功能以提升数据处理准确度。可针对不同使用层级、项目进行非结构性数据权限控管。依照使用者不同等级提供不同权限的查询功能接口。应用本系统一系列内容分析与索引核心组件群,将汇整的内容进行断词、索引、分类、文件特征等运算与处理,以便满足信息检索与信息管理的应用,提供多功能全面性的数据分析能力,可针对不同情境应用加以整合,快速达到使用者需求。同时,用户利用本系

13、统的搜索引擎处理提供的强大的搜索功能,如中文同音WORD格式整理版WORD格式整理版专业学习参考资料专业学习参考资料搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等,快速、准确、完整、及时、有效地搜索到符合自己搜索条件的信息。1.4.3应用整合CustomizationB国DataSynchronizationConfigurationimport/Export完整外部程序整合机制一所有组件均提供SDK完整开发接口,方便外部整合。另外大量提供XML的方法来进行信息源更新时的同步以及权限的导入与检查工作。1.5全文检索系统功能特点L5.1基本检索功能支持査询结呆说定:索引库査词关

14、犍词:全选哇不选厂分孚文件氐巧“厂龙卷凤厂新闻数葩库(I厂处辽弩理LL心)主阶至询毎口.显天结昊救:n广加广宜2c5排序1屈顶.TI迄再3特殊功胄搬定:厂英立诃型间忡気换厂口卩丈同音1L卩英乂容错冃卩戈:丈同艾或近G1L二1恁可以在查询字荷串中虔月逻辑迄算荷弓爰.耳文77用口歹,|表示皿&表為陀!表示NOTr忙英文万用字持厂二題査询支持跨数据源索引与整合搜索。将分散在FileServer上的文件、远程网站中的网页、群组软件中的资料,以及数据库中的文字与非文字纪录,在一次搜寻条件下,整合搜寻出来。可以对近线数据、在线数据和离线数据分别建立索引库,到时可以通过索引库的选择来控制对哪些性质的数据进行

15、搜索;支持万用字符(*、?)查询。使用者可查询部分关键字及*(代表多于一个字)或?(代表一个字)的组合。例如:输入关键词【Chin*】,会找到【China】、【Chine】、Chinese】等等。输入关键词【Chin?】,会找到【China】;搜寻条件具有完整的布尔逻辑运算AND、OR、NOT能力,支持复合式布尔逻辑运算查询,并且可以配合多组左括号(与右括号)作关键词查询优先级的设定,方便查询者输入布尔组合之查询条件;内建智能型快速响应模式(Smartcache)机制,可以提供同一种查询条件之重复使用率,提高系统资源的效益。Cache储存目录记录了Cache档案所要放置的地址,经查询过的资料或

16、画面,第二次再进入时,可重复使用第一次查询结果;支持/多字段/多条件检索,提高搜索精确度;单一字段内,支持AND/OR/NOT逻辑条件,且支持括号方式来提供条件优先权。多字段条件间,支持AND/OR/NOT逻辑条件;索引库:全选陛不选查询关键词中国申博1中国申博曲ZJ厂主题查询堤兗重设底可以即書讷字杵串中應耳淨憩拉篡冲号应英龙丁阳二冲:|表示0K&表寻MD.!表示NOT,*/英交方用字捋WFW7型枚小名:类修大顷件吉码件芒件标文作編文最文厂分見工件区出吃厂疋卷凤(W也河新闻数抠片(LE)知识营煜吐明7Lre;eSitr.pliiec(GE2?1j)二h【i;:iLiErLWindm;j二Inu

17、ll-nul讪心丄12?3MB吏询猎耒设疋;軒帀忌正结丟敷:Unicode、UTF-8、EUC-JP、Shift-JIS,并支持以Unicode同时输入多国语系条件进行搜寻。-r仔TrMi*“兰亲SKiiiri狞*亍JapaneseTraditionalChineseSimplifiedChineseK.nH!P|轩=?S#-4l?t:TT:i(TflfPIET-可出曰t!牛才LdSSfllXMHAi附皑HEJ3015;*OKI114512巴EhM3E?SEOISWIKDiSJSI斗酉OIWE=WTI+2.2HSt!畑冷TIH跑卅8打巴H自4l禍LlaFEElQl丄EH124鉴0DIS早虫匸卩

18、I目EE基耳1E同个数据表或一条数据库记录中可以支持多国语言混排内容;|ITlL甜耐加口f:詹比tlJ(辭dOWtLD申曰由BU-*!:弹晋ng呂卜比7如”空j謂音抄:號洌nwhS9W42!4n.L+Ftiii-dWORD格式整理版WORD格式整理版专业学习参考资料专业学习参考资料一个索引数据库可以存在多国语言的不同数据;可以输入多国语言的检索条件,并使用AND、0R、NOT逻辑关系;检索结果中可以同时显示多国语言记录;搭配多国语言同义词库,可以通过单一语言条件,得到多国语言检索结果;154中英文模糊搜索查询功能内建中英文容错(Fuzzy)查询功能。中英文容错功能FuzzySearch,基于文

19、字特性,很多专有名词及词汇依情况不同,也许衍生出通用的简称,或是文字次序对调。也有可能因为模糊不明确的意象,使用者希望只需要输入一个关键词,就能一并查询性质类似或相关之信息。比如:输入MobileNetwork可查到MobileApplianceNetwork等特定距离的词句、输入产业研究可查到产业结构研究、产业.研究等,扩展搜寻的完整性。1.5.5近似概念词库辅助查询功能可针对不同的索引库设定同义词组。如设定电脑$Computer$计算机为同义词侧使用者可搜索“电脑”时,可同时查到含有“Computer”或“计算机”的信息。WORD格式整理版WORD格式整理版专业学习参考资料专业学习参考资料

20、LiH申哮炳局易斤一丫I.壻的中国-l,去冈尸欝幵炉了二販山“用市:14活:更美奸”的陈述亠在当抱时间任別时比京时间19:30眄中国代奁团幵皓进行长度约如吩钟前件直*屮曰曰一目-弋去13鮎旨言古诙讥为1H曰旺汪国丁住昊建如医涪院刃三筑屮页疳E务交貝云泯,上每千帀喪书记.帀七你工亍”口.曰期作咅:大卜:二幻沪世博会诜址-方年,走江秀叼变号冲国申博)力兰可讦冲BI才氏消息麻匕弩.凹)日一地处荷工汜片的仲医近代兒一一”一一已百电二历丈莅江南说獄戻寸总可尢一前锣該国无M司员工共巨双反中甚感及。恨霑m-中国口井世悻盘戊功后江丙楚船-厂址址将衣大世博园加一奇;n百临祀迁出运,t司员工纹幼衣尺芒二匚(工土稱

21、E向吐齐烝示订崭斯Eli每刖三阿,也七要四刁ft?上弄斫吟现代化的富于做心竞争力的新江亂在今日的腔司超申博戒功丈令上,盘司童事疋F.T,产;审工蕨岸共刁空:庆曲时悵,l.niri-百三十4年厉史抽中国篦一1肢门,日期.岸杳.丈小.it-X1S-以Web网页形式呈现查询结果,使用者可指定所欲察看的特定笔数或分页浏览。支持二次搜索功能。提供属性字段权重排序机制,管理者可自订查询结果的排序规则,让搜寻结果按搜索者的意图显示。提供树形分类目录,提供查询结果分类,可以让使用者进一步选取下一层目录,以缩小查询范围。具有标示原文关键词功能,可以直接将原文中有关使用者输入得关键词全数标示出来,同时系统管理者可

22、以自行设定关键词标示的颜色、大小、字型.等属性。docKcy:FTTILE2中国申博代表团开始逍行陈述戒帀”为主题區)Tr;:l中国新闻社TextFAUTHOR:Ti-:i匚新出J月W1电匡乖展比局华:乜贡乂去=|前円斤库體号吏料:洛和格硃亘旦仝议宫皮埃尔E子厅进行申博陈也最后-个上场的中国代表团已经开始了主题为城让生活更美好”的陈述。在当地时间恪孔时対谅时间19別时)中国代表团开始迸行长度釣対孔分智的陈述。中国申博代議团的发言者像次対;申国驻法匡人便癸建叨.国务院魚忌芒爷丸诗.匡奔委另貝悦,上坞市市委书记.if忙味艮宇-中M丄垢即心主丰题M我市,i上空活更角二这是七薄仝方史丄年空出现“城市占

23、主题.也是全世界都在热切关注的话题。中国申博慎表因认为,随負殳贤速啟題K述头日世=車旳城市病ZE匹为首七畀各也的、Th为了耳起入忙对云未城市丸韵皓种恵亂中匡远择了T嘩引赶广吃具吗的主题.址豈一个交流的机会.激起对诸如如何治理城帀弊病、如何创立更多的就业机会、如何改善城巾三沽亘量寻卜|越展出谊茉A匪讨必巨BIT裁巾左展旳先囲:圭劭加生态亚城市.可特续城帀.数字化规亡爭,匸展示现代城市乂叨左城市瓶划勺查询结果可同时显示文件抬头及重要摘要段落或者仅仅显示文件抬头以加快使用者的查询速度。开发搜索接口,用户可根据开发的SDK自己开发特定形式和显示风格的搜索结果页面。1.5.8自然语言应用组件利用自然语言

24、的形似相关词功能,可对数据撷取内容进行新词学习,语意分析等,可自动建立新词,提升数据处理准确度。基于自然语言应用组件,可实现相关文章查询功能、重复文章查询功能、自动摘要功能、语意查询功能、形似相关词建议功能等。从而能够通过关联组织的方式,把不同档案库中的相似、相关内容一次性的搜索出来。相关文件查询Key:214DB-News中国申博代表团开始进行陈述“城市为主题(图)中国新闻社中新网12月汨电国际展览局第1充次大会目前仍在摩洛哥蒙特卡洛的格林马迪会议宫皮埃尔王子厅进行申博陈述。城市,让生活更美好。这是世博会历史上第一次岀现“城市主题,创造一个交流的机会,激起对诸如如何治理城市弊病、如何创立更多

25、的就业机会、如何改善城市生活质量等问题展开广泛深入的讨论。并展示现代城市文明在城市规划与管理、科学、技术、文化和生活方式等方面的成果。场地所在及周边区域集中反映了几百年来上海城市发展的历程。在景观上互相协调。世博会各场馆的布局将充分考虑到参观者到达的便利性,在这条象征人类前进脚歩的神奇桥梁上,No.TitleKelevanceDB:Files|News|Tornado|KMShareTotal:36IIIIIIIIIIIIIIIIIIIII57.73%IIIIIIIIIIIIIIIIIIIII53.76%李岚清陈良宇吴仪为中国申办世博会的陈述文申办世界博览会成功后上海人最关注十个问题快讯:上海

26、获得2010年世博会主办权IIIIIIIIIIIIIIIIIIIII46.39%IIIIIIIIIIIIIIIIIIIII40-10%5.快讯:中国高官庄严承诺世博主办权志在必得IIIIIIIIIIIIIIIIIIIII39-72%&沪世博会选址-百年老江南“欲变身IIIIIIIIIIIIIIIIIIIII3S-30%4.快讯:中国高官作出庄严承诺为世博选票最后一搏文章自动摘要Key214DB-NewsAhEtmcrinii:中国申葷弋表团尸站起斤臥迂“城方为主题阿畔国訪闻社中新州吐汨电国断展反局削宪既.心=1飾乃亓華略哥篆标C洛笛籽林曰:由并展宫皮圧不干子斤卅冇f博炼休-城H.1.1牛污更美

27、軒、込是主书台方出上篦一氏出现“城门三题,创适一个交流笔机合,驗匕灯因厲k何活庄城下逮病、如讦划立更多的就业机含、如何改言城方生活质量年巨題展开广泛贰入的讨论。打压示现弋拒卞丈明产城市如划u管专.科兰、技久、戈代班牛活力式竽力丙肉底玉-场廿所布疋丐沟区域策屮瓦映丁匚白年米上冉城白发展的厅程”心景觇上互相协i月.世博訂各场馆的布局馮克分卑虑刃爲賓舌刘注的利性,.在这杀茅彳止人交前壬脚步的袒奇忻梁上,Percentage:|UefaULtTSentEncesize:|DpfauJtTCharactersize:|口航1TWeight:|DefaultT1.5.9自动分类应用组件搭配自动分类组件,可

28、对撷取数据进行分类,并可辅以导览式分类组件与搜寻组件进行整合,即可逐一依类别筛检过滤资料,并显示类别内符合资料。导览式分类栩關分霸目錄:栢關毎須目錄市場昔報(514)產品(386)客戸(382)-解決方案(373)-TornadoSearchf21-攥勢(154)-競爭者分析(160)-BlRadar(162)-財政部(66)-產業消息(114)-IRMS(137)-畫子時報(56)more,.more.more.議爭者325)翳徉(320)讦銷資料(170)-Verity阳-ISM32、-数育訓純(140)-網擎OpenFind(75)-洁謫(50)-成功案例(14)-Inktomi(490

29、-亞太(50)-令司背員(9)more,.more.more.it區(70)Case首理(30)部門(26)-國外(68)-文件格式(26)-PSD(14)-大陸(8)-合約(15)-SMD(120-臺灣-往來信件(1)more,.more.Q查詢字串:按索i)共我到1,2第筆豊料,有200可供瀏覽.(此次按尋共花了1亂秒.)文件霸型:国耐匪文件類型:瞠皙暫箸畀屆艇國觀匀自动分类關健手查詢:搜索|查詢丨進階奁詢厚負掩祝:惜料陳刊HSAIcirriQcoSEXch:1生-m肌曲丨斶-IF”f17门-F_F:48)Wqmsi-tir:FilW-C33).nfcFe日汁i,22Ca*c菅晝-弍i7b

30、;合約2-件味信件Dmin7教肓訓糜1斗昭-H取-虫词青豆9)6於此搜尋結呆内按尋广於此廿類下搜尋o搜尋所有分類)亘詢宇串:擱索i)艾戎甄爭宜杜,有酣。查宜枚可炭劉藍.此汶搜尋托芯了1.力秒J文I幡型卜拎匸丈件無型:繪筍皙四窗唇屆晶孚津越土鱼詢詰果,|I|2|LIIIIINertWt林IT?ttl:2J:甘序:擋案日期工|曲:到小三MKL(0(VT究)r咋咅:H卜网乃丄翁第五章中小企業市塌厅銷現況(研究,調查)國穴育戊中4:的功韮亘耳球门世質,际r創栄垢苛之恻堆對亦發创新也是寺成携制中延亘要垒-塩,為配合坟膚鼓助半小主業淮订產業拉丙與窿品刖靳肝沉的吧弟目瞟,备育戒屮心唾才忸助誠匸啟趾新觑中屮企

31、釜朋麥新玄用拒魏計畫CSBIR-IJISS,眇干怎例,右成中1工轴助辛舌申詣上希寺帀篙祎北的計吉共石須畔,樹中-卜咋辛出条胆皆的艳尸右S筈旳旳益.311:20C905?r咋若:7t-:9990;1.5.10高效数据同步功能(增量索引)以前的全文搜索引擎在面对大资料量建立索引时,都会限制数据量的多少,而解决这个问题通常都是将资料量分为几个部分分开建索引。但是这种方法并无WORD格式整理版WORD格式整理版专业学习参考资料专业学习参考资料法彻底解决资料同步更新或检索的需求。本系统提供渐进式索引技术,也就是通过增量索引机制可以逐步地分别为数据库建立索引,对于异动的数据或索引,进行实时的更新。1.5.

32、11高可用性备上,让备用机共享其索引数据,使全文检索服务可以正常运行。1.5.12可扩充性:本系统可依不同需求扩张,分类,自然语言,数据适配器等组件,更可置换其关键性应用组件,例如:企业已使用其它分类组件,透过本系统提供之SDK,可取代原本之分类应用组件,且不会影响原本服务机制。1.6大数据量全文检索解决方案当需要建立索引的数据量达到上千万条时(大概上百个G),单个服务器检索系统在性能方面是不可能得到保证的,这时候查询一条信息所需要的时间已经远远超出了使用者的容忍范围,所以为保证全文检索系统的高性能特点,使用多台检索服务器机群来实施分布式检索成为当务之急!1.6.1大数据量全文检索构架图如图所

33、示,应用系统的所有资料分散的部署到各个索引服务器上建立索引,之后把索引好的数据存储到索引库中,用户发出一个搜索请求后,龙卷风大数据量分布式检索系统通过SOAP机制把搜索请求发送给索引服务器,然后接收到搜索请求的服务器会去到索引库中把搜索者所需资料查找出来并且把所有查询结果合并到一起通过用户设定的排序方式在前端搜索页面上显示出来。在此期间,用户发送搜索请求后,机群索引调度服务会根据索引服务器状态表把搜索请求发给空闲的服务器,充分利用整个系统的每一分资源。1.6.2分布式技术优势多种数据库信息统一建立索引,支持对数据库的文件附件索引,无需对数据源进行任何改动;支持T级总量数据,每天G级的增量数据实

34、现秒级数据检索,并且索引延迟时间保证在1小时以内,即实现用户对每天更新数据能够及时查询,还能保证T级历史数据的快速查询;整个系统具有灵活的扩展性,在系统应用过程中,随着用户需检索数据量的增加,可通过扩展索引服务器和查询服务器集群高性价比平滑升级,已经索引过的数据和原有系统的稳定性不受影响;高并发用户访问量支持;1.7搜索的权限控制IRMS提供的信息搜索并非是指人人皆可随意搜索到任何信息,而是依照组织中的角色,让搜索者只能搜索自己权限范围内的信息,而无权限访问的记录是不会被搜索出来的。IRMS权限控制主要实现:保证存取信息的安全性有该文件读取权的人或群组,才有可能查询到此一文件无该文件读取权的人

35、或群组,不会知道有哪些无权读取的文件存在如果每个人或群组文件的读取权不同,查询结果集就会不同1.7.1搜索系统和应用系统权限整合方法针对不同的应用及特定的权限规则,有多种方式可以实现IRMS搜索系统和应用系统的权限整合。主要方法包括:1、分索引库法:此种方法适用于权限较简单,并且权限可以归为几大类的应用。如用户组分为公司领导组、部门经理组、普通员工组,每组用户WORD格式整理版WORD格式整理版专业学习参考资料专业学习参考资料内部权限相同,组之间才有权限差异。针对此种应用,可以分别针对不用的用户组创建不同的索引库,分别放置于Group_for公司领导、Group_for部门经理、Group_f

36、or_普通员工。搜索时,首先判断用户所在何用户组,针对不同的用户组再定向到不同的搜索库中去全文检索。2、特殊属性过滤法:此种方法适用于信息资料源单一,并且有一特殊属性字段可以判断用户权限的情况。如数据库全文搜索时,有一字段值为授权访问该记录的所有用户或组。针对此种特殊情况,可以选择使用多字段属性过滤的方法,在搜索页面提交搜索请求后,使用该特殊属性字段过滤最终的搜索结果。3、搜索结果过滤法:用户提交搜索后,搜索引擎搜索时并不带入权限信息,只是在搜索结果显示时,使用应用系统的权限规则来过滤搜索结果,并将符合该用户权限范围内的信息显示给搜索者。4、内建权限规则法:搜索系统内建权限规则,管理员根据搜索

37、信息来源的适用环境优点缺点权限规则定制搜索系统的权限规则,用户提交的搜索请求搜索系统经过权限过滤后再反馈给搜索者。5、导入权限规则法:搜索系统不内建权限系统,但提供权限导入机制。用户将应用系统的权限规则标准化后,通过搜索系统的API导入到搜索系统中。用户提交搜索请求,搜索系统经过权限过滤后再反馈给搜索者。各种方法的比较:分索引库法权限较简单,并且权限可以归为几大类的应用部署简单适用范围小特殊属性信息资料源单一,并且部署简单适用范围小过滤法有一特殊属性字段可以判断用户权限的情况搜索结果应用系统权限判断用时部署简单应用系统权限规则过滤法少复杂时,搜索结果权限判断将很花时间,致使搜索结果显示速度慢内

38、建权限大部分应用系统权限系统内嵌在搜管理员需要为搜索规则法索系统中,搜索速系统索引库中的每度和显示速度快笔记录分配权限,工作复杂导入权限大部分应用系统权限系统内嵌在搜需要将应用系统权规则法索系统中,搜索速限规则导出为特定度和显示速度快。格式。但一旦确定模支持批量导入机制式,则可重复使用按照以上搜索系统权限整合分析,此次应用系统涉及的搜索信息来源所包括的Documentum、OA及其它应用系统都有各自的权限规则,应采用第四或第五种权限整合方法。IRMS全文检索系统支持第五种权限整合方法,它的主要特点包括:支持实时权限信息导入和定时权限信息导入,用户现有权限规则不用做任何改动;支持使用XMLExp

39、ort与Import的机制提供信息内容权限控管的整合接口;支持权限信息导出为XML文件后,再批量XML文件导入的功能;提供权限组件及SDK,可单独操作权限组件进行不同的权限系统整合;利用XML进行权限整合描述,和其它系统的权限架构做整合。整合后,不同的权限使用者使用搜寻引擎、自然语言等应用组件时,将得到符合各自权限的数据;权限规则与IRMS可以完全分离,增加可重用性。1.7.2IRMS和Domino权限整合实例龙卷风公司已经开发出成熟的Domino适配器,实现将Domino中的文档建立索引,实现全文检索。通过管理界面设定需要如何连接DominoNSF数据库,同时设定索引哪个View或表及其它信息。IRMSDominoComposer通过以上配置实现从Domino中提取文档内容,创建索引。IRMSPlatformNotesComposerSearchIndexDBIndexerIndexDBDisk/Storage1ILAN(DataSource)DominoNSFForm/ViewLotusNotes(Client):LotusNotes;ComponentInterface

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论