基于汉字切分技术的unicorn系统检索机制_第1页
基于汉字切分技术的unicorn系统检索机制_第2页
基于汉字切分技术的unicorn系统检索机制_第3页
基于汉字切分技术的unicorn系统检索机制_第4页
基于汉字切分技术的unicorn系统检索机制_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于汉字切分技术的unicorn系统检索机制

1998年2月,北京大学图书馆与美国空姐签订了自动收集合同,并签署了由斯隆纳科学和文化公司的合同。系统引进及汉化的主要工作包括系统内码体系的选择和字符集平台的汉化处理,中文检索机制的确定和实现,系统界面、手册和联机帮助文件的翻译,系统参数的准备和设置,书目及馆藏等数据的转换,系统汉化的测试等。在相继完成了馆藏书目数据的转换、参数设置、用户数据装载、新借书证的发放和系统培训等前期准备工作后,U-nicorn系统中文版于1999年7月19日正式在北大图书馆启用。Unicorn系统中文版与西文版比较,在界面、检索机制、数据格式、工作模板等各个方面都具有很多本地化特色。其中尤为突出的是系统在引入切分后所采用的中文检索机制。本文将就此进行重点介绍。1Unicorn系统中文检索机制1.1Unicorn系统中英文版检索/索引机制比较Unicorn系统在英文版中提供了三种基本的检索方式:关键词、浏览和精确匹配。这三种方式都可以针对题名、著者、主题索引或全部索引进行检索在高级检索中这三种手段还可以与各种运算符配合使用,如布尔逻辑运算符、位置运算符和关系运算符等。通过对不同的检索方式及各种运算符的灵活运用,Unicorn系统在西文检索时对各种需求都可以驾驭,显得游刃有余。那么,如何将西文版的成功做法在中文环境下实现,是汉化的重要问题之一。在确定中文检索机制时,以下两个方面被列为重点考虑的因素:中、英文本身在语言结构上的差异和引入切分机制所带来的影响。中、英文的差异可以简单地归纳为索引机制不同和分词的实现不同。英文以词为单位建立索引,词与词之间有空格可以区分;而中文以字为最小单位,其基本语义单位(或称词素)之间没有明显的间隔,也就是说汉语词的集合与汉语字的集合构成一种交叉关系,一个词可以就是一个字,也可以由两个或多个字组成。在分词的实现上,英语以空格为词界,汉语则没有明显的分界符来标定词界。考虑到这些因素,同时又考虑到Unicorn系统已有的英文检索机制的特点,Unicorn中文版采用“字索引”和“词索引”混合使用的索引机制———根据不同的检索需求使用不同的索引,从而避免了使用单一索引顾此失彼的片面性,为提高检索的查全率和查准率提供了技术保障。下面将对具体的中文检索手段逐一进行讨论1.2关键词检索(KeywordSearching):Unicorn中文版仍然沿用英文版中的“关键词”、“浏览”和“精确匹配”这三种检索方式。关键词检索是这三种基本检索手段中唯一引入切分机制的一种,具有显著的不同于英文检索的特点。首先,关键词检索对输入的检索词按照一个分词字典由系统自动进行切分。切分的结果得到的是一个个最小的词素单元。需要注意的是,对录入书目数据库记录中的信息进行切分时所使用的分词字典及调用的切分程序必须与对检索式所使用的分词字典及调用的切分程序遵循同一原则。因为只有保持对两者处理上的一致性,才能保证检索结果的正确。其次,根据中文的具体情况,对切分后的检索词语按照特定的中文关键词检索判断处理表达式(见后),利用Unicorn系统的关系运算符(如ADJ)、布尔逻辑运算符(如AND、OR等)进行后台处理,或断或连,以便完善切分后的词语在表意上的准确性和完整性。ADJ(英文adjacent的缩略形式)是Unicorn系统采用的位置运算符之一,表示两个词素单元间没有间隔(不插入任何字符或空格),紧密相连。当使用ADJ时,Unicorn系统查找相关字段中包括全部检索词,并且其出现顺序也与检索式中所表达的完全一致的记录。再次,如上所述,Unicorn系统根据不同的检索对象和检索需求,使用两种不同的索引。这两种索引分别是:按切分后的词为单位所建的索引(称分词索引)和按单个的字所建的索引(称单字索引)。关键词检索的对象是以切分后的词为单位所建的分词索引。中文关键词检索判断处理表达式:设对输入检索词语根据分词字典进行切分后所生成的单位为X和Y。X=1表示切分后得到的单元长度为1个汉字,X=2表示切分后得到的单元长度为2个汉字,以次类推。1.如果X=1,则XADJY例如:中国,饭碗,头发,华人…大中国,大字典,红太阳…1ADJ2,3,4…2.如果X=2,或X>2,Y=1,则XADJY例如:中国人、电视迷、电影节、微波炉…2,3,4…ADJ1说明:以上两种情况的处理保证了在中文中占很大一部分的两个或三个字组成的词能够被作为可表达确切含义的一个词进行检索,从而提高了检索的查准率,减少了检索噪音。例如,使用关键词/全面检索检索“大中国”时,不会检中题名为“我观北大:中国作家谈北大”及在附注项中出现“华东师大中国行政区划研究中心”字样的不相关记录,检索“华人”时,不会检中“中华人民共和国”之类的不相关记录。使用分词索引的优势是单字索引检索机制所不能比拟的。3.如果X=2,或X>2,Y=2,或Y>2,则即XY,X….Y,YX,Y….X等组合均可检中,与英文的关键词检索的唯一区别是,切分后的每一个单元相当于英文中的一个Word。例1:输入检索词“计算机技术”,“编目手册”,“手册编目”等,均可检中记录“计算机编目技术手册”。例2:输入检索词“北京大学”,检中记录中将包括“北京大学”,“北京师范大学”和“大学在北京”等。这种处理的优点是,只要记录中出现检索词串中所包含的任何一个或几个词素(或称切分得到的单元),无论其位置如何,都可以被检中,保证不漏检相关记录,提高检索的查全率。但这种处理也有明显的缺点,就是虽然保证了较高的查全率,但检索结果中可能包括大量的不相关记录。例如:输入“北京大学”时,“北京师范大学”和“大学在北京”等记录也被检中。这一缺点在英文环境中不明显,因为英文词序的颠倒通常不改变词义(如ComputerScience=ScienceofComputer)。但在中文环境中,词序往往决定词义,同样的两个或多个词素,如果按不同的词序组合,它们表达的意义往往相差甚远,可谓风马牛不相及。例如:“职业教育”不同于“教育职业”,“计算机病毒”不同于“病毒计算机”等等。词组的长度越长,词组中各词素的词序对于确定词组的意义而言就越重要。因而,在检索中,尤其是对较长的词组进行检索时,限定词序将保证命中记录具有较高的相关性和准确性。为了弥补关键词检索在处理长词或词组时的不足,Unicorn中文版在“精确匹配”检索中使用单字索引,并对检索词进行ADJ处理,参见“精确匹配”检索。4.需要补充说明的是,对于由多个汉字组成的最小词素(一般是外来语的音译形式),切分时不予以分割,因此仍能保持其作为独立的最小语义单位的特点。例如:沙发,巧克力,厄尔尼诺,布尔什维克等。1.3精确匹配(Exact)精确匹配检索的命中结果将包括含有与输入的检索词及其词序完全一致的字串记录。当用户对检索的内容很明确,需要通过词组或字符串的检索来排除不必要的噪音干扰时就可使用精确匹配检索。但必须说明的是,精确匹配检索使用的是单字索引,并未对词串进行切分处理,其实现方法是:对切分后的检索词串的每个单元均使用ADJ连接,如:XADJYADJZADJ…..其中X,Y,Z为字或词素。因而,在对某些词界模糊的检索词进行检索时,检索结果中会含有不相关记录。例1:输入检索词“北京大学”检中记录中包括:北京大学,北京大学图书馆,百年的北京大学….检中记录不包括:北京师范大学,大学在北京例2:输入检索词“中国人”检索记录中包括:中国人,中国人大,中国人民大学等。1.4浏览(Browse)Unicorn中文版的浏览功能与英文版相同,即命中前方一致的匹配记录。例如:用“多媒体”检索,可命中“多媒体百科全书”,“多媒体技术”,“多媒体制作”等,但不命中“网络环境下的多媒体触摸屏”。“浏览”在本地化方面最突出的特色当推“索书号浏览”。Unicorn系统通过限定分类法体系(即指明排序规则)和馆藏单位(即指定排序范围),实现了通过一次检索就能浏览某一特定馆藏址内所有不同文种同类书的要求。例1:用户输入“B84”,选择分类体系为“中图法-C”,图书馆为“北大中心馆”,就可以浏览北大中心馆各阅览室所收藏的中西文心理学方面的图书。例2:输入“H316”,选“中图法-C”,图书馆为“英语系”,文献类型为“工具书”,就可浏览英语系资料室所藏的全部英语词典。2Unicorn汉化系统的检索界面虽然系统内部遵循一致的检索机制,但根据不同的使用对象和不同的实现环境,Unicorn系统中文版采用了两种不同的界面设计:供工作人员使用的WorkFlows中的“工作人员检索”界面和供公共用户使用的WWW环境下的WebCat检索界面。2.1WorkFlows中的“工作人员检索”界面设计在Workflows界面中有8项与检索密切相关的要素需要介绍,它们是:(1)“望远镜”图标:该图标的作用是针对检索、显示和浏览进行限定。如:针对检索可以通过出版年、MARC格式、文献类型、正文语种以及命中结果以什么方式排序等参数进行限定。针对显示的限制渠道,有馆藏范围(全部或部分),记录格式(详细或简短)等。(2)检索(Search):包括分类检索(题名、著者、主题等)和全面检索,使用分词索引。(3)浏览(Browse):包括一般浏览和索书号浏览。(4)精确(Exact):等同于词语检索,使用单字索引和ADJ机制。(5)当前(Current):这是WebCat中没有的,专为编目员提供的功能。通过它可以直接调出上次检索或操作过的记录,但首次检索时不会出现Current选项。(6)检索点选项:点击下拉式菜单,可以看到如下选项:·全面检索:提供了对ISBN、ISSN等号码以及题名、著者、主题和提要附注项中信息的检索途径·题名键:可检索本馆记录唯一识别号·文献标识:可检索条形码号·题名:可检索正题名、各种变异题名、丛编题名、期刊题名等·丛编:专门检索丛书题名·期刊题名:专门检索期刊题名·索书号:按不同分类体系的索书号浏览馆藏(7)分馆馆址:可供限定文献的收藏馆,所有馆址均已通过参数设置列在此选项的下拉式菜单中。(8)拼音选项按钮:缺省为不标记,用户输入的字母按英文字母处理。选中该按钮时,输入的字母按拼音处理。“拼音检索”不进行切分。用户可以进行全拼和简拼查询,但不能进行混拼查询。比如:“北京大学”可以按“beijingdaxue”检索,也可以按“bjdx”检索,但不能按“BJingDXue”来检索全拼和简拼的输入既可以在拼音之间加空格,也可以不加空格而连起来输入.例如:“北京大学”可以按“Beijingdaxue”,”BeiJingDaXue”,“BJDX”,和“BJDX”来检索。拼音检索属于高一层次的检索,供有需求的用户学习使用。2.2WebCat界面设计检索过程中有三个要素直接关系到检索的结果,它们是:·检索方式(匹配模式)·检索词(检索关于什么主题的资料)·检索途径(如何检,检索与记录中的哪个字段/子字段相关)各种检索方式的特点如下:(1)快速检索:相当于Workflows中的关键词检索。命中记录中包含所输入的词语,按切分得到的最小表意单位,采用“关键词检索处理表达式”进行检索。例如:用“北京大学”进行著者检索,命中1012条记录,其中包括“北京科技大学”“北京农业大学”“北京中国大学”“北京师范大学”等。(2)词组短语:相当于Workflows中的精确检索。命中记录中包含和所输入的检索词完全一致的词语,采用ADJ机制实现。当切分结果不符合人们的检索习惯时,它可以弥补关键词检索的遗漏或误差。例如:用“北京大学”进行著者检索,命中755条,这时“北京科技大学”,“北京农业大学”,“北京中国大学”,“北京师范大学”等都被排除在外,只有“北京大学”及其下属机构作为责任者的记录可以命中。(3)浏览:相当于Workflows中的浏览。即前方一致,后方截断的检索。命中标目的入口词等于所输入的检索词。例如:采用“鲁迅”一词作题名浏览,命中的记录题名全部以“鲁迅”开头而外国友人忆鲁迅人间鲁迅关于鲁迅》等书均不出现。(4)索书号浏览:相当于Workflows中的索书号浏览。(5)拼音检索:相当于Workf

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论