用分类主题理论调整检索功能要求_第1页
用分类主题理论调整检索功能要求_第2页
用分类主题理论调整检索功能要求_第3页
用分类主题理论调整检索功能要求_第4页
用分类主题理论调整检索功能要求_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、用分类主题理论调整检索功能要求孙卫中国科学技术信息研究所 100083摘要:本文回顾了在数字图书馆发展中,计算机技术与图书情报理论的相关事实和问题,并提出了利用分类主题理论调整检索功能要求,在一个现实环境下,促进图书情报理论与计算机技术的结合能够逐步改善数字图书馆关键技术的质量。关键词:分类主题、分类主题理论、检索功能、分类法、主题词、数字图书馆从1994年,美国自然科学基金进行数字图书馆第一期研究计划以来,已经过去了13年了。在过去的13年里面,计算机技术大量的进入了图书馆与情报行业,在资源数字化,信息网络化服务两个方面取得了重大的发展。但是,数字图书馆的发展并非像当年研究计划所期望的那样。

2、互联网的使用超过了当时的预期,尽管技术已经进行了很多更新,还是没有从根本上解决互联网的使用效率问题;另外期望借助图书情报的理论,使互联网的信息更有序化和避免信息孤岛也没有真正的实现。从1996年中国进入数字图书馆的探讨研究以来,借助图书与情报理论比较多的是元数据和分类,更多的是借助计算机的相关技术。2004年,我再次受聘到国家图书馆的总工程师的时候,就如何利用图书情报理论与计算机技术相结合进行了广泛而深入的思考。2007年5月聘用期结束,进入中国科学技术信息研究所和万方数据研究院,有机会对这个问题在理论上进行了研究。1996年开始的数字图书馆研究,那个阶段是计算机的各种技术应用到图书馆的阶段,

3、没有真正将图书情报理论与计算机技术很好的结合。但是,从现在开始,要把图书情报的理论与计算机技术进行结合,才能从根本上改变互联网的使用效率的问题。图书情报分类-主题词理论图书馆已经有一百多年的历史,为了比较科学、系统地进行管理,合理的揭示图书资料的内容,必须按一定的方法,结合图书资料的内容和特点来组织图书资料,在不同的国家的图书馆分别采用不同的分类法来对图书资料进行分类管理。对图书资料进行分类处理,则是普遍采用的科学组织方法。为了使各图书馆的分类方法能够互相通用,有关机构按照科学分类的基本原则,编制了通用的图书分类表,将某一专业门类的图书与某一特定序号联系起来,这就是图书分类的基本思想。图书分类

4、人员依据某一分类表,按照某一图书的专业属性,结合实际,给出图书的分类号。这样保证了同一专业属性的图书集中在一起,便于读者有效地利用。这个分类的知识就是图书情报管理文献资料的理论之一,主要就是人为的把图书资料分成类,再根据这个类进行库架排位,方便使用。在我们国家已经有中图分类法、科图分类法。而在美国主要是杜威分类法、美国国会分类法等。我们以中图分类法为例,理论上所有的文献资料在理论上至少会被人为的分配到二十二个大类所对应的一个以上的子类中去。用一个数学的表达式:Bi C ( A , Z )假定:Bi为任何一本书,C ( A , Z )为中图分类法集合那么:Bi 属于中图分类法集合中。这个分类是由

5、很多专家在统计的基础上做出的一种相对科学的方法,但是,面对现实的时候,就是事物的发展变化速度快于专家的知识能力,那么这个科学的方法遇到了什么?1.1 分不准造成时间浪费我们说分类法是一种人类管理文献的知识组织的方法,受到专家的知识能力和知识更新速度的限制。Bi C ( A , Z )这个表达式本身是正确的,但是,把这个公式进一步拆分以后,可以看到:C ( A , Z ) = CA (Aij)+ CB (Bij)+ CZ(Zij)中图分类法C ( A , Z )是由22个大类及其子集CA (AijCZ(Zij)组成的。那么:Bi CA (Aij)+ CB (Bij)+ CZ(Zij) 所以,Bi

6、属于其中的一个分类,还是可以属于其中多个分类呢?事实证明,Bi是可以属于多个分类的。当我们在一个库架上寻找图书资料的时候,是根据一个分类进行查找的,如果不知道Bi存在其他的分类,那么就很难在书架上找到所需要的图书资料。但是在实际工作中,由于分类者并不真正的了解整个图书资料所描述的事实,或者受自己的专业知识的限制,利用这个分类经常会发生错分类或者没有办法给出交叉分类的情况,那么对于错分类或者没有给交叉分类就是一种典型的分不准。这个分不准会造成什么?假定有22个大类,每个类有M册图书,查一本图书是1秒;那么对于不分类查找的方法,查找到所需要的图书的时间是在1,22*M 区间,而对于分类查找的时间是

7、在 1,M 区间。我们可以看到的是,当分类准确的时候,最大找到的时间是不分类时间的1/22。由此可见,分的准与不准对于找到这个图书资料的时间效率是显而易见。那么,我们把图书馆的分类知识从排架管理,扩展到了查找的效率的提高。1.2分准的办法对于中图分类法的研究早期是靠专家的智慧为主的。理论上通过主题词和分类法的对应,就可对于图书资料中出现的叙词和主题词(规范的叙词)进行统计计算,然后学习进行分类。对于图书资料,如果把所有的叙词找到,再把有一定统计规律的规范的叙词主题词标引出来,就是一个二维的矩阵。假设:Bi属于某个类表示为Bi C (A,Z)那么:CA (Aij),Subject words (

8、 DAij) CZ (Zij),Subject words ( DZij) Bi C (A,Z)上式中,CA(Aij)是A大类的某个细致分类,Subject words (DAij)是对应这个分类的主题词表。根据以上表达式,原来的Bi由一维决定的,现在的Bi变成由两维来决定,即满足分类-主题词对应关系。在分类准确、分类主题词准确两个前提下,才有对于图书资料查全与查准的理论关系。 Find (All) C ( A , Z ) | C (),Subject words ()即找到Bi的方法是在某个分类中,满足主题词的所有的结果就是查全与查准。假定,在A类中有20个主题词,DA1到DA20;一个文档

9、中有DA1到DA20的某一个的时候,X为切分出来的某个词;那么:XDAi()=1,有DAi 属于A0,没有DAi 不属于A然后计算这个进入这个分类A的概率,a1到a16为在这篇文章中关键词DA1到DA16出现的次数;A()=a1 XDA1()+ a2 XDA2()+ a16 XDA16()a1 + a2 + a16那么:A()=1,当A()属于A0,当A()不属于A这个分类-主题词理论,决定分类的几个要素是,主题词(Dai),主题词出现的频度(A(),判断分类的加权关系(),所以,在数学方法上也是可取的。由于采用分类主题理论,进行复分也就成为一种可能的分准的方法。实际情况下,由于主题词的变化和

10、更新的速度的不匹配,造成了主题词的非实时性的问题的发生。另一个问题,就是无法把所有的叙词穷举出来,也造成了叙词规范的滞后。特别对于网络时代的传播的快速度和互联网信息的爆炸性的增长,分类不准确性和主题词不实时更新性,造成了查全和查准的误差很大。2、互联网检索技术2008年1月11日在北京举办的中国计算机学会青年计算机科技论坛上,对于“垂直搜索”,2007年10月10日在郑州举办的“搜索技术与网络经济”,2007年10月20日在哈尔滨举办的“多媒体信息检索”,2006年的1月23日在北京举办的“基于内容的检索与搜索引擎”等多场关于互联网检索的专题讨论。那么,计算机界在互联网检索上发现了什么问题?2

11、.1 信息检索的效率信息检索已经成为数据库,数据挖掘,并行处理,信息安全,操作系统,图像视频语音,自然语言处理,网络和知识管理等应用的基本功能。对于网络的信息检索,由于大部分人使用自由词进行检索,那么检索结果是大量的信息噪声,把使用者本来想获得的结果给淹没了。这个是信息检索遇到的普遍的问题,同时,也是数字图书馆元检索所面临的问题之一。大部分的网络使用者,发现与查找信息花去很多很多的时间,这个也证明了计算机界现在开始关注信息噪声了,而不是一味的强调检索的速度和并行的能力了。我在 HYPERLINK 中做一个实验:检索词命中数备注数字图书馆6,320,000关键词法“数字图书馆”2,040,000

12、只考虑相邻的数量小很多,约少了2/3,关键词,词不拆分数字图书馆 国家图书馆1,880,000关键词团体词“数字图书馆”“ 国家图书馆”124,000关键词团体词,词不拆分数字图书馆 国家图书馆 ppt56,500关键词团体词文档格式词数字图书馆 国家图书馆 ppt2,070关键词团体词文档格式词,词不拆分数字图书馆 国家图书馆 ppt 200637,600关键词团体词文档格式词时间词数字图书馆 国家图书馆”“ppt” “2006”1,350关键词团体词文档格式词时间词,词不拆分数字图书馆 国家图书馆 ppt 2006 孙卫2,510关键词团体词文档格式词时间词作者词“数字图书馆”“国家图书馆

13、”“ppt” “ 2006” “孙卫”43关键词团体词文档格式词时间词作者词,词不拆分那么,对于有特定目的的检索者而言,这个实验很清楚的表明,要过滤信息噪声,是需要改变检索词的组配关系就可以实现的。但是,这个观点早就是图书情报检索理论的基础了, 可是早期的计算机检索的开发者对此不以为然的,认为计算机速度很快,不需要那么复杂的检索组配关系了。在2005年,我和著名大学的计算机教授讨论这个效率问题的时候,这些著名教授还在追捧Google的模式呢,现在很高兴的看到计算机界也意识到了这个问题。其实就是两个部分的变化,一个是词的组配关系,一个是词的拆分限制。在上面的实验可以清楚的看到,即使使用自由词,只

14、要匹配合理和拆分合理,依然可以得到较合理的检索结果集,这个最合理的检索结果集就是期望能在结果集的第一个页面找到自己需要的信息,最多不要超过3到5个页面。2.2词的组配原理在2008年1月11日的研讨会上,哈尔滨工业大学信息检索研究室的刘廷老师做了垂直检索可以燎原 HYPERLINK /web/assembly/action/browsePage.do?channelID=1100824739829&contentID=1200468256491 /web/assembly/action/browsePage.do?channelID=1100824739829&contentID=120046

15、8256491,2008年1月21日的演讲。在总结的基础上,提出了垂直检索的几个主要的特征,即面向特定领域和对象、面向特定需求、全面、深入、准确、及时、结构化等特征。根据这些描述,实际上是一个多特征属性检索词的组合和过滤的关系,并提出了利用自然语言处理的可能的方式与方法。领域和事实的匹配原理。可以把领域理解成为领域,行业,学科,专业,分类等。把事实可以理解为时间,地点,事件,团体,人物等。特定需求原理。即在领域和事实匹配以后的目的匹配。把这个目的看作自己的特定需求,上面的实验中,找ppt文档就是一个特定需求。需求的进一步分解的能力。全面的原理。在领域或者行业的限制下的全面比在专业和分类下的全面

16、更容易把握。因为分类、专业都是比较独立的,而领域,行业,学科是比较横向的。所以,把领域,行业,学科,专业,分类有机的进行组合是全面的基础。深入的原理。找到内在的各种关联关系。积累行业背景知识,利用数据挖掘的手段,找到信息之间的关联关系。给用户进行导向,解决问题的“知识”,从而可以深入。准确的原理。在领域和事实的限制下的,减少了歧义的发生。达到了准确的目的。及时原理。把时效性和时间条件的限制充分的用于检索。结构化原理。利用信息抽取技术把非结构化信息进行结构化,并与原有的结构化信息进行整合,便于进行归并,统计,挖掘。由此我们可以看到,计算机检索的研究者,已经摒弃了简单的自由词进行检索的思维模式了,

17、开始在检索的准确,效率上下功夫了。在2006年的1月,香港中文大学二十一世纪数字资产管理研讨会上,日本国家信息研究所的教授 HYPERLINK .hk/conference/DAM2006/prog.htm .hk/conference/DAM2006/prog.htm,2008年1月21日也提出了领域与词交叉检索的理论。3、分类主题理论调整检索功能我们看到了图书情报的分类主题理论的方法的正确性,也看到了计算机检索遇到的相关的问题,那么,图书情报理论与计算机检索技术的结合就成为一个可能。3.1分类技术的使用在处理信息资源的时候,一定要使用分类技术。利用行业主题词与叙词表和分类主题表,对于资源在

18、分类和词标引上进行处理。我们在设计检索窗的时候,增加一个分类/领域输入条件。那么就可以做到分类/领域+关键词检索。这样的检索结果就是在语境环境(分类/领域)下的语义(关键词)检索。实现的方式可以是吧分类/领域定位索引区与关键词索引区分离,可以同时检索,再对检索结果做“与”计算,把同位中的分类/领域和关键词结果子集找到,并进行排序。如果在目前的索引方式下,就是两次循环检索,再做“与”分析。效率分析:(1)单索引检索模式T search = T(分类/领域检索定位)| A(分类/领域) + T(关键词检索定位)| B(关键词)C (分类/领域,关键词)= A(分类/领域)and B(关键词)由此可

19、见在排序以前,比原来单检索增加了时间,但是,合并结果集以后的命中结果集小于单词检索。那么就减少了用户找到自己需要的资源的时间。(2)多索引检索模式T search = Max ( T(分类/领域检索定位)| A(分类/领域)、T(关键词检索定位)| B(关键词)C (分类/领域,关键词)= A(分类/领域)and B(关键词)由此可见在排序以前,比原来单检索节省了时间,同时,合并结果集以后的命中结果集小于单词检索。那么就减少检索时间和用户找到需要的资源的时间。那么,在数据量,检索循环时间,用户并发,用户响应时间允许的前提下,可以再增加时间、地点、文件格式、人名等检索元素同时检索。如果做到这个部

20、分,对于现有检索系统的技术变化不大,就可以提高检索的效率。针对在上面的Google检索试验中,证明了多词检索的响应时间是在用户需可范围内的,但是检索结果命中集的数量是大量的下降,用户找到自己需要的资源的时间大幅度下降。3.2 词导引技术的应用目前图书情报在做资源处理的时候是利用分类/主题词表,而主题词(规范的叙词)和叙词(同一事物的不同描述词)在很多图书情报专业没有被合理的使用。如果,在检索输入系统中,做一个词导引系统,就是把主题词的上下位关系及其属性导引检索词靠到主题词和叙词,那么检索的时间会大幅度的减少。目前Google的导引是为了导引到已经检索过的结果的快照集合的。做好检索词导引系统,把

21、检索输入窗与这个窗内已经规范过的词进行有序导引,那么就可以帮助使用者不要大量使用低效的自由词。这个部分也是值得检索系统商榷改进的。3.3 排序技术的改进精确排序问题是检索功能需要改进以后,在技术上需要改进的地方。如果输入的是完整与准确的“题名”,在检索结果处理的过程中,需要把完全等于的部分排在最前面。是否需要精确排序,可以靠一个“词相邻”的条件进行条件驱动。在多词检索时,如果没有词相邻限制条件时候,可以把多词同时出现(and)关系排在前面,把多词不同时出现(or)关系排在后面。增加关联排序选择条件是检索功能需要增加的地方,对应的检索技术也需要改进。在一般情况下,主要是按照字母排序进行的。在精确

22、排序和and关系排序的处理以外,可以让使用者,按照作者名,时间,地点等条件选择排序,使得检索结果更匹配使用者自己的兴趣,而不是用字母排序来限制使用者的排序需求。本文研究的目的,是推进图书情报理论与计算机技术更好的进行结合,但是,图书情报人员要和计算机开发人员一起,在功能、性能、稳定性上寻求平衡。因为过多的强调理论的完整,很多时候牺牲的是性能,尽管计算机的速度很快,但是当检索的信息很多,并发检索很多的时候,过于复杂的理论往往就是计算机实现以后性能的损失。检索的字段要增加,增加什么字段合理?对于检索结果如何过滤更合理?等等这些问题都是希望本文引导图书情报人员与计算机开发人员深入合作的基础。这些都是

23、在数字图书馆完善中,图书情报理论的重要性所在。参考资料:1 HYPERLINK /web/assembly/action/browsePage.do?channelID=1100824739829&contentID=1200468256491 /web/assembly/action/browsePage.do?channelID=1100824739829&contentID=12004682564912 HYPERLINK .hk/conference/DAM2006/prog.htm .hk/conference/DAM2006/prog.htm作者简介孙卫,高级工程师,中国科学技术信息研究所顾问,北京万方数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论