信息检索语言与技术课件_第1页
信息检索语言与技术课件_第2页
信息检索语言与技术课件_第3页
信息检索语言与技术课件_第4页
信息检索语言与技术课件_第5页
已阅读5页,还剩189页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索语言与技术文燕平1信息检索语言与技术文燕平11信息检索语言检索语言,是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。检索的运算匹配就是通过检索语言的匹配来实现的。检索语言是人与检索系统对话的基础。21信息检索语言检索语言,是信息存储与检索过程中21.1什么是信息检索语言语言=词汇+语法

信息检索语言的词汇:分类号、检索词、代码

信息检索语言的语法:如何正确描述记录和有效地检索记录的一整套规则。31.1什么是信息检索语言语言=词汇+语法3检索语言的类型检索语言的类型描述内容特征语言描述外表特征语言主题语言分类语言题名语言著者语言号码语言关键词语言标题词语言叙词语言4检索语言的类型检索语言描述内容描述外表主题语言分类语言题名语1.1.1文献信息分类语言分类语言是用分类号来表达文献主题概念,并将文献按学科性质分门别类地系统组织起来的一种检索语言。利用分类语言编制的分类表主要有《中国图书馆分类法》(简称中图法)、《美国国会图书馆分类法》、美国的《十进制图书分类法》、《国际专利分类表》以及印度的《冒号分类法》。51.1.1文献信息分类语言分类语言是用分类号来表达文献主题《中国图书馆图书分类法》6《中国图书馆图书分类法》6《中图法》结构示意图A马克思主义、列宁主义毛泽东思想、邓小平理论B哲学、宗教C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理N自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学Z综合性图书U1综合运输U2铁路运输U4公路运输U6水路运输[U8]航空运输U41道路工程U44桥涵工程U45隧道工程U46汽车工程U48其他道路运输工具U49交通工程与公路运输技术管理U441结构原理、结构力学U442勘测、设计与计算U443桥梁构造U444桥梁建筑材料U445桥梁施工U446桥梁试验观测与检定U447桥梁安全与事故U448各种桥型U449涵洞工程

基本大类简表详表7《中图法》结构示意图A马克思主义、列宁主义U1综合运输U中国科学院图书馆图书分类法简表(第三版)00马克思列宁主义毛泽东思想10哲学20社会科学(总论)21历史、历史学27经济、经济学31政治、社会生活34法律、法学36军事、军事学37文化、科学、教育、体育41语言、文字学42文学48艺术49无神论、宗教学50自然科学(总论)51数学52力学53物理学54化学55天文学56地球科学(地学)58生物科学61医药、卫生65农业科学66农作物67园艺68林业、林业科学71工程技术72能源学、动力工程73电技术、电子技术74矿业工程75金属学(物理冶金)76冶金学77金属工艺、金属加工78机械工程、机器制造81化学83食品工业85轻工业、手工业及生活供应技术86土木建筑工程87运输工程90综合性图书8中国科学院图书馆图书分类法简表(第三版)00马克思列宁主义人大法简表1.马克思主义、列宁主义、毛泽东思想2.哲学3.社会科学、政治4.经济5.军事6.法律7.文化、教育、科学、体育8.艺术9.语言、文字10.文学11.历史12.地理13.自然科学14.医药卫生15.工程技术16.农业科学技术17.综合参考9人大法简表1.马克思主义、列宁主义、毛泽东思想9.语言、文字《中国图书分类法》(台湾)000总论100哲学200宗教300自然科学400应用科学600历史、地理700历史、地理800语文900美术310数学320天文330物理340化学350地质360生物、博物370植物380动物390人类学410医学420家政430农业440工程450矿冶460化学工业470制造480商业490商学441土木工程442道路工程443水利工程444船舶工程445市政工程446机械工程447陆空交通448电气工程449核子工程10《中国图书分类法》(台湾)000总论310数学410《杜威十进分类法》(DDC)000总论100哲学200宗教300社会科学400语言500自然科学600应用科学700艺术800文学900历史、地理510数学520天文学530物理学540化学550地球科学560古生物学570生命科学580植物学590动物学621应用物理学622采矿623军事及航海工程624土木工程625道路工程627水力工程628卫生及市政工程629其它工程610医学620工程与应用科学630农业640家政650管理科学660化学工业670制造业680特种制造业690建筑11《杜威十进分类法》(DDC)000总论510数学62《美国国会图书馆分类法》(LCC)A综合性类目B哲学、宗教C历史-辅助科学D历史与地方志(美洲以外)E~F美洲历史与地方志G地理学、人类学H社会科学J政治学K法律L教育M音乐N艺术P语言、文字学Q自然科学R医学S农业、矿业T工业技术U军事科学V海军Z目录学、图书馆学QA数学QB天文学QC物理学QD化学QE地质学TA工程总论TC水力工程TD卫生工程和市政工程TF铁道工程和运输TG桥梁工程TH建筑工程12《美国国会图书馆分类法》(LCC)A综合性类目M国际专利分类法(IPC)各部的内容A-生活需要B-作业;运输C-化学;冶金D-纺织;造纸E-固定建筑物F-机械工程;照明;加热;武器;爆破G-物理H-电学13国际专利分类法(IPC)各部的内容13

国际专利分类法(IPC)

类目采用字母—数字---字母---数字混合标记法:部—用字母表示,大类----用数字表示,小类又是字母,组用数字表示,主组和分组间用/分开。F‥部02‥‥大类F‥‥‥小类1/00‥‥‥‥主组1/24‥‥‥‥‥分组14国际专利分类法(IPC)类目采用字母—

国际专利分类法(IPC)

有些分组与分组之间有从属级别关系,一般用圆点和缩位的办法继续细分。其分组的等级分类法为:1、其等级完全由类名前的圆点数决定,而不是根据分组的编号来决定2、为了避免重复,圆点也用来替代那些等级直接比它更高一级的组的类名。15国际专利分类法(IPC)有些分组与分组之国际专利分类法(IPC)举例

分类号F02F1/32的内容是指燃气发动机上的一种具有冷却装置、用于空冷、形状是散热片式的一种顶阀式的汽缸盖。16国际专利分类法(IPC)举例16国际专利分类法(IPC)举例

B作业、运输分部:交通运输B64飞行器、航空、宇宙飞船B64C飞行、直升飞机B64C25/00起落装置25/02·起落架25/08··非固定的,如:可抛弃的25/10···可快放的,可折叠的或其他的25/18····操作机构25/26·····操纵或锁定系统25/30······应急动作的部大类小类主组一点分组二点分组三点分组如果检索的主题涉及飞机的可抛弃的起落架,那么确定的分类号应该是:B64C25/0817国际专利分类法(IPC)举例B作业、运输部分类语言的优缺点优点以学科和专业集中文献的,有较好的族性检索效果将概念逐级划分,便于扩大和缩小检索范围缺点对新兴学科、边缘学科或交叉学科而产生的类目不能及时体现。必须了解科学分类体系,否则不容易找到准确的类目。18分类语言的优缺点优点缺点181.1.2网络信息分类Internet是一个巨大的信息量丰富的知识库,需要采取有效的信息组织方式和检索方式才能更加有效地利用它获取知识。网络信息的“爆炸性”增长挑战了等级结构和分面分类的极限,传统分类法因受到其昂贵的维护费用和学习成本、漫长的更新周期和复杂的使用局限,不能很好地满足互联网知识组织的需求,使得非专业用户开始寻求新的分类方式来组织网络信息资源。191.1.2网络信息分类Internet是一个巨大的信息量丰二.公众分类法的产生与发展

-1

何谓Folksonomy?Folksonomy,是一种新的网络信息分类方法。Folksonomy是一个创造词,是由社会性书签服务中最具特色的自定义标签(Tag)功能衍生而来。Folksonomy=Folks+Taxonomy,Folks在英文中是表示一群人,一伙人的意思。Taxonomy则是指分类法。而Folksonomy是指“公众”自发定义的标签分类,我们将它称为“公众分类”,也有人称之为大众分类、通俗分类、分众分类、社群分类等。

20二.公众分类法的产生与发展-1

何谓Folksonomy?二.公众分类法的产生与发展-2Folksonomy内涵:

简单理解这个概念就是Tags(标签)。Folksonomy就是由网络信息用户自发为某类信息定义一组标签进行描述,并最终根据标签被使用的频次选用高频标签作为该类信息类名的一种为网络信息分类的方法。在大部分的web2.0网站中,资源都是由用户来自己去标注,可以说并没有专家去对资源进行分类。21二.公众分类法的产生与发展-2Folksonomy内涵:2二.公众分类法的产生与发展-3

Folksonomy示例1:22二.公众分类法的产生与发展-3

Folksonomy示例1二.公众分类法的产生与发展

-4

Folksonomy示例2:23二.公众分类法的产生与发展-4

Folksonomy示例2二.公众分类法的产生与发展-5Folksonomy与元数据比较:

方面元数据Folksonomy定义关于数据的数据(dataaboutdata)关于数据的标签(tagaboutdata)目的组织信息以方便用户使用组织信息以方便用户使用制作人专业人士公众(网络用户)制作成本高低维护费用大小(几近于零)更新周期长即时规范性分类架构事先制定、严谨、准确、标准、规范、权威分类架构未事先制定、标签因人而异、自由标注,品质参差不齐便利性复杂、麻烦简单、方便时效性滞后适时直观性差及时反映大众兴趣热点与发展趋势覆盖面小越来越广24二.公众分类法的产生与发展-5Folksonomy与元数据二.公众分类法的产生与发展

-6Folksonomy应用:宽公众分类法(BroadFolksonomy)特点:面向大众,拥有大量异质用户。这里的异质是指用户在认知能力、知识结构和兴趣领域上具有一定差异,每个用户都可能用自己的语言对社区中现有或尚未添加的内容提供与众不同的标签,每一个内容都存在相当多的标签来描述。它所构建的是一个大众分类体系平台。其原理如右图所示。

25二.公众分类法的产生与发展-6Folksonomy应用:2二.公众分类法的产生与发展

-7Folksonomy应用:宽公众分类法(BroadFolksonomy)如右图的曲线所示:对于一个网络资源对象,可能存在5种标签来描述它,其中使用最多的是tag2,说明这是被最广泛接受的词汇,而曲线的尾端可能会出现很多通用性较差、较不常用的tags,形成长尾(long-tail)。宽公众分类提供了一种工具,能够了解用户的用词习惯,抽取准确的受控词。

26二.公众分类法的产生与发展-7Folksonomy应用:2二.公众分类法的产生与发展

-8Folksonomy应用:窄公众分类法(NarrowFolksonomy)特点:用户特质因为用户在知识结构和兴趣领域上具有很大的同质性。所以窄公众分类的可以用于为某一领域或专业的信息或知识提供共享平台。

27二.公众分类法的产生与发展-8Folksonomy应用:2二.公众分类法的产生与发展

-9Folksonomy发展趋势:公众分类法自2005年初被提出以来受到广泛的关注,并在快速演化和升级,随着大众持续的需求和新的技术手段的加盟,它推陈出新的速度要快于目前元数据,成为目前海量网络资源组织的热点研究方向。Tag正在开始Web环境下对信息“分类”的一种革命性的改变。这是一种广大民众参与信息分类的规模化作业。在用户充分参与的前提下,公众分类法可提高知识组织效率,成为网络资源组织和信息检索的重要辅助手段。28二.公众分类法的产生与发展-9Folksonomy发展趋势三.公众分类法的特点

-1

Folksonomy优点:

与传统分类法相比,这种分类法的特点在于它并没有采用预先制定的信息分类法和词表,而是用户根据个人的使用习惯,以自定义的自由词为数字资源对象进行标注和分类。所以公众分类法比传统的等级分类和分面分类法更接近用户大众并易于被他们接受,自由灵活是其突出的优点。用户可以对其感兴趣的内容进行标识,提供一个或者多个标签,或什么也不作,仅浏览他人的标签。人们不必了解DCMI修饰符,也不必查询杜威十进制分类法(DDC)。29三.公众分类法的特点-1Folksonomy优点:2三.公众分类法的特点-2

Folksonomy优点:

用户对内容进行标注后,他人可立刻看到这些标签,如果认为标签不合适,还可以自行增加新的标签,因此共建共享是其另一重要特色。常用的标签按字顺排列,形成图1所示的标签云图(TagCloud)。这种TagCloud不同于传统的、针对文字本身的关键字检索,而是一种模糊化、智能化的分类。30三.公众分类法的特点-2Folksonomy优点:30三.公众分类法的特点-3

Folksonomy优点:动态更新是其有别于传统分类法的又一个重要特色。动态更新是随着人们使用不同标签标识内容信息,被使用最多的标签就最能说明这条信息的特点。一些使用频率低的标签逐渐“淡出”人们的视野,而那些使用频率高的标签会在标签云图以字号变大的形式反映出来,这种更新可让人随时发现当前人们关注的“热点”和“走势”。31三.公众分类法的特点-3Folksonomy优点:31三.公众分类法的特点-4Folksonomy缺点:缺乏层次性(lackofhierarchy)

公众分类法与传统分类法的一个显著不同是:它是一种平面的分类方式,系统在整体信息的组织上,是一个用词构成的平面结构,因而很难使用它来揭示复杂的关系。32三.公众分类法的特点-4Folksonomy缺点:32三.公众分类法的特点-5Folksonomy缺点:表达概念的模糊性

基于公众分类法的数字资源采用的是根据用户自定义的词,进行描述、分类和检索,这就造成了标签的模糊性,主要表现在以下四个方面:①缺乏语义精确性(lackofsemanticprecision)由于用户认知程度不同,对标签词义的理解各异,导致对同一事物的揭示存在很大的差异。比如在同一标签下,可能会发现彼此完全没有关系的内容。②缺乏同义词控制(lackofsynonymcontrol)由于用户用词习惯的不同,会出现大量的同义词,例如不同的词表达同一的概念:土豆/马铃薯,又如一个词的不同写法:web2/web20/web2.0,还有同一个词在英语中用户可能会使用单数或复数形式,等等。③词的多义性问题。比如“china”这个标签,到底指中国,还是指瓷器。④用户标签五花八门,可能会产生大量“噪音”,加重系统负担,降低分类的准确性。这些都会造成查找的困难。33三.公众分类法的特点-5Folksonomy缺点:33四.几点建议-1

对于公众分类法在目前的应用中存在的精确性和缺乏层次等问题,如果能与目录分类法(Taxonomy)相结合,然后再对能够用作标签的词汇进行控制,(controlledvocabulary)那将是很好的解决途径。34四.几点建议-1对于公众分类法在目前的应四.几点建议-2⑴对Tag进行排序除了按照字顺和权重排序之外,还有多种形式,包括动态形式,如结合相关反馈、合作过滤、点击次数等。35四.几点建议-2⑴对Tag进行排序35四.几点建议-3⑵对Tags进行聚类为了达到更好地揭示资源之间的相互关系,对Tags进行聚类能够帮助用户通过一个tag更快地发现与之相关的内容。以宾夕法尼亚大学(UniversityofPennsylvania)图书馆的“PennTag”项目[6]为例,图6是用户点击“film”这个标签之后,出现的按照字顺排列的与film相关的(relatedtofilm)内容。36四.几点建议-3⑵对Tags进行聚类36四.几点建议-4⑶对Tag进行层级化现在的标签是平面结构,不能很好地反映他们之间的层次关系。如果可以与叙词表结合使用,利用已有的叙词表中的层级关系,希望将来可以实现从平面的标签到网状的概念地图(ConceptMaps)。37四.几点建议-4⑶对Tag进行层级化37四.几点建议-5⑷对Tag进行规范化由于标签完全由用户自行创建,这种自由导致了标签的表示法不规范,例如:拼写错误,单复数形式混用,另外,由于目前大多数应用系统只支持单个词,用户为了更清楚地表达自己的意思,往往会使用符号来形成复合词,例如:目前一些del.icio.us(即“美味书签”,当前网络上最大的书签类站点)的用户使用如下的Tag来表示编程语言:Programming/C++,Programming/Java和Programming/XHTML等。38四.几点建议-5⑷对Tag进行规范化38四.几点建议-6右图5是随机抽取的一定数量的带有连接符号的复合词,显示了用户使用符号的多样性。通过图5我们可以发现,最经常被使用到的是连接符“-”,其次是下划线“_”。针对标签写法不规范的问题,应该制定通用的标准表示方法,并提示用户遵循这些标准对网络资源进行添加标签的活动。例如,采用拼写检查机制,当用户输入错误的或不存在的词时,系统会出现提示和输入建议;而对于复合词,应当规定规范的表示方法。39四.几点建议-6右图5是随机抽取的一定数量的39四.几点建议-7另外,通过使用同义词环方法——当用户在添加了tag和数据源之后,系统管理员可以对这些数据,根据统计得到的势曲线进行分析,挑选出相关的同义词,构成同义词环,帮助提高准确性。同时同义词环的方法也可以用于处理同一词的单复数形式,同一词的不同语言表示。不强行要求环中的某一个词被当作“正式词”,而是每一个词都可以作为正式词;同义词环可以一组一组逐步建立,随着检索环境的变化和网站内容的变化而随时增加新的同义词环。40四.几点建议-7另外,通过使用同义词环1.2主题语言

主题语言是以主题词来表达信息主题概念的语言。它按事物对文献信息进行浓缩、描述和整序,借用自然语言的词语,作为信息检索的内容标识,又可分为关键词语言、叙词语言、标题词语言及单元词语言等。411.2主题语言主题语言是以主题词来表达信息1.2.1标题词语言标题词:从自然语言中选取并经过规范化处理的、表示事物概念的的词、词组或短语。代表:EI中《工程主题词表》(简称SHE)电脑---见(see)---计算机局域网---参见(seealso)---计算机网络421.2.1标题词语言标题词:从自然语言中选取并经过规范化处1.2.2关键词语言所谓关键词是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对表达文献主题内容具有实质意义的语词,亦即对揭示和描述文献主题内容来说是重要的、带关键性的(可作为检索“入口”的)那些词语。关键词基本上不作规范化处理。例如,“国际联机检索概论”中的“国际联机”、“联机”、“检索”都是能描述这篇文献的主题的,可以作为检索词。概括地说,关键词法就是将文献原来所用的,能描述其主题概念的那些具有关键性的词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以提供检索途径的方法。431.2.2关键词语言所谓关键词是指那些出现在文献的标题(篇1.2.3叙词(主题)词语言叙词是指一些以概念为基础的,经过规范化的,具有组配功能并可以显示词间关系和动态性的词或词组。如:《汉语主题词表》、《机械工程主题词表》/有一些英汉对照441.2.3叙词(主题)词语言叙词是指一些以概念为基础的,经主题词语义参照系统参照项含义简称符号英文简称英文全称用项同义词(正式主题词)用YUSEUse代项同义词(非正式主题词)代DUFUsedFor分项狭义词分FNTNarrowerTerm属项广义词属SBTBroaderTerm族项族首词族ZTTTopTerm参项相关词参CRTRelatedTerm45主题词语义参照系统参照项含义简称符号英文简称英文全称用项同义正式主题词款目Zàoshēnggānrăo噪声干扰[56MB]NoisejammingD杂波干扰F瞄准式干扰扫频干扰阻塞式干扰S通信干扰有源干扰Z电子对抗*C连续波干扰脉冲干扰调制干扰汉语拼音范畴分类号英译名参照符号关系词正式主题词46正式主题词款目非正式主题词款目Zábōgānrăo杂波干扰[56MB]NoisejammingY噪声干扰非正式款目主题词汉语拼音范畴分类号英译名关系词参照符号47非正式主题词款目词族索引款目Diànzĭduìkàng电子对抗*·通信对抗··通信干扰···脉冲干扰···欺骗性干扰···载波干扰···噪声干扰····扫频干扰····阻塞式干扰··通信抗干扰48词族索引款目Diànzĭduìkàng概念组配是叙词语言的基本原理。概念组配与字面组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。字面组配是词的分析与组合(拆词);概念组配是概念的分析与综合(拆义)。例如:

字面组配模拟+控制-->模拟控制香蕉+苹果-->香蕉苹果

概念组配模拟+控制-->模拟控制香蕉味食品+苹果-->香蕉苹果49概念组配是叙词语言的基本原理。字面组配小结NO7分类语言主题语言以学科和专业集中文献能将不同学科的信息集中到一起适宜族性检索适宜特性检索不利于新兴学科、交叉学科和边缘学科的检索不利于新兴学科检索查全率不高查准率不高50小结NO7分类语言主题语言以学科和专业集中文献能将不同学科的信息检索模型(InformationRetrievalModel)是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。本质上是对相关度建模。信息检索模型是IR中的核心内容之一。原始文档相关度计算文档表示原始查询查询表示2信息检索模型51信息检索模型(InformationRetrievalM信息检索模型用形式特征可以将信息检索模型表示为一个四元组的模型框架:IR=<D,Q,R(q,d)>。D是文档表示Q是查询表示R(q,d)是一个排序函数52信息检索模型用形式特征可以将信息检索模型表示为一个四元相关概念标引词(IndexTerm)标引词是能代表文档内容的特征,可以是字、词、短语或者某种语义单元,关键词(keywords)可以看成标引词的一种。文档表示成多个标引词的集合标引词的权重(Weight)不同标引词作用是不同的通过权重加以区分53相关概念标引词(IndexTerm)53信息检索模型的分类

从所使用的数学方法上分:基于集合论的IR模型(SetTheoreticmodels)布尔模型基于模糊集的模型扩展布尔模型基于代数论的IR模型(Algebraicmodels)

向量空间模型潜性语义索引模型神经网络模型基于概率统计的IR模型(Probabilisticmodels)回归模型概率模型语言模型建模IR模型推理网络模型信任度网络模型54信息检索模型的分类从所使用的数学方法上分:542.1布尔模型布尔模型:查询和文档均表示为标引词(“是否存在”)的布尔表达式,通常表示成D(t1,t2,⋯,ti)的形式。布尔操作(关系):与(AND)或(OR)非(NOT)相似度计算:查询布尔表达式和所有文档的布尔表达式进行匹配,匹配成功的文档的得分为1,否则为0。类似于传统数据库检索,是精确匹配552.1布尔模型布尔模型:查询和文档均表示为标引词(“是否存布尔检索示例56布尔检索示例56真值表(truthtable)PQNOTPPANDQPORQ00TRUEFALSEFALSE01TRUEFALSETRUE10FALSEFALSETRUE11FALSETRUETRUE57真值表(truthtable)PQNOTPPANDQP布尔检索的优缺点优点缺点1)简单、速度快1)不够精确,不能反映不同“项目”对一个文档的重要程度的差异2)查询表达式易于掌握2)检索结果地位平等,无法排序“飞碟”AND“小说”:只能检索出D4,无法显现D1,D2,D3的差异“飞碟”OR“小说”:可以检出D1,D2,D4,但无法显现它们的差异58布尔检索的优缺点优点缺点1)简单、速度快1)不够精确,不能反2.2向量空间模型文档D和查询Q(不妨统称为文本)都可用向量表示检索过程就是计算文档向量与查询向量之间的相似度可以根据相似度值的不同,对检索结果进行排序可以根据检索结果,进一步做相关检索(relevancefeedback)592.2向量空间模型文档D和查询Q(不妨统称为文本)都可用向向量表示文档Dj的向量可以表示为Dj(w1j,w2j,⋯,wnj),其中n是系统中的标引词数目,wij代表了标引词i在文档Dj中的权重。查询Q的向量可以表示为Q(w1q,w2q,⋯,wnq),wiq代表了标引词i在查询Q中的权重60向量表示文档Dj的向量可以表示为Dj(w1j,w2j,⋯文档-标引词矩阵(Doc-TermMatrix)n篇文档,m个标引词构成的矩阵Am*n,每列可以看成每篇文档的向量表示,同时,每行也可以可以看成标引词的向量表示61文档-标引词矩阵(Doc-TermMatrix)n篇文档,从文本到向量空间(vectorspace)62从文本到向量空间(vectorspace)62文档的向量表示示例假定有三个项目:“葡萄”,“美酒”,“夜光杯”假定以项目在文本中的出现次数为项目的权值葡萄T1美酒T2夜光杯T3d1235d2372q00263文档的向量表示示例假定有三个项目:葡萄T1美酒T2夜光杯T3计算向量之间的相似程度向量间相似程度的不同度量方法InnerproductDicecoefficientCosinecoefficientJaccardcoefficient在上面的例子中,如何度量q跟d1相似还是跟d2相似?64计算向量之间的相似程度向量间相似程度的不同度量方法在上面的例夹角余弦:相似程度的度量方法之一65夹角余弦:相似程度的度量方法之一65夹角余弦计算示例66夹角余弦计算示例66索引项权值的计算(termweight)权值的直观含义:一个项目对于一个文本的重要程度即一个项目在多大程度上可以将这个文档与其他文档区别开计算权值的两种简单方式:(1)项目-出现/不出现:1或0(2)项目-出现的次数:0,1,2,…需要更好的加权方法(3)tf.idf加权法(termfrequency•inversedocumentfrequency)

项频率逆向文档频率67索引项权值的计算(termweight)权值的直观含义:6tf.idf加权Termfrequency:termi

在文档dj中的出现次数,记做tfi,jtfi,j

越高,意味着termi

对于文档dj就越重要比如:一篇谈论乔丹的文章,可以预期“乔丹”、“飞人”的tf值会比较高Documentfrequency:含有termi

的文档的数量,记做dfidfi

越高,意味着termi

在衡量文档之间相似性方面作用越低,比如“的”的df值肯定非常高,因此不具有区别性,这类词称为“非焦点词”Inversedocumentfrequency:跟dfi

形成“反比关系”,idfi

值越高,意味着termi对于文档的区别意义越大N为全部文档的数量。如果一个项目仅出现在一个文档中,idf=logN,如果一个项目出现在所有文档中,idf=log1=068tf.idf加权Termfrequency:termitf.idf加权(续)索引项加权:给那些经常出现在一个文档中,而不常出现在其他文档中的项目以更高的权重,即让“特别的词”从“一般的词”中凸现出来。在这个基本精神指导下,有许多不同的加权公式69tf.idf加权(续)索引项加权:给那些经常出现在一个文档tf.idf加权示例70tf.idf加权示例70tf.idf加权示例(续)71tf.idf加权示例(续)71停用词表(stoplist)表达实际文档所需的term很多,空间开销很大有些“词”在query时很少出现,即不大作为用户的查询目标,比如“常常”,“of”,…有些“词”在每个文档中都会出现,比如“的”,这些词的idf值通常为0一般把“的”,“of”这类词收集起来,构成一个停用词表因此,在为文档建索引的时候,可以不考虑停用词表中的词。这样可以节省资源,同时也不至于太影响检索效果72停用词表(stoplist)表达实际文档所需的term很文档索引(invertedindex)73文档索引(invertedindex)732.3概率模型检索问题即求条件概率问题IfProb(R|di,q)>Prob(NR|di,q)thendi是检索结果,否则不是检索结果742.3概率模型74概率模型基本假设前提和理论a.相关性独立原则。文献对一个检索式的相关性与文献集合中的其他文献是独立的。b.词的独立性。标引词和检索式中词与词之间是相互独立。c.文献相关性是二值的,即只有相关和不相关两种。d.概率排序原则。该原则认为,检索系统应将文档按照与查询的概率相关性的大小排序,那么排在最前面的是最有可能被获取的文档e.贝叶斯(Bayes)定理,用公式表示为:P(RId)=(dIR)·P(R)/P(d)75概率模型基本假设前提和理论75概率模型概率检索模型是通过概率的方法将查询和文档联系起来将查询Q和文档D根据有没有标引词表示为二值向量,Q={q1,q2,…},D={d1,d2,…},di=0或1表示文献中没有或有第i个标引词.用R表示文献相关,表示文献不相关.76概率模型概率检索模型是通过概率的方法将查询和文档联系起来76概率模型条件概率P(R|dj)表示文档dj与查询qi相关的概率,条件概率P(|dj)表示文档dj与查询qi不相关的概率,利用它们的比值计算文档与查询的相似度。若P(RId)>P(Id),即比值大于1,则文献相关程度大于不相关程度,认为文献d是相关的,否则认为文献d不相关。在两者相等时,人为地认为它是不相关的。77概率模型条件概率P(R|dj)表示文档dj与查询qi相关概率模型优缺点优点a.采用严格的数学理论为依据,为人们提供了一种数学理论基础来进行检索决策;PubMed的relatedarticles。b.采用相关反馈原理c.在其中没有使用用户难以运用的布尔逻辑方法;d.在操作过程中使用了词的依赖性和相互关系。缺点:a.计算复杂度大,不适合大型网络b.参数估计难度较大c.条件概率值难估计d.系统的检索性能提高不明显,需与其他检索模型结合78概率模型优缺点优点783计算机信息检索技术信息检索系统=硬件+软件+数据库计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献特征标识及其逻辑组配关系进行类比、匹配的过程,需要人——机协同作用来完成。793计算机信息检索技术信息检索系统=硬件+软件+数据库793.1计算机信息检索的类型计算机信息检索系统的类型检索系统存储的内容文献信息检索系统事实信息检索系统数值信息检索系统图像信息检索系统多媒体信息检索系统检索系统工作方式脱机信息检索系统(20世纪50~60年代)联机信息检索系统(20世纪70年代~光盘信息检索系统(20世纪80年代~网络信息检索系统(20世纪90年代~803.1计算机信息检索的类型计算机信息检索系统的类型检索系统3.2计算机信息检索技术计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。由于信息检索提问式是用户需求与信息集合之间匹配的依据,所以信息检索技术的实质是信息检索提问式的构造技术。目前,计算机信息检索技术已经从基本的布尔逻辑检索、截词检索、邻近检索、限制检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、模糊检索、概念检索和相关检索等多种技术并存。

813.2计算机信息检索技术计算机信息检索技术是用户信息需求和3.2.1布尔逻辑检索布尔逻辑组配是现行计算机检索的基本技术,主要通过“与(and,*)”、“或(or,+)”、“非(not,-)”将检索词联络起来。

AND[*][&][空格]AandB逻辑与。A和B都为真时,结果才为真,即:A*B,逻辑含义用图表示是:823.2.1布尔逻辑检索布尔逻辑组配是现行计算机检索的基本技OR[+][|]AorB逻辑或。A或B中只要有一个为真时,结果就为真,即:A+B

NOT[-][^][!]AnotB逻辑非。A为真、B为假时,结果才为真,即:A-B83OR[+][|]AorB逻辑或。A或B中只要有布尔逻辑运算符的运算次序括号优先[与计算机编程中一样]

(AORB)ANDCNOTD不同的系统次序有差别,但总的来说一般次序为:

NOTANDOR例A:查找有关信息检索的非英文文献

信息[information]检索[retrieval]英文[english]

(信息and检索)not英文

(informationandretriever)notenglish84布尔逻辑运算符的运算次序括号优先[与计算机编程中一样]

(A分析实例:上海零售业的现状与发展趋势上海零售业现状发展趋势上海and零售业and(现状or发展趋势)85分析实例:上海零售业的现状与发展趋势853.2.2截词检索截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形:

截词符?中截一字符,后截断n个字符

如wom?n可以检索出:woman,women如

coumput?可以检索出Compute,Computer,Computing,computable863.2.2截词检索截词包括后截、中截、前截等。用?作为截词??后、中截二字符

如:transplant??可以检索出:transplant、transplanted、transplanter???后、中截三字符

如:

comput???可以检索出:compute;computer;computing87??后、中截二字符87通配符,无限截断[%][?][*]后方一致(前截断):

“%国庆”将检索出所有字段为张国庆、欧阳国庆、国庆等的记录。

前方一致(后截断):如:“热电材料%”将检索出热电材料梯度化、热电材料及其梯度化等的记录。88通配符,无限截断[%][?][*]883.2.3邻近检索

位置算符(W)—with,(nW)—nwith表示检索算符两侧的词不可以颠倒顺序,n表示两个词中间可以插入<=n个的词(如:aninbyofthe……)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论