信息组织及检索-第六章-查询及用户接口课件

上传人：w*** IP属地：贵州上传时间：2022-07-15 格式：PPT 页数：79 大小：1.19MB 积分：25 举报 版权申诉

已阅读5页，还剩74页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、2022/7/151第6章查询与用户接口如何向信息检索系统提交查询？如何针对内容、结构提交查询？如何针对文本、多媒体数据提交查询？如何针对用户的初始查询可能不确切、查询要求缺乏明确的范围和语义的问题？2022/7/152第6章查询与用户接口本章的主要内容：常用的查询方式通过交互来实现相关反馈和查询扩展用户接口中涉及到的其它问题 2022/7/153第6章本章内容 6.1 查询接口设计中的问题 6.2 查询方式 6.3 查询中的交互反馈 6.4 用户接口 6.5 小结2022/7/1546.1 查询接口设计中的问题一、信息存取的一般过程从信息需求开始；选择操作的系统和文档集；形成一个

2、查询；把查询提交给系统；*获得搜索到的返回结果；查看、评价和理解结果；结果是否满意？如果满意，则停止；否则继续；重新形成查询，并回到（*）。 2022/7/1556.1 查询接口设计中的问题二、查询接口设计中的问题查询方式有哪些查询类型？用户向系统提交的查询类型依赖于系统采用的是哪种检索模型。例如，全文检索系统采用的查询方式就会与基于关键词排序、超媒体模型和多媒体内容模型的查询方式不同。 2022/7/1566.1 查询接口设计中的问题二、查询接口设计中的问题查询中的交互性信息检索是一个交互的过程检索系统应该提供查询的反馈，以便用户能够及时了解查询的效果，为下次查询的形成提供参考 2

3、022/7/1576.1 查询接口设计中的问题二、查询接口设计中的问题用户接口用户如何提交查询？查询结果如何表现，使得用户容易观察到相关结果？用户查询接口的简易性和检索能力的矛盾记录用户查询的过程对于多媒体数据来说，要求查询接口能够提交视听查询 2022/7/1586.2 查询方式基于关键词的查询模式匹配结构查询基于内容的查询2022/7/1596.2.1 基于关键词的查询一、单词查询指针对单个词的查询，是信息检索系统的基本查询形式查询的结果是包含有指定词的文档子集，并根据与查询的相似度排序。有一些系统只允许对文档集中抽取的单词集进行搜索，而有一些系统允许全文搜索。 2022/7/

4、15106.2.1 基于关键词的查询二、上下文查询什么是上下文？用多个词来构造一个查询，以缩小查询的范围，增加查询的上下文联系上下文原则对于计算与多个词表达的查询之间的相似性来说，相近出现的词所表达的相似性，要比分离得较远的词所表达的相似性高 2022/7/15116.2.1 基于关键词的查询二、上下文查询上下文查询的实现“词组查询”（或称为短语查询）由一系列单词查询组成，多个词形成一组词，由此来匹配文本中与其相近的一组词。“近似查询”用户给出多个词，同时给定词与词之间最大允许的距离可以要求查询结果中的词与查询中的词出现的顺序一致，或不必一致 2022/7/15126.2.1 基于关

5、键词的查询二、上下文查询示例：用户提交的查询词：“红色”和“汽车”，目的是查询包含“红色汽车”的文档。但是，可能文档中包含“红色的汽车”或“红色奔驰汽车”，它们也是用户感兴趣的文档。前者可以用词组（短语）查询来实现匹配，因为可以忽略短语（在被匹配的文本内）中的非用词“的”。后者需要近似查询来实现匹配 2022/7/15136.2.1 基于关键词的查询三、布尔查询利用布尔操作符及其语法来组合基本的查询一个操作符可以作用于其它操作符的结果之上，由此可以定义一个查询语法树叶节点对应于基本查询内部节点对应于操作符 2022/7/15146.2.1 基于关键词的查询三、布尔查询 ANDOR计

6、算机通信网络查询语法树的例子2022/7/15156.2.1 基于关键词的查询三、布尔查询给定两个基本查询或布尔子表达式e1和e2，最常使用的操作符是：OR。查询（e1 OR e2）选择所有满足e1或e2的文档，重复的部分去掉；AND。查询（e1 AND e2）选择所有同时满足e1和e2的文档；BUT。查询（e1 BUT e2）选择所有满足e1 但不满足e2的文档。 2022/7/15166.2.1 基于关键词的查询三、布尔查询问题没有受过数学训练的用户难以掌握布尔操作符的含义。布尔查询说明中的一个问题是基本语法的误导。人们常常理解的是常识中的“and”和“or”语义，而不是逻辑操作

7、的AND和OR。 2022/7/15176.2.1 基于关键词的查询四、自然语言把布尔模型模糊化，不特别强调AND和OR的结果，这样查询变成了枚举多词查询和上下文查询所有能匹配部分用户查询的文档都被检索出来。匹配得越多，排序的等级就越高在这种方案中，我们已经完全不用布尔操作，采取自然语言查询的思想 2022/7/15186.2.1 基于关键词的查询四、自然语言可以把布尔查询看成是自然语言查询的简化和抽象实现方法在用户提交一段自然语言的输入句子以后，把句子中的非用词去掉，留下主干词。于是，把自然语言看成是一组词，然后利用这些词进行查询。具体的查询实施可以利用词组查询或词组近似查询。

8、 2022/7/15196.2.1 基于关键词的查询四、自然语言有些系统还可以对自然语言做进一步的处理和分析，从中抽取一些概念，并用于匹配文档中的概念。例如，从自然语言中可以抽取提问关键词，例如“谁”、“什么时候”、“什么地方”等搜索出与这些词相关的人物、时间和地点 2022/7/15206.2.2 模式匹配对具有某种特性（模式）的文本片段进行检索模式匹配：从文本段中，搜索出与指定模式特征匹配的模式。模式匹配的结果（检索出来的词）可以用于构造词组查询和近似查询，构成我们前面所说的基础查询。2022/7/15216.2.2 模式匹配什么是模式？模式是一组语法特征，它出现在文本段中词模式

9、。文本中的一个词（字符串），这是最基本的模式。前缀模式。一个串，位于词的开始部分，例如给定前缀“comput”，所有包含如“computer ”，“computation”，“computing”词的文档都被检索出来。后缀模式。一个串，位于词的结尾部分，例如给定后缀“ters”，所有包含如“computers”，“testers”，“painters”等词的文档都被检索出来。2022/7/15226.2.2 模式匹配什么是模式？子串模式。一个可能在文本词中出现的串，例如给定子串“tal”，所有包含如“coastal”，“talk”，“metallic”等的词都被检索出来。区间模式。用一对串表示

10、区间模式，可以用于匹配在词典顺序上位于其间的任何词。比如，由“held”和“hold”构成的区间模式包含“hoax”和“hissing”串允许误差模式。用一个词和误差阈值表示。这种模式能够检索出所有与给定词“相似”的词（在允许的误差范围之内）。因为键入、拼写或字符识别软件等原因，文本可能有错，由此出现差错变体。查询应该能够检索出给定词和它的差错变体词。 2022/7/15236.2.2 模式匹配什么是模式？模式表达式。一个模式表达式是由简单串和操作符（并置、串联、重复等）组成，是用于匹配的一般模式。例如，“pro(blem | tein)”模式表达式（其中 | 代表“并置”操作符）将匹配“pr

11、oblem”和“protein”这样的词。其它模式。使用更加友好方便的形式表达一些通用的模式，包括大小写敏感（或不敏感）的匹配模式、通配符模式、部分准确匹配、部分允许误差匹配模式、条件匹配模式等。 2022/7/15246.2.3 结构查询文档除了内容之外，另一种重要信息线索是包含在其结构中结构查询固定结构查询超媒体结构查询层次结构查询 2022/7/15256.2.3 结构查询固定结构超媒体结构层次结构三种主要的文档结构2022/7/15266.2.3 结构查询固定结构查询文档具有一组固定的域，就象一种表格。每个域都包含文本或其它对象。例如，一个邮件文档可以看成是邮件的集合，其中每个邮件有

12、发送者、接收者、日期、标题、信体域。用户于是可以针对这些域来进行搜索。例如，搜索那些发给特定人的、在标题域中含有“照片”的邮件。 2022/7/15276.2.3 结构查询超媒体结构查询早期，超媒体检索只是一个导航性的活动。就是说，用户必须沿着链，人工遍历超媒体节点，搜索到想要的内容。可以在Web上把浏览和搜索能力综合起来。例如在常规浏览中，增加搜索当前节点的邻节点的功能，这里用到了节点与邻节点之间的链。 2022/7/15286.2.3 结构查询层次结构查询层次结构可以用链表模型或树模型来表示超媒体结构中就包含有层次结构层次结构可以看成是超媒体结构的简化（去掉了交叉引用链，留下层次结构

13、链）根源查询。这种查询主要应用到层次结构中，查询一个节点的归属，例如这幅图像属于哪章，哪本书？如果层次结构是一个分类树，那么就可以查询出一个节点的父类是什么。2022/7/15296.2.3 结构查询层次结构查询关联查询。查询出与该节点相连的所有节点，这可以是该节点与邻接节点的链接关系，有些链是表示语义关系，有些链是表示时空关系。包含（被包含）查询。查询一个节点（页面、文档）包含哪些节点，例如一个章节包含哪些部分，一个概念由哪些子概念组成，等等。反过来，又可以查询被包含的关系。跟随（被跟随）查询。根据引用链的方向性来进行查询，由此可以查询出跟随和被跟随的结构关系。 2022/7/15306.

14、2.4 基于内容的查询对于多媒体来说，常用“基于内容”的查询和检索这个概念。实际上，文本信息检索也是针对文本内容的，只是“基于内容”这个术语已经习惯用于多媒体信息检索当中 2022/7/15316.2.4 基于内容的查询一般属性查询产生信息。表示产生、类别和其它相关资料的信息，例如产生信息有标题（文本的或图标形式的）、文本注释、创建信息（创建者、创建地点、日期）等；类别信息可以是按照风格、主题、目的、语言等方式分类的信息。使用信息。是关于多媒体使用方面的信息，例如使用权限、可用性、使用纪录、费用等。这些信息可能会动态改变。媒体描述信息。是有关存储媒体的信息，包括压缩、编码、存储格式等。2022

15、/7/15326.2.4 基于内容的查询感知特征查询视听特征：是颜色、纹理、形状、运动，以及听觉特征等。全局特征：这些查询可以是针对全局的，例如针对整幅图像局部特征：也可以是针对局部区域或对象的，例如视频对象或图像区域 2022/7/15336.2.4 基于内容的查询时空结构查询视听数据的时间结构、空间结构和时空结构信息图象对象的空间位置；视频帧、镜头、场景的时间结构；视频中视频对象的时空结构等 2022/7/15346.2.4 基于内容的查询概念查询视听内容表达的概念进行查询语义表示的是多媒体的高层抽象概念 2022/7/15356.2.4 基于内容的查询浏览和其它存取方式等基于内容的浏

16、览：而不是常规的线性浏览分解模型和媒体变体：在多媒体内容的“分解模型”和“媒体变体”表示的支持下，我们还可以进行许多新的信息查询和存取。例如，对图象进行多分辨率的存取和渐进的查询。概要、摘要、比例缩放、压缩、不同分辨率版本、不同语言版本、不同模态（文本、语言、图形等）版本都可以看成是视听内容的变体。 2022/7/15366.3 查询中的交互反馈查询中的反馈问题：第一次查询是作为一次初步的尝试用户检查检出的文档，指定哪些是相关的文档构造出新的或改进的查询表达式再次进行尝试查询重构的两个基本步骤：利用新的项来扩展原查询在扩展的查询中重新分配项的权重2022/7/15376.3 查询中的交互

17、反馈查询扩展和重新分配权重的三个策略利用用户的相关反馈基于用户的反馈信息利用聚类算法，自动进行查询的调整基于返回文档子集的信息基于文档集的全局信息2022/7/15386.3.1 用户相关反馈在相关反馈循环中系统向用户返回一组文档用户查阅（扫描）这些文档后，在那些相关的文档旁做上标记提高这些相关对象（项）在新形成的查询中的重要性希望新的查询代表那些相关文档，而远离不相关的文档 2022/7/15396.3.1 用户相关反馈示例1：矢量模型的重新加权和查询扩展Dr：在检出文档中，用户标识的相关文档子集；Dn：在检出文档中，不相关文档子集；Dr,Dn分别表示这些子集中相应的文档数；，：调节

18、常量；Wj为文档矢量，Q为查询矢量。直接从检出文档中计算出修改的项权重 2022/7/15406.3.1 用户相关反馈示例2：概率模型中的项权重分配项在相关文档子集中出现的概率项在不相关文档子集中出现的概率刚开始时，两者未知，无法计算。可以利用用户的相关反馈信息来计算这些概率 2022/7/15416.3.1 用户相关反馈示例2：概率模型中的项权重分配给出初始值：ni表示整个文档集中包含ki的文档数，N为整个文档集中的文档数然后计算查询与文档的相似度2022/7/15426.3.1 用户相关反馈示例2：概率模型中的项权重分配根据返回的结果，计算两个P的估计值：Dr表示用户判别的

19、相关的检出文档子集Dr,i表示Dr的一个子集，它是包含项ki的文档任何根据调整的权重，继续提交查询。2022/7/15436.3.1 用户相关反馈 Probability EstimationHow can we estimate pi and qi for each term ki of the query? GivenN documents in D ni docs containing term kiqi = ni /Nthe distribution of ki in R is similar to its distribution in the entire collection.

20、pi= 0.5With no knowledge about R we can assume that R is chosen randomly2022/7/15446.3.1 用户相关反馈 Incremental improvementTRW(p,q)= log(1- qi)/qi = log(N- ni)/ ni) Init:Set pi= 0.5, qi = ni /N for each query termRepeat:Rank D according to the Scoring function induced from the given probabilitiesLet V b

21、e the set of top retrieved documentsLet Vi be a subset of V containing term ki.pi=|Vi|/|V|(pi =(Vi+0.5)/(V+1)qi=(ni -|Vi|)/(N-|V|) (qi=(ni -Vi+0.5)/(N-V+1)Until convergence2022/7/15456.3.1 用户相关反馈 Probability estimation based on Relevance FeedbackAssume the user provides feedback whether the retrieve

22、d docs are relevant or notR number of docs marked as relevantr number of relevant docs containing kiN num of docsn number of docs containing ki pi= r/R qi= (n-r)/(N-R)Problem: relevance feedback is an expensive task. 2022/7/15466.3.1 用户相关反馈 Document RelevanceDocumentContaining kiGiven a query term k

23、i + - + r n-r n - R-r N-n-R+r N-n R N-R NWhere N is the number of documents seen2022/7/15476.3.1 用户相关反馈 NRrnNRrn2022/7/15486.3.1 用户相关反馈问题：相关反馈策略的评价？一种方案：利用查询Qm对文档集进行检索，对检出结果进行排列，然后画出回调率-查准率图，并与原查询q的性能相比较。通常情况下，性能的改进非常大。由于用户对看见的文档进行了相关性的判别。但是有些文档是用户没有看见的，包括没有返回的文档，因而没有考虑这些文档的作用，所以这种评价还不够充分。2022/7/15

24、496.3.2 自动的查询扩展反馈信息被用来选择新的查询项进行查询扩展扩展的查询将检索到更多更准确的相关信息在以前的方法中，与用户查询的相关描述是在用户的辅助下，交互式建立的。我们更希望的是自动得到这种描述。 2022/7/15506.3.2 自动的查询扩展如何自动标识出与查询项相关的其它项？由此用于查询的扩展这些项也许是同义词、词干变体，在文本中与查询项接近的项，例如与查询词相距至多k个单词的词，相关的对象这里有两种基本的实现策略：全局策略和局部策略。 2022/7/15516.3.2 自动的查询扩展在局部策略中只采用查询q的检出文档来确定查询扩展中的项。这与常规的相关反馈循环相似，但

25、是可以做到不需要用户的干预（即可以做到全自动）在全局策略中所有在文档集中的文档都用来确定词典的结构，定义项的关系。然后，用户在这个词典中选择合适的项进行查询扩展。具体实现时，可以采用聚类方法2022/7/15526.4 用户接口检索如何开始？查询如何表达？文档集浏览和查询结果如何表现？相关判别接口的设计考虑？多媒体查询接口是什么样？ 2022/7/15536.4.1 检索过程的开始文档集列表选择文档（数据）集列表方式就是向用户罗列出可以检索的文档集的名字用户需要首先从中选择要查询的文档集（或者说是数据库）然后用户提交的查询作用于选择的数据库人工选择或自动选择 2022/7/155

26、46.4.1 检索过程的开始Dialog box for chosing sources in old lexis-nexis interface2022/7/15556.4.1 检索过程的开始浏览用户开始的查询需求并不明确，因此他们检索就是以浏览形式启动的三种常用的梗概接口目录梗概聚类梗概关联梗概 2022/7/15566.4.1 检索过程的开始Supervised (Manual) Category Overviews2022/7/15576.4.1 检索过程的开始向导向导形式的接口是为未经过训练的用户提供帮助，帮助用户很快地构造出各种类型的查询范例式文本对话式图形向导式

27、 2022/7/15586.4.2 查询说明选择检索的文档集之外，提交一个查询还必须对查询的要求进行说明查询说明“查询要求”用词、词组、项或描述子（或称为描述符、叙词）来说明2022/7/15596.4.2 查询说明方式命令行、表格和菜单图形化查询说明GUI查询接口多侧面查询说明用户查询被分成多个主题或侧面，每个侧面的主题应在被检索出来的文档中出现比如一个查找预防肝炎的药物的查询可能包括三个侧面：“甲肝或乙肝”，“药物或药剂”，“预防或治疗”。2022/7/15606.4.2 查询说明基于表格的查询说明(altavista)2022/7/15616.4.2 查询说明基于表格的查询说明（inf

28、oseek）2022/7/15626.4.2 查询说明图形查询接口表示布尔查询的例子2022/7/15636.4.2 查询说明基于菜单方式的查询说明的例子2022/7/15646.4.3 上下文表现为了使得文档集便于用户的理解，以上下文方式放置（组织）当前文档集称为用户接口中的上下文表现常用的方式显示出文档集与查询项（或关键词）之间的关系；文档集的梗概；描述性元数据；超链结构；文档结构 2022/7/15656.4.3 上下文表现用条图表示查询项在文档中出现的情况2022/7/15666.4.3 上下文表现Query terms:What roles do they play in retr

29、ieved documents?DBMS (Database Systems)ReliabilityMainly about both DBMS & reliabilityMainly about DBMS, discusses reliabilityMainly about, say, banking, with a subtopic discussion on DBMS/ReliabilityMainly about high-tech layoffs2022/7/15676.4.3 上下文表现文档内容中的查询项提示文档内容中的查询项提示就是在检出文档中，以突出显示的方式，向用户提示那些匹

30、配上的查询项，引起用户的注意关键词的上下文：把文档中包含查询项的句子抽取出来，与其它文档代表项一起显示文档之间的查询项提示表现出查询项在多个检出文档之间的关系示例：有A, B, C三个项，这种接口就可以用图形的方式，显示出在检出文档中，只包含A、B或C，同时包含A和B、A和C、B和C，全部包含A、B和C的文档数分别有多少 2022/7/15686.4.3 上下文表现关键词上下文KWIC (Keyword in Context）2022/7/15696.4.3 上下文表现文档之间查询项可视化的例子2022/7/15706.4.3 上下文表现用目录表示上下文把目录显示在左边的窗口中，而全文显示在右边窗口检出的结果将以目录层次的上下文方式显示，即包含查询项的章节将在目录中放大显示，而其它的章节的显示被压缩分类层次表示上下文采用分类层次，构造出文档集的概图，以上下文方式放置查询的结果 2022/7/15716.4.3 上下文表现分类层次表示上下文例如左边窗口显示的是检出文档的分类层次树；右边窗口显示全部文

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

信息组织及检索-第六章-查询及用户接口课件

文档简介

温馨提示

最新文档

评论