




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1网络信息组织方法主题法 第二讲网络信息组织与利用 第十讲2 传统主题法在网络资源组织中的应用 网络主题检索系统3主题语言在网络资源组织中的应用 主题法是网络资源信息组织的一种主要模式。 在网络资源组织中,主题法的使用一般分为两种形式: 采用现有的词表,包括叙词表和标题表 广泛采用关键词法4高级关键词查询 区分大小写查询:有的搜索引擎能够区分检索词的大小写,将同一个词大写形式和小写形式视为不同的词进行查询。 自然语言查询:用户可直接用自然语言的字、词、句子作提问式,系统可以自动分析提问的要求,识别需要查询的关键词及词间关系。自然语言查询使检索变得直接、简单,特别适合非专业的检索者。5现有主题词
2、表在网络资源组织中的应用 目前,适用现有主题词表组织网络信息资源的还不多,主要是美国国会图书馆标题表(LCSH)和医学主题词表(MeSH)。6现有主题词表在网络资源组织中的应用采用LCSH: InterCat: A Catalog of Internet Resource (OCLC); Canadian Information By Subject(Library and Archives Canada)7现有主题词表在网络资源组织中的应用采用MeSH的有: CliniWeb Browse (Oregon Health Sciences University) OMNI (Organizin
3、g Medical Networked Information) 89101112网络主题检索系统 网络主题检索系统概述 索引模块的结构组成 关键词索引的查询、检索提供和优化 词汇控制 链接控制 关键词搜索引擎的特点及发展前景13网络主题检索系统概述 网络主是检索系统的特点 网络检索系统的类型 关键词搜索引擎的组织特点和要素 14网络主是检索系统的特点 概念:网络主题检索系统是一种直接通过表达信息内容特征的词汇,对网络信息进行检索的工具总称。关键词搜索引擎是典型代表,起源于1994年的webcrawler.随后有lycos,excite,infoseek,alta vista等。15网络主是检
4、索系统的特点优点: 可以直接使用检索的对象进行查找通用性强。可以使用自然语言专指度高。直接检索特定内容对象的信息1. 信息量大,时效性强。使用机器采集,成本低,及时快捷16网络主题检索系统的特点不足点: 缺乏系统检索能力。族性检索差信息质量缺乏控制,查准率低1. 检索需要掌握技巧。17网络检索系统的类型 根据标引语言:自然语言系统和控制语言系统 根据处理的信息对象:综合性、专业或专类(学科)、专门(如视频等)主题检索工具 关键词主题检索工具是网络组织的主流 18关键词搜索引擎的组织特点和要素特点后组。信息组织只提供了组织的基础和进行各种检索操作的可能。由用户在检索阶段实施组配自由组配。组织的限
5、制小,无定式隐含。不可浏览,只在检索相应的部分 19关键词搜索引擎的组织特点和要素直接构成成分索引及相关工具:基础结构,由索引模块建立检索界面及提供方式:是根据用户需要确定的实施组织的条件和形式检索优化:重组机制。 20关键词搜索引擎的组织特点和要素组织要素词法句法其它相关要素,如链接、用户因素。算法 21索引模块的结构组成索引模块是主题搜索引擎组织和检索的基础,通常应根据网络信息的特点烽检索的需要建立并结合适合的技术加以实现,关键词搜索引擎索引的构成网络信息的数据特点 22关键词搜索引擎索引的构成关键词搜索引擎建立的索引以及相关工具包括:顺序索引:以信息为中心建立,将所采集的网络信息顺序编号
6、倒排索引(内容索引):以索引词为中心建立倒排列表的集合,每个词后是一个经过排序的列表,记录词在网页中出现的次数、位置及其它信息。网页以标识语言,可依据标识语言对网页结构的记录获取相关信息结构索引(链接索引):根据网页的链接资源建立的索引实用索引:结合搜索引擎检索界面提供的实际功能建立的索引用户日志:记录用户的操作数据辅助词典和工具。 23网络信息的数据特点搜索引擎的组织效果与索引和索引的数据特点相关,因此网页数据成分及其质量在相关性处理上占有重要位置。作为相关性处理和组织依据的因素涉及多种成分:html,标记,url,链接,锁定文本,相应的目录数据,日志等。 24网络信息的数据特点网络信息数据
7、与传统信息数据处理因素比较 25关键词索引的查询、检索提供和优化 查询 检索排序和算法 优化26关键词法在搜索引擎中的应用 主题语言在网络信息组织中的应用目前主要表现为关键词语言在网络搜索引擎中的广泛应用。 几乎每一个搜索引擎都具有关键词检索功能,这意味着搜索引擎的索引数据都采用了关键词法进行信息组织,也就是从网站、网页的题名、地址、摘要,甚至网页的正文中抽取关键词作为索引词。27关键词法在搜索引擎中的应用 不同搜索引擎提供的关键词检索功能不同,说明它们对关键词法的应用有一定差异。 网络搜索引擎的关键词检索功能:简单查询、高级查询。28简单关键词查询 直接在查询框中输入一个或多个关键词,系统按
8、照自己的规则可能会将输入的关键词分解为几部分,并将包含每部分字符的信息都显示出来,也可能查出字面相同但内容相差很远的信息。 中文关键词查询以单汉字检索技术为基础时,获得的查询结果与查询要求可能相差更远。29高级关键词查询 布尔查询:大多数搜索引擎具有该功能,有的允许逻辑与、逻辑或、逻辑非三种逻辑运算,有的只能进行其中的一两种逻辑运算。大多搜索引擎采用命令方式,如AND、OR、NOT,或+、-,或将关键词之间的空格默认为逻辑与、逻辑或,有些用菜单选项进行。30高级关键词查询 精确查询:又称词组查询,将一个词组当作一个独立的运算(往往用双引号括起来),进行严格匹配,以提高查准率。31高级关键词查询
9、 模糊查询:又称概念查询,不仅根据输入的关键词查询,而且会自动地用关键词的同义词、近义词进行查询,提高查全率。检索系统需配备相当于后控制词表的同义词、近义词词表。32高级关键词查询 截词查询:在搜索引擎中,目前大多只提供右截断法,截词符多采用“”。 位置查询:目前只有少数搜索引擎具有该功能,而且大多数只有一种邻近位置运算,即Near运算。33高级关键词查询 字段查询:将关键词查询限定在特定字段。搜索引擎中,字段查询多表现为限定前缀的形式。主要限定的字段有:题名(title)、URL、主机名(host)、域名(domain)、链接(link)等。可提高查准率。34高级关键词查询 限制查询:将关键
10、词限制在特定信息范围内进行查询。限制的信息范围主要有网络系统,如Web、Newsgroup、E-mail等;信息类型,如文本信息、图像信息、声频信息等;时间段及语种等。35高级关键词查询 管道查询:用管道符号“|”连接两个或多个关键词,查询时系统自动地先对前一个词进行匹配,然后在其基础上再对后一个词进行匹配,依次类推,以达到逐渐缩小检索范围,提高查准率的效果。36检索排序和算法 网络检索数据量大,用户很难完整浏览,因此排序非常重要 网络关键词检索系统的检索结果提供,通常采用按匹配加权的方式加以排序显示以便将最符合用户需求的信息置前,有助于在提高查全率的前提下提高查准率 检索排序是主题搜索引擎质
11、量评估的关键因素之一。如google 提供的pagerank算法37网络搜索引擎排序涉及的因素 网页中查询词匹配数量 网页中多个查询词匹配的完备程序 匹配单元和分解问题 网页中术语的位置 标注中术语的位置:如title, link text, body text 本页词频和总词频之比 指向本页的锁定文本 指向本页的链接分析 有时,点击分析 对于新网页,结合考虑新鲜度问题 对于商业因素,例如,某些系统如发现检索对象与人为增加检索要素的商业公司网站有联系,则不予排列等38检索优化 检索优化是指以交互的方式对用户的查询提供新的检索方案或将用户的检索结果进行重组,以改进检索效果。39检索优化检索优化在
12、网络信息检索之所以重要,是因为:网络检索结果数量多,有必要缩小检索范围,增加专指度文本检索的查准率低,有必要通过优化检索方式加以改进网络信息涉及的因素多,用户难以同时考虑到1.用户多为终端用户,没有检索经验,有必要提供优化检索方案予以帮助40检索优化优化形式检索查询优化。以用户检索历史资料为依据提供帮助容错检索的同时,提供纠错检索。建立纠错词表,对用户常见错误进行纠正在动态聚类的基础提供检索扩充。将聚类结果作为检索扩充的依据,供检索扩展参考使用1. 将聚类结果作为二次检索的依据41词汇控制关键词搜索引擎是以词汇为检索和匹配的依据的,这就决定了要有效进行组织和检索,必须进行词汇控制,确定相应的词
13、法和句法,表现为检索和组织单元检索句法:对复杂检索内容的表达为了优化检索的需要,处理一词多义,一义多词的问题词汇控制是指根据检索需要对词汇进行选择,处理的一系列活动。索引单元的选择与检索句法索引单元的选择与检索句法1.词间关系控制词间关系控制42索引单元的选择与检索句法索引单元的选择与检索句法词汇索引单元的选择和使用:倒排索引是关键词搜索引擎组织和检索的基础。由于词汇是语义表达的基本单元,也是关键词检索系统进行检索匹配的基本成分,符合存储和检索的需要。因此以词作为基本索引单元是一个基本的选择。西文搜索引擎是以基本词汇为基础建立的。中文由于文本是按句子连写的,词与词间无空格,计算机无法直接识别,
14、因此要进行单元选择。43中文常见索引单元和词汇获取方案44索引单元的选择与检索句法索引单元的选择与检索句法 2.组配句法:检索句法及其方式的确定,关系到检索内容的有效表达问题,直接影响系统的组织和揭示能力。检索句法的主要目标是通过明确提供基本的组配形式,使用用户可以在组配检索中确切表达检索需求,避免因句法错误赞成次序障碍。同时,也可以通过基本的检索模式的设置增加检索系统的易用性45索引单元的选择与检索句法索引单元的选择与检索句法2.组配句法网络检索的检索模式(改进传统布尔检索)对常见的同时输入多个检索词但不输入组配符号的情况,规定了默认的组配方法,增加检索的易用性,如,google规定,此类情
15、况一律按逻辑“与”的方式处理高级界面的易用性,定型化努力。如通过常用逻辑组配形式设置,加强复杂检索的易用性;提供语言信息类型等常用组配范畴供用户选择1.提供对自然语言检索语句的检索方法。46索引单元的选择与检索句法索引单元的选择与检索句法2.组配句法中文搜索引擎对检索短句的分解匹配通常涉及以下因素:分解单元问题:是否包括与检索相近的分解单元分解层次问题。是否彩多层次分解方式1. 分解策略问题:是否确定在进行专指匹配的同时,限制某些下一级词的匹配?47词间关系控制词间关系控制词间关系控制是进行概念检索,改进检索相关性的重要手段,包括同义控制,等级控制和相关控制等,是词汇控制的重要内容词间关系控制
16、的必要性词间关系控制的必要性同义控制同义控制等级控制等级控制48词间关系控制的必要性词间关系控制的必要性将同义控制、相关控制等作为检索扩展的选项,供用户扩大检索范围或改进检索的相关性作为容错检索手段,只要收入检索频率高的常用错误检索词,并将其与对应的检索词加以链接就可以了作为检索优化处理的依据。如改进聚类效果作为进行自动标引的手段49同义控制同义控制 也称等同控制,是一种克服自然语言中一义多词现象的影响,将关键词检索或处理提高到要领检索层次的基本措施,是网络信息检索系统的组织形式之一 搜索引擎中的同义控制是与使用需要结合的,由于在类似自动聚类情况中的同义控制数量大,类型多,常采用人机结合的方法
17、加以识别。50动态聚类系统中部分非常规等同关动态聚类系统中部分非常规等同关系类型一览表系类型一览表部分非常规等同关系类型举例文本表述与相应概念的词汇之间“技术成果的产业化”与“技术成果产业化”常见错别字的词与规范词之间“供应链”与 “供应琏”部分具有交叉概念关系的词组与对应概念的词汇之间“中小民营企业信息化”与“中小民营企业”、“企业信息化”不同数字年代之间“1999”与“一九九九”部分英文大小写之间“WTO”与“wto”多个对应分称与统称之间“黑龙江、吉林、辽宁”与“东北地区”51同义控制同义控制常用的同义控制方法:采用基于字面相似度算法,对高相似度词汇进行识别结合基于词素相似度算法,引入“
18、同义词林”、知网等的同义词进行匹配,以此为基础,结合人工识别是,处理部分适合通过词素相似度识别的同义词。根据简全称同义词中,简称的每个字都被包含在全称中,是全称中每部分简称的总和或作为全称的词根存在的特点,采用相应算法识别利用特定的字头对部分反义词进行识别对于部分需要概念分解的短语,根据其词汇特征使用计算机筛选并结合人工方式,按等同关系处理以各类专门辞典规范人名、地名、机构名,并加强不同形式间的联系1.使用辅助工具识别同义词。如缩略语辞典等52等级控制等级控制等级关系是一种上位概念语词与下位概念语词之间的关系。等级控制就是对概念上下位语词的控制.它可以作为优化形式中等级显示的依据,也可以在自动
19、聚类操作中进行概念关系控制,还可以作为动态调整的工具,为聚类优化提供条件。等级控制在中文上通常采取人机结合的方式,因为自然语言很难象传统叙词方式建立等级关系53等级控制等级控制中文动态聚类中采用的等级控制方法:在处理字面包含关系的等级词汇时,主要收入两种基本类型:从属或整部关系;对象与方面关系充分揭示词汇间的等级关系。如一个词有多个上位词,则应在控制词集中同时反映其与多个上位词间的等级关系允许收录多个等级层次的词汇关系,但显示时只显示邻近词间的上下位关系,越级等级关系则由数据库通过关系运算推导。54链接控制链接控制就是将网络链接为对象,作为控制检索结果的处理手段。链接分析的意义链接分析的意义Pagerank 算法算法55链接分析的意义 传统数据库技术可以将查询词与文本匹配状况作为排序依据,但在网络信息上,有可能将一些质量不高、无使用价值的网页排列在前,此外网上利用语词匹配采用的欺骗手段也可能影响检索效果。超链接分析就是为了改进排序机制提出来的 超链接是网络信息组织的重要方式,也是揭示网络信息间关系的重要方式。56链接分析的意义超链接的作用用于引用关系,链接引用信息;用于揭示网页内容之间的关系,类似参考文献表示网络工具与相关信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年CFA考试难点试题及答案
- 财务比例分析的应用技巧试题及答案
- 辅助学习的特许金融分析师试题及答案
- 西北旅游区介绍
- 2024年特许金融分析师考试考生技巧题试题及答案
- 员工岗位操作培训
- 特许金融分析师考试学习计划题试题及答案
- 2024年特许金融分析师考试资料准备试题及答案
- 餐饮领班述职报告
- 高校青年教师培训
- 2025届高考语文复习:散文的结构与行文思路 课件
- 2024年浙江省强基联盟高三12月联考 英语试卷(含答案解析)
- 物联网毕业论文开题报告
- 【MOOC】敦煌文学艺术-浙江师范大学 中国大学慕课MOOC答案
- 《新型耐磨自润滑涂料制备研究》
- 古诗文理解性默写(新高考60篇)
- ABB工业机器人系统基本操作
- 2024年ICU科室运行及质量控制指标总表
- 患者安全风险评估与管理
- 上海市徐汇南洋中学2024-2025学年高一上学期期中考试英语试卷(无答案)
- 意识流文学完整版本
评论
0/150
提交评论