信息检索习题汇总及答案_第1页
信息检索习题汇总及答案_第2页
信息检索习题汇总及答案_第3页
信息检索习题汇总及答案_第4页
信息检索习题汇总及答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1、 填空题1.数据的记载方式主要有 数值型_、文字型、_语音型、_图像型。2.数据与信息的关系可看作是 原料_和_成品_的关系。3.信息分析过程是将数据转换为_信息_的过程。4.信号分为_信息_信号和_人为_信号。5.信息一般表现为_数据_、文本_、_声音、_图像_等形态。6.一般认为,信息由_语义_、_差异_、_传递_、_载体_等要素构成。7.信息的加工按加工对象的不同可分为对_外表_信息的描述,对_整体_信息的描述,如文摘对_内容_信息的描述。8.信息管理的过程包括信息_收集_、信息_传输_、信息加工_、信息储存_。9.信息加工包括_信息形式的变换和_信息内容的处理。10.信息动机的形成

2、原因有_内在的信息需要_和_外在刺激_。11.主题语言包括_标题词_、_单元词_、_叙词_、_关键词_。12.在信息存储的结构中,基本的逻辑结构有_线性结构_、_非线性结构、_树形结构_、网状结构。13.总体上,信息检索系统可分为_数据预处理_、_索引生成_、_查询处理、_检索_。二、名词解释1. 数据:是指记载下来的事实,是客观实体属性的值,它是由原始事实组成的。2信息加工:是指对获取的信息进行判别、筛选、分类、排序、分析、计算和研究等一系列过程,使收集到的信息成为对我们有用的信息资源。3信息组织:即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和序化

3、,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。 4检索标识:就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。5信息检索:可以从广义和狭义两个角度理解。广义的信息检索是指将信息按一定方式组织和存储起来,并根据用户的需要找出相关信息的过程,其中包括存与取两个方面。狭义的信息检索仅指信息查找过程。6信息检索系统:是指按某种方式、方法建立起来的用于检索信息的一种有层次的体系,是表征有序的信息特征的集合体。7检索效果:是指利用检索系统(或工具)开展检索服务时

4、所产生的有效结果。三、简答题1简述了解用户信息需求的作用 答:用户信息需求是信息系统发展的动力,也是制定信息政策的出发点和依据。了解用户需求的特点、心理规律、查询行为及需求方式,有助于系统制订合理的信息搜集方针和信息资源的合理布局,从而提高服务效益和质量。2简述影响信息动机向信息行为转化的主要因素 答:(1)信息动机强度 (2)认知能力 (3)抱负水平3简述信息需要的特点 答:(1)信息需要的广泛性 (2)信息需要的社会性 (3)信息需要的发展性 (4)信息需要的多样性4简述信息检索系统的构成模式 答:(1)信息数据的选择、处理、录入、维护子系统 (2)词表和标引子系统(3) 检索子系统 (4

5、)系统-用户接口子系统8.简述信息检索系统的流程系统可分为数据预处理、索引生成、查询处理和检索四个部分。四、论述题1有人说,信息加工是一个体系,你如何理解,请着重从“体系”这个角度加以说明答:(1)加工的方式、方法多种多样。(2)加工的方式、方法相互之间有关联,从不同角度对信息进行加工的。(3)加工过程有其内在联系,构成一个完整的系统。(4)整个加工体系会随着时间的变化,信息数量的变化,载体的变化和技术的变化而不断变化和完善。(5)信息的加工按其加工对象的不同可分为对外表信息的描述与加工,对整体信息的描述与加工,还有对内容信息的描述与加工。2.请探讨一下信息加工的层次性根据信息加工特点,信息加

6、工分为6个层次:外表信息的加工是描述性的,给用户提供的是信息的线索;整体信息的加工是概述性的,给用户提供的是信息的内容特点;内容信息的加工要深入信息内部,对有用的信息给予揭示标引,使读者利用信息有据可查;精粹信息的加工是通过比较鉴别的方法,选取价值高的整体或局部信息,给用户直接提供信息的精华,满足用户对实质性信息的要求;深度信息的加工是研究性和评价性的,解决信息的优劣和有关信息的有效组合问题,给用户以启迪和决策依据;相关信息的加工是信息的外延和扩展,使有关信息根据一定关系进行链接,给用户检索和直接利用的方便。* 二 *一、填空题1. 数据库的定义功能主要是对数据库的结构进行描述,这些定义都保存

7、数据字典 中。2. 数据库系统提供了两种机制来支持完整性约束:第一种是完整性 定义机制,第二种是完整性_验证约束机制_。3. 数据库的三级模式是指_外模式_、_内模式_、_模式_。4. 对文献数据库而言,加工深度表现为_题录_、_文摘_、_全文 三个层次。5. 标引工作可分为_人工标引_、_计算机辅助标引_、_自动标引 三种方式。6. 信息检索过程实际上是将检索提问式与文献记录标引词进行_对比匹配_的过程。7. 为提高检索效率,计算机检索系统从_概念相关性_、_位置相关性_等方面对检索提问实行技术处理。8. 用向量模型计算机向量时,一般采用向量的_夹角余弦_来表示。9. 通常,智能信息检索系统

8、由_知识库_、_文本处理_、_智能接口_三部分组成。2、 名词解释1数据模型:是描述数据、数据联系、数据操作、数据语义以及一致性约束的概念工具的集合。2著录:就是对信息外部特征进行分析、选择与记录的过程。3标引:就是指对信息内容特征进行分析,赋予信息以检索标识的过程。4词位检索:是以数据库原始记录中的检索词之间的特定位置关系为对象的运算,又称全文检索、邻近检索。3、 简答题1什么是倒排文档?为什么要使用倒排文档? 答:倒排文档是将主文档中的可检字段抽出,按某种顺序重新排列起来所形成的一种文档。 按表达文献内容特征的主题词排列的文档称为基本索引文档;按表达文献外部特征排列的文档称为辅助索引文档。

9、在实施检索时,必须和顺排文档配合使用。倒排文档类似于检索工具中的辅助索引。2简述布尔模型及其优缺点 答:布尔模型是最简单的信息检索模型。这种模型的理论基础是集合论。布尔模型最大的优点是理论简单、使用方便。缺点是:(1)它只能给出精确匹配的结果;(2)检索结果有可能因查询词在大量文档中出现而数量太多;(3)由于找不到与查询词完全匹配的文档而使结果太少。3简述向量空间模型及其优点 答:向量空间模型是一种简便、高效的文本表示模型,其理论基础是代数学。向量空间模型最主要的优点在于:(1)该模型的权重计算方法能够提高系统的检索性能;(2)模型中使用的部分匹配方法能检索出与用户的查询输入条件“近似”的文档

10、;(3)在模型中可以根据检索出的结果与查询条件的相关程度对结果进行排序。另外,向量空间模型计算简单,检索速度快。4简述“网播”的信息推送方式 答:(1)频道式推送 (2)邮件式推送 (3)网页式推送 (4)专用式推送5简述智能信息检索的系统结构 答:智能信息检索系统是由知识库、文本处理和智能接口三部分组成。6简述智能信息检索的主要方法 答:(1)统计方法 (2)文本分析方法 (3)人工智能方法 (4)语料库方法7. 有哪些种类的加权检索?各有哪些特征?加权检索把量化思想引入定性检索之中,是改善和提高检索效果的一种重要手段。分标引加权和检索加权;检索加权是指检索者在给出检索词的同时,并为每个检索

11、词赋予权值,以区分每个检索词在检索中的重要程度。通过加权,明确了各检索词的重要程度,使检索更有针对性,并且能依据权值的大小,对命中记录的重要性进行排序 词频加权检索是根据检索词在记录中出现的频次来计算命中记录的权和,依据命中记录权和数从大到小排列,最后由阈值控制输出命中结果。与检索词加权检索不同的是,词的权值是由数据库记录中的词频决定,不是由检索者指定,不需人工干预,减轻了检索者的负担。词频加权检索方法应建立在对全文数据库和文摘数据库基础之上,否则词频加权将失去意义。简单词频加权检索:指检索时累计检索词在记录中出现的次数来决定记录的权值,然后累计该记录每个检索词权值之和来决定该记录是否为命中记

12、录。相对词频加权检索:是将每一个检索词在本文中频率和在整个数据库中的频率综合考虑,进行加权检索的方法。标引加权检索是指在对文献进行标引时,根据每个标引词在文献中的重要程度不同,为它们附上不同的权值,检索时通过对检索词的标引权值相加来筛选命中记录。4、 论述题1. 扩展的检索技术很多,请从提高可是查准率和查全率两个角度探讨一下扩展的检索技术。循此思路。你还有什么新的解决方法?2. 如何理解布尔逻辑表达式的逆波兰转换?3. 请用实例说明信息推送的实际应用* 四 *1、 填空题1. 全文检索主要研究对整个文档信息的_表示_、_存储_、_组织_、_访问_。2. 全文检索的中心环节是_文件内容表达_、_

13、信息查询的获得_、_相关信息的匹配_。3. 按检索对象来区分,全文检索可分为_基于文本_和_基于Web _两种类型;根据索引库中索引元素的不同,全文检索可分为_基于字表_的全文检索和_基于词表_的全文检索。4. 基于理解的分词系统通常包括_分词子系统_、_句法语义子系统_、_总控部分_等三个部分5. 自动标引又分为_自动主题标引_、_自动分类标引_。6. 自动标引的方法主要有_统计标引法_、概率标引法_、_句法分析法_、_语义分析法、_人工智能法_。7. 一个自动标引系统通常包括文本输入_、_词典_、_抽词_、_知识库_、_综合与转换_、_输出_等六个子系统。8. 文本有_词频_、_标题_、_

14、位置、_句法结构_、_线索词_、_指示性短语 等新课程形式特征,这些特征是自动摘录的依据。9. 汉字全文检索系统主要包括两方面的核心技术,一是如何建立和维护全文检索的_索引数据库_,二是如何提供快速有效的_检索机制_。10. 索引数据库一般由一个变长的_主文件_和一个在索引文件控制下的_倒排文件_组成。11. 全文检索索引数据库的生成包括_数据准备_、_文本预处理_、_数据加载 三个步骤。2、 名词解释1. 全文检索 自动标引 主题词标引 自动文摘3、 简答题1. 简述全文检索的优缺点2. 简述基于字符串匹配分词方法的一般模型3. 简述单汉字标引法及其优缺点4. 简述主题词标引的基本思路5.

15、简述主题词标引的实现6. 简述自动标引的基本流程7. 简述词索引的全文检索系统的索引算法8. 简述全文检索系统的系统结构9. 简述自动标引的基本方法10. 简述汉语自动标引的方法11. 简述自动标引的系统构成4、 论述题1. 针对全文检索存在的问题,你准备采取什么方式进行解决?2. 根据简单匹配全文检索算法,画出其流程图3. 请简要论述一下全文检索算法的发展轨迹4. 请谈一下你对几种分词方法的看法。* 五 *1、 填空题1. 搜索引擎的工作过程可以看作三步,_从互联网上抓取网页_、_建立索引数据库、_在索引数据库中搜索排序_2. 目前,Internet上的搜索引擎大致可分为_目录式_、_机器人

16、_、_元_3. 搜索引擎一般由_搜索器_、_索引器_、_检索器_、_用户接口_四个部分组成4. 搜索引擎中主要有_页面数据_、_索引数据_、_ URL数据_等三类典型的数据5. Robot的主要瓶颈是_域名服务器(DNS)的查找6. Robot技术中最关键的一部分是_站点爬行7. 在站点爬行过程中必须要解决_消除重复_、_辨别类型_、_限制范围_、_限制深度_8. Robot使用_深度优先_、_广度优先_两种基本的搜索策略9. 对于网页内容的提取,网络蜘蛛系统一般采用_插件_的形式10. 文本预处理中,词法分析的过程是将_字符串_转换成_词条_的过程11. 在信息获取系统中,词典是用来根据词汇

17、找到对应词汇信息的_数据汇编 12. 倒排文件机制是一种面向_单词_的机制13. 倒排文件结构由_词汇_和_词汇出现情况_两部分组成14. 一个搜索引擎的有效性在很大程度上取决于_索引_的质量15. 索引数据库建立的策略在很大程度上影响搜索引擎的_效率_与_准确性_16. 垂直搜索技术主要分为_模板级_、_网页库级_两个层次17. 垂直搜索引擎的技术评估是从_全面性_、_更新性_、_准确性_、_功能性_等几个方面来进行的18. 目前,智能化搜索引擎在形式上采用了“_以网对网_”的二级映射模式来代替传统的_一级映射模式_19. 智能化搜索引擎中,词典维护工具有_词典生成工具_、_词典导出工具_、

18、_词典连接工具20. Innernet网就是_语意分析器、_词典维护工具_、_关键词分析_三个部分组成的有机整体2、 名词解释1. 搜索引擎 垂直搜索 Innernet网3、 简答题1. 简述搜索引擎的特点2. 简述搜索引擎四个组成部分的功能3. Robot程序设计时需要考虑的问题是什么4. 简述网络蜘蛛的工作过程5. 简述文本预处理的步骤6. 简述检索器的功能7. 倒排文件如何搜索8. 简述PageRank算法的计算公式9. 简述垂直搜索的特点10. 简述模板级垂直搜索和网页库级垂直搜索的优缺点11. 简述个性化搜索中用户兴趣信息存放的解决方案12. 简述智能化搜索引擎的特征13. 简述垂直

19、搜索的内容来源14. 简述垂直搜索所需要的技术15. 搜索引擎所使用的信息检索模型有那些?各有什么特点?16. 简述建立搜索引擎的关键技术17. 搜索引擎如何对网页的内容进行提取4、 论述题1. 请尝试着比较一下搜索引擎与全文检索2. 请评价一下收费排名3. 如何看待垂直搜索的信息采集策略4. 你如何看待传统搜索引擎技术的不足?你准备如何解决?* 六 *1、 填空题1.多媒体内容的处理包括_内容获取_、_内容描述_、_内容操纵_三个步骤2.视频可用_场景_、_镜头 、_帧_来描述3.在基于内容的视频检索中,检索的基本单元是_镜头_4.基于内容的视频检索的关键技术是_视频分割_、_代表帧_、_动

20、态特征提取_5.镜头之间的转换方式主要有_突变_和_渐变_6.音频检索主要采用_示例查询_2、 名词解释1.基于内容的图像检索3、 简答题1. 简述基于内容检索的特点2. 简述基于内容检索的过程3. 简述基于内容检索的系统结构4. 简述基于内容检索的关键技术5. 简述基于内容检索的评价标准6. 简述基于特征的图像检索过程* 七 *1、 填空题1.信息分析与预测的基本方法分为三类:_逻辑学方法_、_数量分析方法_、_系统科学方法 2.竞争情报是经过筛选、提炼和分析过的,可据此采取行动的有关_竞争对手_和_竞争情况_的信息集合。3.竞争情报的来源分为_公共领域_信息和_非公共领域 信息。4.一般认

21、为,竞争情报的实施分为_情报规划_、收集数据 、分析情报 和_传播 等几个步骤。5.数据挖掘所得到的信息应具有_未知_、_有效_、_可实用_三个特征6.数据挖掘系统是从被挖掘的数据中形成特定知识表示过程的实现机制,因此它与被挖掘的_数据组织形式_和所采用的_知识表示_及_推理方式_有关。7.按挖掘的对象不同,网络信息挖掘可分为_ Web内容挖掘_、_ web结构挖掘_、_ Web使用记录挖掘_8.Web使用记录挖掘可分为_一般存取路径追踪_、_专用化追踪_9.Web用法挖掘分为_个性挖掘_、_系统改进_、_站点修改_、_智能商务、_ Web特征描述_10.文本挖掘的准备工作由_文本收集_、_文

22、本分析 、_特征修剪 组成。2、 名词解释1. 信息分析 数据挖掘 Web数据挖掘 文本挖掘 个性化信息服务3、 简答题1.简述信息分析的特点2.简述信息分析的工作程序3.简述信息分析报告的内容和结构4.简述数据挖掘的功能5.简述数据挖掘的过程6.简述Web挖掘的基本原理7.简述个性化信息服务的特点8.简述个性化信息服务的类型 9.个性化信息模型的构建方法4、 论述题1.尝试着比较一下Web挖掘与Web信息检索的区别与联系2.如何获取用户的个性化需求3.个性化信息服务模型的构建答案* 一 *填空1.数值型 文字型(字符) 语音型 图像型2.原料 成品3.信息4.自然 人为5.数据 文本 声音

23、图像6.语义 差异 传递 载体7.外表 整体 内容8.收集 传输 加工 储存(存储)9.信息形式 信息内容10.内在的信息需要 外在刺激11.标题词 单元词 叙词 关键词12.线性结构 非线性结构 树形结构 网状结构13.数据预处理 索引生成 查询处理 检索名词解释1数据:是指记载下来的事实,是客观实体属性的值,它是由原始事实组成的。2信息加工:是指对获取的信息进行判别、筛选、分类、排序、分析、计算和研究等一系列过程,使收集到的信息成为对我们有用的信息资源。3信息组织:即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和序化,实现无序信息流向有序信息流的转

24、换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。 4检索标识:就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。5信息检索:可以从广义和狭义两个角度理解。广义的信息检索是指将信息按一定方式组织和存储起来,并根据用户的需要找出相关信息的过程,其中包括存与取两个方面。狭义的信息检索仅指信息查找过程。6信息检索系统:是指按某种方式、方法建立起来的用于检索信息的一种有层次的体系,是表征有序的信息特征的集合体。7检索效果:是指利用检索系统(或工具)开展检索服务时所产生的有效结果。简答题1简述了

25、解用户信息需求的作用 答:用户信息需求是信息系统发展的动力,也是制定信息政策的出发点和依据。了解用户需求的特点、心理规律、查询行为及需求方式,有助于系统制订合理的信息搜集方针和信息资源的合理布局,从而提高服务效益和质量。2简述影响信息动机向信息行为转化的主要因素 答:(1)信息动机强度 (2)认知能力 (3)抱负水平3简述信息需要的特点 答:(1)信息需要的广泛性 (2)信息需要的社会性 (3)信息需要的发展性 (4)信息需要的多样性4简述信息检索系统的构成模式 答:(1)信息数据的选择、处理、录入、维护子系统 (2)词表和标引子系统(4) 检索子系统 (4)系统-用户接口子系统8.简述信息检

26、索系统的流程系统可分为数据预处理、索引生成、查询处理和检索四个部分。论述题1有人说,信息加工是一个体系,你如何理解,请着重从“体系”这个角度加以说明答:(1)加工的方式、方法多种多样。(2)加工的方式、方法相互之间有关联,从不同角度对信息进行加工的。(3)加工过程有其内在联系,构成一个完整的系统。(4)整个加工体系会随着时间的变化,信息数量的变化,载体的变化和技术的变化而不断变化和完善。(5)信息的加工按其加工对象的不同可分为对外表信息的描述与加工,对整体信息的描述与加工,还有对内容信息的描述与加工。2.请探讨一下信息加工的层次性根据信息加工特点,信息加工分为6个层次:外表信息的加工是描述性的

27、,给用户提供的是信息的线索;整体信息的加工是概述性的,给用户提供的是信息的内容特点;内容信息的加工要深入信息内部,对有用的信息给予揭示标引,使读者利用信息有据可查;精粹信息的加工是通过比较鉴别的方法,选取价值高的整体或局部信息,给用户直接提供信息的精华,满足用户对实质性信息的要求;深度信息的加工是研究性和评价性的,解决信息的优劣和有关信息的有效组合问题,给用户以启迪和决策依据;相关信息的加工是信息的外延和扩展,使有关信息根据一定关系进行链接,给用户检索和直接利用的方便。* 二 *填空1. 数据字典2. 定义机制 验证约束机制3. 外模式 内模式 模式4. 题录 文摘 全文5. 人工标引 计算机

28、辅助标引 自动标引6. 对比匹配7. 概念相关性 位置相关性8. 夹角余弦9. 知识库 文本处理 智能接口名词解释1数据模型:是描述数据、数据联系、数据操作、数据语义以及一致性约束的概念工具的集合。2著录:就是对信息外部特征进行分析、选择与记录的过程。3标引:就是指对信息内容特征进行分析,赋予信息以检索标识的过程。4词位检索:是以数据库原始记录中的检索词之间的特定位置关系为对象的运算,又称全文检索、邻近检索。简答题1什么是倒排文档?为什么要使用倒排文档? 答:倒排文档是将主文档中的可检字段抽出,按某种顺序重新排列起来所形成的一种文档。 按表达文献内容特征的主题词排列的文档称为基本索引文档;按表

29、达文献外部特征排列的文档称为辅助索引文档。在实施检索时,必须和顺排文档配合使用。倒排文档类似于检索工具中的辅助索引。2简述布尔模型及其优缺点 答:布尔模型是最简单的信息检索模型。这种模型的理论基础是集合论。布尔模型最大的优点是理论简单、使用方便。缺点是:(1)它只能给出精确匹配的结果;(2)检索结果有可能因查询词在大量文档中出现而数量太多;(3)由于找不到与查询词完全匹配的文档而使结果太少。3简述向量空间模型及其优点 答:向量空间模型是一种简便、高效的文本表示模型,其理论基础是代数学。向量空间模型最主要的优点在于:(1)该模型的权重计算方法能够提高系统的检索性能;(2)模型中使用的部分匹配方法

30、能检索出与用户的查询输入条件“近似”的文档;(3)在模型中可以根据检索出的结果与查询条件的相关程度对结果进行排序。另外,向量空间模型计算简单,检索速度快。4简述“网播”的信息推送方式 答:(1)频道式推送 (2)邮件式推送 (3)网页式推送 (4)专用式推送5简述智能信息检索的系统结构 答:智能信息检索系统是由知识库、文本处理和智能接口三部分组成。6简述智能信息检索的主要方法 答:(1)统计方法 (2)文本分析方法 (3)人工智能方法 (4)语料库方法8. 有哪些种类的加权检索?各有哪些特征?加权检索把量化思想引入定性检索之中,是改善和提高检索效果的一种重要手段。分标引加权和检索加权;检索加权

31、是指检索者在给出检索词的同时,并为每个检索词赋予权值,以区分每个检索词在检索中的重要程度。通过加权,明确了各检索词的重要程度,使检索更有针对性,并且能依据权值的大小,对命中记录的重要性进行排序 词频加权检索是根据检索词在记录中出现的频次来计算命中记录的权和,依据命中记录权和数从大到小排列,最后由阈值控制输出命中结果。与检索词加权检索不同的是,词的权值是由数据库记录中的词频决定,不是由检索者指定,不需人工干预,减轻了检索者的负担。词频加权检索方法应建立在对全文数据库和文摘数据库基础之上,否则词频加权将失去意义。简单词频加权检索:指检索时累计检索词在记录中出现的次数来决定记录的权值,然后累计该记录

32、每个检索词权值之和来决定该记录是否为命中记录。相对词频加权检索:是将每一个检索词在本文中频率和在整个数据库中的频率综合考虑,进行加权检索的方法。标引加权检索是指在对文献进行标引时,根据每个标引词在文献中的重要程度不同,为它们附上不同的权值,检索时通过对检索词的标引权值相加来筛选命中记录。* 四 *填空1.表示 存储 组织 访问2.文件内容表达 信息查询的获得 相关信息的匹配3.基于文本 基于Web 基于字表 基于词表4.分词子系统 句法语义子系统 总控部分5.自动主题标引 自动分类标引6.统计标引法 概率标引法 句法分析法 语义分析法 人工智能法7.文本输入 词典 抽词 知识库 综合与转换 输

33、出8.词频 标题 位置 句法结构 线索词 指示性短语9.索引数据库 检索机制10.主文件 倒排文件11.数据准备 文本预处理 数据加载名词解释1全文检索:是指以全文本信息作为检索对象,建立全文数据库,除了具有布尔逻辑检索功能外,还具有文本检索功能,并允许用户以自然语言检索,直接获得原文中的有关章节和段句。2自动标引:是根据文献内容,依靠计算机系统全部或部分地自动给出标引符号的过程。3主题词标引:是指抽取信息中能够表达其核心内容的词或词组,并将这些词或词组转化为受控词的过程。4自动文摘:就是利用计算机自动地从原始文献中提取文摘。简答题1简述单汉字标引法及其优缺点 答:单汉字标引法是众多标引方法中

34、比较有影响的一种。吸收了西文自动抽词标引的思想,把一个单汉字看成一个西文单词而作为标引词,检索时先匹配单字,再进行词组重组。另外增加了一个停用字表,提高了标引效率。优点:单汉字法绕开切分问题,容易实现,便于系统维护,标引速度快、深入、客观且一致,词语组配灵活。缺点:检索速度不快,增加了用户的智力负担,浪费了计算机存储空间,牺牲了隐含概念主题及词汇间相互关系的表达,系统的查全率和查准率都不能令人满意。2简述主题词标引的基本思路 答:主题词标引的基本思路是利用汉语自动分词的研究成果,采用词典分词法将文献进行切分,通过词加权或词频统计法对切分后的词进行排序确定关键词,利用主题词表将关键词转化、合并、

35、去重、重新排序后确定系统正式使用的主题词,并追加文献代号送入系统主题词字段中。3简述主题词标引的实现 答:(1)构造词表 构造切分词表 构造主题词表(2)主题词标引 抽取关键词 归并关键词 确定标引词 主题词标引4简述自动标引的基本流程 答:自动标引的基本流程包括:确定标引源、输入标引源内容、预处理、分词处理、确定关键词、转换为受控词、给出主题标识符。9. 简述自动标引的基本方法自动标引的方法主要有:(1)统计标引法;(2)概率标引法;(3)句法分析法;(4)语义分析法;(5)人工智能法10. 简述汉语自动标引的方法较典型的汉语自动标引方法包括:词典标引法、切分标引法、语法分析标引法、汉语自动

36、标引专家系统、单汉字标引法等。11.简述自动标引的系统构成 一个自动标引系统通常包括文本输入、词典、抽词、知识库、综合与转换以及输出等6个子系统。* 五 *填空1.从互联网上抓取网页 建立索引数据库 在索引数据库中搜索排序2.目录式 机器人 元3.搜索器 索引器 检索器 用户接口4.页面数据 索引数据 URL数据5.域名服务器(DNS)6.站点爬行7.消除重复 辨别类型 限制范围 限制深度8.深度优先 广度优先9.插件10.字符串 词条11.数据汇编12.单词13.词汇 词汇出现情况14.索引15.效率 准确性16.模板级 网页库级17.全面性 更新性 准确性 功能性18.以网对网 一级映射模

37、式19.词典生成工具 词典导出工具 词典连接工具20.语意分析器 词典维护工具 关键词分析名词解释1搜索引擎:从狭义的角度来说,搜索引擎由信息收集软件、索引数据库和查询接口三部分组成。从广义的角度上讲,搜索引擎是互联网上的一类网站,是提供查询、搜索的网站。2垂直搜索:是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,它通过定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。3Innernet网:就是由一个或多个相关的词典组成的反映人的知识网络及相关工具的系统。简答题1简述搜索引擎的特点 答:(1)信息服务的综合性 (2)信息服务的智能性

38、(3)信息服务的个性化 (4)具有支持Agent的能力 (5)具有与电子商务灵活结合的能力2Robot程序设计时需要考虑的问题是什么 答:(1)与平台无关性(2)要考虑是否直接影响访问Web的效率,影响搜索数据库的质量(3)要考虑对网络或被访问站点的影响 (4)还应遵守一些协议3简述网络蜘蛛的工作过程 答:(1)网络蜘蛛向被访问的站点标明自己的身份(2)一般会访问一个特殊的文本文件Robots.txt(3)遵守相关协议(4)网络蜘蛛在下载网页的时候,会去识别网页的HTML代码。4简述文本预处理的步骤 答:(1)文本的词法分析 (2)无用词汇的删除 (3)词干提取(4)索引词条/词干的选择 (5

39、)构造词条的分类结构5简述检索器的功能 答:检索器的功能是根据用户输入的查询关键字在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。6倒排文件如何搜索 答:(1)词汇查找 (2)查询词汇出现情况 (3)词汇出现情况的操作7简述PageRank算法的计算公式 答:网页A级别=(1-系数)+系数× ( 网页1级别 + 网页2级别 + 网页N级别 ) 网页1链出个数 网页2链出个数 网页N链出个数 8简述垂直搜索的特点 答:(1)垂直搜索的表现方式和一般的搜索引擎表现方式不同,结构化的搜索和非结构化的搜索并用。 (2)从广告模式上,

40、提供了除Google adsense和百度竞价排名广告之外的另一种可能。 (3)垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点,倾向于结构化数据和元数据。(4)垂直搜索引擎的搜索行为是基于结构化数据和元数据的结构化搜索。(5)垂直搜索引擎的搜索结果要覆盖整个行业。(6)垂直搜索引擎的Web2.0需求。(7)垂直搜索引擎的目标是帮助用户解决问题。(8)垂直搜索引擎的社区化特征。9简述模板级垂直搜索和网页库级垂直搜索的优缺点 答:垂直搜索技术主要分为两个层次:模板级和网页库级。模板级是针对网页进行模板设定或者自动生成模板的方式抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少

41、且稳定的需求,优点是快速实施、成本低、灵活性强,缺点是后期维护成本高,信息源和信息量小。 网页库级就是在信息源数量上、数据容量上、检索容量上、稳定性可靠性上都是网页库搜索引擎级别的要求,其灵活性差、成本高。10简述个性化搜索中用户兴趣信息存放的解决方案 答:关于用户兴趣信息的存放有三种解决方案:一是将用户的兴趣信息存放在搜索引擎服务器上;二是将用户的兴趣信息存放在用户的机器上;三是用户的兴趣信息存放在其他服务器上。11简述智能化搜索引擎的特征答:(1)网络蜘蛛的智能化 (2)为特定用户提供相关信息 (3)搜索引擎人机接口的智能化13. 简述垂直搜索的内容来源垂直搜索的内容主要来源于:门户网站自

42、身的资源;以开放接口方式让行业用户提供的资源;普通用户发布的资源;抓取行业用户的资源。14.简述垂直搜索所需要的技术垂直搜索大致需要信息采集技术、网页信息抽取技术、信息的处理技术、语意相关性分析、分词技术和索引技术等。15. 搜索引擎所使用的信息检索模型有那些?各有什么特点?布尔逻辑模型:布尔型信息检索是最简单的信息检索模型,用户利用布尔逻辑关系构造查询并提交,搜索引擎根据事先建立的倒排文件确定查询结果。标准布尔逻辑模型为二元逻辑,并可用逻辑符“and”、“or”、“not”来组织关键词表达式。布尔型信息检索模型的查全率高,查准率低。目前大多搜索引擎均使用布尔逻辑检索模型,查询结果一般不进行相

43、关性排序。模糊逻辑模型:这种模型在查询结果处理中加入模糊逻辑运算,将检索的数据库文档信息与用户的查询要求进行模糊逻辑比较,按照相关的优先次序排列查询结果。模糊逻辑模型可以克服布尔型信息检索模型在查询中其结果具有无序性的问题。向量空间模型:向量空间模型用检索项的向量空间来表示用户的查询要求和数据库文档信息。查询结果是根据向量空间的相似性而排列的。向量空间模型可方便地产生有效的查询结果,能提供相关文档的文摘,并对查询结果进行分类,为用户提供准确的信息。概率模型:基于贝叶斯概率论原理的概率模型利用相关反馈的归纳学习方法,获取匹配函数,这是一种较复杂的检索模型。16. 简述建立搜索引擎的关键技术信息收

44、集和存储一般分为人工和自动两种方式。信息预处理包括信息格式支持与转换以及信息过滤。信息索引技术就是创建文档信息的特征记录,以使用户能够快速地检索到所需信息。17.搜索引擎如何对网页的内容进行提取1关键词的提取。网页处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所包含的关键词。2重复或转载网页的消除3链接分析4网页重要程度的计算论述题1请尝试着比较一下搜索引擎与全文检索 答:(1)数据量。全文检索的数据量只有几百万条,而搜索引擎的数据量极大。(2)内容相关性。全文检索强调内容相关性,而搜索引擎不强调内容相关性。(3)安全性。全文检索有安全性要求,而搜索引擎没有安全性要求。(4)个性化和

45、智能化。全文检索的个性化和智能化要比搜索引擎的更好。2请评价一下收费排名 答:收费排名并不属于排序技术,而是一种搜索引擎的赢利模式。但收费排名已经最直接的影响到了搜索引擎的排序。收费排名一方面给搜索引擎公司带来收益,一方面给企业带来访问量,另外对访问者也有一定好处。对于企业来说,收费排名是提升网站在搜索引擎中排名的最直接和最简单的办法。3如何看待垂直搜索的信息采集策略 答:采集可通过人工设定网址和网页分析URL方式共同进行。策略上可以评估网站/网页更新的系数、网站/网页的重要系数、用户点击系数、网站稳定系数,根据这些系数来确定对这些网站/网页更新的频率,对网页进行很好的分级可以以低成本很好的解

46、决更新问题。4你如何看待传统搜索引擎技术的不足?你准备如何解决?(解决办法自己写) 答:传统的搜索引擎,一方面存在“文海捞针”的问题,但另一方面又存在“信息丢失”的问题。它是由以下四个深层次的问题引起的。这四个问题都与词汇紧密相关。第一个是“忠实表达”问题,第二个是“表达差异”问题,第三个是“词汇孤岛”问题,第四个是“机械式匹配”问题。* 六 *填空1.内容获取 内容描述 内容操纵2.场景 镜头 帧3.镜头4.视频分割 代表帧 动态特征提取5.突变 渐变6.示例查询名词解释1基于内容的图像检索:是基于内容检索技术的一种,是指利用图像的颜色、形状、纹理、语义等特征对图像进行查询,试图在理解图像内

47、容的基础上,检索出与示例相类似的图像。简答题1简述基于内容检索的特点答:(1)以综合性学科为基础 (2)从媒体内容中提取信息线索 (3)相识性比较 (4)交互性查找(5)直观的查询方式 (6)大型数据库的快速检索2简述基于内容检索的过程答:(1)初始查询说明 (2)相似性匹配 (3)相似度排列 (4)特征调整3简述基于内容检索的系统结构答:完整的CBR系统一般由两个子系统构成,即数据库生成子系统和查询子系统。(1)对象标识 (2)特征提取 (3)数据库(4)用户查询和浏览接口 (5)检索引擎 (6)索引/过滤器4简述基于内容检索的评价标准答:(1)易用性 (2)性能 (3)可移植性 (4)经济

48、性 (5)可维护性5简述基于特征的图像检索过程答:(1)图像的预处理 (2)图像特征的抽取 (3)数据库系统* 七 *填空1.逻辑学方法 数量分析方法 系统科学方法2.竞争对手 竞争情况3.公共领域 非公共领域4.情报规划 收集数据 分析情报 传播5.未知 有效 可实用6.数据组织形式 知识表示 推理方式7.Web内容挖掘 web结构挖掘 Web使用记录挖掘8.一般存取路径追踪 专用化追踪9.个性挖掘 系统改进 站点修改 智能商务 Web特征描述10.文本收集 文本分析 特征修剪名词解释1信息分析:是运用科学的理论和方法,通过对信息的加工处理,使信息成为全新的信息,并从中找出描述该事物发展规律

49、的数学模型,进而对其未来的发展状态进行分析预测,为决策提供科学的依据的过程。2数据挖掘:是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。3文本挖掘:是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好的组织信息的过程。简答题1简述信息分析的特点答:(1)综合性 (2)针对性 (3)政策性 (4)客观性 (5)先导性 (6)趋优淘劣性2简述信息分析的工作程序答:(1)选题 (2)制定研究计划 (3)信息反馈与决策跟踪3简述信息分析报告的内容和结构答:信息分析研究报告应该包括以下内容

50、(1)提出拟解决的问题和要达到的目标 (2)研究背景情况,描述与分析(3)分析研究方法 (4)结论与论证 (5)具体实施的建议、方案与措施结构:研究报告由题目、摘要、引言、正文、结论、参考文献、注释等组成。4简述数据挖掘的功能答:(1)自动预测趋势与行为 (2)数据关联 (3)聚类 (4)概念描述 (5)偏差检测5简述数据挖掘的过程答:(1)定义问题 (2)获取数据 (3)整理和初探数据 (4)选择和准备数据(5)挖掘数据 (6)解释结果 (7)运用知识6简述Web挖掘的基本原理 答:目标数据集就是根据用户要求,从Web资源中提取的相关数据;预处理是从目标数据集中除去明显错误的数据和冗余的数据

51、,并将数据转换成有效形式,以使数据开采算法寻求感兴趣的模型;模式分析是对发现的模式进行解释和评估,最后将发现的知识以能够理解的方式提供给用户。7简述个性化信息服务的特点答:(1)以用户为中心(2)允许用户充分表达个性化需求,能够对用户需求行为进行挖掘(3)服务方式更加灵活、多样 (4)能够主动将用户所需信息推送给用户8简述个性化信息服务的类型答:(1)个性化内容定制服务 (2)个性化信息检索定制服务(3) 个性化界面定制服务 (4)个性化信息推荐服务9.个性化信息模型的构建方法个性化信息模型的构建方法:信息Agent的自主学习方法、信息过滤的方法、基于多Multi-Agent System的合作方法用户模型的构建方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论