信息资源管理中的内容管理演示文稿_第1页
信息资源管理中的内容管理演示文稿_第2页
信息资源管理中的内容管理演示文稿_第3页
信息资源管理中的内容管理演示文稿_第4页
信息资源管理中的内容管理演示文稿_第5页
已阅读5页,还剩169页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息资源管理中的内容管理演示文稿本文档共174页;当前第1页;编辑于星期日\9点52分优选信息资源管理中的内容管理本文档共174页;当前第2页;编辑于星期日\9点52分

本章基本内容2.1信息资源类型2.2信息采集2.3信息组织2.4信息检索2.5信息分析2.6信息资源开发利用本文档共174页;当前第3页;编辑于星期日\9点52分2.1信息资源类型2.1.1信息资源类型概述1.按信息载体划分信息资源按载体材料和存储技术可分为(1)印刷型信息资源(2)缩微型信息资源(3)声像型信息资源(4)数字化信息资源本文档共174页;当前第4页;编辑于星期日\9点52分2.1.1信息资源类型概述2.按加工深度划分零次信息:进行中的研究。一次信息:检索和利用的对象。二次信息:提供一次信息的线索。三次信息:具有综合性高、系统性好、参考价值高等特点。本文档共174页;当前第5页;编辑于星期日\9点52分2.1.2文本类信息资源文本类信息资源按出版形式划分,可分为:1.图书2.期刊3.会议文献4.学位论文5.专利文献6.研究报告7.政府出版物8.标准文献9.产品资料10.文书档案本文档共174页;当前第6页;编辑于星期日\9点52分2.1.3数据类信息资源1.经济数据资源

(1)宏观经济统计数据

(2)微观经济数据①股票市场交易数据②上市公司财务指标分析数据③上市公司治理结构研究数据④上市公司兼并收购、资产重组研究数据⑤证券投资基金研究数据⑥上市债券研究数据⑦期货市场研究数据⑧行业研究数据⑨商品市场数据本文档共174页;当前第7页;编辑于星期日\9点52分本文档共174页;当前第8页;编辑于星期日\9点52分2.1.3数据类信息资源(3)经济资源数据①自然资源数据②城市基础数据③企业法人数据④人口数据本文档共174页;当前第9页;编辑于星期日\9点52分2.1.3数据类信息资源2.科学数据资源科学数据来源于各部门和各单位的观测、监测、调查、试验、实验以及研究分析等科技活动,涉及数值数据、空间数据、图形数据和文本数据等各种类型,分布广泛、内容复杂、形式多样、格式不一、数量庞大。(1)基础科学数据(2)基础地理数据(3)空间数据(4)地震科学数据本文档共174页;当前第10页;编辑于星期日\9点52分本文档共174页;当前第11页;编辑于星期日\9点52分本文档共174页;当前第12页;编辑于星期日\9点52分2.1.3数据类信息资源3.科学数据共享工程中国科学技术部的科学数据共享工程是科技基础条件平台工作的重要组成部分。实施科学数据共享工程,整合并共享现有的海量数据资源,让科技界、学术界能够方便地获得所需要的数据资源,实现了数据资源的合理流动和充分利用,防止了科研活动的重复进行和科研经费的浪费,有助于持续提升国家的科技创新能力。国家气象局成为数据共享的先导和示范单位。本文档共174页;当前第13页;编辑于星期日\9点52分2.1.3数据类信息资源科技部又启动了五个科学数据中心即测绘科学数据共享服务、水文水资源信息共享服务、地震科学数据共享、林业科学数据中心、农业科学数据中心和三个共享服务网(地球系统科学数据共享服务网建设与运行、现代农业技术(农村科技)信息共享服务网、可持续发展信息共享平台)。由此,包括气象科学数据共享在内九大行业的科学数据共享工程开始有条不紊地推进。本文档共174页;当前第14页;编辑于星期日\9点52分本文档共174页;当前第15页;编辑于星期日\9点52分2.2信息采集2.2.1信息资源的数量和来源1.图书的数量和来源据1995年《联合国统计年鉴》对120个国家图书出版情况的统计,全世界共生产图书91万多种。1997年美国出版图书8.5万~10万种,英国9.5万种,中国大陆10万种(初版新书有5万种),德国7~8万种,法国3万种,日本6万种,还有意大利、西班牙等国,各有2万~3万种。近年来上述数字变化不大。俄罗斯出书也很多,前苏联一年出书8万种。本文档共174页;当前第16页;编辑于星期日\9点52分本文档共174页;当前第17页;编辑于星期日\9点52分2.2.1信息资源的数量和来源我国(这里仅指大陆地区)2003年有出版社570家(包括副牌社35家),共出版图书190391种,其中新版图书110812种,重版、重印图书79579种,总印数66.7亿册。与上年相比图书品种增长11.4%,新版图书品种增长10%,重版、重印图书品种增长13.2%,总印数下降2.9%。本文档共174页;当前第18页;编辑于星期日\9点52分2.2.1信息资源的数量和来源2.期刊的数量和来源由于期刊变化太快,所以,全世界的期刊有多少种?现在在版期刊有多少种?尚无人精确统计过。美国鲍克公司出版《乌利希国际期刊指南》》(Ulrich‘s

International

Periodicals

Directory,New

York::Bowker,1932-)是目前反映国际期刊出版动态及订购期刊的重要工具、其收集品种几乎囊括了世界上正在出版的全部重要西文期刊。考察几种权威的期刊工具书,目前在版期刊大约有15万种。自有期刊以来,全世界累计出版期刊在300万至500万种之间。本文档共174页;当前第19页;编辑于星期日\9点52分本文档共174页;当前第20页;编辑于星期日\9点52分2.2.1信息资源的数量和来源我国大陆地区2003年共出版期刊9074种,平均期印数19909万册,总印数29.47亿册。与上年相比种数增长0.5%,平均期印数下降2.44%,总印数下降0.14%。出版报纸2119种,平均期印数19072.42万份,总印数383.12亿份。与上年相比,种数下降0.84%,平均期印数增长1.88%,总印数增长4.16%。台湾地区出版的期刊有5000余种。香港定期出版的期刊有670多种,澳门有20种。本文档共174页;当前第21页;编辑于星期日\9点52分2.2.1信息资源的数量和来源3.专利说明书的数量和来源世界上每年出版的专利说明书约为100-110万件。根据中国国家知识产权局的统计数据,2003年我国专利申请总量为30.9万件,授权量18.2万件,分别比上年增长了22%和38%。英国国家图书馆2004年累计专利说明书5348万件专利说明书,是世界上最大的专利库藏。截止2004年底,我国国家知识产权局专利局专利文献馆拥有29个国家3个国际组织的专利说明书,总量为4000多万件;还可提供88个国家及国际组织专利信息检索工具。本文档共174页;当前第22页;编辑于星期日\9点52分2.2.1信息资源的数量和来源4.技术标准的数量和来源技术标准是一种增长比较缓慢的文献。目前,国际标准化组织(ISO)和国际电工委员会(IEC)颁布的现行有效的国际标准有16745项。约有100多个国家和地区设有全国性标准化组织。其中有90多个国家和地区制订了国家标准。据统计,截止1991年年底,世界上各类标准文献共计120多万件。在我国,据统计,到2001年底,已颁布国家标准19744项,专业(部)标准31900项,地方标准11660项,企业标准871项。国家标准40%采用国际标准和国外先进标准。本文档共174页;当前第23页;编辑于星期日\9点52分2.2.1信息资源的数量和来源5.其他文献的数量和来源据《科技会议录索引》(IndextoScientific&TechnicalProceedings,简称ISTP)报道,全世界每年要召开上万个科技会议。它每年报道大约4000多个会议的会议录、收录会议论文约16万篇。《世界会议》(WorldMeetings,简称WM)是由美国WorldMeetingsInformationCenterInc.编辑,MacMilanPublishingCompany出版,专门报导未来两年内将要召开的国际学术会议信息。本文档共174页;当前第24页;编辑于星期日\9点52分2.2.1信息资源的数量和来源研究报告的数量随着科技和经济的发展而迅速增长,1945~1950年间年全世界的产量在7500~100000件之间,20世纪70年代增至每年50万件,80年代每年略有增加。在我国,中国科学技术情报研究所是收藏国外学位论文较多的单位。北京图书馆收藏了1983年由美国友好书刊基金会赠送的美国1938-1977年博士论文的缩微胶卷。1986年,清华大学订购了美国部分著名大学,如麻省理工学院(1983年以来的)、加利福尼亚大学伯克利分校、斯坦福大学(1984年以来某些系的)博士论文的缩微平片。《中国学位论文通报》是我国自然科学类学位论文的权威性检索工具,1985年创刊。本文档共174页;当前第25页;编辑于星期日\9点52分本文档共174页;当前第26页;编辑于星期日\9点52分2.2.1信息资源的数量和来源6.数据资源的数量和来源数据资源数量非常庞大,而且增长迅猛,所以很难统计。据查,世界性的,国家或地区性的,学科或专业性的数据量统计,都很难获得。据报道,截止2004年10月底,我国大陆科学数据库数据资源建设已建成专业数据库388个,总数据量达13TB。目前,科学数据库分布在各地的网站42个,上网专业库322个,网上可查询数据量达7.7TB,通过Internet提供共享服务。提前一年超额完成了“十五”期间数据资源达到10TB的建设任务。经济和社会生活领域产生的数据量更加庞大。本文档共174页;当前第27页;编辑于星期日\9点52分2.2.1信息资源的数量和来源科学数据的来源一般是科研机构、科学数据中心、以网络或其他方式提供的科学数据库等。经济和社会统计数据的主要来源有:行业协会、公司、银行、交易所、经纪人、政府部门和国际组织、独立的调查机构、市场研究机构、数据汇编机构、出版商、媒体、非营利性组织、大学、研究中心等以及它们的网站。行业和一般的商业数据主要来自政府统计部门、国际统计机构、政府调查资料、政府行政管理档案、市场调研报告和行业报告、经济分析师报告、银行报告、新闻报道、贸易类期刊。经济数据和财政数据主要来自银行、信贷机构、保险公司、基金管理公司、政府经济普查机构、媒体、面谈调查等渠道。本文档共174页;当前第28页;编辑于星期日\9点52分本文档共174页;当前第29页;编辑于星期日\9点52分2.2.2信息采集原则信息采集是指通过各种方式获取所需要的信息,是信息资源有效管理和利用的第一步,也是关键的一步。为了保证信息采集的质量,应坚持以下原则:1.系统性原则2.针对性原则3.及时性原则4.可靠性原则5.方便、经济的原则6.计划性原则7.预见性原则本文档共174页;当前第30页;编辑于星期日\9点52分2.2.3信息采集策略1.定向采集与定题采集2.单向采集与多向采集3.主动采集与跟踪采集4.建立信息网络5.利用互联网进行信息采集6.严格管理与激励措施相结合本文档共174页;当前第31页;编辑于星期日\9点52分2.2.4采集方式1.文献型信息资源的采集购买、交换、接受、征集、申请、复制、网络搜索2.实物型信息资源的采集3.鲜活型信息资源的采集交谈、采访、社会调查等4.数据的采集观察、实验、检测、考察、调查、统计、检索、普查和科学研究等本文档共174页;当前第32页;编辑于星期日\9点52分2.2.5新的采集技术1.全自动电话访谈2.交互式计算机辅助电话访谈3.电脑柜调研4.网络调研系统本文档共174页;当前第33页;编辑于星期日\9点52分2.3信息组织

2.3.1信息表示概述信息表示:1.信息表示的来源信息从创建到传播利用的每一个阶段都可能产生不同形式的信息表示。本文档共174页;当前第34页;编辑于星期日\9点52分2.3.2信息表示概述2.信息表示的生成方法派生法,是指信息表示直接来自对象信息集合自身,利用某些识别和分析技术,从对象信息集合中提取出可用于信息组织和检索的语词符号或其他特征标识。传统的派生法又称为关键词索引法、自动抽词标引或派生式标引。不同的对象信息有不同的特征,所以其特征信息的识别和提取方法也不同。指派法,是指信息表示来自对象信息的外部,由信息加工处理者在对信息内容进行分析的基础上;考虑其潜在用户的知识结构,参考社会的公共知识结构,确定要揭示的信息内容属性及表示方式,直至把标识(如标引词、分类号)赋予对象信息的过程。本文档共174页;当前第35页;编辑于星期日\9点52分2.3.2信息表示语言1.置标语言置标语言(MarkupLanguage)由一些代码(codes)或控制标记(tags)组成,这些代码或控制标记本身若单独存在是无意义的,它们必须结合文件信息后才能形成一份有用的电子文件,而所谓有用的电子文件是针对应用软件来说的,即应用软件能够解读电子文件中的置标语言,并通过置标语言的意义对电子文件进行特定的处理。置标语言不同于一般的控制流程序设计语言,基本上可以被视为是一种数据流的文档结构描述语言。在计算机处理过程中,置标语言的标记既可以作为数据,也可以作为控制语句来使用。置标语言的产生有多种因素:信息交换(InformationExchange)与信息再利用(InformationReuse)问题。本文档共174页;当前第36页;编辑于星期日\9点52分2.3.2信息表示语言置标就是给文档中某些具有特殊含义的部分加上标记的过程,置标的符号就是该过程的具体实现。在20世纪80年代早期,IBM设计了一种文档系统,通过在文档中附加一些标签,从而可以标识文档中的各种元素。IBM把这样的标记语言称为通用置标语言(GeneralizedmarkupLanguage,GML)。1986年国际标准化组织认为IBM提出的概念很好,并发布了为生成标准化文档而定义的标识语言标准,称为标准通用置标语言

(StandardGeneralizedMarkupLanguage,SGML)。

本文档共174页;当前第37页;编辑于星期日\9点52分SGML:SGML是ISO在1986年所制定的描述文档资料的结构与内容、实现文档交换和共享的国际标准。它是数据描述、数据模型化和数据交换的标准,同时又是一种元语言,元语言是一套可以用来定义其它更专门性的标记语言的通用规则。普通的SGML文档一般由三部分组成:SGML声明、文档类型定义及SGML文档实例。SGML声明定义文档使用的语言集、参考语法规则、SGML可选特性等;文档类型定义(DTD)

描述文档的结构模板、逻辑框架结构以及元素的属性等,它确定文档类别、规定文档结构规则、列出文档实例中所允许的全部元素及其次序;SGML文档实例是文档内容的主要部分,由许多元素及元素的正文按DTD规定的框架结构组织而成。本文档共174页;当前第38页;编辑于星期日\9点52分SGML的优点:

灵活性在SGML中,置标是不固定的,用户可以根据自己的理解来添加置标,可以用置标来标识结构非常复杂的文档。SGML能描述任何的信息结构与任何复杂的文件,其应用可以简单如HTML,也可以复杂得像TEI、EAD、CIMI。通用性SGML与平台独立,与系统独立,不属于特定的平台和特定的应用系统。可以在不兼容的系统直接进行数据交换。避免数据交换中的信息遗失,撰写的文档能够长久保存。信息的再利用性SGML文件的内容可以重复利用,或者被其它的SGML文件使用,不须重新产生内容。同一份文件内容也可以通过不同的DTD来定义,用不同的样式表呈现出来。本文档共174页;当前第39页;编辑于星期日\9点52分SGML的局限性:

应用程序不易开发。

SGML文件不易在Web上传播。要想传送SGML文件,必须有特定的DTD和样式表。缺乏商家的支持。本文档共174页;当前第40页;编辑于星期日\9点52分HTML

1989年,欧洲粒子物理研究中心使用SGML的一个语法,以一个DTD为基础,开发了HTML。

HTML创造出来的文件可在不同的操作平台间移动。可移植性与简易性是HTML的两大特征。

HTML标签指明浏览器应该怎样显示文献。通常,HTML标签有两部分,一个标头和一个标尾,其中含有被定义的文献。然而,有时标尾是不被要求的。HTML文献结构包含头标区、主体区及元素。头标区含有一个标题和其它信息。主体区含有正文、图象和链接。本文档共174页;当前第41页;编辑于星期日\9点52分HTML的特点:

HTML的DTD设计主要是满足网上显示的需求。许多标签纯粹是用来指定网页的显示细节,例如:br是换行;hr是画一条平行线;b表示粗体字。

HTML有内建的样式(style)。这使得HTML更为简单易用,但缺点是灵活性差,同样的文件内容只能设定一种显示样式。

HTML引用SGML的标记最简化特征。这是为了尽量减少HTML文件标记的数量,使HTML的标记更简单。

HTML没有采用SGML的超链接机制。HTML的超链接是利用标签<a>的“href”属性来指向Web上的任意文件。本文档共174页;当前第42页;编辑于星期日\9点52分HTML的局限性:结构方面:HTML最大的局限就是它的标签集是固定的,而这些标签主要用来指定网页的显示格式,这个特性使得HTML只能支持固定、简单的文件结构,而且在信息再利用、资料交换与机读方面都存在很大的局限。在信息的利用方面:统一内容要实现不同的呈现形式需要有不同的Web版本。信息的交换方面:无法支持精确查询。

维护方面:HTML的不断修订增加了许多网站额外的维护工作。本文档共174页;当前第43页;编辑于星期日\9点52分

XML简介:XML是W3C在1996年底提出的标准,它是从SGML衍生出来的简化格式,也是一种元语言,可以用来定义任何一种新的标记语言。XML是一种可以用于Web上的标准的、可扩展的数据格式描述语言。它可以描述各种各样结构的信息,使得用它表示的数据信息可以很方便地被不同的数据使用者使用。XML的出现使得网上数据的使用效率大大地提高。本文档共174页;当前第44页;编辑于星期日\9点52分XML的优点:灵活性:XML的灵活性表现在两个方面:一是XML文档也是纯文本文件,同HTML一样,各种编辑工具创建的XML文档都能被WWW浏览器所显示;二是XML允许自定义标签,这种优势使得HTML应用无法与XML的应用相比。开放性:XML所采用的标准技术在Web上是完全开放的,可以免费获得。W3C组织的成员已经较早地得到了这些标准,不过一旦此标准完成了,结果就是大家都可获得的。XML文档自身也较为开放,任何人都可以对一个结构良好的XML文档进行语法分析,如果提供了DTD,还可以校验这个文档。本文档共174页;当前第45页;编辑于星期日\9点52分良好的扩展性:XML在两个意义上是可扩展的。首先,它允许开发者创建他们自己的DTD,有效地创建可被用于多种应用的“可扩展的”标签集。其次,使用几个附加的标准,您可以对XML进行扩展,这些附加标准可以向核心的XML功能集增加样式、链接和参照能力。强大的超链接机制:

XML除了支持象HTML的简单链接以外,还提供了两种更为强大的超链接机制;Xlink和Xpointer;其中,XLink完全支持现有的Web的URL链接格式,XPointer则允许利用文件的结构定址,这一点与HTML有很大不同,HTML的文件内部超链接必须指定文件中的绝对位置,一旦文件内容改变,通常必须更新链结。XPointer;利用文件结构来定址所指定的是相对位置,只要文件结构没有改变,就算内容改变了也不会影响链接本文档共174页;当前第46页;编辑于星期日\9点52分XML局限性:

信息的再利用性较差。本文档共174页;当前第47页;编辑于星期日\9点52分三、SGML、HTML和XML的比较

HTML是SGML的应用,XML是SGML的一个子集。HTML和XML都是由一个固定的SGML定义和一个DTD定义组成。XML不像HTML只有内建的样式,XML提供了样式表标准,称为可扩展样式语言。XML除了支持像HTML的简单链接,也提供了几种功能更强大的超链接机制预算本文档共174页;当前第48页;编辑于星期日\9点52分2.3.2信息表示语言2.元数据

元数据是关于数据的有结构的数据,或者定义和描述其它数据的数据。本质上说,元数据(Metadata)是一种数据结构标准。元数据(Metadata)是随着因特网上海量和迅速增长的信息资源和传统的资源组织方式的局限性,而成为人们关注的焦点的。本文档共174页;当前第49页;编辑于星期日\9点52分2.3.2信息表示语言根据其功能,元数据可以被划分成三种基本类型:①知识描述型元数据:用来描述、发现和鉴别数字化信息对象,如MARC等。②结构型元数据:用来描述数字化信息资源的内部结构。比前者更侧重于数字化信息资源的内在的形式特征,如目录、章节、段落等特征。③存取控制型元数据:用来描述数字化信息资源能够被利用的基本条件和期限,以及指示这些资源的知识产权特征和使用权限。本文档共174页;当前第50页;编辑于星期日\9点52分2.3.2信息表示语言3.都柏林核心元数据格式(DC)DC元数据格式是通过举办一系列研讨会的形式发展起来的,第一次研讨会于1995年3月在美国俄亥俄州的都柏林举办。这些研讨会和会后相关的工作最终产生了由Weibel等人于1998年提出的一个精简的元数据集——都柏林核心元素集(DubilnMetadataCoreElementsSet),简称都柏林核心元数据(DC)。本文档共174页;当前第51页;编辑于星期日\9点52分2.3.2信息表示语言DC元数据所包含的三个大类十五个要素,可基本揭示信息资源的特征。第一大类为描述资源内容的要素;第二大类为描述知识产权的要素;第三大类为描述资源外部属性的要素。DC的创制为专业或非专业编目人员、网络信息创编者提供一个简单、实用而又有效的信息描述工具。本文档共174页;当前第52页;编辑于星期日\9点52分DC元数据所包含的十五个要素(1)题名(Title):资源的名称,通常由创作者或出版者赋予。(2)著者或创作者(AuthororCreator):对于创建资源的知识内容负有主要责任的个人或组织,如文献的作者、视觉资源的艺术家、摄影师或插图绘画者。(3)主题词和关键词(Subject

and

Keywords):表示资源主题内容的单词或词组。属于主题编目的范围,见下面的主题标引小节。(4)描述(Description):资源内容的文本描述,如文献的文摘、视觉资源的内容描述等。(5)出版者(Publisher):负责使资源能够以现有形式获得的实体,如出版社、大学里的部门或社团实体。本文档共174页;当前第53页;编辑于星期日\9点52分DC元数据所包含的十五个要素(6)其他贡献者(Other

Contributor):在创作者(Creator)项中未指明的、对资源作出了重要贡献,但其贡献次于创作者项中指明的个人或组织所做的贡献的其他个人或组织(如编者、转录者和说明者)。(7)日期(Date):与资源的创建或可获得性相关的日期。(8)资源类型(Resource

Type):资源的种类,如网页、小说、诗歌、工作报告、技术报告、散文和词典。(9)形式或格式(Format):资源的数据形式和尺寸(如大小、持续时间,可选择)。(10)资源标识符(Resource

Identifier):用来唯一标识资源的字符串或数字,如URL和URN。(11)来源(Source):有关另一资源的信息,当前资源源于该资源。本文档共174页;当前第54页;编辑于星期日\9点52分DC元数据所包含的十五个要素(12)语言(Language):资源的内容中所使用的语言。(13)相关资源(Relation):另一资源的标识符及其与当前资源的关系。(14)覆盖范围(Coverage):资源内容的空间或时间方面的特征。(15)权限管理(Rights

Management):有关作品版权生命和使用方面的规范。本文档共174页;当前第55页;编辑于星期日\9点52分DC的优点①鼓励作者和出版者以自动资源发现工具能收集的形式提供元数据;②鼓励包含有元数据的模块的网络出版物工具的创造;③DC生成的记录能作为更详细的编目记录的基础。所以,在数字化图书馆的信息发现、信息检索和信息组织诸方面,元数据都起着十分重要的作用,它为分布式数据发现和检索奠定了基础。本文档共174页;当前第56页;编辑于星期日\9点52分2.3.2信息表示语言4.信息检索语言在信息检索系统中,信息的表示和组织需借助一定的标记系统或语言。信息检索语言就是最重要的标记系统或语言。所谓信息检索语言(简称检索语言),根据国际标准化组织(ISO)颁布的有关标准的解释,是指用于信息内容表示、存储和检索等过程的语言,或者是上述语言与给定检索软件中所特有的命令的组合。在西欧国家又称为文献工作语言。本文档共174页;当前第57页;编辑于星期日\9点52分信息检索语言的主要功能①信息表示功能:可用来表示(描述)某一信息(知识)单元的特征和用户的信息需求。②信息/知识组织功能:可以利用它来组织信息库或知识仓库中的信息和知识,使之成为一种有序的、便于管理和查询的信息集合或知识集合。③词汇控制和协调功能:能对检索系统中采用的信息表示方式(如标引词、检索词集合)加以规范和控制,使其意义和用法更加明确、专一和统一,同时能与其它检索语言协调一致(一部分检索语言具有此项功能)。本文档共174页;当前第58页;编辑于星期日\9点52分信息检索语言的类型自然语言(natural

languages)在这里是指索引词汇直接来自系统所处理的文献或提问本身,使用前未经优选和规范化处理的一类检索语言。其表现形式为题名或文中的关键词集合、自然语言文本、自然语言提问以及早期的单元词。它往往是标引时手工或机器自动抽词的产物。受控语言(control

languages)指索引词汇在使用前经过优选和规范化处理,并且整个语言经常处于某种权威机构或检索系统的管理和控制之下的各种检索语言的总称,又称规范化语言。本文档共174页;当前第59页;编辑于星期日\9点52分受控语言的分类受控语言按索引词汇的组配特征来划分,又可分为先组式语言和后组式语言两大类型。索引词汇的“组配”(coordination)问题主要是因某些主题概念或命题不能用单个具词来全面表示所引起的。用两个或更多的词或类的组合起来描述和表示文献主题,这样的作业或过程就称为组配。如果组配作业是在标引前或标引中完成的,这样的检索语言均称为先组式语言。其中前者称为定组式,后者称为散组式。如果标引时只用一些基本词汇分别去描述文献主题的各个组成要素,索引词汇不是事先组配好,而是事后组配,让检索者依需要进行自由组配。这样的检索语言就称为后组式语言。本文档共174页;当前第60页;编辑于星期日\9点52分信息检索语言的类型除了从规范化程度和组配特征来区分以外,还可以依据其他特征对检索语言或知识组织系统作进一步的区分。如:以科学分类为基础建立起来的各种分类系统,如图书分类法、文献分类法以及面向其他对象的分类体系,统称为分类语言。以各专业领域的术语为基础,以概念逻辑为规范手段的各种主题语言,如标题词语言、单元词语言、叙词语言、关键词语言等。本文档共174页;当前第61页;编辑于星期日\9点52分2.3.3信息资源编目信息资源编目就是生成信息资源的替代记录,利用这些记录可以方便地鉴别、定位、访问和使用资源。它是信息资源组织的基础性工作。其主要任务之一是描述每一个信息资源单位或单元的外部特征和形式上的特征,也就是资源一般特征的著录工作。另外,它还包括目录体系设计、目录组织、有关规章制度的制定等。狭义的资源编目未涉及到资源的内容特征的分析,国际上通常称之为描述性编目,以区别于广义的编目工作中包含的分类工作或主题标引工作(相应地称为主题编目)。下文把信息资源编目简称为编目。本文档共174页;当前第62页;编辑于星期日\9点52分2.3.3信息资源编目长期以来,编目采用手工操作方式,目录载体为书本式及卡片式,技术落后,编目工作分散重复,编目方法和数据不统一,目录使用效率低。20世纪中叶以来,集中编目和合作编目模式逐步发展起来,信息技术在编目工作中的应用,使编目工作开始进人自动化和网络化阶段。出现了机读目录(MARC)、编目自动化系统和联机编目网络,有力地促进了编目数据交流和编目成果共享。本文档共174页;当前第63页;编辑于星期日\9点52分2.3.3信息资源编目1.资源编目工作的内容编目需要完成如下准备工作:元数据格式;必备的信息类型及其来源;内容标准和编目规则;编目工具和接口。如前所述,元数据格式(如Dublin

Core,MARC)是一些数据输入和查询的框架。本文档共174页;当前第64页;编辑于星期日\9点52分2.3.3信息资源编目2.编目对象和资源著录编目对象:各种形式的信息资源,如图书、期刊、论文、研究报告、专利、技术标准、档案、公文、网页等。资源著录:指按照一定的规则对文献内容与形式特征进行分析、选择、记录的过程。描述的内容事项:也称为元数据,编目过程中,通常有以下事项需要加以识别和描述。本文档共174页;当前第65页;编辑于星期日\9点52分2.3.3信息资源编目3.编目规则和标准化编目规则和原则的作用是说明如何按指定格式生成元数据。为了保证描述工作的一致性和目录质量,编目工作必须遵循一定的方法和规范。图书情报界把这种方法和规范称为图书著录法、图书著录条例、文献著录规则。本文档共174页;当前第66页;编辑于星期日\9点52分2.3.3信息资源编目4.计算机编目和机读目录计算机编目就是借助计算机系统完成编目作业,包括单机编目和联机编目。机读目录(Machine-readable

catalogue,简称MARC)是一种以代码形式和特定结构记录在计算机存贮载体上,可由计算机自动控制、处理和编辑输出的目录。联机编目是指利用计算机和网络环境,由多个机构共同编目,合作建立具有统一标准的信息资源联合目录数据库,并在此基础上实现联机合作编目。其优点是降低编目成本,提高书目质量,分享专业知识和技能,提高编目效率。本文档共174页;当前第67页;编辑于星期日\9点52分2.3.3信息资源编目5.目录体系、目录组织和维护目录体系是指信息机构为了合理地组织和揭示信息资源库藏而设置的各种目录所形成的一个体系。这些不同类型的目录在内容和功能上相互联系相互补充。目录体系的设计要考虑信息机构的类型、任务、资源状况、用户需求和成本等因素,并且要保证目录体系的稳定性和连续性。目录组织是指按照一定的次序将各类著录完成的款目排列起来组成目录的过程,目的是方便读者检索。本文档共174页;当前第68页;编辑于星期日\9点52分2.3.4信息分类1.分类的作用资源分类的目的在于使用户更容易找到资源。分类法不同于其他主题标引系统(如主题标目和叙词),它追求将相互关联的资源集合形成一个等级体系,注释和代码的使用方便了等级主题树的创建。通过构建一个等级结构,分类法使用户可以找到一系列相关的信息(尽量避免遗漏)。采用分类法可以大大方便信息浏览。本文档共174页;当前第69页;编辑于星期日\9点52分2.3.4信息分类2.分类法分类法是历史最悠久的一种检索语言。分类法中的类通常以学科、领域或事物名称命名(即类名),用特定的符号系统(类号)为简略表现形式。类的涵义和适用范围由类名和类表结构共同决定。国外最有影响的有美国的《杜威十进分类法》(DDC)和《国会图书馆分类法》(LCC),欧洲的《国际十进分类法》(UDC)和《国际专利分类法》(IPC)、前苏联的《图书馆数目分类法》(BBK),印度阮岗纳赞的《冒号分类法》(CC)。我国近百年来也编制了数十种分类法。其中,目前在大陆应用最广的有《中国图书馆图书分类法》。在台湾较通用的是刘国钧编的《中国图书分类法》。本文档共174页;当前第70页;编辑于星期日\9点52分2.3.4信息分类分类法可以归纳为两大类型:等级列举式分类语法和分面分类法。等级列举式分类语法主要根据学科门类来列类,又称体系分类语言,主要用于藏书组织和分类目录编制。分面分类语言要按主题来列类,经过描述对象的概念的分析与综合,可以把复杂主题概念分析为若干简单的主题概念或概念因素,简单的主题概念可以综合表达复杂的主题。简单主题属性即构成"面"。它属于散组式语言,适用于编制分类目录或索引。本文档共174页;当前第71页;编辑于星期日\9点52分2.3.5主题标引

主题标引(简称标引,indexing)是对文献的内容主题及其它有检索意义的特征进行分析、识别、提炼和归纳,然后用某种检索语言标写出来,作为信息存储与检索的依据的信息处理过程。标引是信息分析加工过程中的重要环节。通过标引,赋予文献检索标识,指明其内容特征,再配以书目信息编制出各种目录、索引或数据库,是实现文献检索的基础。本文档共174页;当前第72页;编辑于星期日\9点52分2.3.5主题标引标引使用的语言可以是自然语言或受控语言。可按使用检索语言的类型来划分标引类型,如使用分类检索语言时,称为分类标引,使用主题检索语言时,称为主题标引。主题标引又分为受控标引与自然语言标引。受控标引指须由事先指定的叙词表(主题词表)中选用相应规范词,对文献进行标引。自然语言标引又称自由词标引,指不设规范词表而由标引人员直接选用的文献内自然语言词,对文献进行标引。本文档共174页;当前第73页;编辑于星期日\9点52分2.3.5主题标引标引的一般方法主题标引包括两个很不相同的智力工作步骤,即主题分析与概念转换。主题分析是对所标引的信息资源的内容进行全面准确的分析,把握其主题内容或中心思想,形成主题概念(包括核心概念和辅助概念)。概念转换指就是选用指定的检索语言来表达主题概念。如果采用自然语言标引,就可以用该资源本身提供的重要词语(即关键词)做标引词。如果采用受控语言标引,则需要从某种指定的受控语言(如叙词表、标题表或分类表)中选择适当的词(即受控词)来表达该主题概念。常见的方法有标题法、元词法、叙词法。本文档共174页;当前第74页;编辑于星期日\9点52分2.3.5主题标引1.标题法标题法采用标题词语言描述文献主题和信息需求,编制主题目录、索引、或建立索引文档。它按照文献所论及的事物(而不是学科属性)集中相关文献,强调知识的特指性。与分类法相比,标题法具有较好的直接性和专指性,较适合于特性检索。在系统性方面则比较差,不适合于特性检索。此外,在表达主题的灵活性方面,又逊于元词法和叙词法。在主题标引和索引工作中,它已逐渐被叙词法所取代。本文档共174页;当前第75页;编辑于星期日\9点52分2.3.5主题标引2.元词法元词法采用单元词语言描述文献主题和信息需求,编制索引或建立检索文档。它反对标题法等传统的标引方法所用的主题词预先固定组配的做法,主张标引时用最小最基本的词汇单位(即单元词)做主题词,通过检索阶段的布尔逻辑组配来合成主题概念,实现文献主题与用户提问的匹配,即后组配原理。元词法的主要优点是:表达主题灵活性好,词汇控制工作量小,简化了文献标引作业,便于提高标引深度和专制度,用户可通过调节组配元的成分和数量来优化检索结果。主要缺点是:单元词又限于字面分解与组配,以造成分解不当和错误组配,影响查准率。本文档共174页;当前第76页;编辑于星期日\9点52分2.3.5主题标引2.叙词法叙词法采用叙词语言描述文献主题和信息需求,吸收和融合了多种索引方法和检索语言的原理和长处。叙词法的主要优点是:叙词的表现力强,专指性和灵活性好,组配方法科学,能比其他索引方法更好地满足特性检索和族性检索的需要,成为文献标引和情报检索中应用最普遍一种方法。随着计算机检索系统的建立和文献数据库的应用,出现了自动标引。自动标引有两种形式:抽词标引与赋词标引。本文档共174页;当前第77页;编辑于星期日\9点52分2.4信息检索信息检索就是将信息按一定的方式组织和存贮起来,并根据用户的需要找出有关信息的过程。它是人类信息活动的一种过程,其中包括存与取两个环节,但又不是简单、机械的存取。在这里,存是指一种面向来自各种渠道的大量信息而进行的高度组织化的存贮。而所谓取,就是面向随机出现的信息需求而进行的高度选择性的检索,且尤其强调快速便利地检出与需求有关的信息。本文档共174页;当前第78页;编辑于星期日\9点52分2.4.1信息检索的类型1.文献检索文献检索以文献为对象,是用户提问(检索课题)与文献集合(检索工具或数据库)中的记录相关匹配和选择的过程。从本质上看,文献检索是一种相关性检索。它不同于数据库检索和事实检索,不直接解答用户提出的问题本身,只限于提供与之相关的文献资料供参考。根据加工深度不同,文献检索可分为题录(目录)检索、文摘检索、全文检索和语段检索。本文档共174页;当前第79页;编辑于星期日\9点52分2.4.1信息检索的类型2.数据检索数据检索是将经过选择、整理和评价(鉴定)的数据存入某种载体中,并根据用户需要从某种数据集合中检索出能回答其问题的准确(确定)数据的过程或技术。从本质上看,数据检索是一种确定性的检索,它要直接提供用户所需要的确切的数据或事实,而且检索的结果也是确定的。数据检索的对象为数值性数据、非数值性但可用数值表示的(可量化的)数据(如颜色、形状等)和事实。本文档共174页;当前第80页;编辑于星期日\9点52分2.4.1信息检索的类型3.事实检索事实检索是对事实、数据或知识进行组织、存贮和处理,并针对用户的提问直接提供答案的过程和技术。是信息检索中最高级最复杂的一种类型。它不同于文献检索和数据检索,因为其目的不是泛泛的提供参考文献,或者只限于提供已有的数据或事实,而是要从已有的基本数据或事实中推断或演绎出新的数据或事实。本文档共174页;当前第81页;编辑于星期日\9点52分2.4.2计算机信息检索计算机信息检索是由人和计算机共同作用下完成的信息存贮与检索的过程。它60年代进入生产性开发和实际应用时期,70年代开始向联机化和网络化发展。实现计算机检索的主要设施是计算机信息检索系统。信息检索系统有许多不同类型,如脱机检索系统、联机检索系统、光盘检索系统、计算机辅助微缩品检索系统、电视信息查询系统(图文电视)、多媒体检索系统等。本文档共174页;当前第82页;编辑于星期日\9点52分2.4.2计算机信息检索1.计算机检索系统的逻辑构成逻辑构成一般有信息源采集与选择子系统、内容分析与标引子系统、建库系统、用户接口子系统、提问处理子系统、词表管理子系统等部分。信息源采集与选择子系统的功能是根据系统的经营方针和服务对象的需要,以快速和经济的手段,全面地选择和采集各种信息源(文献、数据、事实等),为建立和维护数据库提供充足而适用的数据资源。本文档共174页;当前第83页;编辑于星期日\9点52分计算机检索系统的逻辑构成内容分析与标引子系统的功能是根据一定的规则和程序,由标引员或计算机(或二者共同作用)对资源内容进行分析,从中提取或赋予资源一定数量的标识(如分类号、主题词、关键词等),作为信息存贮与检索的依据。建库子系统又称数据库生产子系统,其功能是建立和维护可直接用于信息检索的数据库。主要作业内容有:数据录入,错误检查与处理,数据格式转换,生成并定期更新各种文档。本文档共174页;当前第84页;编辑于星期日\9点52分计算机检索系统的逻辑构成用户接口子系统简称用户接口,是面向系统用户的一种人-机接口。通常由用户模型、信息显示、命令语言、反馈机制以及各种输入输出设备构成。提问处理子系统的功能是处理用户输入的检索词或提问式,并将它们与数据库中存贮的数据(如信息表示或其他数据标识)进行比较运算,根据给定的匹配标准生成命中信息集合输出。本文档共174页;当前第85页;编辑于星期日\9点52分计算机检索系统的逻辑构成词表管理子系统的功能是对系统使用的检索词汇进行管理维护,使之与标引、建库和检索等子系统相连接,支持用户的各种词汇查询操作,并从提问、人-机对话或其他可获得来源中采集新的词汇信息,以及生成和输出各种形式的词汇数据和词表产品。本文档共174页;当前第86页;编辑于星期日\9点52分2.4.2计算机信息检索2.计算机检索系统的物理构成计算机检索系统的物理构成有三部分:硬件(计算机及外围设备)、软件(系统软件和情报检索软件)和数据库(文献或数据集合)。硬件部分主要包括具有一定性能的主计算机、外围设备以及与数据处理和数据传输有关的其他设备。软件部分包括系统软件和应用软件。数据库部分包括各种数据库和文档。数据库通常有下列类型。(1)参考数据库(Referencedatabase)(2)源数据库(Sourcedatabase)(3)混合型数据库(Hybriddatabases)本文档共174页;当前第87页;编辑于星期日\9点52分2.4.3联机检索系统联机检索系统曾经是一种最便利、使用最广泛的计算机检索系统。它允许用户以联机会话方式直接访问系统及其数据库。进入通讯网中的联机检索系统,又称为联机检索网络。它是联机检索实现网络化的结果,集合了许多现代先进的信息技术。一个实用的联机检索网络至少由联机检索中心、通讯设施、检索终端等三部分组成。本文档共174页;当前第88页;编辑于星期日\9点52分2.4.3联机检索系统1.联机检索中心它是联机检索网络的中枢部分,由中央计算机、联机数据库、数据库检索与管理软件以及相应的检索服务体制组成。2.通讯设施联机检索网络的通讯设施一般包括通讯网、调制解调器、检索终端、自动呼叫器、通讯控制器及其他设备。3.检索软件许多大型商用联机检索系统的软件构成情况是很少公开披露的。本文档共174页;当前第89页;编辑于星期日\9点52分2.4.4联机检索方法1.用户需求分析用户的信息需求多种多样。用户需求的形成,受许多社会因素和个人因素的影响。第一种对最新的信息的需求,即要求及时获得,迅速传递。有这种需求的大多是一些探索未知的研究人员,以及那些从事管理决策工作的人员。第二种需求想了解某一理论、方法、设备、过程的片断性信息,以解决其研究中的具体问题。这种需求最常见,数量最大,要求检出的信息针对性强,能解决具体问题。第三种需求是想对某一课题进行系统详尽的了解,以便掌握问题的历史、发展及现状。从事编写教材和科技综述,评价科技成果以及专利申请新颖性审查等工作的人往往会提出这种需求。这种需求要求检索全面、系统、彻底。第四种需求是用户已经知道所需文献资料的名称或作者,或文献号等,而要求获得该文献的原件、复印件、最新版本或不同文字的译本以及等同专利说明书等。本文档共174页;当前第90页;编辑于星期日\9点52分2.4.4联机检索方法2.检索策略制定弄清楚用户需求之后,就要设计一种策略去达到目标。检索策略就是为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导。

美国人鲍纳(Charles

Bourne)比较全面地总结出了五种供联机检索检索策略:最专指面优先策略、最低登录量的面优先策略、积木式检索策略、“引文珠形增长”型策略、“逐次分馏”型策略,值得参考和应用。本文档共174页;当前第91页;编辑于星期日\9点52分2.4.4联机检索方法3.联机检索的基本程序从与联机系统相连接开始,到与联机系统脱离结束,主要经由以下步骤:①同中心计算机接通,并与系统联机;②根据既定的检索策略选择待检索的数据库或文档;③输入并组配检索词;④打印检索结果;⑤退出系统,并脱离电信系统连接。本文档共174页;当前第92页;编辑于星期日\9点52分2.4.4联机检索方法4.检索技术(1)布尔检索布尔检索(BooleanSearch)利用布尔逻辑算符进行检索词或代码的逻辑组配,是信息检索中最常用的一种方法。常用的逻辑算符有:“AND”(与);“OR”(或);“NOT”(非)。本文档共174页;当前第93页;编辑于星期日\9点52分检索技术(2)截词检索截词检索(TruncationSearch)也是信息检索中常用的技术之一,它可以截取检索词的某一部分用于检索。因此特别适合于西文检索,可一次性地解决词干相同的词、英美拼法不同的词的检索。截词符多采用通配符“*”,可以用它代表多个字符。因此,截词检索有时也称为通配符检索。截词检索又有多种类型。按截断的位置分,有:前方一致检索、后方一致检索、通配符检索。按截断的字符数量分,有:有限截断、无限截断。本文档共174页;当前第94页;编辑于星期日\9点52分检索技术(3)限制检索限制检索(LimitationSearch)是将检索词限定在某一范围内进行检索的方法,以提高检索效率。常用在字段限制中,即利用前、后缀符进行的字段检索,将提问词限定在标题、著者、关键词等字段中出现,以提高命中记录的相关度。在检索系统中,数据库提供的可检字段通常分为主题字段和非主题字段。本文档共174页;当前第95页;编辑于星期日\9点52分检索技术(4)位置检索位置检索(Proximitysearching)根据检索词之间的位置关系来定义命中记录。它允许指定两词之间的词序和词距。词序指两词之间前后顺序,词距指两词之间间隔的单词数。常用的表示有(以DIALOG系统为例):(W)或()算符、(N)算符、(nW)或(nN)算符、(S)算符。本文档共174页;当前第96页;编辑于星期日\9点52分检索技术(5)加权检索加权检索(WeightedSearch),是按照权重来决定文献是否命中的一种方法,是一种定量检索技术。其侧重点不是判定检索词是否存在,而是判定检索词在满足检索逻辑后对文献命中与否的影响程度。加权检索的基本方法是:在每个提问词后面给定一个数值表示其重要程度,这个数值称为权重。检索时,先查找这些检索词在数据库记录中是否存在,然后将每篇命中文献中出现的检索词的权值相加。权值之和达到或超过预先给定的阈值,该记录即为命中记录。运用加权检索可以命中核心概念文献,故它是一种缩小检索范围提高检准率的有效方法。本文档共174页;当前第97页;编辑于星期日\9点52分检索技术(6)多媒体检索和超文本检索多媒体检索(MultimediaSearch)包括基于描述的多媒体检索和基于内容的多媒体检索。基于描述的多媒体检索就是用一个关键词来描述所要查找的图片或是音乐,比如可以用“classroom”这个词来查找教室的图片。基于内容的多媒体检索就是用一些特征来查找多媒体信息,这些特征包括颜色、形状、纹理等视觉特征,及音频、音高、音长等听觉特征。超文本检索(HypertextSearch):超文本是一种信息的组织方式,它把不定长的基本信息单元存放在结点上,这些基本信息单元可以是单个字、句子、章节、文献,甚至是图象、音乐或录象,结点以链路方式链接。本文档共174页;当前第98页;编辑于星期日\9点52分2.4.5网络搜索技术1.网络搜索技术的产生与发展1993年2月,Internet技术取得了突破性进展,第一个图形界面浏览器Mosaic的发布解决了远程信息服务中的文字显示、数据链接以及图像传递等问题。次年Netscape推出了Navigator。互联网成为了信息传递、交流的最有力的工具之一。1994年春天,目录式搜索引擎出现并占据了主要地位。但目录式搜索引擎还不是严格意义上的搜索引擎。1994年夏天,以Lycos、AltaVista、Infoseek、Excite为代表的第一代搜索引擎诞生,当时的数据量不到100万网页,检索响应速度相对比较长(在10秒以上)。本文档共174页;当前第99页;编辑于星期日\9点52分网络搜索技术的产生与发展1995年12月第二代搜索引擎出现,以AltaVista和Inktomi为代表,它们拥有数据量已经达到5000万页网页。同年还出现了一种新的搜索引擎——元搜索引擎。1998年,第三代搜索引擎出现,以Google、Inktomi和百度为代表。Google提供一系列革命性的新技术。本文档共174页;当前第100页;编辑于星期日\9点52分2.4.5网络搜索技术2.搜索引擎的结构(1)搜索器其主要功能是在互联网中漫游,发现和搜集信息。它通常是一个遵循一定协议的计算机程序,即蜘蛛程序(Spider).(2)分析器和索引器分析器即分析程序,功能是理解搜索器所搜索的信息。它通过一些特殊算法,从Spider程序抓回的网页源文件中抽取出索引项。索引项有形式索引项和内容索引项两种.(3)索引器索引器将生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表(Inversion

List),即由索引项查找相应的URL。本文档共174页;当前第101页;编辑于星期日\9点52分搜索引擎的结构(4)检索器检索器的主要功能是根据用户输入的关键词,在索引器形成的倒排表中进行查询,同时完成页面与查询之间的相关度评价,对将要输出的结果进行排序,并提供某种用户相关性反馈机制。(5)用户接口用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。本文档共174页;当前第102页;编辑于星期日\9点52分2.5信息分析2.5.1内容分析1.内容分析概述内容分析是指识别某一信息的属性或特征,以达到准确地推理出该信息源的意义的过程。一般指自动内容分析。(1)内容分析的技术和工具内容分析采用的技术和工具通常有:词频和相对频率分析技术,停用词表技术,语词轮排和对照技术,基于受控词表的分析方法,词干分析技术,定义语法类(即词类),句法分析法,结构分析法等。本文档共174页;当前第103页;编辑于星期日\9点52分内容分析概述(2)内容分析的应用内容分析的应用领域很多。例如,在政治学领域,通过对一个国家的政治性通信、政府控制的舆论工具的社论进行统计分析,来评价一个国家的政治态度是进攻(侵略)性的,还是防守性的;是敌意的,还是友好的。或者通过分析总统候选人的讲演、竞选演说或报告来估计他的政治倾向、思维方式等。在心理学领域,借助内容分析去确定受试者的品性。本文档共174页;当前第104页;编辑于星期日\9点52分2.5.1内容分析2.自动编目与文摘工作自动编目(Automated

cataloguing)指应用自动内容分析技术(如人工智能和专家系统技术),从待编目的文献中自动识别和提取书目信息生成目录产品的过程。自动编目系统有三种类型:编目知识和规则咨询系统,书目记录自动生成系统和编目全程自动化系统。它们一般具有以下技术特征:运用专家系统原理,利用编目规则建造知识库,使系统具有一定的智能水平;主要从较规范的文献文本(如书名页、版权页等)中采集书目信息;重点研究主要著录信息源(即书名页和版权页)的内容与形式特征及其识别技术;一般系统仍处于实验研究阶段。本文档共174页;当前第105页;编辑于星期日\9点52分自动编目与文摘工作文摘是信息工作者处理和传递信息时经常使用的一种文体和信息产品。它具有多方面的用途:通报最新的研究成果和信息资源;深入揭示信息资源的内容;节约阅读时间;克服语言障碍等。撰写文摘是一种再创作活动,应当熟悉有关的规则和标准。自动编制文摘(Automatic

abstracting):指利用计算机对文献文本进行扫描分析,自动生成文摘的过程和技术。自1958年开始试验以来,一些机构已开发出各种不同的系统原型。本文档共174页;当前第106页;编辑于星期日\9点52分2.5.1内容分析3.自动标引自动标引(automaticindexing)是指标引作业全部或部分实现自动化的过程。美国自动标引专家斯蒂芬曾给它下过这样的定义:“自动标引就是用机器抽取或赋予索引词,一旦编制好程序和规则,就不需要人工干预。”本文档共174页;当前第107页;编辑于星期日\9点52分自动标引自动标引可分为自动抽词标引和自动赋词标引。自动抽词标引指利用计算机直接从文献的机读文本(题名、文摘或正文)中抽取*关键词,自动生成关键词索引或检索文档的过程。它又可分为主关键词标引和全关键词标引。前者要求计算机能选出少量主要关键词做*标引词,后者则是把除停用词以外的全部关键词抽出做标引词。自动赋词标引指用计算机模仿人的赋词标引方法,分析文献内容,提取主题概念,然后用适当的语词符号描述这种概念。本文档共174页;当前第108页;编辑于星期日\9点52分2.5.1内容分析4.信息过滤技术信息过虑(Information

filtering)就是信息的选择性传播。信息过虑技术面向非结构化及半结构化的数据,主要用于处理文本信息。其目标是帮助用户处理大量的信息,对动态的信息流进行筛选。它基于用户需求大纲(profile),从输入的信息流中滤掉用户不希望得到的信息。随着internet的迅猛发展和广泛使用,“信息过载”和“不良信息”问题日趋严重。如何滤除与自己的需求无关的信息已成为基于Internet网络信息查询的当务之急。本文档共174页;当前第109页;编辑于星期日\9点52分信息过滤技术信息过滤技术可从3个方面分类:①根据操作的主动性分为主动或被动过滤技术;②根据操作的位置可分为代理服务器过滤或客户端过虑;③根据过滤方法分为认知过滤、社会学过滤及经济学过滤。本文档共174页;当前第110页;编辑于星期日\9点52分2.5.1内容分析5.信息提取技术信息提取技术(InformationExtraction)传统的信息检索只能向用户提供相关性的结果,是否对用户有用还需要用户自己去判断。面对网络时代信息量快速膨胀,以及信息用户要求提供精确和有用的直接信息的双重压力,信息服务提供者必须掌握能更有效地分析信息并从海量信息中提取重要或关键信息的手段。本文档共174页;当前第111页;编辑于星期日\9点52分信息提取技术信息提取技术的要点在于通过过滤大量的非格式化或半格式化的文本资料,使用自然语言处理技术中的浅层分析手段,捕捉文本中有用的信息并填写到信息槽中,经过后处理(如解决共指成分,消除重复信息等)过程,将难以用人力全部阅读和分析的自然语言文本中那些对于解决特定问题的无效内容过滤掉,然后将有用内容转换成容易用人工或机器进行分析的格式化数据。本文档共174页;当前第112页;编辑于星期日\9点52分2.5.2情报分析研究情报分析(informationanalysis)是指对一个特定领域的大量信息进行采集、选择、评价、分析和综合,或者为了某一特定任务对有关信息进行收集、分析和综合,使之成为对解决相关问题有用的情报的过程。也是一种以信息为研究对象,以情报学的方法和各种分析方法为手段,以解决特定理论问题或现实问题为目的的一类研究工作。本文档共174页;当前第113页;编辑于星期日\9点52分情报分析研究工作的步骤1.选题情报分析课题的来源通常有三个方面,即上级机关下达的指令性课题,一般用户委托的课题,情报研究机构自选的课题。选题是情报分析过程中非常重要的环节,对最终结果影响很大。有一个好的选题可能意味着成功了50%。因此,选题一定要充分考虑其理论意义或现实意义如何,是否符合现实需要或长远需要,考虑用户的需要还要考虑可行性。本文档共174页;当前第114页;编辑于星期日\9点52分情报分析研究工作的步骤2.开题报告的审查论证开题报告要清晰地阐述选题的背景、目的、意义、研究内容和重点、研究方案、研究条件、工作计划和进度、研究力量配备、经费预算等方面的内容。一般来说,只有符合下列条件:研究意义重要,目的明确,研究方案科学,实践上可行,经济上合理,选题才能得到确认。本文档共174页;当前第115页;编辑于星期日\9点52分情报分析研究工作的步骤3.信息收集和整理信息是情报分析的基础。要全面地收集各种有关的信息和资料。收集的基本方法是信息检索和实际调查。通过各种方式收集来的信息和资料,一般都是分散无序的,质量也可能参差不齐,所以要做好整理和鉴别工作,以方便使用。这是情报分析的基本功之一。本文档共174页;当前第116页;编辑于星期日\9点52分情报分析研究工作的步骤4.分析研究根据既定的目标和研究方案,应用一定的分析方法和工具,进行信息分析和问题研究。包括目标分解,研究现状和水平分析,问题假设,建立模型,假设检验或验证等。本文档共174页;当前第117页;编辑于星期日\9点52分情报分析研究工作的步骤5.研究报告撰写情报分析报告(或称情报研究报告)一般包括下列内容:研究的主要问题和目标,本领域的现状分析,所使用的研究方法,研究分析过程,研究结果和结论,问题解决方案和具体实施建议、策略。本文档共174页;当前第118页;编辑于星期日\9点52分2.5.3竞争情报分析竞争情报(CompetitiveIntelligence,简称CI):就是关于竞争环境、竞争对手、竞争态势和竞争策略的信息和研究。它既是一种过程,又是一种产品。过程包括对竞争信息的收集和分析;产品包括由此形成的情报或谋略。竞争情报是战略管理的兴起、市场竞争的激化和社会信息化高度发展的产物,也是军事学、经济学、管理学和情报学相互融合的结果。本文档共174页;当前第119页;编辑于星期日\9点52分2.5.3竞争情报分析1.竞争情报概述从概念的起源来看,竞争情报不是一般的情报或信息,而是应用于竞争过程中的一种对抗性情报;同时,它又是依靠智慧或智谋才能得到的一种情报,隐蔽性强,采集难度大。竞争情报具有隐秘性,但又不同于一般的秘密(商业秘密)。它是一种公开而“深藏”的秘密。为了破除神秘感,下面这种中性的定义可能更适合它:竞争情报是有关某个公司的非常具体且及时的信息。过泛和过时的信息都不是竞争情报。竞争情报价值高但失效快,是一种很有吸引力的信息资源。在商界,几乎每个人天天都有意无意地收集这种情报。收集方法一般有:销售调查,文献检索,统计分析,会计分析,现场侦察等。本文档共174页;当前第120页;编辑于星期日\9点52分2.5.3竞争情报分析2.竞争情报工作流程人们把CI理解为一种过程,为提高竞争力而进行的一切情报活动。包括以下五个步骤:(1)确定需求、方向:企业想知道什么?什么是制定竞争战略必不可少的情报?(2)收集情报:通过外部和内部情报源收集符合需要的情报;(3)研究制作:对收集来的各种情报进行整理、分析、比较、综合、解释;(4)传播:分析专家撰写竞争研究报告,呈交给指定的人(需求提出者)阅读;(5)反馈:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论