自然语言-自动标引_第1页
自然语言-自动标引_第2页
自然语言-自动标引_第3页
自然语言-自动标引_第4页
自然语言-自动标引_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章

自然语言在情报检索中的应用按构成原理分:体系分类法分类检索语言

组配分类法检索语言

体系-组配分类法标题法主题检索语言单元词法叙词法关键词法

自然语言-自动标引自然语言:优点;发展趋势关键词法:基本原理;性能自动标引:定义;意义;基本原理;基本流程自然语言张琪玉教授指出:情报检索语言是根据情报检索的需要而创制的人工语言自然语言是反映文献题名、文摘和全文内容的原词,检索方法是对文献本身的用词直接进行处理。自然语言20世纪90年代,美国把自然语言处理技术应用到情报检索领域中,真正实现了非布尔逻辑中的自然语言检索系统。NLM的自动标引项目——标引创始项目(IndexingInitiative,II)自然语言对数量巨大而复杂的网上动态信息,用人工检索语言进行信息处理显然是困难的,只能依赖于自然语言并借助计算机进行文献信息处理。自然语言的优点符合客观需要,新词、学科发展、加速机检数据库的建设相对于受控制语言,有易用性标引简便,易于自动化专指,较好的检准率一致性好自然语言发展趋势美国俄亥俄州大学图书馆馆长,美籍华人李华伟博士曾预言:“未来的情报检索语言是以自然语言为主的发展方向。”关键词法自然语言形式的情报检索语言

随计算机出现,为适应索引编制自动化的需要产生关键词:出现在文献的标题(篇名、章节名)以至摘要、正文中,对表征文献主题内容具有实质意义的语词。关键词的词汇控制一般来说,关键词不予规范。事实上,也须作某种程度(极少量)的规范化,才能适应计算机处理的要求和消除那些显然的、比较容易消除的缺点。(一)词和符号的改写(β改写成beta)。如果计算机符比较完备,可以不作。(二)词的缩写。在关键词系统中都尽量利用缩写词(三)词的分拆和组合。需要提供更多的检索入口时,就将其从拆成两个关键词(四)不同拼写形式的词和同义词的统一。个别关键词系统关键词法的优点直接源于自然词汇,专指性优于其它主题语言标引无需查表,简便易行,节省人力及时更新词汇,报道信息快一致性高可实现自动标引关键词法缺点对自然语言的等同关系不规范统一,不能显示等同关系,漏检可能性大不显示词间等级关系和相关关系,增加检全文献的难度机械抽词和轮排,有些关键词款目徒增篇幅关键词法查全率较低,但查准率较高关键词法关键词法用于计算机检索系统时,可用后控制词表提高查全率后控制词表:只供检索的词表,是一种同义词、近义词和相关词的词汇表。作用:使检索者可从任何一个词出发,在词表中查到它的一批同义词、近义词和相关词。由计算机自动积累而成BiologicalAbstracts美国《生物学文摘》(BiologicalAbstracts,简称BA)创刊于1926年,是世界上生命科学方面最大的检索工具。由美国生物科学情报服务社(BioScienceInformationService,简称BIOSIS)编辑出版。BA收录了世界110多个国家和地区出版的9000多种期刊和连续出版物,以及约一万多种图书和其他类型文献。BA的数据库为BIOSISPREVIEW主题索引(SubjectIndex)注释:①上文;②关键词;③下文;④文摘号SubjectContext

Keyword

Ref.No.Pylorihumangastrin①gastric②acidpathogenesis/amecha③3011④Gastricbodymucosacidsecretionelectronmi3084Ousmetastasesfromadenocarcinomacasestud8667………………

美国《化学文摘》1907年创刊,由美国化学会所属化学文摘服务社(CAS)编辑出版,现为世界上收录化学化工及其相关学科文献最全面,应用最广泛的一种文献检索工具。美国《化学文摘》

(ChemicalAbstracts,CA)关键词索引

(KeywordIndex,KI)

该索引由专家从文献的篇名、原文或文摘中选取能反映文献主要内容而未经规范化处理的3~5个词或词组,按关键词的字顺进行轮排而成。其著录格式如下:Adenocarcinoma①atitumortamoxifenetretinateascorbicancid②690z③

assocdantigencloninggene7791sAntigen

adenocarcinomaassocdcloninggene7791smonoclonalantibodyglycosylation7929sCloningbaculovirusnitricoxidesynthasespodoptera2432r

geneadenocarcinomaassocdantitgen

7791s注释:①标目关键词;②说明语;③文摘号自动标引的定义自动标引(AutomaticIndexing);计算机辅助标引(ComputerAidedIndexing):根据文献内容,依靠计算机系统全部或部分地自动给出标引符号的过程。自动标引的定义自动标引自动主题标引

自动分类标引自动主题标引关键在于:词语抽取对所识别出的主题词进行优选当前,各标引系统都在不同程度地使用计算机系统进行辅助标引。自动标引的意义1.适应信息资源快速增长的需要

加利福尼亚大学伯克利分校研究人员发现,仅1999-2002年的三年中,全球新生产出的信息量就翻了一番。新产生的信息中92%记录在硬盘等磁存储介质上。

信息资源的快速增长,造成信息相对过剩。只有提高信息组织的效率,才能摆脱信息相对过剩带来的困惑,因此信息标引显得非常重要。自动标引适应了这一需要。自动标引的意义2.相对手工标引存在很大优势,克服了手工标引难以克服的缺点。与熟练标引人员相比,自动标引的准确性不如手工标引,但在其他指标方面自动标引有无可比拟的优势:处理能力强处理速度快成本低一致性好,稳定性好自动标引的意义美国的Cleverton的试验结果:两组人员为同一主题编出的叙词表中词的同一率仅60%;两位有经验的标引员用同一叙词表对同一篇文献进行标引,其标引词的同一率仅有30%左右;两个在同一数据库中用同一检索系统检索同一问题的用户,检索出的结果同一率仅40%;两位科研人员根据同一提问判断一组指定文献的相关性,其同一率不会超过60%。采用计算机自动标引,无论何时对同一篇文献总能标引出相同的主题词。自动标引的意义美国学者Salton对受控人工标引系统MEDLARS和自动标引系统SMART做了一些比较,结论是:相对简单的自动文本分析系统在文献检索环境中产生的检索结果,其质量不亚于受控标引通常所能达到的水平。自动标引的基本原理较典型的汉语自动标引方法:词典标引法切分标引法语法分析标引法汉语自动标引专家系统单汉字标引法自动标引的基本原理根据自动标引采用的理论划分,自动标引的方法主要有3种:统计法语言法人工智能法自动标引的基本原理统计法(StatisticalApproach):自动标引各方法中历史最长的一种,目前较为成熟。理论基础是齐夫(Zipf)的省力法则。典型代表:词频加权方法,根据词的出现频率及出现位置等因素确定标引词。自动标引的基本原理语言法(LinguisticApproach):通过对构成文献的自然语言的分析,利用一定算法产生标引词,是从语言学角度对自动标引方法的探索。包括两种方法:句法分析、语义分析

自动标引的基本原理人工智能法(ArtificialIntelligenceApproach,AIApproach):自动标引领域的热点问题,人工神经网络、遗传算法等方法的发展给自动标引增添了不少动力。不少学者认为,人工智能法代表着自动标引研究的未来。自动标引的基本流程确定标引源输入标引源内容预处理词语自动切分确定关键词转换为受控词给出主题标识符1.确定标引源标引源:标引所依据的文献内容一般的标引源:标题:首选标引源文摘:一般能够完全反应文献讨论的主题,但难以确定5-6个最重要的词。首尾章节章节的首尾段段落的首尾句2.输入标引源内容必须按标引系统要求的格式输入系统,才可能进行自动标引。印刷型文献:手工录入或OCR(光学字符识别)输入电子文档(XML、DOC、TXT等格式):直接导入3.文档的预处理字符内码的检测与转换:BIG5码与GB码的自动检测与转换。文档格式的检测与转换:将不同格式文件转换成适于自动标引的纯文本格式。4.词语自动切分在确定关键词之前,必须对文档进行切分,将语句切分成词。西方文字有分隔符,切分容易实现。汉语词的准确切分较困难(研究相当长时间),目前自动切分已基本能满足实际需要。5.确定关键词根据文本词语切分结果,以词语在文本中出现的频次、位置及词的词性等因素为依据,确定关键词。确定关键词主要方法:绝对词频统计法:理论基础是齐夫定律。词频权重法:除考虑词频外,还考虑词的位置、词的词性、词本身的价值、词的长度等因素,对词进行加权,然后根据权值大小确定关键词。6.转换为受控词关键词与受控词(主题词、副主题词、特征词)之间存在着一定的关系(如同义词关系、上位关系、下位关系等)。转换为受控词目前有效可行的方法:使用关键词-受控词对照表:该表含有关键词与规范化的主题词、副主题词、特征词之间的对照关系,由此对应转换。利用词汇相似度:关键词与主题词之间存在一定程度的相似性,可通过某些算法计算出来,根据相似性确定相应的主题词。两种算法:基于词素的相似度算法;给予单汉字的字面相似度算法。7.给出主题标识符根据确定的主题词、副主题词、特征词,进行组配,给出主题标引符号,完成自动标引。自动分词歧义切分:交集型

并行程序设计语言:并行程序设计程序设计语言

组合型中华人民共和国海外华人

人民法院参照民法第**条自动分词词语自动切分:以语言学知识为基础,通过一定算法、将组成句子的词从句子中切分出来,得到词语集合的过程。可广泛应用于自动标引、智能检索、自动翻译、自动文摘、数据挖掘、信息过滤等领域。词语自动切分的方法根据其使用的原理和算法,将词语自动切分的方法归纳为三类:词典法统计法混合法词典法(LexicalMethod)又称机械分词方法,是按照一定的策略将待分析的汉字串与切分词典系统中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。词典法(LexicalMethod)分词词典:停用词表:文献中词频很高或很低的词或字特例词表:如停用词“的”、“也”可组成“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论