生物医学文献主题标引:第十九章自动标引的原理与方法_第1页
生物医学文献主题标引:第十九章自动标引的原理与方法_第2页
生物医学文献主题标引:第十九章自动标引的原理与方法_第3页
生物医学文献主题标引:第十九章自动标引的原理与方法_第4页
生物医学文献主题标引:第十九章自动标引的原理与方法_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十九章自动标引的原理与方法大纲一、概述二、自动标引的基本原理与基本流程三、自动分词四、矢量空间模型(VSM)五、NLM的II项目一、概述定义为什么要自动标引?1.定义自动标引(AutomaticIndexing)/计算机辅助标引(ComputerAidedIndexing): 是根据文献内容,依靠计算机系统全部或部分自动给出标引符号的过程。 自动主题标引 自动分类标引2.为什么要自动标引?(1)自动标引是信息资源快速增长的必然产物“信息爆炸”、“混沌信息空间”和“数据过剩”1999-2002年,全球新生产出的信息量翻了一番2002年,全球由纸张、胶片以及磁、光存储介质所记录的信息生产总量达到5万亿兆字节3年的信息量足以填满50万座美国国会图书馆92%记录在硬盘等磁存储介质上感到信息匮乏,无法快速高效地获取自己所需的信息原因在于信息缺乏有效合理的组织手工标引难以满足需要希望借助计算机实现标引工作(2)手工标引存在难以克服的缺点费用高昂信息检索系统中75%的运行费用要用于人工标引效率低一致性差美国Cleverton发现:两位有经验的标引员用同一叙词表对同一文献进行标引,其标引词的同一率仅有30%左右两个在同一库中用同一检索系统检索同一问题的用户,检索出的结果同一率仅有40%两位科研人员根据同一提问判断一组指定文献的相关性,其同一率不会超过60%(3)自动标引相对手工标引存在很大优势处理能力强处理速度快成本低稳定性好美学者伦兹实验发现,6名标引人员在不同时间标引同一文献,标引一致率为0.158(假定完全一致为1.0)。由同一标引人员在不同时间标引同一文献,标引一致率为0.1619。若采用计算机自动标引,不论何时对同一篇文献总能标引出相同的主题词。(4)现代技术是自动标引的催化剂计算机技术信息资源的电子化自动标引的基本方法与原理自动标引的基本流程二、自动标引的基本原理与基本流程1.自动标引的基本方法与基本原理统计法、语言法、人工智能方法…统计法的理论基础是齐夫(Zipf)“省力法则”。典型代表是词频加权方法语言法是通过对构成文献的自然语言的分析,利用一定算法产生标引词,是从语言学角度对自动标引方法的探索。语言法包括句法分析和语义分析两种方法。人工智能。人工神经网络、遗传算法等2.自动标引的基本流程输入标引源内容预处理分词处理确定关键词转换为受控词给出主题标识符确立标引源(1)确立标引源 主要标引源:标题文摘首尾章节章节的首尾段段落的首尾句(2)输入标引源内容 方法:印刷型文献(如纸张型期刊论文等),手工录入或OCR输入电子文档(如XML、DOC、TXT等格式文档),直接导入计算机自动标引系统(3)文档的预处理字符内码的检测与转换如BIG5码GB码格式检测与转换如DOC、XML、RTF等,去掉格式符号,转换成纯文本格式(4)词语的切分将语句切分成由词组成的集合词语的自动切分详见“自动分词”一节(5)确定关键词依据:频次、位置及词性等方法:绝对词频统计法:理论基础是齐夫定律词频权重法加权时考虑的因素主要有:词频位置词性词本身的价值:同一词在不同学科中价值不同词长度。词越长专指性越好。 如:“癌”,“鳞癌”,“低分化鳞癌”三个词的专指性依次增强,而概括性依次递减。(6)转换为受控词关键词与受控词(主题词、副主题词和特征词)之间存在着一定的关系如同义词关系、上位关系、下位关系等使用一定方法,可以将关键词转换为受控词关键词-受控词对照表关键词--主题词/副主题词/特征词词汇相似度目前,计算词汇相似度的算法主要有两种:基于词素的相似度算法词汇之间通过词素的相似情况来判断相互关系实现词与词素之间的对应转换,需要建立词素表构建词素表的方法:人工对主题词进行字面拆分和概念拆分,形成词素,再将这些词素与主题词的对应起来。主题标引

a)将词素与关键词进行匹配,根据完全匹配及最大匹配原理确定关键词与主题词的对应关系,完成主题标引。

b)匹配率计算公式为: C=(Ts/Tsh)×100%其中C为匹配率

Ts为关键词与主题词中含相同词素个数

Tsh为主题词词素个数。基于单汉字的字面相似度算法

a)将关键词自动拆分成单汉字

b)将这些单汉字与主题词进行字面相似度匹配

c)根据相似度计算公式计算关键词与主题词的字面相似度d)相似率计算公式:C=(Cs+Cs

)*w1/M+(Ss+Ss)*w2/MCwCshSwSshC--匹配率Cs--相同字数Cw--关键词中的字数Csh--主题词中的字数Ss--相同字的位置之和Sw--关键词中全部字的位置之和Ssh--主题词中全部字的位置之和w1、w2--加权系数M--阈值(7)给出主题标引结果根据所确定的主题词、副主题词、特征词,进行组配,给出主题标引符号,完成自动标引。三、自动分词自动分词的方法歧义切分的处理1.自动分词的方法(1)基于词典的分词方法(2)基于统计的分词方法(3)混合方法(1)基于词典的分词方法原理:按一定策略将待分析的字串与切分词典系统中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,切分出来。按扫描方向分正向匹配和逆向匹配;按不同长度优先匹配的情况分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,分为单纯分词方法和分词与标注相结合的一体化方法。分词词典停用词词表构建时要坚持“非用”原则方法: ①根据收词原则从相关词典中收取,并利用相关的经验和知识进行补充; ②由停用词处理系统对一定量的数据进行分词实验,也可以从分词后剩下的“碎片”中筛选; ③根据齐夫定律,利用词频统计选取。特例词表如:停用词“的”、“也”,可以组成“的士”、“也门”等词。关键词表人名、机构名和地名词表匹配算法正向匹配法和逆向匹配法最大匹配法和最小匹配法采用最大匹配算法进行词语切分,结果专指性高,效果较好,是目前使用得较多的一种匹配算法;最小匹配法由于切分出来的词长度短,专指性差,切分效果不理想,在实际情况中,使用得非常少。3)词典分词法的优缺点优点:便于实现,操作简单,切分准确率高缺点:岐义问题词典问题词缀问题名称问题译名问题改正手段:改进扫描方式将分词和词类标注结合起来(2)基于统计的分词方法

原理: 依据(两个或多个)汉字同时出现(相邻出现)的概率,利用语料库(corpus;

或corpora,corpuses)进行有监督或无监督的学习,得到描述一种语言的“语言模型”(常用一阶隐马尔可夫模型(1’HMM)描述),然后再通过该模型对文本进行词语的切分。

语料库语料库是统计法分词的基础语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段,而建成的具有一定容量的大型电子文库。 从其本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本代表某一研究中所确定的语言运用总体。1)语料库片段(示例)19980101-01-001-001/m迈向/v充满/v希望/n的/u新/a世纪/n——/w一九九八年/t新年/t讲话/n(/w附/v图片/n1/m张/q)/w19980101-01-001-002/m中共中央/nt总书记/n、/w国家/n主席/n江/nr泽民/nr19980101-01-001-003/m(/w一九九七年/t十二月/t三十一日/t)/w19980101-01-001-004/m12月/t31日/t,/w中共中央/nt总书记/n、/w国家/n主席/n江/nr泽民/nr发表/v1998年/t新年/t讲话/n《/w迈向/v充满/v希望/n的/u新/a世纪/n》/w。/w(/w新华社/nt记者/n兰/nr红光/nr摄/Vg)/w19980101-01-001-005/m同胞/n们/k、/w朋友/n们/k、/w女士/n们/k、/w先生/n们/k:/w2)基本分词原理训练语料库词计数词概率wip(wi)

图21-2语料训练

2)基本分词原理原始文本结果(分词处理后的文本)分词处理词概率wip(wi)

图21-3文本分词处理表21-1不同切分的可能性序号选定可能的切分可能性1

Ch1∧Ch2∧Ch30.052√Ch1Ch2∧Ch30.83

Ch1∧Ch2Ch30.014

Ch1Ch2Ch30.3假设一个字串由3个单字组成,其切分的可能性如表21-1所示2)基本分词原理原始文本(未进行分词处理)经过分词处理后的文本分词处理词计数词概率

3)统计法分词的优缺点

优点:降低生词和名词的影响缺点:非常难以做到“足够训练”,实用性低(3)其它方法将以上两种方法结合在一起目前有学者从认知心理学和发展心理学的观点出发,研究分词问题2.歧义切分的处理(1)从构成形式上分:交集型歧义切分和组合型歧义切分。(2)交集型歧义 在字段AJB中,AJB∈W并且JB∈W,则称AJB为交集型歧义字段。其中A、J、B为字串,W为词表。 常用处理方法:统计方法和词性方法。(3)组合型岐义

给定任意汉字字段AB,如果A∈W、B∈W、AB∈W,且切分“A”、“B”及“AB”在真实语境中均能实现,则称AB为组合型歧义切分字段(简称组合型歧义)。例如:(1a)这种绚烂与神秘可以说只能意会不能言传。(1b)不可以个人的局部利益代替全局利益。(2a)今后项目审批工作必须依据国家中长期规划进行。(2b)这是国际共产主义运动中长期没有解决的一个重大理论问题。组合型歧义往往需要采用更大范围的上下文,根据语义信息进行处理。(4)确定与不确定歧义 字段具有确定分法的歧义字段 例如:

“当好人大代表”中的“好人大”

“好/人大”

“中国人为四化做贡献”中的“人为”

“人/为”具有不确定分法的歧义切分字段 例如:

“研究生会采取行动”

“研究生/会/采取/行动”

“研究生会/采取/行动”

四、矢量空间模型(VSM)

VSM的基本思想文档的表示权重的计算文档的相似性与查询1.VSM的基本思想(1)分别为文档和查询建立一个由矢量表达的空间

对于一个固定的文档集合,从带相关权重的术语集合中为每篇文档以及每个查询生成一个m维矢量,m是文档集合中词的种数。

(2)使用一个矢量相似性函数计算一篇文档与查询之间的相似性。2.文档的表示假设文档集合D由文档Di组成每个文档通过一个或多个标引词Tj标识词可以根据其重要性进行加权或不加权,权值在0和1之间。假设有m个不同的词可用作标引,则每个文档 Di用一个m维矢量表示:

Di=(wi1,wi1,…,wij,…,wim)

其中,wij为第j个词在文档Di中的权重,代表 第j个词在文档Di中的重要性。2.文档的表示文档集合D=(D1,D2,…,Di,…,Dn)可用以下矩阵表示:w11 w12 … w1j … w1m… … … … … …wi1 wi2 … wij … wim… … … … … …wn1 wn2 … wnj … wnmD=

词语novagalaxyheatHollywoodfilmroledietfurD11.00.50.3D20.51.0D31.00.80.7D40.91.00.5D51.01.0D60.91.0D70.50.70.9D80.61.00.30.20.8D90.70.50.10.3文档矢量表示示例文档3.权重的计算方法有多种,最常见的一种方法为TF-IDF法,它考虑:每个标引词在文档中的重要性标引词在文档集合中的重要性词频(termfrequency,TF),用符号tf表示。标引词Tj在文档Di中的词频用tfij表示。一个标引词的重要性与该词在文档集合的文档中出现的频率成反相关。即反转文档频率(inversedocumentfrequency,IDF)。标引词Tj在文档集合D中的反转文档频率idfj可用以下公式计算出来: idfj=log(N/nj)其中,N:文档数量

nj:包含标引词Tj的文档数量标引词Tj在文档集合中相对于文档Di的权重可根据以上两个因子用下式计算出来: wij=tfij×idfj=tfij×log(N/nj)4.文档的相似性与查询给定两个文档Di和Dj的标引矢量,可以计算出两者的相似系数s(Di,Dj

),以反映两者在相应的词及其权重中的相似程度相似系数一般用夹角余弦公式进行计算:s(Di,Dj)=m∑wik2×k=1m∑wjk2k=1m∑wik×wjkk=1 其中,s(Di,Dj):文档Di和Dj的相似系数 m:维度(标引词种数) wik、wjk:标引词Tk在文档集合D中对于文档Di

和Dj的权重文档集合中文档可通过文档的相似系数进行聚类,相似系数越大的两个文档放在一起。查询时,将查询策略也表示为有关标引词的一个矢量Q。计算矢量Q与文档矢量Di之间的相似系数进行。相似系数达到或超过某个阀值则算命中查询结果根据查询矢量与文档矢量之间的相似系数大小排队输出。五、NLM的II项目项目的背景项目的目的和目标II系统NLM从20世纪90年代开始实施标引创始项目(IndexingInitiative,简称II)开展II项目的理由:手工标引是一种昂贵而且费力的劳动NLM标引的总费用组成: 数据条目

NLM职员标引和校订 合同标引 设备和通信费用对标引人员要求:熟悉MEDLINE标引实践在MEDLINE数据库所覆盖的一个或多个主题领域接受过很好培训雇请有专门知识的标引人员非常困难。标引费用越来越高。越来越多的文献可以电子形式获得,而且越来越多的机构为其收藏开发“数字图书馆”,需要获得信息的自动化技术。手工标引每篇文献是不可能的,必须开发出新的标引方法。NLM通过手工标引人员的分析提供对生物医学期刊文献的访问已经有150多年的历史。1966年起以电子形式提供访问,包含书目摘要、手工标引的MeSH受控词描述符。1974年后,大多数文献可提供作者文摘。20世纪90年代后期,由于医学期刊从印刷形式向电子形式迁移,自1990年以来,由于收录期刊种数的增长以及已收录期刊中论文数量的增长,MEDLINE接收的论文数量呈大幅度稳定增长MEDLINE包含大约1,100万条记录,所有这些记录都是手工标引的。目前正在以大约每年400,000条的速度增长,覆盖4,300种国际生物医学期刊标引人员从19,000多个MeSH主题词中选择描述符,主题词描述符可进一步用88个副主题词进行限定面对不断增长的工作量和逐步减少的资源,NLM启动II项目,对MEDLINE的当前标引方法和非手工标引方法进行研究2.项目的目的与目标目的:研究出可部分或完全替代当前标引实践工作的方法目标:第一,最终目标是生物医学文献更好获取;第二,NLM的MeSH词表和UMLS知识源(UMLSKnowledgeSources)将继续存在和增长;第三,标题和文摘形式的自由文本将继续可用,而电子形式的期刊论文全文也将越来越可获取。3.II系统(1)MetaMap标引(MMI)MMI由以下两个部分组成:将MetaMap程序应用到文本正文使用排队函数产生的概念排序MetaMap发现超级叙词表概念的步骤分解成短语使用SPECIALIST最小约定剖析器将文本分解成简单的名词短语。生成变量对于每个短语,生成一组变量,其中每个变量由一个或多个连续的短语单词及其所有首字母缩写词、简写词、同义词、不同词形和意义联合组成。获取候选词获取至少包含一个变量的所有超级叙词表字符串的候选集合。候选词评价计算从短语单词到候选单词的映射用语言学原理评价函数计算出映射强度,根据输入文本,对每个超级叙词表候选词进行评价评价函数由以下四个属性的加权平均数组成: 中心性(centrality)

变异性(variation)

覆盖度(coverage)

内聚性(cohesiveness)候选词根据映射强度排序构造映射完整的映射是通过联合涉及短语中各组成部分的候选词来构建的,完整映射的强度只作为候选映射进行计算。分值最高的完整映射代表MetaMap对初始短语的最好解释。MMI检查所有MetaMap分配给指定引文的所有概念,并且根据其表达引文内容的强弱进行排队排队函数是频率因子和相关性因子的产物。相关性因子则是以下四个部分的加权平均数:MeSH树深度因子词长因子字符数因子MetaMap得分因子(2)Trigram短语匹配Trigram短语匹配是识别具有高同义可能性短语的一种方法用从短语中抽取的字符三元模型(trigram)集合来表示短语使用余弦矢量相似法计算出短语的相似性。II根据以下算法进行处理:将文献的标题和文摘分解成所有可能的短语,由1到6个邻近的单词组成,不含内部标点。对于每个短语,计算其与UMLS中所有短语的相似性分值,记录获得分最高的短语。对于标题和文摘中的每个单词,记录它所属的、对UMLS得分最高的短语,同时也记录产生最高分值的UMLS短语。形成许多“文献短语-UMLS短语”对。对于以上每个短语对,计算其在文献不同位置出现的次数,返回短语对、分值和次数。(3)RestricttoMeSH方法UMLS中含义的表达是根据语义点(semanticlocality)原理组织的,在语义点中,表达概念间关系的几种方法共同产生一簇语义相关的词。语义点维度包括词信息(同义关系、上位关系、下位关系)、在特定来源词表中的上下文信息、医学文献中词的共现信息以及在语义网络中的概念范畴。在II中,以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论