文本信息处理技术PPT课件_第1页
文本信息处理技术PPT课件_第2页
文本信息处理技术PPT课件_第3页
文本信息处理技术PPT课件_第4页
文本信息处理技术PPT课件_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 文本信息处理技术 自动标引技术 1 标引词加权方法2 自动分类技术3第1页/共93页第一节 自动标引技术 自动标引的含义 一 自动标引的流程 二 中文自动标引 三 第2页/共93页一、自动标引的含义1自动标引的定义文献标引:指对所收集的文献给出标识导引,这些标识包括文献标题、作者名、分类号和主题词等。 文献标引作业包括: 文献文本分析; 特征信息(主题词、关键词及其他标识)的提取与描述: 建立索引或倒排档。 自动标引(automatic indexing):“自动标引就是用机器抽取或赋予索引词,一旦编制好程序和规则,就不需要人工干预。” 第3页/共93页一、自动标引的含义2、自动标引的

2、类型 从标引工作的自动化程度来说,自动标引分为: 全自动标引(automatic indexing); 半自动标引(机助标引:Automated indexing)。 半自动标引基本技术实现是:(1)文献纪录(题目等著录项目)键入终端后显示在荧光屏上;(2)操作人员移动光标从题目中抽取关键词;(3)利用人机对话方式输入与标题内容有关的隐含概念词,以保证主题标引的全面性;同时删除计算机程序错误组配的词。(4)根据词库中的参照系统将关键词转换成标准主题词,进行上位登录。 词库是计算机辅助标引的核心。 从标引词的来源去划分,自动标引分为: 自动抽词标引; 自动赋词标引第4页/共93页一、自动标引的含

3、义(3)自动抽词标引(自由词标引)定义:利用计算机直接从文献题名、文摘或正文中自动抽出能表达文献主题的词作为标引词,并自动生成关键词索引或倒排档。类别: 主关键词标引:要求计算机从抽出的全部关键词中选出少量主要关键词做索引词。 全关键词标引:把除停用词以外的全部关键词抽出,直接做索引词。 抽词标引的标引词只能来源于文献本身的文内关键词,所以也称为自由词标引。优点:无需主题切换,接近自然语言。缺点: 标引用词不规范,影响查全率; 同义词检索降低系统的时间效率; 难以找出词和词之间的相互关系,很难进一步利用语义信息。 第5页/共93页一、自动标引的含义(4)自动赋词标引(受控词标引)定义:让计算机

4、模仿人的赋词标引方法,分析文献的内容,选取与文献主题相符或密切相关的语词符号作为索引词。其标引词是由描述词组成的,这些词不一定来源于文献本身所用的词,而是选自预先编制的词表,所以叫受控词标引。优点: 规范化用词 词表可以反映词的“类属”关系。缺点: 受控词标引往往有一定的标引误差; 词典面临老化的问题; 主题词表对用户来说往往是一个负担; 自动赋词标引是在自动抽词标引的基础上发展起来的。 最合理的标引方法:混合标引方法第6页/共93页二、自动标引的流程在手工标引中,标引员的一般工作流程是:1.阅读待标引文献2.分析文献内容3.提取文献主题概念4.用语词符号或语句去表达主题概念5.使表达规范化(

5、转换为受控词)6.编制索引款目7.将全部索引款目汇集和编辑为索引或文档。第7页/共93页二、自动标引的流程篇章语句语句段词加权选词规范化标点符号停用词表词频阈值转换123词主题词典索引生成第8页/共93页三、中文自动标引1、汉语分词与中文自动标引分词:就是把一个句子按照其中词的含义进行切分。抽词:信息检索系统中所涉及的“分词” 实际上是抽取代表主题概念的关键词。目前比较常用的抽出自由词的方法有两种: 词典匹配标引法; 单汉字标引法。词典匹配标引法的步骤: 利用停用词表将语句分为语句段(子字串); 利用主题词典(或关键词典)将语句段分为词;第9页/共93页三、中文自动标引2停用词表及其切分原理(

6、1)停用词及停用词表的概念根据文本中词的检索意义,可以对它们做一个简单的分类: 检索词(检索入口词、入口词、标引词):表示具有检索意义的词,一般为实词(多数是名词、动词等)。 停用词(禁用词、非用词):在文本中没有检索意义的词,多是一些虚词(如介词、叹词、连词等)。所谓停用词表,是一种特殊的词表,在这个词表中含有冠词、虚词、叹词、连词、介词以及语义泛泛的词等一切在上下文中没有检索意义的词。第10页/共93页三、中文自动标引2停用词表及其切分原理 (1)停用词及停用词表的概念 对于特定专业而言,可以将停用词表内部的词基本上可以分为两大类: 通用性较强的停用词; 通用性不强的停用词。停用词的特点:

7、 停用词语义变化不大, 数量小(5000)中每个词出现的频率统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然语言给这些词编上等级序号,即频次最高的词的等级为1,频次次高的等级为2,频次最小的词等级为D(或L),若用f表示等级为r的词在文献中出现的相对频次,则有:frrC (C是一个常数,大约等于0.1).齐普夫分布曲线:如果用横坐标表示词的等级序号r,纵坐标表示相应的频次fr,我们就可以得到一条双曲线,即齐普夫分布曲线。第19页/共93页二、绝对频率加权法2 Luhn的自动标引思想词的分辨力的概念:它是指词的识别文章内容的能力。Luhn的思想:文献中每一个词都有一定的分辨能力,而这

8、种能力与词出现的频率有密切的关系。一般讲来: 词频过高的词一般多为仅起语法作用而无实际内容的功能词,或为一些语义泛泛而专指性不高的词; 而词频过低的词,在文献中很少出现,其分辨能力也很低; 只有词频适中的词的分辨力较强,他们被称为有效词。I1:文本中仅出现一次的词的数量。2811n1I第20页/共93页二、绝对频率加权法2 Luhn的自动标引思想基于卢恩思想的词频统计抽词标引法的基本步骤为:(1)抽词;(2)统计分析;(3)筛选。 卢恩在自动标引中使用的文献,长度在5005000字之间,为每篇文献选择的标引词数量定在1024个词之间。近似平均值为16。第21页/共93页三、相对频率加权法1、文

9、内相对频率 指某特定词的绝对频数与文中所有词的绝对频数之比。2、文外相对频率加权法 文外相对频率:某特定词在一批足够多的文献集合中的出现频次的平均值。加权的步骤为: 建立有关领域全部词汇的文外相对频率表; 对待标引的文献进行处理,排除停用词,计算每个实词在特定文献中出现的相对频率; 将每个实词在特定文献中的文内相对频次与整个文献集合中的文外相对频率进行比较。 第22页/共93页三、相对频率加权法第23页/共93页三、相对频率加权法3、反(逆)文献频率加权法一篇文献的词大致可以分为: 特征词:就是能反映文献的主题内容的词; 非特征词:是不能反映文献主题内容的词,只是为了语法或写作风格上的需要才出

10、现的。词k的文献频率:文献集合中包含词k的文献篇数。特征词与非特征词的文献频率特点: 非特征词的文献频率一般较高; 特征词的文献频率一般较低 一个词如果文献频率较低,说明它是特征词;若这个词在某篇特定文献中的出现频率较高,则用这个词可以较好地反映该文献的主题内容。 第24页/共93页三、相对频率加权法3、反(逆)文献频率加权法逆文献频率加权法基于如下假设:某词的重要性与它在特定文献中出现的频次成正比,而与含有该词的文献量成反比。逆文献频率标引词权重的设计如下: Fik为词k在文献i中的出现频率; DFk为词k的文献频率。 标引词的权与标引词的文献频率有互逆关系,因此这种标引加权方法叫“逆文献频

11、率加权法”,根据这种加权方法进行的标引叫“逆文献频率加权标引”。 kikikDFFW第25页/共93页第二节 标引词加权方法四、词的位置加权法 根据词的位置进行加权的方法称为位置加权法。1)标题 2)文摘 3)首尾章节 4)章节的首尾段 5)段落的首尾句 部位权值主标题中词汇2其他标题中词汇 1.8文摘中的词汇1.6首尾章节词汇1.3首尾段(句)词汇1.1其他位置词汇1.0第26页/共93页五、其它加权的方法1)词性2)词本身的价值3)词的长度4)词的特定位置,如: 文献中用括号括起来的部分:ISDN(综合业务数据网); 用破折号引出来的部分,“数据的自动识别输入条码技术”; 用“所谓”所引出

12、的部分,如“所谓的预置关键词”,其中的实词往往也应当给予特别的加权。5)词的颜色、字体等第27页/共93页第二节 标引词加权方法六、加权检索技术 1 检索词加权与检索检索词加权:检索者根据检索需求的理解确定检索词,同时给提问中的每一个检索词(概念)给定一个数值以表示其重要程度,即“权”。检索词加权检索:在检索过程中,对每个检索词首先查找其检索词在数据库记录中是否存在,然后对存在的检索词计算权值总和。只有当数据库记录的权值之和达到或超过预先给定的阈值时,该记录才是命中记录。 第28页/共93页第二节 标引词加权方法六、加权检索技术 1 检索词加权与检索例题:以“住房补贴政策”为检索课题,给检索词

13、分别赋以权值为:住房=4、补贴=5、政策=3,阈值T=5 设有文献如右:文献号标引词1住房,补贴,政策2住房,补贴3补贴,政策4住房,政策5补贴6住房7政策8第29页/共93页第二节 标引词加权方法六、加权检索技术 1 检索词加权与检索词加权提问逻辑的优点和不足分析:优点: 通过加权,明确了各检索词的重要程度,使检索更具有针对性; 只需列出检索词,不必写出提问式(不必定义检索词间的逻辑关系)。不足: 权值、阈值的确定具有主观性; 加权是对概念加权,而非对具体的词进行加权,故同义词、相关词权值的确定问题。第30页/共93页第二节 标引词加权方法六、加权检索技术 2、标引词加权与检索标引词加权:根

14、据标引词在文献中重要程度不同,为它们附上不同的权值。具体内容如上所述。标引词加权检索:在检索时,检索者给出检索词阈值和检索阈值,对于那些满足检索阈值的检索结果,按照权值之和从大到小依次输出。设定检索阈值: 给每个检索词指定一个阈值; 给总的检索结果指定一个阈值。第31页/共93页第二节 标引词加权方法六、加权检索技术 2、标引词加权与检索例:设已知:用户提问: 检索词为:A、B、C; 检索词阈值:A:0.3;B:0.2;C:0.2; 总阈值:0.5.数据库:第32页/共93页第三节 自动分类技术 自动分类概述 一 自动聚类技术概述二 文本表示与相关矩阵计算三 等级聚类法、动态聚类法 四 模糊关

15、系及其聚类方法 五 基于聚类文档的检索模型 六第33页/共93页一、自动分类概述 1、文本分类的概念定义:自动分类(Automatic classification)是指利用计算机对一批实体或对象进行分类,包括自动建立分类体系及其自动更新。发展:第一阶段(19581964)进行自动分类的可行性研究;第二阶段(19651974)进行自动分类的实验研究;第三阶段(1975年至今)进行实用化阶段并在邮件分类、电子会议、信息过滤等方面取得较为广泛的应用。第34页/共93页一、自动分类概述 2、文本分类的类别: 自动聚类:从待分类对象中提出特征,然后将提出的全部特征进行比较,再根据一定的原则将具有相同或

16、相近特征的对象定义为一类,并设法使各类中包含的对象大致相等;特点是“先有文档后有类”。 自动归类:指在给定的分类体系下,分析被分类对象的特征,使之与各种类别中对象所具有的共同特征进行比较,然后将对象划归为特征最接近的一类并赋予相应的分类号。特点是“先有类(表)后有文档”。 类号的自动转换:针对多部分类法并存的现状而提出的,有利于分类标准化。第35页/共93页一、自动分类概述3、文本分类的步骤文本集合预处理文本标引文本表示特征选择构建分类器结果评价第36页/共93页一、自动分类概述3、文本分类的步骤(1)文本预处理即将原始文本进行分词处理并转化为标准格式,需要删除的套话和停用词一般也在这个阶段删

17、除。 (2)文本标引通常选择文本中的特征词作为该文本的特征项。 自动分类是建立在自动标引的基础(3)文本表示即选用什么样的语言要素和用怎样的数学形式组织这些语言要素来表征文本。第37页/共93页一、自动分类概述3、文本分类的步骤(4)选择合适的分类方法 即:用什么方法建立从文本特征到文本类别的映射关系。 现有的主题分类技术主要有3种方法: 基于统计的方法:如快速聚类、扁平聚类、层次聚类、支持向量机,等等; 基于联结的方法:即人工神经网络; 基于规则的方法:如决策树、关联规则等。(5)性能评估 即如何评估分类方法和系统的性能。目前使用比较多的分类性能评估指标为查全率和查准率。第38页/共93页二

18、、自动聚类技术概述1、定义所谓“文本聚类”(text clustering),就是完全根据文本文档的内容相关性来组织文档集合,将整个集合分成若干个类,并使得属于同一类的文档尽量地相似,属于不同类的文档差别明显。聚类的定义:(文档)聚类是将一系列文档按照相似性聚团成子集或者簇(cluster)的过程簇内文档之间应该彼此相似簇间文档之间相似度不大聚类是一种最常见的无监督学习(unsupervised learning)方法。聚类假设:在考虑文档和信息需求之间的相关性时,同一簇中的文档表现互相类似。 第39页/共93页第40页/共93页二、自动聚类技术概述2、类别(1)按照聚类所依据的文本特征基于词

19、语特征的自动聚类;基于非词语特征的自动聚类。基于引文的聚类:“文献耦合”:如果A和B两篇文献共同引证了一篇或多篇参考文献,则称A和B两文献具有引文的耦合关系。其耦合程度可以用“耦合强度”指标来衡量,“耦合强度”的度量单位是A和B共有的参考文献的篇数。“文献同被引”:是指两篇文献被别的文献同时引用,并以共同引用它们的文献数量作为测度,称为“同被引强度”。第41页/共93页二、自动聚类技术概述2、类别(2)按照聚类文本归属的不同 硬聚类:每篇文档仅仅属于一个簇,很普遍并且相对容易实现。 软聚类:一篇文档可以属于多个簇,较复杂。软聚类对于诸如浏览目录之类的应用来说很有意义,比如,将 胶底运动鞋 (s

20、neakers) 放到两个簇中: 体育服装(sports apparel) 鞋类(shoes)第42页/共93页二、自动聚类技术概述3、聚类步骤“文本聚类”:从待分类对象中提出特征,然后将提出的全部特征进行比较,再根据一定的原则将具有相同或相近特征的对象定义为一类,并设法使各类中包含的对象大致相等。 由定义可知聚类的步骤: 从待分类对象中提出特征定义属性(等同于自动标引,所以:自动标引是自动分类的基础); 将提出的全部特征进行比较计算相关性,形成相关矩阵 (大多都是基于经典的向量空间检索模型); 根据一定的原则将具有相同或相近特征的对象定义为一类,并设法使各类中包含的对象大致相等聚类算法。第4

21、3页/共93页文本聚类的流程图目标文档集合1、自动标引2、建立文档向量3、构建文档相关矩阵4、聚类处理5、聚类输出第44页/共93页二、自动聚类技术概述4、文本聚类的应用文本聚类是一种重要的文本挖掘技术,在文本信息处理系统中,它的价值主要表现在以下几个方面: 聚类检索:发现与某文档相似的一批文档,以帮助用户发现相关知识,加快了搜索的速度; 检索结果聚类:可以将检索结果文档集合聚集成若干个类,使用滚迅速定位到所需要的信息。 信息组织:文档集聚类:提供一种组织文档集合的方法,以便于有效地进行信息的展示(如:信息过滤、信息主动推荐等); 生成分类体系:可以作为一种文本分类的辅助技术,即使用聚类技术可

22、以生成用于文本自动分类的分类体系表。第45页/共93页第46页/共93页三、文本表示与相关矩阵计算 20世纪60年代末期,Gerard Salton(现代信息检索的奠基人),SMART系统。向量空间检索模型:Vector Space Model,简称VSM 向量空间模型是用提问词和标引词的向量空间来表示用户的查询要求和文档信息,根据向量空间的相似度,排列查询结果。 向量空间方法的基本思想要点是: (1)文档D用标引词的向量表示; (2)查询Q用提问词的向量表示; (3)匹配方法:计算文档向量和查询向量之间的相似度;第47页/共93页三、文本表示与相关矩阵计算1文档向量的构造考虑到一个有n个记录

23、(文献)的集合:D=d1,d2,dn 对一条属于该集合的特定的文档记录di,可以用属性向量把它表示成:di(ti1,ti2,tim)di就称为文档向量,其中:m:用于描述这些记录的属性的个数,一般情况下,该属性为主题词;tij:表示文献di中具有属性tj(j1,2,m)的程度。 把这种程度用数值的形式表示出来,就是人们常说的“加权”。 最简单的情况:若文献di具有属性tj,则tij1;否则tij0。 我们称向量di(ti1,ti2tim)为文档向量。 第48页/共93页三、文本表示与相关矩阵计算1文档向量的构造 cij的取值如前所述,可以简单地用1、0来表示,也可以用1,0之间的数来表示。需要

24、注意的是,如果是后者的话,一般应该有:mj1ij1c第49页/共93页三、文本表示与相关矩阵计算2相似度的计算 量化地判断系统文档两两之间的相似程度文献相关矩阵D较常采用的相似度计算指标是两个向量夹角的余弦值:1)简单匹配系数:2)余弦系数:mjqjij1dQ)Sim(di,mjmjmjqjijqjijQdi11221dd),(Sim第50页/共93页三、文本表示与相关矩阵计算 文献属性相关矩阵 文献相关矩阵:212132223D第51页/共93页三、文本表示与相关矩阵计算 文献相关矩阵D:为了表示文献之间的相关关系,分别计算C矩阵中第i行与第j行之间的相关系数dij,由dij构成的一个nn的

25、矩阵就称作文献相关矩阵。 当C矩阵中的值取1和0时,dijk,说明这两篇文献中有k个相同的标引词。 矩阵中dij元可以理解成第i篇文献与第j篇文献包含的属性词的重复面的大小,dij越大,说明第i篇文献与第j篇文献包含的相同主题越多,因此两篇文献的相关程度也就越大。 第52页/共93页三、文本表示与相关矩阵计算 2相似度的计算 在聚类分析中,对象相似性的指标大致可分为二类: 距离指标:常用的距离指标有:绝对值距离、欧式距离和切比雪夫距离。 相似系数。常用的相似性指标为:余弦系数、皮尔逊积差相关系数、重叠系数、雅克比系数等。第53页/共93页四、等级聚类法和快速聚类法1 等级聚类的概念 等级聚类又

26、称为分层聚类、层次聚类、系统聚类、谱系聚类,是一种可以利用谱系结构或树状结构图来描绘聚类过程的方法,也是进行聚类分析时应用最多的方法。特别适用于对小样本场合(样本量在100以内比较合适)。第54页/共93页四、等级聚类法和快速聚类法1 等级聚类的概念等级聚类可以分为分解法和凝聚法: 分解法(Top-down):在聚类开始时,将所有的文献都看成是一类,然后再根据距离或相似性,不断进行分解,直到每篇文献都自成一类为止。 凝聚法(Bottom-up):聚类开始将每篇文献看成一类,然后再根据距离或者相似性,不断进行合并,直到将所有文献都归结为一类为止。第55页/共93页四、等级聚类法和快速聚类法2 凝

27、聚法以凝聚法为例,分层聚类的主要步骤有:将每篇文献视为一类,选择度量距离的方法,计算点与点之间的距离,并将最近的两篇文献聚为一类;选择计算类与类之间距离的方法,计算类与类之间的距离,并将最近的两类进行合并;如果合并后的类数大于1,继续进行类与类之间的合并,直到所有文献合并为一类;绘制等级聚类的谱系图,并根据研究目的、相关的专业理论等选择确定最后的分类结果。上述整个合并的历史是构成一个二叉树, 第56页/共93页第57页/共93页四、等级聚类法和快速聚类法3 类(簇)相似度的定义计算类与类之间的距离成为聚类法中的一个核心问题,常见的聚集方法有:最短距离法;最长距离法;中间距离法;组间平均距离法;

28、重心法;组内平均距离法;离差平方和法。第58页/共93页第59页/共93页四、等级聚类法和快速聚类法4、动态聚类动态聚类法又称为:均值聚类、快速聚类。K均值聚类是文本聚类的默认或基准算法。 动态聚类的基本思想是:先对所要分类的事物作一个初始的分类,然后按照某种最优的原则修改不合理的初始分类,直至分类被认为比较合理时为止,形成最终的聚类结果。 处理流程图如下:第60页/共93页动态聚类流程图算法开始确定聚类个数(凝聚点、质心向量)将文档分配给离它最近的质心向量聚类合理聚类结果算法结束重新计算质心向量YN第61页/共93页例子62第62页/共93页63例子:随机选择两个种子例子:随机选择两个种子(

29、K=2)63第63页/共93页例子:将文档分配给离它最近的质心向量(第一次)64第64页/共93页例子:分配后的簇(第一次)65第65页/共93页例子:重新计算质心向量66第66页/共93页例子:将文档分配给离它最近的质心向量(第二次)67第67页/共93页例子:重新分配的结果68第68页/共93页例子:重新计算质心向量69第69页/共93页例子:再重新分配(第三次)70第70页/共93页例子:分配结果71第71页/共93页例子:重新计算质心向量72第72页/共93页例子:再重新分配(第四次)73第73页/共93页例子:分配结果74第74页/共93页例子:重新计算质心向量75第75页/共93页

30、例子:重新分配(第五次)76第76页/共93页例子:分配结果77第77页/共93页例子:重新计算质心向量78第78页/共93页例子:重新分配(第六次)79第79页/共93页例子:分配结果80第80页/共93页例子:重新计算质心向量81第81页/共93页例子:重新分配(第七次)82第82页/共93页例子:分配结果83第83页/共93页 例子:重新计算质心向量84第84页/共93页质心向量和分配结果最终收敛85第85页/共93页四、等级聚类法和快速聚类法4、动态聚类法优点:动态聚类法具有方法简单、计算量小、占用计算机内存空间较少、聚类速度快等优点,比较适用于大样本量的文献聚类分析。缺点:需要事先规定类别的个数,而且中心的选择带有随意性。动态聚类的两个关键问题需要得到较好地解决: 如何确定并调整聚类参数k; 如何选取合适的初始凝聚点。注:动态聚类法得到的结果没有层次结构(扁平结构)。可以将等级聚类法和k均值聚类法结合结合起来使用:先利用等级聚类法得到一个分类的初始解;然后将所得到的类别数和聚类中心作为动态聚类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论