【毕业学位论文】(Word原稿)Web中实体关系分析与面向实体的社会网络分析研究_第1页
【毕业学位论文】(Word原稿)Web中实体关系分析与面向实体的社会网络分析研究_第2页
【毕业学位论文】(Word原稿)Web中实体关系分析与面向实体的社会网络分析研究_第3页
【毕业学位论文】(Word原稿)Web中实体关系分析与面向实体的社会网络分析研究_第4页
【毕业学位论文】(Word原稿)Web中实体关系分析与面向实体的社会网络分析研究_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京大学网络实验室 摘要 : 以实体为核心的 以分为三个层次: 实体层次 提取、分析单个实体及其属性 、 实体关系层次 提取、分析多个实体间的关系 的 和基于实体的社会网络分析 。本文对后面两个部分的相关研究进行了总结,描述了近年来该领域的研究路线,分析了其中用到的主要方法,并提出了几个该领域亟待解决的问题。 关键字 : 实体关系、社会网络分析、综述 录 1. 前言 . 3 2. . 4 关系发现研究概况 . 4 先确定 关系类型的方法 . 7 有监督的学习方法 . 7 半监督的学习方法方法 . 8 后确定关系类型的方法 . 14 实体关系发现的难点 . 15 实体关系对的确定 . 15 实体关系描述文本的筛选与扩展 . 15 实体关系对的验证 . 16 实体关系体系的发现 . 16 3. . 17 以网页为研究对象的社会网络分析 . 17 基于 . 18 基于二分有向图的技术 . 20 基于流量的技术 . 20 几种技术的总结 . 21 以实体为研究对象的社会网络分析 . 21 以实体为核心的社会网络构建 . 22 以实体为核心的社会网络分析方法 . 23 基于 . 25 4. 参考文献 . 27 1. 前言 随着计算机的广泛应用与互联网的高速发展 , 网络信息不断爆炸式地增长。信息的过量增长带来一定负面影响:面对大规模的信息 , 用户难以找到自己真正的需求。如何利用一些自动化的方法帮助人们在海量信息源中迅速找到真正需要的信息, 现有的 搜索引擎已经不能 满足用户的要求。 下面就是一个例子 : 例如对 于“丁磊”这个名字来说,叫这个名字的人很多,新闻报道中也会很常见,通过其服务的机构以及职务来分析,会发现网易公司有丁磊,而上海通用汽车公司也有一个丁磊,并且网易公司的丁磊的任职包括:董事会主席、总裁、总经理、 事等等。除了了解“丁磊”的个人情况外,发现他与 “人物”、“机构”、“事件”等其他命名实体地关系。 “命名实体关系标注”时还可以进行“机构名 + 职务”、“机构 +人名”等组合搜索,获取检索机构和特定职务的历任信息等。能够极大的提高情报分析、猎头行业的工作效率,因此具有很高的应用前景和商业价值。 基于实体对 成为 域研究开发的焦点 , 信息抽取( 是在这种背景下产生与发展起来。 信息抽取系统的主要功能是从文本中抽取出特定的事实信息( 1。比如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等等。通常,被抽取出来的信息 以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用。 近十年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,涉及到了深层次的语言理解、篇章分析与推理、多语言文本处理、息抽取、名实体识别等自然语言研究领域。通过系统化、大规模地定量研究和评测推动了自然语言处理研究的发展,促进了自然语言处理研究与应用的紧密结合。近年来,信息抽取的处理对象也扩展到了语音、图像、视频等其他媒体类型的数据。可以说,信息抽取已成为当前自然语言处理和相关领域的研究热点。信息抽取技术对搜索引擎、网络信息 过滤和信息安全、自动问答系统、机器翻译、文本挖掘、企业智能信息系统等许多应用领域具有至关重要的作用 23。 在信息抽取领域中,命名实体( 文本中基本的信息元素,是正确理解文本的基础 3。狭义地讲,命名实体是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等,通常用唯一的标志符(专有名称)表示,如人名、组织名、公司名、地名等。广义地讲,命名实体还可以包含时间、数量表达式等。至于命名实体的确切含义,只能根据具体应用来确定。比如,在具体应用中,可能需要把住址、电子信箱地址 、电话号码、舰船编号、会议名称等作为命名实体。 关系( 看作两个实体在一段时间或空间范围内的某种联系 4,在信息抽取研究中关系的发现在事件的侦测与描述中起着关键的作用。所以命名实体之间语义关系的抽取是信息抽取领域的一项重要的基础性研究 现如今,命名实体语义关系抽取技术在很多专业领域中有着更高的要求和更迫切的需求。在教育自动化、公司人事管理等领域都期待着高质量的专业领域的命名实体语义关系抽取技术。面向专业领域的信息抽取技术作为未来高层次、高效率的专业领域信息处理技术的基础具有重大研究价值。 而作为信息抽取的核心任务之一的关系抽取在专业领域中的研究同样极具价值。 当前,虽然有一些有指导或弱有导的语义关系抽取方法可以移植到专业领域,但是这些方法的抽取规则、关系种子、训练语料库都要重新构造,从而耗费大量的时间和人力。而目前效率较高的无指导的命名实体语义关系抽取方法却只适用于一般领域,在特定的专业领域中却难以满足用户的需求。所以寻求一种在专业领域中高效的命名实体语义关系抽取方案具有重大意义。 2. 关系发现研究概况 从 20 世纪 80 年代末开始,由于信息量的迅速增长,人们对信息处理的质量和速度的要求也日益增高,信息抽取也因此成为自然语言理解和自然语言处理的一个热点问题, 美国纽约大学开展的 5开始于 60年代中期并一直延续到 80年代。该项目的主要研究内容是建立一个大规模的英语计算语法,与之相关的应用是从医疗领域的 这种信息格式实际上就是现在我们所说的模板 1( 另一个相关的长期项目是由耶鲁大学 0世纪70年代开展的有关故 事理解的研究。由他的学生 e 6是根据故事脚本理论建立的一个信息抽取系统。该系统从新闻报道中抽取信息,内容涉及地震、工人罢工等很多领域或场景。该系统采用了期望驱动( 本)与数据驱动( 入文本)相结合的处理方法。这种方法被后来的许多信息抽取系统采用。 特别是由美国国防高级研究计划署( 助的消息理解系列会议( 7的召开,使得各国学者有了一个公开、公正、统一的研究平台,从而可以在一致的条件下对比各自的系统,总结成功的经验,探讨解决问题的方法,因此信息提取技术在其影响下得到了迅速的发展。 信息提取方面的一个国际性的评测会议,与 似,它也是典型的评测驱动会议。无庸置疑,评测是技术发展的动力,各个参赛单位为了取得好的评测结果,千方百计地发掘和利用新技术,从而在整体上推动了信息提取技术的不断进步 8。从 1987 年开始到 1998 年, 议共举行了七次, 在 1998 年的第七届 议上,首次将关系识别作为单独的一个模板任务提出来,这极大地推动了关系抽取研究的发展 8。随着 议的停止,从 2000 年开始由美国标准技术研究院组织的自动内容抽取评测会议( 过了 任务,将信息抽取的研究推到了一个新的高度。 目标是为了达到发展自动内容抽取的技术以支持人类语言文本方式的自动处理。 术的研究发展目标是支持不同方式的分类、过滤和选择 ,通过抽取来呈现文本的内容,因此 要发展自动检测和表现语言的意义的技术。自 始到 共进行了 7 次评测,其基本任务定义了实体检测和识别、数值检测和识别、时间检测和识别、关系检测和识别、事件检测和识别 10。该会议将继续开展下去,对于信息抽取的未来发展将起到进一步推进作用。 图 1 目前,除强烈的应用需求外,正在推动信息抽取研究进一步发展的动力主要来自美国国家标准技术研究所( 织的自动内容抽取( 9评测会议。 它从 1999年开始举行至今, 这项评测旨在开发自动内容抽取技术以支持对三种不同来源(普通文本、由自动语音识别 光学字符识别 语言文本的自动处理,研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等 内容,即对新闻语料中实体、关系、事件的识别与描述。最近一次2007年 评测中的 主要有任务 包括 :实体 发现与识别 ( 关系 发现与识别 ( 、 事件发现与识别( 和时间表达式发现与规整化( 等 。与 前的 用基于漏报(标准答案中有而系统输出中没有)和误报(标准答案中没有而系统输出中有)为基础的一套评价体系,还对系统跨文档处理( 力进 行评测。这一新的评测会议将把信息抽取技术研究引向新的高度。 以上的研究中对命名实体间的关系定义 如下: 形式上,集合 ., 的关系是一个 (n + 1) 元组 R=(S= , T= , G(R),这里G(R) 是 的一个函数,称为 R 的关系图。 从 此 的定义来看 , 为了 发现一组命名实体之间所有 可能地关系 ,需要确定实体关系类型集合 体关系图 G(R)。现有的实体关系发研究工作可以按照 确定关系类型的先后分为 两大类别: 先确定实体关系类型 再发现该类关系的命名实体对; 先发现命名实体对再标注关系 类型 。 先确定关系类型 的方法 先确定了关系类型的方法,根据 特定地 关系类型 确定 一组 关系描述模版,现有工作 中 对于 发现描述模版地方法有两种方法。第一种是 是知识工程方法( 二是自动训练方法 (知识工程方法主要靠手工编制规则使系统能处理特定知识领域的信息抽取问题,这种方法要求编制规则的知识工程师对该知识领域有深入的了解。 这种开发过程可能非常耗时耗力。自动训练方法不一定需要专业的知识工程师。系统主要通过学习已经标记好的语料库获取规则。任何对该知识领域比较熟悉的人都可以根据事先约定的规范标记语料库。经训练后的系统能处理没有见过的新文本。这种方法要比知识工程方法快,但需要足够数量的训练数据才能保证其处理质量。 有监督的学习 方法 国内有许多研究人员从事信息提取的研究,有北京大学计算语言学研究所设计并发了面向新闻领域的中文信息提取系统 10,该系统以人民日报新闻文本为处理对象,首先根据构成规则对文本中出现的各类数字、货币、时间等进 行绑定预处理,再利用隐马尔可夫模型( 行中文分词、词性标注,根据触发词或触发短语以及一些启发式规则进行人名识别(包括译名和中国人名)、地名识别、机构名识别,然后根据模板提取人名与职务、人名与机构等的二元关系,进而根据模板和触发词提取会议事件和访问事件。 在 11中对金融领域类信息的自动获取进行了研究,其方法也是对规则数据学习自动抽取规则,具体 是由人工标记大量的语料,再由程序学习得到信息抽取规则,在规则的指导下,抽取领域内词汇的语义关系。 类似的工作还有 12是由专家来预先定义该领域有关的名词成分之间的语义框架。 在关系抽取领域中,有指导的方法也是占主导位置。其 中 13, 14是其中比较有代表性的一种方法。在该方法中,系统通过学习 结构化网页数据 ,经训练后的系统根据规则,能够提取同一类型的结构化网页 所有 的关系实体对 ,并 标注这些 命名实体 对 的关系 类型 。国外比较典型的其他有导方法还包括 5、 6、 7、 8。 等的方法,这些方法的最大问题是 只能处理 少量结构化的网页数据,且对每组网页找 到的关系提取规则都不具备 普遍性,不能应用到其它数据集合上面。 半监督的学习方法 方法 为避免有导方法的弱点,有些系统采用弱指导 (法。这些系统预先定义一些关系和关系实例作为种子,然后通过机器学习,发现一些新的关系模板,主要代表包括: 998)19、 000)20, 21、 004)22等。 该方法 最开始地工作是 19的 该方法是 基于 用实体间的关系( 描述这 些关系的模式( 间的对应关系,从一个种子关系集合出发,从 后从这些上下文中产生对应的模式,进而利用这些模式从 后从这些关系实例中选择新的种子集合,重复上述过程,迭代地从 种方法在获取关系对的同时,就可以获得对应的命名实体。该方法不需要人工标注的训练集,所需的仅是可以产生初始种子集合的关系实例或模式,然后利用 以准确高效地进行关系和命 名实体的提取。 1. 人工选择一个较小的集合,其元素为所要提取关系的实例,做为种子集合 . 基于一个网页(文本)集合 W,发现所有出现 从中提取 . 基于 生对应的 保 能够利用 且这些候选关系实例以较大概率对目标关系的真实实例 4. 利用 到集合 R 5. 以 ( 2)开始执行 若 停止上述循环。 为了验证该方法的有效性, 系为目的,从下图的五个关系实例组成的种子集合开始 : 图 2 关系实例种子集合 在 156,000网页上利用 到了 15257个不重复的 关系对,在这个过程中, 其中 作者 和 书名 的先后顺序, 于 关系对经常聚集于某些网站这一假设), 图是三个 图 3 为了对 滤掉太 者定义了一个 值为 定义 n为 为产生该 果 np)大于某个阈值且,则该 则,剔除该 样可以保证同时剔除掉太 证提取的关系实例的质量。作者对结果的质量进行了评测,准确率为 95%,并且发现结果的范围大大超过了当时著名的几大网上书店全部的书目,证明了此方法的有用性。但是 ,做为者只是提出了方法的思想,设计了一个相对简单的实验,对这一方法中的关键性问题并未做深入探讨。在 以下几个关键问题: 1. 适用范围。 体间关系的种类繁多,对于某些类型的命名实体,与其他类型的实体有着密切的关系,并且于这样的命名实体,可以利用 而得到目标命名实体;对于某些类型的实体,虽然与很多类型的实体有密切的关系,但这样的关系的描述较为复杂 ,蕴涵在较长的上下文中,关系对应的模式需要用复杂的模型表示出来,在实际应用中存在问题;还有一些类型的实体,虽然从实际上来讲,有很多类型的实体与其相关,但对应的关系实例在 太可能产生高质量的 不可能进行高质量的结果。如何根据实体及实体关系的实际情况,进行量化的分析,确定 一个非常重要的问题,但迄今为止,并没有相关的工作来解决这一问题。这也正是我们下一步想要努力解决的一个问题。 2. 初始种子集合的产生和选择方式。 子集合,初始种子中关系实例的产生和选择方式会对最后的结果造成什么样的影响,是一个很重要的问题。当前,种子集合的产生选择方式大体有三种:( a)人工选择,例如 20, 21,若种子集合选择的不够好,则会造成最终得到的关系实例集合局限在一个较小的样本空间里,并且这些关系实例与种子实例同一个领域,例如对于关系 ,若种子关系均是关于政治人物的关系实例,由于对于政治人物的描述会过于正式,提取出的 果会造成最终提取的关系实例都是关于政治人物和相近领域人物的,而娱乐人物等与政 治人物相去较远的人物关系实例则不能得到,这样会造成结果的局部性。( b)基于人工定义的 2,通过观察出现频率比较高的不同领域的关系实例,人工创建一个 用此 选择出现频率较高的做为初始种子集合,这种方式性能一般会比上一种好,但需要的人工代价要大一些。( c)利用关系的具体特征从 种方法利用能够描述关系的几个 后从句子中提取候选关系实例,继而可 利用候选实例出现频度的高低选取高质量的种子集合 41, 42。然而,这三种方法,究竟那种更好一些,或者各种方法的适用范围,是否可以量化,都没有相关的研究工作。 3. 的 且应该保证利用 有的种为语法相关的,一种为语法无关的。前一种基于关系实例上下文的依存语法 (析45,利用依存语法分析的结果来抽象 出 种方法产生的以一定程度减少 需要进行语法分析,会产生一定的效率问题,并且并没有大规模的实验验证该方法的有效性。对于后一种方法, 具体的表现形式而言,可以细分为两种,一种是以具体的文本内容做为 21, 46,一种是以文本字符的统计信息做为 似于向量空间模型17,21,43,分别适用于不同的情形。 4. 接影响到迭代过程的速度、关系实例的质量。如何对 除掉低质量的保利用高质量的 一个重要的问题。一种方法是利用产生该 49,以及 48等对 后确定一阈值,仅保留分数高于阈值的 一种方法基于这样一种假设:质量越高的 中含有能够描述对应关系的 大,基于这样一个假设,在每一次迭代过程中,首先对于所产生的如 包含的词的频率进行统计,然后对每一个 其每个部分根据此部分对应的词频结果进行打分,然后取各部分的最高分值做为该 种方法简单而直接,效果也不错,但现在并没有工作将其性能同前一种方法进行比较。 5. 迭代过程的速度和质量问题。从对 响迭代过程速度和结果质量的因素有很多,根据重要性不同,下面几个 因素需要着重考虑:( a) b) c)新产生的关系实例质量的评估。( d)新种子集合的产生策略( e)迭代过程中形成的先验知识的构成与使用 47, 48。对于每一个因素,都有几种可能的解决方案,如何根据关系的类型,选择不同的方案的组合,是一个具有一定复杂度的组合优化问题,解决这一问题,将会对基于 6. 迭代结果的覆盖率。由于 何估计当前得到结果对于全集的覆盖率,是一个非常 重要的问题,其结果可以指导迭代过程的进行。 53利用第三方知识库产生一个 用结果落在这个 一方法有一定的局限性;首先,对于某些类型的实体和实体关系,存在第三方的知识库,包含了大量的相关知识,利用其生成 以进行覆盖率的估计,而对于没有第三方知识库的情况,则不能适用,需要有一种基于迭代过程数据的理论模型能够估计结果的覆盖率;其次,即便对于有第三方知识库的情形,知识库的广度无法确定,且其与 合程度也无法确定,即使抛开这些问题不考虑,利用 个估计的置信度和置信区间如何科学地估计,也是一个很大的问题。第二种得到覆盖率的方法是基于 据迭代过程中产生的相关数据,估计出当前结果的覆盖率,并给出置信度和置信区间,相关工作在 51,54中有所论述,但 用于不同的情况,如何选择最适合的模型,并对模型估计结果的可信性进行严格的实验验证,目前还是一个未经探索的领域。 7. 网页预处理的作用。同一般文本不同,网页中包含着大量由 利用 何对网页进行预处理,在剔除掉无关信息的同时保留有用信息,确保迭代过程的速度和迭代结果的质量,是一个需要探讨的问题,其中一个关键问题在于 否要包含除了网页文本内容之外的元素(网页的 接信息等),如何利用这些信息提高 有某些工作使用了这些信息 52,但并没有工作探讨其适用场合。另一方面,网页的 文本内容中包含着大量的指代,如果对这些指代进行消解,是否会对最后结果的数量和质量产生一定程度的影响,并没有工作进行深入的研究和探讨,目前,仅有工作51利用了指代消解进行预处理。 关系类型的动态扩展。在利用 系的构建是一个关键问题。同一个实体可能会同多个其他类型的实体有关系,如何定义这些关系,通过这些关系的提取,使得最终得到的命名实体有较高的覆盖率,在 48中有初步的探讨,即是关系类型动态扩展问题。关系类型动态扩展的一般步骤是:首先定义一个核心关系,比如 ,或者 ,然后从核心关系出发,利用 上下文进行统计分析,提取出其中的与所要提取实体密切相关的其他实体,比如对于 关系,可以从对应关系实例的上下文中发掘出 性别 、 身高 、 爱好 等与人物密切相关的实体;然后利用这些实体与 人名 组成新型候选关系,对候选关系类型进行过滤,保留质量较好地新型关系,利用这些关系发掘更多的关系实例,进而提高命名实体提取的覆盖率。不过, 48并没有对这一问题进行深入的探讨和评估,比如上下文 边界的确定、实体的选择、候选关系类型的过滤等,需要有进一步的工作,这也是我们下一步要做的工作。 为了解决 个局限性, 后续又有若干工作 ,其中有代表性的有 20, 21, 22等 。 2000年, 出 过限定两个命名实体类型的方法来改进 且 过这样的改进,关系抽取的召回率和准确率都得到了提 高。 2004年 1. 人工的为每个 类别的 关系确定一些词汇( 为该关系对的“鉴别器”( 这里的“鉴别器”是在关系对发现前定义好的,而且每类关系可以有若干不同的“鉴别器” 。 2. 将该 类的 实体对 、非该类的实体对 和“鉴别器”作为 别统计其返回网页的个数和共现网页的个数。 3. 以共现网页的个数或贡献网页的 为特征 训练 一个 4. 对新发现的实体对计算其与各类别“鉴别器”的共现次数或共现带入 回其属于该类别的概率 方法给出一种有效的检验其结果正确性的途径。这种检验途径与之前工作中的评测不同之处在于,以前的工作只能对结果的总体正确率给出估计,而对发现的某个特定的实体关系对不能判断其正确性;而 别的这种检验方法也是利用了 用概率工具来进行 评测的。 何定义那些初始的关系和关系实例的集合。对此问题 还有许多学者利用已有的语义资源,提取词汇或者概念之间的语义关系。在资源建设方面,影响较大的有 网 )23、同义词词林24、 念层次网络) 25、 文概念词典) 26等。其中,概念为描述对象 , 依靠“义原”这种“知识表示语言”来定义概念,通过概念与概念之间的关系以及概念的属性与属性之间的关系形成一个网状的知识系统, 27提出了基于 知网 的中文信息结构抽取方法。而 论建立了概念层次网络,在此基础上,定义了一套词汇语义的符号化描述方法,这种表示方法并非要给出词汇语义的精确定义,而是希望能表现词汇包含的概念关联性知识和联想脉络的线索,利用 论的词汇语义符号化描述方法,通过推理,可以发现概念之间的一些语义关系。 袭分类体系,将名词分为 25 个语义类 。 后确定关系类型的方法 上述的方法 需要 事先 定义关系类型, 因此需要人工构建 实体关系的体系结构 。 而很多情况下这样地关系体系的 构造是很困难、甚至是不可能地。 一般社会关系的种类很多 ,根据 57的分 类 约有 40多种 人物 关系, 如果对每种关系都设置关系对实例则是相当大的工作 ; 而且在 不是如上面 57中规定的人物关系,即使能确定例子关系对也不容易找到高质量的反映该关系的模式( ;更 进一步的在 的 例如 人物“胡锦涛”和人物“布什”可能因为“布什访华”这样的事件因此在 如果简单的将两人的关系分类到现有的社会关系则是忽略 量的 有关这次事件的信息,而且很可能两人在另一个时间、地点因为别的事件也 被大量报道,采用之前的方法则不能有效的 提取、区分这些人物实体关系。因此有了另一类关系提取方法,即先确定关系实体对,再确定关系类型的方法 。 2004 年在 议上, 不定义关系类别 关系抽取方法首次被提出( 004) 28。该方法中,他们首先剔除出现频率较低的命名实体对,然后提取每个命名实体对实例的上下文,并将同一命名实体对的所有实例的上下文进行累加作为该实体对的上下文;接下来采用 方法对实体对的上下文进行聚类;最后在得到的类中寻找出现频率最高的词汇,并 以该词汇标注该类命名实体对的关系。然而此方法依然存在一定的缺陷,剔除低频的命名实体对或许会遗漏一些重要关系;其次,采用的 聚类方式,其阈值难以确定。 之后 29, 30, 31, 32还对此方法做出过改进; 他将每一个命名实体对的上下文,而不是所有相同的命名实体对,作为它们之间关系的特征。在聚类时, 31, 32通过对 法聚类对 方法进行了改进。在确定命名实体对之间关系的数量时,利用多次取样方法( 过反复的实验找到最自然的 关系的个数,也就是最符合数据的命名实体之间关系的个数。 总之, 出了无导语义关系抽取的大体步骤为之后无导语义关系的抽取奠定了重要基础。无导的关系抽取建立在以下假设之上:拥有相同语义关系的实体对,它们的上下文环境较为相似,其上下文集合代表着该实体对的语义关系。在这种思想下,无指导名实体对中语义关系的抽取过程被大体划分为 3 个部分: 1. 命名实体对及其上下文的提取; 2. 命名实体对的聚类; 3. 标注各个类中的语义关系。 目前,大部分的信息抽取研究都是在一般领域中进行的,而一些特定领域对信息抽取有着很高需求, 例如 对经济学领域 自动化的核心技术实现取决于该领域的实体抽取技术和关系抽取技术的发展 30,于是近年来也逐渐开始有人研究适应于某些专业领域中的 信息抽取技术。关系抽取在专业领域中的应用大都采用有指导的方法 。而将高效的无指导关系抽取技术应用在专业领域中的研究目前还没有相关报道;将无指导关系抽取与有指导的关系抽取技术结合起来在专业领域中的相关研究同样未曾见到。 实体关系发现的难点 对上述的研究工作进行 分析总结 ,可以得到 在解决实体关系发现问题中的几个重要 难点问题。 从 解决 问题 的顺序来看可以分为以下四大难点:( 1)实体 关系对的确定;( 2) 关系描述文本的筛选与扩展 ;( 3) 实体关系对正确性的 测量 ;( 4) 实体关系体系的发现 实体关系对的确定 现有的工作中关系对的确定可以分为两大类别:一种是利用特定的模式( 来确定 关系对;另一种是利用实体在网页文本中的共现来确定关系对 。 第一种方法 在 发现关系对的同时也确定了该关系对的具体类别或者关系的含义, 例如“ 的父亲”这个模式发现的人物实体关系对正是人物实体之间的“父子” 关系。该方法的问题是如何能够发现质量高的文本模式,它能够发现尽可能多的该类别关系对,并且能够剔除其他类型 的关系对。现有的做法都是基于 方法,这需要 为每类关系寻找合适的例子 实体 关系对。另一种方法是 发现关系对之后再来确定关系类比,而关系对的确定一般采用实体的共现,简单的做法只设置一个固定长度的滑动窗口进行检验,而 27, 31, 34等则采用了段落、句子等分割方法, 32特别的考虑了新闻网页内部结构,更注重网页标题中出现的人物实体。而更进一步的分析可以发现,如果考虑实体共现处的句法结构 例如主动句、被动句的分析 则能够进一步提高实体对发现的精确度。 实体关系描 述文本的筛选与扩展 对于先发现实体对再确定关系的实体关系发现方法, 现有工作都采用为每个实体对标注文本以便于 后面关系对的分析研究 。 最初的做法使用实体对共现处的文本作为关系对描述文本 28,这样的做法 对于高质量的数据集例如基于报纸文档的数据集合 有很好的效果。而对于分析处理来自于面两个问题:首先 有丰富的 元信息,例如 标题数据,超链接的 锚文字信息等,而撰写网页的人员一般会把重要的信息添加上这些标签, 因此关系描述文本的选择 应该给予这些信息以更大的权重;另一方 面 且由于 文字风格差异明显,这也和小规模的数据集有很大差异。因此 以后的相关工作中对描述文本地选择也 进行进一步的关注, 35, 39将文档标题的文本和页面内其它实体也加入到描述文本中, 43则分析页面的时间信息作为一个新的维度加入到描述文本向量中。 我的工作中 不仅采用了共现页面的 内容,同时 将 共现文本作为查询词 投入搜索引擎,利用返回文档中抽取的部分文本作为关系描述文本的补充。这种方法对于 哪些因热门事件而在 明显帮助。综上所述,关系描述文本的选择对于从海量 今的研究仍没有一个完美的 文本筛选和扩展方法,因此我认为需要针对具体的数据集来 分别确定关系描述文本的 确定方法。 实体 关系 对 的 验证 2首次提出了一种有效的评价已发现关系对的质量的方法,这种方法较之前的特点在于它能够测量每个发现的关系对的置信度,而不是笼统的测量关系对集合的正确率。但这种做法只限于先确定关系类型再发现关系对的方法,它需要为每个关系类别 人工的定义一些“关系鉴别器”词汇。这 显然不适用于基于共现文本的关系发现方法。 因此在第二种先发现关系对在确定关系类型的方法中,如何评价发现的实体关系对的质量仍是一个未能解决的问题。具体的可以分为两类评测问题:实体关系对的精度和实体关系对的召回率。前者为每个发现的关系对是否属于该类别的置信度, 我认为可以利用一般分类、聚类算法的精度评测方法来量度,而这应该需要一个标注为正确的实体关系对集合,这应该需要一定的人工工作来解决; 而后者则是测量已发现的实体关系对占所有关系对的比例,这个问题更加复杂, 亟待 要解决的 就是如何确定所有的可能的实体关系类型,以及相对 应的所有实体关系对,这也引入了我们下面的一个问题难点。 实体关系体系的发现 在 57中将人物之间的社会关系进行了汇总,并对这些关系进行了分类,构建了人物关系的层次结构,但这样的工作是人工的,是否能够自动的构建这样的关系体系呢?如果能够构建这样的关系体系可以帮助进一步理解发现的关系内部之间的关系,可以回答已有的关系发现系统是否发现了所有可能的实体间关系。进一步分析,如果要求对从 要 定义、发现、并测量已有关系对之间的关系,一个关系间关系的例子如:朋友关系和好 友关系之间是关系的包含关系。现有的难点问题是如何定义这样的关系,如何测量这样的关系,并且该方法的扩展性、可评测性都是保证关系体系发现亟待解决的难点。 3. 根据 58的定义, 社会网络是指由一系列社会关系连接在一起的节点 (个体或组织 )的总和 ,社会网络中的个体和组织的经济行为不仅受其所处的总体社会环境的影响和制约,也受其在社会网络中所处的位置的影响。 它 一个结构化的网络系统,其中的节点一般是人物、机构或地点等,而其中的边是某种特定的关系,例如朋友关系、贸易关系或网络链接关系等。 以往的社会 网络分析工作一般是 利用 社会调查的数据 ,以 概率 统计的方法来 揭示整个网络的结果,预测网络的行为。 随着 的获取开销相比以往的社会调查要小得多,而其获得的数据量基本接近于 全体 数据集 。这些 优势为基于 供了广阔的发展空间。 最早的相关研究 59可以追溯到上个世纪 90年代初, 这时的工作还仅仅以 作的方法和以往的社会网络分析研究基本相同。 其后随着搜索引擎的发展 ,在 90年代中后期 利用搜索引擎的 社

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论