Web挖掘与信息抽取系统课件_第1页
Web挖掘与信息抽取系统课件_第2页
Web挖掘与信息抽取系统课件_第3页
Web挖掘与信息抽取系统课件_第4页
Web挖掘与信息抽取系统课件_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Web挖掘与信息抽取系统Web挖掘与信息抽取系统英国日用品零售商GUS需要准确预测未来的商品销售量,以便减少库存数量:借助数据挖掘技术,使库存成本比原来减少了3.8%英国日用品零售商GUS需要准确预测未来的商品销售量,以便减少汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户……使营销费用减少了30%汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价美国国防财务部需要从每年上百万的军火交易中发现可能存在的欺诈现象……发现可能存在欺诈的交易,节约了大量的调查成本美国国防财务部需要从每年上百万的军火交易中发现可能存在的欺诈发现商品组合销售规律,提高销售率发现商品组合销售规律,提高销售率我选择《货币战争》,当当又给我推荐《沉思录》、《资本战争》…我选择《货币战争》,当当又给我推荐《沉思录》、《资1Web挖掘1.1数据挖掘概述1.2Web挖掘方法1.3Web挖掘应用1.4Web数据挖掘系统1.5发展趋势1Web挖掘1.1数据挖掘概述1.1概述1.1.1数据挖掘定义狭义数据挖掘是知识发现(KDD)过程中的一个特定步骤,是用专门算法从数据中抽取模式,然后通过解释和评价转换成最终用户可理解的知识广义由于KDD的其他步骤对数据挖掘的运行性能和结果正确性影响很大,因此,通常所说的数据挖掘往往包括KDD的全过程。1.1概述1.1.1数据挖掘定义一般定义数据挖掘是从大量的、不完全的有噪声、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的以及最终可理解的模式的过程。特点有效性保证挖掘出来的信息的可靠性;新颖性要挖掘那些不能靠直觉发现的信息或知识潜在有用性发现的知识有实用价值和可实现最终可理解性发现的模式能被用户理解、接受、运用一般定义1.1.2数据挖掘涉及多学科领域数据库技术人工智能神经网络统计学模式识别知识库系统知识获取信息检索高性能计算可视化…1.1.2数据挖掘涉及多学科领域1.1.3数据挖掘一般过程数据收集:通过各种方式广泛收集用户的信息,建立必要的数据库与数据表,为数据挖掘做准备。数据处理:对收集到的信息进行诸如去噪等操作,从而确保数据能够真实反映待要挖掘的对象。数据变换:将经过去噪的数据进行一定的格式转换,使其适应数据挖掘系统或数据挖掘软件的处理要求数据挖掘:利用挖掘方法对数据进行分析,挖掘出需要的各种规则、趋势、类别、模型等模式评估:对发现的规则、趋势、类别、模型进行评估,从而保证发现的模式的正确性知识表示数据收集预处理格式转换数据挖掘模式评估知识表示1.1.3数据挖掘一般过程数据预格式数据模式知识1.1.4数据挖掘功能数据总结数据压缩分类模型发现学科分类聚类模型发现主题聚类发现研究热点关联规则发现如股市升降与突发事件的关联序列模式发现如DNA序列相似性发现依赖模型发现如发现A事件发生前一定有B事件发生异常和趋势发现等如:发现交易中的欺诈行为,或者根据主题词演变,发现学科研究走向等1.1.4数据挖掘功能1网络信息挖掘1.1数据挖掘概述1.2Web挖掘方法1.3Web挖掘应用1.4Web数据挖掘系统1.5发展趋势1网络信息挖掘1.1数据挖掘概述1.2Web挖掘1.2.1Web挖掘(WebDataMining)定义利用数据挖掘技术,自动地从网络文档以及服务中发现和抽取蕴涵的、未知的、有潜在应用价值的信息的过程。指从大量的Web文档集合C中发现隐含模式P的过程:C->P

1.2Web挖掘1.2.1Web挖掘(WebDataMi

Web挖掘与传统数据挖掘Web挖掘传统挖掘挖掘对象类型大量、异质、分布的Web文档。结构化数据。挖掘所得模式可能是关于Web内容的,也可能是关于Web结构的。关于内容的。预处理过程半结构或无结构数据,预处理过程复杂、重要。结构化数据,预处理简单。Web挖掘与传统数据挖掘Web挖掘传统挖掘挖掘对象大量、异Web挖掘与Web信息检索Web挖掘Web信息检索方法论随机的,其结果独立于用户信息需求,也是用户无法预知的。目标驱动的,用户需要明确提出查询要求目的帮助用户发现文档中隐含的知识。在于帮助用户发现资源着眼点试图更多地理解其内容和结构。着重于文档中显式存储的字词和链接;评价方法收益(Gain)置信度(Certainty)简洁性(Simplicity)精度(Precision)召回率(Recall)Web挖掘与Web信息检索Web挖掘Web信息检索方法论随机1.2.2Web挖掘分类Web内容挖掘Web结构挖掘Web使用挖掘

1.2.2Web挖掘分类Web内容挖掘什么是Web内容挖掘从网络的内容、数据、文档中发现有用信息的过程。网络信息资源由文本、图象、音频、视频等数据组成,因而Web内容挖掘是一种多媒体数据挖掘。挖掘策略利用搜索引擎技术直接挖掘文档的内容;在搜索引擎等工具处理基础上做进一步的处理,以便获得更为精确和有用的信息。面临问题挖掘算法效率和可扩展性问题信息遗漏及噪声数据的处理问题私有数据保护问题数据安全问题等Web内容挖掘什么是Web内容挖掘Web内容挖掘主要应用研究内容文本摘要文本分类文本聚类关联分析分布分析趋势预测Web内容挖掘主要应用研究内容Web内容挖掘文本摘要从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。有篇首截取法、上下文截抽取法、论题句抽取法、仿人法等。Web内容挖掘文本摘要Web内容挖掘文本分类文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。Yahoo!采用人工分类,大大影响了索引的页面数目。利用自动文本分类技术可以对大量文档进行快速、有效分类,大型搜索引擎都采用自动分类技术。Web内容挖掘文本分类Web内容挖掘文本聚类文本聚类是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大,而不同簇间的相似度尽可能地小。“聚类假设”与用户查询相关的文档通常会聚类得比较靠近,而远离与用户查询不相关的文档。意义利用文本聚类技术将搜索引擎的检索结果划分为若干个簇,用户只需要考虑那些相关的簇,大大缩小了所需要浏览的结果数量。Web内容挖掘文本聚类Web内容挖掘关联分析从文档集合中找出不同词语之间的关系。实例:有人提出一种算法,可以从大量文档中发现一对词语同时出现的模式,利用该算法可在Web上寻找作者和书名的出现模式,从而发现了若干本在Amazon网站上找不到的新书籍。以Web上的电影介绍作为测试文档,通过使用OEM模型从页面中抽取词语,进而得到一些关于电影名称、导演、演员、编剧的出现模式。从科技论文中挖掘主题词演变模式,发现学科发展趋势。Web内容挖掘关联分析Web内容挖掘分布分析指通过对文档的分析,得到特定数据在某个历史时刻的分布情况。实例:Feldman等人使用多种分布模型对路透社的两万多篇新闻进行了挖掘,得到主题、国家、组织、人、股票交易之间的相对分布情况。Web内容挖掘分布分析Web内容挖掘趋势预测指通过对文档的分析,得到特定数据将来的取值趋势。实例Wuthrich等人通过分析Web上出版的权威性经济文章,对每天的股票市场指数进行预测,取得了良好的效果。

Web内容挖掘趋势预测Web结构挖掘挖掘对象网站中超级链接结构之间的关系,它体现了文档之间的逻辑关系,与文档所处位置无关。目标找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对Web页面重新分类,用于寻找相似的网站,评价网站社会关系及其对应用影响。Web结构挖掘挖掘对象Web结构挖掘Web结构图G=(V,E)V是页面的集合,构成图的顶点;E是页面之间的超链集合,构成图的边。图形中,不仅顶点(页面)包含主题信息,而且,边(超链)也包含了大量潜在的语义,对它的分析构成了Web挖掘的重要内容,即结构挖掘。Web结构挖掘Web结构图Web结构挖掘结构挖掘的主要方法PageRank一个页面尽管没有被多次引用,但被一个重要页面引用,则这个页面很可能是重要的;一个页面的重要性被均分并被传递到它所引用的页面HITS衡量网页重要性有两个要素(ranking):权威级别(依赖于指向它的页面)、中心级别(依赖于它指向别人的页面)ARC基于主题相关性的挖掘,同时考虑锚点文字。CLEVER在计算网页权威度与中心度时,保留相关节点,裁剪无关节点。Web结构挖掘结构挖掘的主要方法Web使用挖掘挖掘对象用户网络交互过程中产生的数据如服务器访问记录、日志记录、用户对话或交易信息、用户提问式等。挖掘目的帮助人们理解用户行为和Web结构之间得关联;指导网站建设,改善网站服务效果。挖掘方法一般访问模式跟踪通过分析Web访问日志来理解访问倾向,获得Web结构信息及资源提供者分组情况。定制使用跟踪分析个人倾向,以便为每个用户定制符合其个人特色的web站点、资源以及信息呈现方式等。Web使用挖掘挖掘对象一个用户访问网络路线实例一个用户访问网络路线实例

网络信息挖掘网络内容挖掘网络结构挖掘网络使用挖掘信息检索观点数据库观点数据形式非结构化、半结构化半结构化、数据库形式的网站链接结构交互形式主要数据文本文档、超文本文档超文本文档链接结构服务器日志记录浏览器日志记录表示Bagofwords、n-grams、词、短语、概念或实体、关系型数据边界标志图(OEM)、关系型数据图形关系型表、图形方法TFIDF和变体、机器学习、统计学(包括自然语言处理)Proprietary算法、ILP、(修改后)的关联规则Proprietary算法机器学习、统计学、(修改后)的关联规则应用归类、聚类、发掘抽取规则、发掘文本模式、建立模式发掘高频的子结构、发掘网站体系结构归类、聚类站点建设、改进与管理、营销、建立用户模式

网络信息挖掘网络内容挖掘网络结构挖掘网络使用挖掘信息检索观1网络信息挖掘1.1数据挖掘概述1.2Web挖掘方法1.3Web挖掘应用1.4Web数据挖掘系统1.5发展趋势1网络信息挖掘1.1数据挖掘概述数据挖掘应用在金融领域中的应用观察金融市场的变化趋势,进行贷款偿付预测和客户信用分析;对用户群体进行识别和目标市场分析;左图是Altos做的实时价格指数与房价指数的关联分析,可为房地产、金融机构提供参考。数据挖掘应用在金融领域中的应用数据挖掘应用在电信业中的应用通过分析用户对电信服务的使用模式,划分用户群,使营销策略更有针对性;采用多维分析、聚类分析和孤立点分析等方法识别异常模式,追踪盗用行为;分析呼叫数据来规划和优化网络。数据挖掘应用在电信业中的应用数据挖掘应用在销售领域的应用有助于划分顾客群体,更精确地挑选潜在的顾客;识别顾客购买行为,发现顾客购买模式和趋势,通过关联分析更好地进行货架摆设;改进服务质量,获得更好的顾客忠诚度和满意程度。数据挖掘应用在销售领域的应用数据挖掘应用在医学中的应用DNA分析利用数据挖掘技术可以进行DNA序列间的相似搜索和比较,对同时出现的基因序列的相关分析,遗传研究中的路径分析等。数据挖掘应用在医学中的应用在搜索引擎中的应用对网页Links信息的挖掘,提高采集效率通过对网页内容挖掘,实现网页的聚类、分类、自动标引通过用户提问及操作历史记录分析,跟踪用户需求模型,提高用户的检索效果数据挖掘应用在搜索引擎中的应用数据挖掘应用情报研究—GoogleTrends情报研究—GoogleTrends情报研究—CNKI学术趋势情报研究—CNKI学术趋势其他应用银行:交叉销售分析百货公司/超市:购物篮分析

(关联规则)保险:交叉销售与客户流失原因分析信用卡:

欺诈探测电子商务:

网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析…数据挖掘应用其他应用数据挖掘应用1网络信息挖掘1.1数据挖掘概述1.2Web挖掘方法1.3Web挖掘应用1.4Web数据挖掘系统1.5发展趋势1网络信息挖掘NetpercerptionsNetPerceotion

公司的主要产品。它采用了一个叫做“实时建议”的技术,让它的产品对象(主要是网站)能够根据用户以往的浏览行为,找出与之相类似的行为,从而预测该用户后续的浏览操作,为用户提供个性化的浏览建议。由于是实时运行的,随着浏览量的增加,它会变得越来越“聪明”。NetpercerptionsNetPerceotionAccrue公司

Accrue

Insight和AccrueHitListAccrueInsight通过分析顾客的行为模式,帮助网站采取措施来提高顾客对于网站的忠诚度,从而建立长期顾客关系。

AccrueHitList是一个功能强大的Web报表分析工具,主要运用于市场分析、信息采集等方面。Accrue公司

AccrueInsight和Accru1网络信息挖掘1.1数据挖掘概述1.2Web挖掘方法1.3Web挖掘应用1.4Web数据挖掘系统1.5发展趋势1网络信息挖掘1.1数据挖掘概述发展趋势未来研究重点Web数据挖掘的内在机制研究及其实现Web知识库的动态维护、更新半结构、结构的文本数据、图形图像数据、多媒体数据的高效挖掘算法研究专门用于知识发现的数据挖掘语言及其标准化

关联规则和序列模式的应用研究发展趋势未来研究重点2信息抽取2.1信息抽取概述2.2与IE相关的研究活动2.3信息抽取类型2.4信息抽取系统介绍2.5信息抽取系统设计2.6信息抽取应用2信息抽取2.1信息抽取概述 ############NHSTRUST-PATIENTCASENOTE########:################

DOB:1944

CLEF-RMH-Entry-Key:52A4F6DB2B46EAB1992SeeninGeneralSurgical

ThisladywhohashadamastectomyandleftopencapsulotomyandremovalofherprosthesiswasseenbymeintheclinictodayonbehalfofXXXXXXXXXXX.Shehasextensivebonylymphoedemainherleftarmwhichdoesnotseemtobegettinganybetteralthoughsheismoreorlessreconciledtotheproblem.Theoriginalproblemwasthatshecomplainedofshootingpaininthedirectionofulnanerveandalthoughtheredoesnotseemtobeanyevidenceoflocal,regionalordistantrecurrencethepainitselfwarrantsmanagementinapainclinic.XXXXXXXXXcouldbeseeninthepainclinicattheXXXXXXXbutasthiswouldinvolvealotoftravellingwouldliketobetreatednearerherhome.IwonderwhetheritwouldbepossibleforyoutoinvestigateifthereisapainclinicavailableatXXXXXXXXXXXas

IamsureXXXXXcouldbetreatedandbenefitfromitsmanagement.Ihaveotherwisearrangedforhertobeseenintheclinicagaininayear'stime.Therearenosignsofrecurrence

atthistime.5213A4F612F1根据模版或相关的知识资源标识出重要的信息及其相关关系recurrencenosignsofrecurrencebony

lymphoedemashootingpaininthedirectionofulnanervepainInterventionsProblemsProblemSiteLocationsleftarmlocal,regionalordistantayear’stimetodayatthistimeTimepainclinicclinicpainclinicGeneralSurgicalpainclinicmastectomyleftopencapsulotomyremovalofherprosthesismanagementmanagement从文本中抽取关键信息 ############NHSTRUST收集抽取出的信息…InterventionsProblemsProblemSiteLocationsTimerecurrencenosignsofrecurrencebony

lymphoedemashootingpaininthedirectionofulnanervepainleftarmlocal,regionalordistantayear’stimetodayatthistimepainclinicclinicpainclinicGeneralSurgicalpainclinicmastectomyleftopencapsulotomyremovalofherprosthesismanagementmanagementrecurrencenosignsofrecurrencebony

lymphoedemashootingpaininthedirectionofulnanervepainleftarmlocal,regionalordistantayear’stimetodayatthistimepainclinicclinicpainclinicGeneralSurgicalpainclinicmastectomyleftopencapsulotomyremovalofherprosthesismanagementmanagementrecurrencenosignsofrecurrencebony

lymphoedemashootingpaininthedirectionofulnanervepainleftarmlocal,regionalordistantayear’stimetodayatthistimepainclinicclinicpainclinicGeneralSurgicalpainclinicmastectomyleftopencapsulotomyremovalofherprosthesismanagementmanagement也可跨越多个文档放射报告、病理学报告,或其它叙述性报告来自于药品或实验中的信息从文本中抽取关键信息收集抽取出的信息…InterventionsProblems自动实现相关事件的链接?Whathappened&why?Whatwasdone&why?InterventionsProblemsProblemSiteLocationsTimerecurrencenosignsofrecurrencebony

lymphoedemashootingpaininthedirectionofulnanervepainleftarmlocal,regionalordistantayear’stimetodayatthistimepainclinicGeneralSurgicalpainclinicmastectomyleftopencapsulotomyremovalofherprosthesismanagementpainclinicmastectomycaused_bybony

lymphoedemaevidence形成病历自动实现相关事件的链接?InterventionsProblCLEF-RMH-Entry-Key:52A4F6DB2B46E

Female66withradiationinducedleukaemiasince1931

Onsetage63.Thirtythreeappointmentstodate.

Problems:Aplasticanaemia,cataract,astheniaTx:imatinib

Meds:unclearHospitalEPREPRDrugsReferToolsHelpProtocol354StagingCTBPHaemChemImmuBactXrayECGUSS12.10.20Coryza:chestNAD:reassure

13.10.20URTI:wheezy:amoxycillin

20.10.20Anxiety:lumpunderarm:stagingscan

24.10.21PEFR:300:

10.11.21PEFR:400:CXRrequested

12.11.21CXRBasalConsolidation::erythromycin

27.11.21:Chestclear:

07.03.30Depression:recurrence:Paroxetine

19.04.30WCCOK

01.06.31::rptRxparoxetine

18.10.31PainLarm::coproxamol

03.03.31ViralURTI:PEFR350:salbutamol

04.03.34WCCAbnormal::

30.05.34:BP,ECGNAD:

ResultsLettersApptDrugs形成一个非常简短的病历摘要CLEF-RMH-Entry-Key:52A4F6DB2B46E

Female66withradiationinducedleukaemiasince1931

Onsetage63.Thirtythreeappointmentstodate.

Problems:Aplasticanaemia,cataract,astheniaTx:imatinib

Meds:unclear在首页上形成一个摘要只有通过许可的人才可看到人名等信息

CLEF-RMH-Entry-Key:52A4F6DB2B46EMariaSklodowska-Curie病历摘要CLEF-RMH-Entry-Key:52A4F6DB2B2.1信息抽取概述信息抽取(InformationExtraction,IE)信息抽取是一个输入/输出过程输入:未知文本信息输出:固定格式、无二意性数据(信息)这些被抽取出来的数据可以直接显示给用户存储于数据库或电子表格中以供随后分析被用于索引系统,以便于将来进行检索访问2.1信息抽取概述信息抽取(InformationExtr2.1信息抽取概述IE目标将信息点从各种各样的文档中抽取出来,以统一的形式集成在一起,形成结构化信息。信息抽取系统将把互联网变成巨大的数据库。IE特点并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,将由系统设计时定下的领域范围而定。IE系统关键组成部分是一系列的抽取规则或模式,其作用是确定需要抽取的信息。2.1信息抽取概述IE目标2.1信息抽取概述信息检索和信息抽取对比信息检索是从大量文献集(数据库)中找出相关子集的过程2.1信息抽取概述信息检索和信息抽取对比2.1信息抽取概述信息检索和信息抽取对比信息抽取是抽取真正适合用户的那些信息片段(相关事实),并提供给用户。2.1信息抽取概述信息检索和信息抽取对比2.1信息抽取概述与自动文摘、文本理解比较自动文摘和文本理解是广域的IE是特定域的(“特定”程度需要用户协助确定)2.1信息抽取概述与自动文摘、文本理解比较2.1信息抽取概述IE的历史信息抽取技术的前身是文本理解,即把握整篇文档的精确内容。文本理解系统通常只在很窄的知识领域范围内运行良好,向其他新领域移植的性能却很差。IE不求整篇理解,只求片断抽取。过去几年IE研究成果丰硕,英语和日语姓名识别的成功率达到了人类专家的水平。2.1信息抽取概述IE的历史2.1信息抽取概述评价指标IE技术的评测起先采用经典的信息检索(IR)评价指标,即回召率(Recall)和查准率(Precision),但稍稍改变了其定义。准确率P=抽出的正确信息点数/所有抽出的信息点数覆盖率R=抽出的正确信息点数/所有正确的信息点数.综合算法:其中是一个预设值,决定对P侧重还是对R侧重。通常设定为1。这样用F一个数值就可很看出系统的好坏2.1信息抽取概述评价指标2.1信息抽取概述信息抽取分类结构化文本抽取半结构化文本抽取自由式文本抽取2.1信息抽取概述信息抽取分类2.1信息抽取概述结构化文本的抽取结构化文本是一种数据库里的文本信息,或者是根据事先规定的严格格式生成的文本。从这样的文本中抽取信息是非常容易的,准确度也高,通过描述其格式即可达到目的。2.1信息抽取概述结构化文本的抽取2.1信息抽取概述半结构化文本的抽取自然语言理解方法、结构化文本抽取方法对半结构文本不一定有效,抽取模式通常依赖字符和象html标记那样的分隔标志,句法和语义信息的作用则非常有限。2.1信息抽取概述半结构化文本的抽取2.1信息抽取概述自由式文本的抽取从自由文本中析取有限的信息。例如,从报道恐怖袭击活动的新闻中析取袭击者、所属组织、地点、受害者等信息。处理自由文本的IE系统通常使用自然语言处理技巧,其抽取规则主要建立在词或词间句法关系基础之上。处理步骤句法分析、语义标注、专有对象的识别(如人物、公司)和基于规则的抽取。2.1信息抽取概述自由式文本的抽取2.2与IE相关的研究活动MUC(MessageUnderstandingforComprehension)MET(MultilingualEntityTaskEvaluation)ACE(AutomaticContentExtraction)DUC(DocumentUnderstandingConferences)2.2与IE相关的研究活动MUC

(MessageUnderstandingforComprehension)起源20世纪80年代未由美国国防部DARPA(DefenseAdvancedResearchProjectsAgency)发起。含义MUC之于IE,正如TREC之于IRMessageUnderstandingConferenceMessageUnderstandingCompetitionMUC

(MessageUnderstandingforMUC

(MessageUnderstandingforComprehension)MUC目标对自由文本进行分析,标识出某一特定类型的事件,并将有关这一事件的信息填写到相应的数据模板中。MUC测试对电子邮件信息的抽取对新闻文章信息抽取,主题涉及恐怖活动、国际风险投资、企业成功管理经验等。MUC作用对信息抽取技术方法研究以及系统评价等都起到重要的促进作用。MUC

(MessageUnderstandingforMET

MultilingualEntityTaskEvaluation起源也是DARPA发起的一个测评项目。主要是对日语、汉语以及西班牙语等多语种新闻文献进行命名实体抽取。MET-1和MET-2测试分别于1996年和1998年进行。MET

MultilingualEntityTaskEACE

AutomaticContentExtraction起源这一项目由美国国家安全局(NSA),美国商务部技术管理部门(NIST),以及中央情报局(CIA)一同主管。关注三种信息内容抽取:网络上在线新闻通过ASR(自动语音识别的)得到的广播新闻通过OCR(光学字符识别)得到的报纸新闻两个目的:希望在自动化内容抽取基础之上,为链接分析、自动摘要等打下基础。抽取相应信息提供给分析师,提高信息分析能力。ACE

AutomaticContentExtractiDUC

DocumentUnderstandingConferences起源是在DARPA的TIDES(TranslingualInformationDetection,Extraction,andSummarizationprogram)基础之上发起的一个对“文本概括”进行研究测评的项目。会议已经进行了DUC01-07,DUC2008在规划之中系统测评会议由美国商务部技术管理部门NIST管理DUC

DocumentUnderstandingCon其他研究机构国外研究机构有新加坡肯特岗数字实验室英国谢菲尔德大学计算机系美国BBNTechnology公司……国内研究机构台湾国立大学中科院自动化研究所模式识别国家实验室清华大学北京大学微软亚洲研究院

Intel中国研究中心…….其他研究机构国外研究机构有2信息抽取2.1信息抽取概述2.2与IE相关的研究活动2.3信息抽取类型2.4信息抽取系统介绍2.5信息抽取系统设计2.6信息抽取应用2信息抽取2.1信息抽取概述信息抽取类型MUC根据信息抽取内容以及所抽取出的信息的集聚水平,将信息抽取分为以下几种主要类型:NE(NamedEntityRecognition):命名实体识别MET(Multi-lingualEntityTask):多语种实体识别TE(TemplateElement):模板元素信息抽取CO(Coreference):参照信息抽取TR(TemplateRelation):模板关系信息抽取ST(ScenarioTemplate):情节模板信息抽取信息抽取类型MUC根据信息抽取内容以及所抽取出的信息的集聚水NE(NamedEntityRecognition)命名实体识别NE是最为基础的信息抽取类型,它需要系统能够识别出实体名,并将相应实体名进行归类。MUC测评可识别、抽取人名、组织名、日期、时间、地点、货币数量、百分数等,并在文本中对这些信息进行标注。NE具有非常直接的实用价值,它支持对文档中命名实体信息的检索。NE(NamedEntityRecognition)命名NE(NamedEntityRecognition)

命名实体识别TheshinyredrocketwasfiredonTuesday.ItisthebrainchildofDr.BigHead.Dr.HeadisastaffscientistatWeBuildRocketsInc.NE:entitiesare"rocket","Tuesday","Dr.Head"and"WeBuildRockets"NE(NamedEntityRecognition)

命MET(Multi-lingualEntityTask)

多语种实体识别MET除了能够对英文命名实体进行识别之外,还能够对多语种的命名实体进行识别,例如可以对中文、日文或西班牙文进行命名实体识别。MET(Multi-lingualEntityTask)TE(TemplateElement)

模板元素信息抽取TE将特定的描述信息与实体联系起来。它需要从文本的任何地方将与组织、人物或其它实体相关的基本信息抽取出来,并将这些信息作为实体的属性进行聚集,形成实体对象。在MUC评测中,TE系统需要能够从文本中抽取特定类型的实体信息,并将这些信息填写到预先定义的属性模板中。例如对人物实体的模板元素抽取,需要信息抽取系统能够抽取出预先定义的人物的名称、职务、国籍等属性。TE(TemplateElement)

模板元素信息抽TE(TemplateElement)

模板元素信息抽取TheshinyredrocketwasfiredonTuesday.ItisthebrainchildofDr.BigHead.Dr.HeadisastaffscientistatWeBuildRocketsInc.NE:entitiesare"rocket","Tuesday","Dr.Head"and"WeBuildRockets"TE:therocketis"shinyred"and“Dr.Head'sbrainchild”.TE(TemplateElement)

模板元素信息抽CO(Coreference)

参照信息抽取CO涉及在进行NE或TE任务时,从文本中标识出对同一实体的不同表达方式。例如连接某同一实体的不同称谓。GeorgeW.Bush,USPresident将某一名词和其相应的代名词进行连接。CO(Coreference)

参照信息抽取CO涉及在进CO(Coreference)

参照信息抽取CO可以将散布在文本中不同地方的同一实体的描述信息连接起来。分析实体在文本中不同地方出现的情况,以及分析实体在不同场合与其它实体之间的关系有助于情节信息的抽取。在MUC中,CO之所以得到重视,是因为它能够为创建TE和ST(见下文)打下基础。CO(Coreference)

参照信息抽取CO可以将散CO(Coreference)

参照信息抽取TheshinyredrocketwasfiredonTuesday.ItisthebrainchildofDr.BigHead.Dr.HeadisastaffscientistatWeBuildRocketsInc.NE:entitiesare"rocket","Tuesday","Dr.Head"and"WeBuildRockets"TE:therocketis"shinyred"andHead's"brainchild".CO:"it"referstotherocket;"Dr.Head"and"Dr.BigHead“arethesameCO(Coreference)

参照信息抽取TheshiTR(TemplateRelation)

模板关系抽取TR需要在TE的基础之上标识出模板元素之间的关系。TR是MUC-7定义的一项新任务,需要抽取模板元素之间的相互关系。例如:职员和组织之间的关系(employee_of)产品和生产企业之间的关系(product_of)以及公司和地区之间的关系(location_of)…TR(TemplateRelation)

模板关系抽取TR(TemplateRelation)

模板关系抽取TheshinyredrocketwasfiredonTuesday.ItisthebrainchildofDr.BigHead.Dr.HeadisastaffscientistatWeBuildRocketsInc.NE:entitiesare"rocket","Tuesday","Dr.Head"and"WeBuildRockets"CO:"it"referstotherocket;"Dr.Head"and"Dr.BigHead“arethesameTE:therocketis"shinyred"andHead's"brainchild".TR:Dr.HeadworksforWeBuildRocketsInc.TR(TemplateRelation)

模板关系抽ST(ScenarioTemplate)

情节模板ST抽取某一事件中的事件信息,并将事件信息与某个组织、人物或其它实体相关联。ST需要标识出特定事件及事件的相关属性,包括将事件中的各个实体填充到事件的相应角色中,通过各个对象之间的关系,能够还原出整个事件的“原型”。主要研究点在于模板的获取专家针对不同领域手工写模板自动获取模板(主流研究方向)ST(ScenarioTemplate)

情节模板STST(ScenarioTemplate)

情节模板TheshinyredrocketwasfiredonTuesday.ItisthebrainchildofDr.BigHead.Dr.HeadisastaffscientistatWeBuildRocketsInc.NE:entitiesare"rocket","Tuesday","Dr.Head"and"WeBuildRockets"CO:"it"referstotherocket;"Dr.Head"and"Dr.BigHead“arethesameTE:therocketis"shinyred"andHead's"brainchild".TR:Dr.HeadworksforWeBuildRocketsInc.ST:arocketlaunchingeventoccurredwiththevariousparticipants.ST(ScenarioTemplate)

情节模板Th主要内容2.1信息抽取概述2.2与IE相关的研究活动2.3信息抽取类型2.4信息抽取系统2.5信息抽取系统设计2.6信息抽取应用主要内容2.1信息抽取概述2.4.1GATE简介GATE是UniversityofSheffield承担的信息抽取项目。是纯Java语言的开源软件。支持对XML、RTF、Email、HTML、SGML以及纯文本文档类型信息的抽取。Gate项目认为,典型的信息抽取包括三个过程:预处理过程命名实体探测过程事件探测过程2.4.1GATE简介GATE信息抽取过程第一步:预处理文本格式的检查(FormatDetection)特征标记(Tokenisation)分词(WordSegmentation)句法分割(SentenceSplitting)语法标记(POStagging)等预处理后将文本分解成为有一定语言意义的语言片段,并对这些语言片段进行标记,使文本能够被转换成为更易于被信息抽取系统处理的模式。GATE信息抽取过程第一步:预处理GATE信息抽取过程第二步:命名实体探测借助辞典实现人物、组织、地点、时间等命名实体的探测。辞典中也可能会包括一些相应的指示词(如Ltd.提示公司名称)用以指示相应的实体内容。语义标记。如ANNIE系统通过JAPE书写的规则,能够对实体进行更深入的语义标注。实体关联。通过参照实现实体之间的联系。GATE信息抽取过程第二步:命名实体探测GATE信息抽取过程第三步:事件探测在命名实体探测基础上,抽取某一事件中的事件信息并将事件信息与某个组织、人物或其它实体相关联,构造出事件的概貌。完成句法分析、模板填充、模板合并、模板关联和事件探测等。

GATE信息抽取过程第三步:事件探测GATE命名实体探测GATE命名实体探测GATE信息抽取流程GATE信息抽取流程英文信息抽取相对成熟GATE对中文信息抽取的支撑不足NSL等在GATE基础之上,开发出了一个支持中文信息抽取的系统,初步解决了中文信息抽取问题。2.4.2中文信息抽取系统英文信息抽取相对成熟2.4.2中文信息抽取系统初步解决中文信息抽取2.4.2中文信息抽取系统初步解决中文信息抽取2.4.2中文信息抽取系统三个中文信息抽取的主要问题ChinesetokenizingChinesegazetteersChinesenamedentityrecognition2.4.2中文信息抽取系统三个中文信息抽取的主要问题2.4.2中文信息抽取系统相应的处理方案中文信息抽取ChiTokenizingChiIEChiGazetteer应用实验应用实例ChiRules用Java的JNI调用计算所ICTCLAS实现分词和词性标注。通过网上免费语料或自己制作获得。(目前已有英文词表95个;中文词表74个)重新构造中文IE的JAPE规则。和现有信息系统结合,比如RSS信息聚合系统。基于GATE的英文、中文信息抽取,开发ChineseAnnie组件。相应的处理方案中文信息抽取ChiTokenizingChi2.4.3其他IE系统KIMArtEquAKTAmilcareArmadilloBioRATANP(ArizonaNounPhraser)DELOS

WP5:KnowledgeE

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论