北邮徐蔚然教授信息工程导论课件-信息抽取与信息检索2015_第1页
北邮徐蔚然教授信息工程导论课件-信息抽取与信息检索2015_第2页
北邮徐蔚然教授信息工程导论课件-信息抽取与信息检索2015_第3页
北邮徐蔚然教授信息工程导论课件-信息抽取与信息检索2015_第4页
北邮徐蔚然教授信息工程导论课件-信息抽取与信息检索2015_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学模式识别实验室信息抽取与信息检索

徐蔚然信息时代的机遇和挑战信息检索信息抽取机器学习主要内容信息时代的机遇和挑战信息检索信息抽取机器学习主要内容信息技术革命(第三次技术革命)250年前,发明蒸汽机工业革命100年前,电磁场理论,发现电子电气革命50年前,发明计算机,信息数字化信息革命信息时代的机遇和挑战4-1

我们生活在大变革的时代生活方式的改变送别、信件、娱乐学习方法的改变图书馆、互联网、MOOC工作方式的改变信息行业、SOHO社会的改变经济全球化信息时代的机遇和挑战4-2

信息时代改变了我们给我们带来革命的基盘技术是什么?IBM PC机硬件微软

软件Netscape 浏览器Yahoo 门户网站Google/百度

搜索引擎Twitter/新浪微博

微博

Facebook /腾讯

社交网络服务网站……信息时代的机遇和挑战4-3

信息时代的机遇信息技术内容处理技术文本信息处理技术未来技术的畅想:新的Google/百度是什么样?白手起家到身价千亿集中在IT行业从硬件到软件从信息到内容从内容的传输到内容的处理传输技术/网络技术的发展和成熟内容处理的挑战最有代表性的内容处理问题:语言文字语言文字专门用来传递信息和承载知识与人类的智能密不可分大数据时代的技术瓶颈互联网有我们需要的海量

信息和知识,但是我们找

不到它们。信息时代的机遇和挑战4-4

文本信息处理技术信息时代的机遇和挑战信息检索信息抽取机器学习主要内容什么是信息检索信息检索的方法:怎样构建自己的Google或百度搜索引擎中科院研究生院2011年度秋季课程10中科院研究生院2011年度秋季课程11中科院研究生院2011年度秋季课程12四个应用例子的共同特征给定需求(或者是对象),从信息库中找出最匹配的信息(或对象)信息检索:什么是信息检索查询请求信息库返回结果传统图书检索系统书名=“现代信息检索”收录图书数据库数目列表谷歌搜索引擎“现代信息检索”互联网网页数据库网页列表卓越-亚马逊(淘宝)“天王表LS3522S(黑色)”商品数据库商品列表世纪佳缘网“白富美”交友数据库人员列表信息检索是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。信息检索:什么是信息检索14索引

数据集信息需求查询结果列表检索系统检索fromJian-YunNie信息检索系统给定:索引数据集合+用户查询请求查找:相关的数据列表信息检索:什么是信息检索15索引

数据集信息需求查询结果列表检索系统检索fromJian-YunNie谷歌或百度的原理?构建自己的全文搜索引擎信息检索:什么是信息检索16索引

数据集信息需求查询结果列表检索系统检索Web爬取索引Nutch/about.html

Java开源Web爬虫和搜索引擎谷歌或百度的原理?构建自己的全文搜索引擎信息检索:信息检索中的关键问题和方法文档数据集查询结果列表内容表示内容表示查询表示文档表示相似度计算数据索引SlideisfromJimmyLin’stutorial爬取Crawling内容表示Representation数据索引Indexing相似度计算Retrieval系统评价Evaluation信息检索:信息检索中的关键问题和方法目标表示出文档的内容和语义,方便于信息的查找考虑因素准确表达文本的语义全面覆盖文本全部内容方便计算机处理主要方法向量空间模型(VectorSpaceModel)词袋模型(BagOfWords):忽略文档的词语顺序和语法、句法等要素,仅将其看作是若干个词汇的集合。TF(词频):一个词在一篇文档中出现的次数DF(文档频率):全部文档集合中包含该词的文档数IDF:ID的倒数信息检索:文档和查询的内容表示信息检索:文档和查询的内容表示信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。信息检索

起源

图书馆

参考

咨询

文摘

索引

工作

从19世纪

下半叶

首先

开始

发展

至20世纪40年代

索引

检索

成为

图书馆

独立

工具

用户

服务

项目分词去标点基于TF-IDF的词袋模型特点:频率高的词权重大问题:这次词能代表这篇文档吗?词典TF191201401参考1成为1从1的2独立1发展1服务1工具1工作1和3检索1开始1年代1起源1世纪2首先1索引2图书馆2文摘1下半叶1项目1信息检索1已1用户1于1至1咨询1TF*IDF10.010.010.05.05.02.55.05.05.05.05.05.07.510.05.05.05.010.03.320.020.010.05.05.010.02.53.33.33.35.0DF0.10.10.10.20.20.40.40.20.20.20.20.20.40.10.20.20.20.20.30.10.10.10.20.20.10.40.30.30.30.2一篇文档TF-IDF权重的向量查询的内容表示理想的查询:一篇文档实际的查询:几个词方法查询扩展:扩展出相关词例如,查询词=马航扩展词=MH370,客机,失联,波音777,......生成词向量[与文档表示方法一样]

TF-IDF权重的词向量信息检索:文档和查询的内容表示问题海量数据:谷歌,百度这样大型的商业搜索引擎索引都是亿级甚至几千亿的网页数量。针对一个查询,如何快速找到包含查询词的文档?毫秒级时间方法对文档建立倒排索引(InvertedIndex)记录每个词条在哪些文档中出现过信息检索:倒排索引(InvertedIndex)信息检索:倒排索引(InvertedIndex)ThisisasampledocumentwithonesamplesentenceDoc1ThisisanothersampledocumentDoc2词典倒排索引项TermDFTFThis22is22sample23another11………DocidFreq11211121122121…………SlideisfromChengXiangZhai问题索引数据集合:已经表示成词向量集合,记为{Di}

用户查询请求:已经表示成词向量,记为Q查找:相关的数据列表关键问题:计算Di与Q的相似度,排序给出最相关的结果相似度计算余弦相似度信息检索:

检索查询θDiQ系统评价系统效率和效果怎么样。效率时间:算法速度空间:存储资源,计算资源效果检索到的文档是否相关?查准率(精度precision)所有相关文档是否都找到了?查全率(召回率recall)信息检索:系统评价开源搜索引擎平台面向研究卡耐基-梅隆大学的Lemur

和Indri

面向应用LuceneXapianSphinx信息检索:搭建自己的搜索引擎信息时代的机遇和挑战信息检索信息抽取机器学习主要内容谷歌和百度是否足够?信息检索功能:从文档集中找到最相关的文档。是否有正好符合需求的文档?能不能让计算机把相关信息自动搜集整理起来,一起提供给用户?信息抽取:什么是信息抽取信息抽取(Informationextraction,IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。例如:从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方、治疗结果等等。信息抽取:什么是信息抽取信息检索(IR)与信息抽取(IE)信息检索从文档集中找到相关的文档。用户必须从找到的文档中翻阅自己所要的信息。相关理论:信息论,概率论,统计学技术相对成熟信息抽取从文档集中提取相关的信息。相关理论:计算语言学,自然语言处理技术,机器学习技术不成熟两者联系满足不同层次的信息需求,逐渐结合。信息抽取:什么是信息抽取习近平奥巴马苹果公司苹果水果乔布斯习近平奥巴马苹果公司北京国家主席乔布斯命名实体识别(NamedEntityRecognition)识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。信息抽取:信息抽取的研究问题命名实体识别人名地名组织机构名知识库共指消解语义消岐实体链接关系抽取确定实体之间的关系,包括隐含的关系和明确的关系。信息抽取:信息抽取的问题习近平奥巴马苹果公司苹果水果习近平苹果公司国家主席知识库乔布斯乔布斯奥巴马北京创建关系知识库填充苹果公司创建人:创建时间:子公司:主要产品:…….关系抽取事件检测抽取出新闻报到中的各种事件,提取出每个事件的关键信息(动态信息的提取)恐怖袭击:时间、地点、作案者、受害者、袭击目标、使用的武器等;自然灾害:时间、地点、事件原因、人员伤亡、财产损失;倾向判断对某一人物、商品和事件的态度淘宝商品的倾向抽取信息抽取:信息抽取的问题手工模板(某人)创建了(某个组织)机器学习监督学习:支持向量机半监督学习:bootstrapping信息抽取:信息抽取的主要方法机器学习要解决什么问题?信息抽取:机器学习简介学习数据物理观测数据学习算法问题模型(函数)物理理论学习过程完成学习怎样评价学习的好坏?理论模型的好坏?预测能力推广能力最简单化解释数据能力问题模型(函数)物理理论例:是否有上帝?信息抽取:机器学习简介物理理论预测能力推广能力最简单化上帝论物理理论+上帝论解释数据能力强较强较强较强较强强较强较简单很弱很弱很复杂很复杂信息抽取的难度将依赖与机器学习的方法解决。涉及文本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论