版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息检索我们所使用的Web搜索系统TheWebWebspiderIndexerIndexesSearchUser我们将学到什么内容?基本内容信息检索概述及评价信息检索模型检索的改进信息过滤Web信息检索高级话题文本分类和聚类问答系统及自动文摘信息检索的概述在这一部分我们将了解到:信息检索概念及意义信息检索体系结构历史、现状与困难发展趋势国内外主要搜索引擎信息检索的应用信息检索的概念及意义信息检索定义信息检索:从非结构化的文档集中找出与用户需求相关的信息和其它相关技术的区别和数据库的区别数据库是结构化数据,IR的检索结果也往往是不精确的,而不象数据库查询那样正确率一定是100%。和情报检索的区别情报检索介绍如何利用信息检索工具典型的信息检索任务给定条件自然语言的文档集合用户的提问(Query)查找结果和query相关的经过排序(Rank)的文档子集信息检索任务进一步划分为:信息或数据的检索和浏览拉出(pulling)行为集合中的文献相对静止信息过滤信息过滤的变通方式-路由选择推送(filtering)行为用户查询相对静止用户需求:Query及Profile形式关键词带布尔操作的关键词自由文本事例文档...信息检索样例信息过滤(推送)样例信息检索系统IRSystemQueryStringDocumentcorpusRankedDocuments1.Doc12.Doc23.Doc3..信息检索处理的对象非结构化数据文本数据:新闻、科技论文等网页:HTML、XML多媒体数据:图像、视频、图形、音频目前最主要的处理对象是互联网文字图片基于内容的图像查询
基于内容的图像查询:目标,颜色,纹理图像数据库/互联网用户的提问查询搜索引擎基于文本的图像查询信息存在的形式在非结构化信息中,包括文本信息和多媒体信息以文本检索方式为主,例如:目前Google的图片检索技术采用的是利用图片周围的文字信息进行的大多数信息都是文本形式的,没有预先定义的格式(例如:邮件、新闻等)在企业信息化领域,有人统计认为80%的信息是非结构化的在信息管理向知识管理转变的过程中,文本信息非常关键信息检索的重要性由信息匮乏到信息爆炸,需要有效的检索方式传统管理软件需要嵌入IR技术在SQL数据库中已采用文本检索技术select*fromEmployeewhereNamelike’%Lee%’.在LotusNotes办公平台上同样也已采用文本检索技术互联网数据的增长和在线文档(如联机用户手册等)的增长,向IR技术提出迫切需求检索无处不在智能计算:从人机交互到内容管理人机交互解决信息录入和呈现的问题在大量信息进入虚拟世界以后,更重要的问题在于如何对这些信息资源进行有效的管理使用户能够方便快捷地找到想要的信息使信息保值增值产生新知竞争不在于拥有多少信息,而在于能够利用多少有价值的信息,因此内容管理至关重要信息检索系统体系结构信息检索系统的体系结构文本数据库数据库管理建索引索引查询操作搜索排序排序后的文档用户反馈文本操作用户界面检出的文档用户需求文本提问逻辑视图倒排文档分词删除停用词Stemming(提取词干)为文档建立倒排索引表根据倒排索引表检索出与提问相关的文档将检索出的文档根据相关性排序Query输入和文档输出相关反馈结果的可视化对query进行变换,以改进检索结果Web搜索将IR技术应用于WorldWideWeb上的HTML网页和纯文本相比,网页的特点如下:必须通过在网上“爬行”搜集网页可以开发结构布局信息文档的更新是不可控的可以开发网页之间的链接结构Web搜索系统提问IR系统排序后的文本1.第1页2.第2页3.第3页
..文档语料库WebSpiderIR的历史与现状IR的历史1960-70’s:最初的信息检索系统面向小型的科学文摘数据库、法律和商业文档检索模型为基本的布尔模型和向量空间模型CornellUniversity的Prof.Salton和他的学生成为这个领域的先驱IR历史1980’s:IR技术出现在大型文档数据库中Lexis-Nexis美国LEXIS-NEXIS公司创始于1973年,其数据库内容很广,其中法规法律方面的数据库是LEXIS-NEXIS的特色信息源,具有非常大的影响力,尤其在法律业界具有很高知名度Dialog目前世界上最大的联机检索检索系统之一,包括各学科数据库600多种,可查询研究动态,SCI,EI收录以及专利等情况MEDLINEMEDLINE是美国国家医学图书馆的文献数据库IR历史1990’s:在互联网上进行对FTP文档进行搜索ArchieArchie是Internet上用来查找其标题满足特定条件的所有文档的自动搜索服务的工具。WAIS代表“广域信息服务”(WideAreaInformationService)。Wais作为Internet一项服务,是唯一由三个商业公司(Apple、ThinkingMachines和DowJones)启动的研究计划促成的服务。IR历史1990’s(续):在WorldWideWeb上进行搜索Yahoo雅虎成立于1994年,是网上最老的“分类目录”,也是目前最重要的搜索服务网站,在全部互联网搜索应用中所占份额高达36%左右。AltavistaAltaVista是网上最早的爬行搜索引擎。AltaVista搜索技术从纯文本搜索技术开始,发布于1995年;1997年,其搜索能力扩展到25种语言搜索;1999年开始多媒体文件的搜索;2001年首次推出网上免费新闻搜索,2003年AltaVista被Overture收购。
IR历史1990’s(续):有组织地进行评测美国标准与技术研究所NIST和国防部高级研究规划局DARPA共同发起TREC,1992年开始智能推荐系统(个性化推荐,良好的互动性,适应性)RingoAmazon(亚马逊网络售书)NetPerceptions自动文本分类和聚类系统IR历史2000’s为Web搜索服务的链接分析Google自动信息抽取WhizbangFetchBurningGlass问答系统TRECQ/Atrack近期的IR2000’s:多媒体IR图像(Image)视频(Video)声音(speech)和音频(Audio)音乐(music)跨语言检索Cross-LanguageIRDARPATides项目智能化、个性化IR互联网发展状况中国互联网信息中心(CNNIC)于2005年7月发布的第16次《中国互联网络发展状况统计》国内上网用户已达1.03亿用户经常使用的网络服务/功能:电子邮箱(91.3%)浏览新闻(79.4%)搜索引擎(64.5%)搜索引擎是用户在互联网上获取信息的最常用的方法(58.2%)IR的困难难点所在分析技术亟待更新,否则很难有质的突破很难获取非结构化文本的语义信息“select*fromEmployeewhereSalary>100,000”“找出所有关于公司购并的新闻”“找出所有和互联网公司购并相关的新闻”上述三个问题,一个比一个难资源检索是在非受限域(unrestricteddomains)文档集上进行的很难对文档的类别事先定义或分类难点所在(续)用户不同的用户基础提问的意图、文档的意图均很难捕获不断有新的需求提出(搜索引擎的第2维,第3维)用户的耐心不足系统网页是分布式的和相互连接的从什么地方开始搜索?信息是如何相互关联的?效率(efficiency)和效果(effectiveness)在有限的资源内,只能把效率和效果提高到有限的水平提高效率常常损失效果,反之亦然新的资源和需求刺激新的技术突破新的信息资源
Document->page,blog,Webimage,…新的媒体类型Text->image,video,speech,music,map,…新的架构Plaintextfile->hypertext,P2P,semanticWeb,…新的应用Crawler,emailspamfilter,MP3search,mobilesearch,…主要的冲击已不再来自于IR技术的突破Web搜索的事实是怎样的?短的query英文:2.35words(Altavista,1998)中文:3.55chars(1999)偏精确率的检索用户常常浏览第一页的结果每个查询的词数:ReferenceAmandaSpink&BernardJ.Jansen(2004).WebSearch:PublicSearchingoftheWeb.Springer.
每个用户的查询次数:
每个用户查询的网页:可以看到:QueryDocumentSimilarityAhugenumberofpageswithmatchedquerytermsontheWebQuery=“informationretrieval”经过文本相似度计算获得的排序对于短Query有些力不从心,导致检索结果不尽人意短
Query&检索
QueryDocumentQuerySpaceDocSpaceSimilarityQuery=“informationretrieval”用户需求&文档的权威性QueryDocumentQuerySpaceDocSpaceSimilarityConcept:“IRbook““IRsystems”,“SIGIRWebsites”Authority:
Query=“informationretrieval”RepresentativeIRbook传统
IR的通常包含这样的假定
Query
较长
TREC对主题(查询)描述平均15个词评价考虑精确率和召回率对前1000个返回结果计算平均精确率和召回率多数检索系统是基于关键词的搜索最简单的概念就是关键词在文档中逐字出现稍微严格一点的定义是:提问中的关键词在文档中频繁出现,并且不考虑顺序基于关键词搜索存在的问题可能找不到同义词“PRC”vs.“China”“电脑”vs.“计算机”可能检索到一些不相关的多义词“bat”(baseballvs.mammal)“Apple”(companyvs.fruit)保安(地名vs.保护安全的人员)解决方案:智能信息检索考虑词汇的意义(meaning)考虑词汇的顺序(order)根据直接或间接的反馈适应用户的需求考虑信息来源的权威性(authority)用户体验:检索结果的呈现检索结果的表现Web检索结果是很长的列表,用户很难在概念层浏览结果检索结果分门别类信息进一步优化DEFBooksTools新课题——检索结果聚类检索结果聚类检索结果聚类从呈现形式到内容的变化——聚类文档的内容整合信息抽取美国科学家目前正在研究一种新型“搜索引擎”—搜得,表示它能像拖网一样“捞到”所需资料网页,然后以目录表格形式将其进行整理信息融合单文档文摘多文档文摘发展趋势发展历程以雅虎初期为代表的第一代搜索引擎以人工目录分类为基础的网站搜索开辟了一个时代第一代搜索引擎指主要依靠人工分拣的分类目录搜索,这种方式是被动的搜索,更新慢、搜索能力不足第一代搜索引擎基本上已经退出搜索舞台。发展历程以Google为代表的第二代搜索引擎以超链分析技术为基础的大规模网页搜索,根据关键词的分布情况对页面进行分类和排序优点:只要网页上出现了某个关键词,就能够使用全文检索用关键词匹配把该网页查出来不足:返回的无用信息太多原因:仅采用机械的关键词匹配来实现信息检索的目标全:互联网数据搜索的范围更广泛准:数据定位更准确快:用户应用更简洁便利,个性化,智能化信息检索信息检索数据库并行处理网络信息安全数据挖掘自然语言处理知识管理操作系统图像、视频、语音下一代搜索引擎由相关性检索向智能化检索过渡海量信息的存储,解析,索引应用新的搜索工具,搜索任意关联因素根据关键词所在的网块位置,自动调整网页的重要性与呈现的优先级优化查询结果由互联网搜索向互联网挖掘过渡数据挖掘智能搜索引擎以自然语言理解技术为基础的新一代搜索引擎,我们称之为智能搜索引擎由于它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等允许用户采用自然语言进行信息的检索,为用户提供更方便、更确切的搜索服务。一般包括人工智能、模式识别、语义分析、神经网络等智能搜索
新的
IR主题
搜索行业的主题Web搜索,移动搜索,垃圾邮件过滤,垂直搜索,元搜索,…其他行业的主题
多媒体检索(Multimedia)文本挖掘(DataMining,NLPapplications)数字图书馆DigitalLibrarySIGIR(情报检索专业)主题基于语言模型的信息检索,问答系统,跨语言信息检索,话题检测与跟踪,检索结果聚类,…元搜索引擎-信息中介元搜索引擎(Meta-searchengine)是在前述搜索引擎基础上建立的可以同时查询多个搜索引擎的WWW站点,其英文原意是搜索引擎之后或之上的搜索引擎,因而也可以叫做后搜索引擎元搜索就是本身并不存储网页数据,只是提供一个接口,针对用户的搜索关键字在其他搜索引擎中获取结果,再对结果进行加工处理最后将结果显示给用户.按照搜索机制划分,元搜索引擎包括并行式和串行式两类元搜索引擎依赖其他独立搜索引擎而存在,可以收到事半功倍的效果,但是会惹上官司
垂直搜索垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。
垂直搜索Google宗旨是尽快让用户离开google,垂直搜索应该是粘住用户方式的变化,检索方法没有质的变化垂直搜索实例奇虎酷讯(KOOXOO)国内外主要搜索引擎中国搜索引擎市场
关于搜索引擎的新闻2003年底以前,中国搜索引擎市场的格局是:雅虎和Google都提供中文搜索服务,但没有正式进入中国。中国本土的搜索引擎服务商主要是百度、3721、中国搜索(慧聪搜索)。然而,这一切在2004年发生了彻底的变化。2003年11月21日,雅虎中国收购3721公司。3721的搜索服务成为了YHAOO中国的重要组成,YHAOO正式进军中国搜索引擎服务市场。2004年6月15日,Google与其他七家共同投资者一起,收购了有全球最大中文搜索引擎之称的百度的部分股份。Google在上市前终于有了中国搜索的概念。2004年6月21日,雅虎中国除了坚固其门户搜索、3721之外,推出了专门的中文搜索门户网站“一搜()”。2004年7月1日,微软公司董事长比尔·盖茨在北京含蓄地表示,要加强MSN搜索开拓中国市场的力度。关于搜索引擎的新闻2005年12月,Google闪电雇佣李开复,正式进军中国。2006年3月,Yahoo!频繁变脸。目前,越来越多的专业搜索引擎。7月19日,雅虎中国、雅虎全球、阿里巴巴三方联合推出一个具有智能模糊匹配功能的搜索引擎雅虎Imatch,贴近用户的实际需求。由此可见,搜索市场一直是令人垂涎三尺高速成长的市场,新技术和新概念的出现可以随时让搜索市场发生巨大改变。正因此,百度的李彦宏常警醒员工:“百度离破产只有30天。”……更多的精彩新闻等待我们发现和创造!搜索引擎成功样例:全球最大搜索引擎——Google据预计,全球搜索市场3到5年后将达70亿美元以上,Google在各种搜索引擎中排名第一。Google网址:技术创业六年成长史创始人是两位斯坦福大学学生,而立之年即成为百亿富翁每个月有数亿人使用走向垄断?参股百度左右网民的价值取向受商业利益驱使,未来很难保证客观公正性,竞价排名Google其它主要英文搜索引擎AOLAltaVistaAskJeevesMSNSearchLookSmartYahoo中文搜索引擎
百度百度网址:北大计算机系学生创办百度的“知道”北京大学李晓明教授继续研究“天网”,没有商业化天网
中搜/全名“中国搜索”,原名“慧聪”搜狗新浪:爱问搜索引擎的现状随着百度上市和Google正式进入中国,国内搜索引擎市场竞争格局将发生变化。2005年各大搜索引擎厂商营收稳步上升,而各主流厂商的用户市场占有率分别为百度37%,Google23%,Yahoo(及3721)21%对比各搜索引擎结果:输入“和服”Google的检索结果排在前30位的网页绝大多数为日本的“和服”,说明Google进行了有效的分词百度基本正确搜狗基本正确部分错误结果[1]重庆“侦探”商标注册成功邦德公司获工商认可
...册范围,将原42类商品和服务商标注册扩大...[2]新潮实业:“亚麻”龙头箭在弦上
由于所有纺织品和服装配额都将于今年底以前完全取消,近期4元左右的低价纺织股表分词效果不佳!IR相关领域相关领域-借鉴和融合数据库管理图书和情报科学人工智能自然语言处理机器学习数据库管理专注于研究结构化数据,比如关系表,而不是自由文本专注于处理定义好了的查询式,如SQL查询式和数据的语义都非常清晰近来有向半结构化数据(XML)发展的趋势,和IR越来越接近图书馆和情报科学研究信息检索中和人类使用者相关的内容(人机交互、可视化)关心对人类知识的有效分类关心引用(citation)分析和文献计量学(bibliometrics)信息的结构化最近的数字图书馆研究使它和IR距离更近人工智能研究知识表示、推理和智能行为知识和查询式的形式化:一阶谓词逻辑贝叶斯网络最近在Web本体论(Ontology)和智能信息代理(IntelligentInformationAgents)的研究,使它与IR更接近从数据到知识数据(Data)未经组织的数字、词语、声音、图像等信息(Information)以有意义的形式加以排列和处理的数据知识(Knowledge)用于生产的信息(有意义的信息)信息经过加工处理、应用于生产,才能转变成知识智慧(Wisdom)应用知识的能力,创新能力自然语言处理研究自然语言文本的句法、语义和语用使检索能够在意义层面而不是仅仅在关键词层面进行自然语言处理:IR的方向根据上下文决定歧义词的意义:词义消歧(wordsensedisambiguation).识别文本中特殊的信息片断(informationextraction).从文本中回答特殊的用自然语言提出的问题词义消歧机器学习研究能够通过经验改进自身性能的计算系统有指导的学习(supervisedlearning)通过从人工标注好的训练样例中学习概念来实现对样本的自动分类无指导的学习(unsupervisedlearning)事先不经过的人工标注,将样本自动聚为有意义的组机器学习:IR的方向文本分类自动层次聚类(Yahoo)自适应/推送/推荐垃圾邮件过滤文本聚类检索结果的自动聚类自动形成层次体系信息抽取文本挖掘信息检索的应用数字图书馆自动分类根据国图分类法,对文本进行自动分类自动标引自动给出文本的主题词,包括抽词标引和赋词标引两种自动文摘根据不同比例以及用户的不同需求自动编写文摘定题服务面向确定主题的情报服务个性化新闻根据用户的兴趣偏好,为用户定制新闻内容安全垃圾邮件过滤包括广告、黄色和反动邮件的过滤和分析垃圾短信过滤企业商业秘密防泄露监测从企业内部发出的邮件,封杀包含企业机密的邮件聊天室和BBS监控过滤黄色话题或反动言论垃圾短信过滤商务智能自助呼叫中心以自动问答的方式,从企业提供的大量技术支持资料中自动获取答案,满足用户的需求减少呼叫中心的人力服务费用用户投诉信的自动分类和汇总系统将用户的投诉信自动分发给企业的不同部门去处理自动发现投诉信中的焦点问题,协助企业决策竞争情报定制关于互联网上关于竞争对手的各种情报并汇总电子政务首长办公系统自动汇总来自各下属部门的文件,并提取重要内容提供给领导阅读政务自动咨询系统市民通过互联网,以问答的方式咨询政府的政策和办事流程等投诉自动汇总分析系统将市民的投诉自动分类汇总,以资政府决策行政简报自动编写系统定期自动编写简报,在政府部门内交流远程教育自动答疑系统用户远程提问,系统根据用户的问题收集教材中的相关内容,汇总后提供给用户学生情况调查分析根据学生的提问情况,自动分析学生的主要问题所在,以便对症下药地改进教学内容移动计算短信定制服务包括新闻、股市资讯等短信汇总服务电视台或广播电台常常提供在线的短信参与活动,大量短信发送到电视台需要及时地分类汇总,以便主持人作出反应,比如概括出大多数用户最关心的问题等。军事情报国外军事情报的跟踪汇总重点针对国外互联网进行过滤跟踪,对重要资料进行分析汇总,辅助军事决策国内军事情报的反泄露发现和拦截泄露军事情报的邮件隐藏于普通文本中的军事情报的过滤技术文本水印主要研究机构国外CMU:/~callan/IRGroup/Stanford:/UMass:/国内哈工大:清华复旦:/mcwil/irnlp/会议ACMSIGIRAnnualInternationalConferenceonResearchandDevelopmentinInformationRetrieval(1978-)ACMConferenceonInformationKnowledgeManagement(CIKM)TextRetrievalConference(TREC)全国信息检索与内容安
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度苗木苗圃定向种植与农村电商合同范本3篇
- 2025年度高校教师博士后流动站合作培养合同
- 2025年度美术教师职务聘任合同标准范本
- 2025年度土工布销售合同-生态环保材料供应协议
- 2025年度个人数字货币交易合同范本4篇
- 2025年度航空货运司机聘用劳动合同范本
- 2025年度食品添加剂行业配料保密合同协议书范本
- 二零二五年度特色农业观光园果树种植权转让合同3篇
- 二零二五年度牛羊肉冷链运输车辆购置合同4篇
- 二零二五年度门面房租赁合同(含市场风险分担)4篇
- 智能养老院视频监控技术方案
- 你比我猜题库课件
- 体育概论(第二版)课件第三章体育目的
- 无人驾驶航空器安全操作理论复习测试附答案
- 建筑工地春节留守人员安全技术交底
- 默纳克-NICE1000技术交流-V1.0
- 蝴蝶兰的简介
- 老年人心理健康量表(含评分)
- 《小儿静脉输液速度》课件
- 营销人员薪酬标准及绩效考核办法
- 医院每日消防巡查记录表
评论
0/150
提交评论