版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西安交通大学电子与信息工程学院乔亚男qiaoyanan@信息检索导论1互联网搜索引擎搜索引擎是大家耳熟能详的产品搜索是一个古老的计算机科学问题,范围和深度不断加强随着网络的发展,成为一个重要的工具搜索引擎是信息检索技术在大规模文本集合上的实际应用2信息检索起源信息检索(InformationRetrieval)最早出现在图书馆领域,是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术互联网的出现,丰富了信息检索的内涵。常常以搜索引擎的出现突出互联网信息检索概念搜索引擎(searchengine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。3我们所使用的Web搜索系统TheWebWebspiderIndexerIndexesSearchUser4完整课程框架(32课时)信息检索概述及评价信息检索模型检索的改进技术查询操作Web信息检索文本分类与聚类信息过滤和问答系统前沿研究展望5紧凑课程框架概览(2课时)进阶(3课时)最新研究进展(3课时)6参考书参考书信息检索系统导论,机械工业出版社,2008搜索引擎-信息检索实践,BruceCroft等,2010RicardoBaeza-YatesandBerthierRibeiro-Neto,ModernInformationRetrieval,Addison-Wesley.1999.ChristopherD.Manning,PrabhakarRaghavanandHinrichSchütze,IntroductiontoInformationRetrieval,CambridgeUniversityPress.2007.李晓明,闫宏飞等。搜索引擎原理、技术与系统7信息检索概述8在这一部分将介绍:信息检索概念及意义信息检索体系结构历史与现状发展趋势和面临的挑战国内外主要搜索引擎9信息检索的概念及意义10信息检索定义信息检索是从非结构化的文档集中找出与用户需求相关的信息和其它相关技术的区别和数据库的区别数据库是结构化数据,IR的检索结果也往往是不精确的,而不象数据库查询那样正确率一定是100%。和情报检索的区别情报检索介绍如何利用信息检索工具11典型的信息检索任务给定条件自然语言的文档集合用户的提问(Query)查找结果和query相关的经过排序(Rank)的文档子集12用户需求:Query及Profile形式关键词带布尔操作的关键词自由文本事例文档...13早期信息检索系统IRSystemQueryStringDocumentcorpusRankedDocuments1.Doc12.Doc23.Doc3..14Web搜索系统提问IR系统排序后的文本1.第1页2.第2页3.第3页
..文档语料库WebSpider15Web搜索将IR技术应用于WorldWideWeb上的HTML网页和纯文本相比,网页的特点如下:必须通过在网上“爬行”搜集网页可以开发结构布局信息文档的更新是不可控的可以开发网页之间的链接结构16信息检索处理的对象非结构化数据文本数据:新闻、科技论文等网页:HTML、XML多媒体数据:图像、视频、图形、音频目前最主要的处理对象是互联网文字图片17基于内容的图像查询
基于内容的图像查询:目标,颜色,纹理图像数据库/互联网用户的提问查询搜索引擎18基于文本的图像查询19信息检索的重要性由信息匮乏到信息爆炸,需要有效的检索方式传统管理软件需要嵌入IR技术在SQL数据库中已采用文本检索技术select*fromEmployeewhereNamelike’%Lee%’.在LotusNotes办公平台上同样也已采用文本检索技术互联网数据的增长和在线文档(如联机用户手册等)的增长,向IR技术提出迫切需求检索无处不在20信息检索系统体系结构21信息检索系统的体系结构文本数据库数据库管理建索引索引查询操作搜索排序排序后的文档用户反馈文本操作用户界面检出的文档用户需求文本提问逻辑视图倒排文档分词删除停用词Stemming(提取词干)为文档建立倒排索引表根据倒排索引表检索出与提问相关的文档将检索出的文档根据相关性排序Query输入和文档输出相关反馈结果的可视化对query进行变换,以改进检索结果22IR的历史与现状23图书馆卡片索引&智能问答系统24IR的历史1960-70’s:最初的信息检索系统面向小型的科学文摘数据库、法律和商业文档检索模型为基本的布尔模型和向量空间模型CornellUniversity的Prof.Salton成为这个领域的先驱,著名的IR向量空间模型的创始人,开发了著名的SMART向量空间模型IR系统,并免费开放源代码,大大促进了IR的发展25IR历史1980’s:IR技术出现在大型文档数据库中Lexis-Nexis美国LEXIS-NEXIS公司创始于1973年,其数据库内容很广,其中法规法律方面的数据库是LEXIS-NEXIS的特色信息源,具有非常大的影响力,尤其在法律业界具有很高知名度Dialog目前世界上最大的联机检索检索系统之一,包括各学科数据库600多种,可查询研究动态,SCI,EI收录以及专利等情况MEDLINEMEDLINE是美国国家医学图书馆的文献数据库26IR历史1990’s:在互联网上对FTP服务器上的文档进行搜索ArchieArchie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件WAIS代表“广域信息服务”(WideAreaInformationService),是一种能查询500个检索数据库的工具27IR历史1990’s(续):在WorldWideWeb上进行搜索Yahoo1994年4月,Stanford两名博士生,美籍华人JerryYang(杨致远)和DavidFilo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。基于目录的检索AltavistaAltaVista是网上最早的爬行搜索引擎。AltaVista搜索技术从纯文本搜索技术开始,发布于1995年;1997年,其搜索能力扩展到25种语言搜索;1999年开始多媒体文件的搜索;2001年首次推出网上免费新闻搜索,2003年AltaVista被Overture收购。
28IR历史1990’s(续):有组织地进行评测美国标准与技术研究所NIST和国防部高级研究规划局DARPA共同发起TREC,1992年开始智能推荐系统(个性化推荐,良好的互动性,适应性)RingoAmazon(亚马逊网络售书)NetPerceptions29IR历史以雅虎初期为代表的第一代搜索引擎以人工目录分类为基础的网站搜索开辟了一个时代第一代搜索引擎指主要依靠人工分拣的分类目录搜索,这种方式是被动的搜索,更新慢、搜索能力不足第一代搜索引擎基本上已经退出搜索舞台。30IR历史2000’s为Web搜索服务的链接分析Google自动信息抽取WhizbangFetchBurningGlass问答系统TRECQ/Atrack31IR现状近期的IR:多媒体检索图像(Image)视频(Video)声音(speech)和音频(Audio)音乐(music)跨语言检索DARPATides项目智能化、个性化检索32IR现状以Google为代表的第二代搜索引擎以超链分析技术为基础的大规模网页搜索,根据关键词的分布情况对页面进行分类和排序优点:只要网页上出现了某个关键词,就能够使用全文检索用关键词匹配把该网页查出来不足:返回的无用信息太多原因:仅采用机械的关键词匹配来实现33IR现状多数检索系统是基于关键词的搜索可能找不到同义词“PRC”vs.“China”“电脑”vs.“计算机”可能检索到一些不相关的多义词“bat”(baseballvs.mammal)“Apple”(companyvs.fruit)保安(地名vs.保护安全的人员)同义词词义消岐3435发展趋势互联网正从提供信息服务向提供平台服务延伸传统互联网正在向移动互联网延伸从服务模式看从传播手段看互联网正从信息传播和娱乐消费为主向商务服务领域延伸从应用领域看362008年第三季度中国搜索引擎市场规模达14.29亿人民币,同比2007第三季度的8.38亿人民币,增长70.5%。37搜索引擎用户的抱怨搜索结果重复率高,搜索到的网页打不开等令人烦恼个性化内容少,结果雷同也是不可以忍受的专业搜索功能差信息更新速度慢73.3%54.1%48.3%49.1%多媒体搜索功能弱30.1%垂直实时跨媒体个性化精准38搜索技术发展趋势ThemeGalleryisaDesignDigitalContent&ContentsmalldevelopedbyGuildDesignInc.趋势2.智能化1.个性化
多媒体化
垂直化
社区化
移动化
个性化
智能化
精准化搜索技术39各种趋势的背景精准化(个性化):更有效地获取信息智能化:更便捷地表达需求商务化:在产业链中寻找更高价值移动化:移动互联网的迅猛发展社区化:社交媒体的崛起垂直化:深入行业多媒体化:整合多媒体数据40跨媒体检索应用体验输入一类媒体,返回另一类媒体
输入文本,返回图片;输入图片,返回文本基础处理各类媒体信息的集成同时利用图片自身的图像信息和图片周围的环绕文字对图片内容进行分析,并建立索引41米歇尔·奥巴马一群小学生草坪人脸识别与环绕文字分析相结合的图片检索42搜索引擎对大规模并行计算的需求计算搜索结果排序倒排索引生成日志统计和分析并行计算智能挖掘
统计词频43云计算当今社会,PC依然是我们日常工作生活中的核心工具在“云计算”时代,“云”会替我们做存储和计算的工作是一种网络服务可以在任何地点用任何设备,如电脑、手机等,快速地计算和找到这些资料,再也不用担心资料丢失Google,Amazon,IBM,Intel都在这方面有所动作阿里云44从自然语言处理入手,提高信息检索质量信息检索数据库并行处理网络信息安全数据挖掘自然语言处理知识管理操作系统图像、视频、语音45百度框计算>>“请给我找出好听的音乐”个性化用户需求分析46百度框计算“框计算”到底意味着什么呢,“框计算”到底意味着什么呢?首先,“框”是一个功能强大的需求收集器和分析器其次,由于“框”能在互联网可选范围内根据用户需求自动匹配最佳的应用和服务,这个“框”又带有典型的操作系统特性47PowersetPowerset是美国旧金山的一家搜索引擎公司,它的搜索引擎所使用的核心技术自然语言处理技术。这使得Powerset与Google从本质上有区别。48WolframAlphaWolframAlpha是首个“计算知识搜索”引擎,其“父亲”为美国计算机科学家史蒂芬·沃尔弗拉姆49WolframAlphaWolframAlpha的工作原理同谷歌网页搜索有着较大区别在WolframAlpha服务中,用户在搜索框键入需要查询的问题后,该搜索引擎将直接向用户返回答案,而不是返回一大堆网页链接同Powerset的语义搜索一样,用户也可在WolframAlpha当中键入符合语法意义的问题查询句子50智能化以自然语言理解技术为基础的新一代搜索引擎,我们称之为智能搜索引擎由于它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,能够实现分词技术、同义词技术、词义消歧、概念搜索以及机器翻译技术等允许用户采用自然语言进行信息的检索,为用户提供更方便、更确切的搜索服务51个性化个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一通过搜索引擎的社区化产品(即对注册用户提供服务)的方式来组织个人信息分析特定用户的搜索需求限定的范围,然后按照用户需求范围扩展到互联网上其他的同类网站给出最相关的结果
52个性化用户需求分析如何理解用户的搜索意图当输入城市名的时候,很可能要找:当地的酒店、地图、名胜等;当输入电影名时,很可能要找:影评、主要演员、在线观看的地址;当输入手机型号时,很可能要找:评测对比、性能等;当输入某些症状时,很可能找的是疑似病的特征、原因、治愈方法、专家医院等等。需要建立大型的词汇语义关联和领域本体搜索日志和用户行为的挖掘53IBM沃森54沃森(Watson)"沃森"(Watson)是为了纪念IBM创始人ThomasJ.Watson而取的。IBM开发沃森旨在完成一项艰巨挑战:建造一个能与人类回答问题能力匹敌的计算系统。这要求其具有足够的速度、精确度和置信度,并且能使用人类的自然语言回答问题。这一系统没有连接至互联网,因此不会通过网络进行搜索,仅靠内存资料库作答。55超强计算机沃森由90台IBM服务器、360个计算机芯片驱动组成,是一个有10台普通冰箱那么大的计算机系统。它拥有15TB内存、2880个处理器、每秒可进行80万亿次运算(这是目前的情况)。这些服务器采用Linux操作系统。IBM为沃森配置的处理器是Power7系列处理器,拥有八个核心、32个线程,主频最高可达4.1GHz,其二级缓存更是达到了32MB。存储了大量图书、新闻和电影剧本资料、辞海、文选和《世界图书百科全书》(WorldBookEncyclopedia)等数百万份资料。56Siri57Siri功能Siri是苹果公司在其产品iphone4S上应用的一项语音控制功能。Siri可以令iPhone4S变身为一台智能化机器人,利用Siri用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。Siri可以支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应用。还能够不断学习新的声音和语调,提供对话式的应答。58Siri技术总体,人工智能以及云计算前端,面向用户,和用户交互的技术,主要是语音识别以及语音合成技术后台,基本的结构猜测可能是分析用户的输入(已经通过语音转化),根据输入类型,分别采用合适的技术(合适的技术后台)进行处理以Google为代表的网页搜索技术;以WolframAlpha为代表的知识搜索技术(或者知识计算技术);以Wikipedia为代表的知识库(和WolframAlpha不同的是,这些知识来自人类的手工编辑)技术(包括其他百科,如电影百科等);以Yelp为代表的问答以及推荐技术59社交网络&实时搜索60社交网络&实时搜索即时通讯,是微博客的典型应用它允许用户将自己的最新动态和想法以短信息的形式发送给手机和个性化网站群,而不仅仅是发送给个人2006年,博客技术先驱创始人埃文·威廉姆斯(EvanWilliams)创建的新兴公司Obvious推出了Twitter服务国外:Facebook,Twitter国内:人人网,新浪、腾讯、网易微博等61垂直搜索垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎
62垂直搜索垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地,比如象股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高Google宗旨是尽快让用户离开google,垂直搜索应该是粘住用户方式的变化,检索方法没有质的变化63服务模式由单一向综合过渡Google的gtalk,gmailMSN的搜索等由通用到专业垂直搜索由竞价排名到封口费一定程度上影响搜索引擎的公正性64IR面临的挑战65Web搜索的事实是怎样的?
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 装载机用车合同(2篇)
- 第24课《愚公移山》八年级语文上册精讲同步课堂(统编版)
- 2024年吉林省长春市中考地理真题卷及答案解析
- 16.1《赤壁赋》-高一语文上学期同步备课拓展(统编版必修上册)
- 说课稿课件政治
- 西京学院《现代教育技术》2023-2024学年第一学期期末试卷
- 西京学院《企业级框架基础》2021-2022学年期末试卷
- 社区环境 课件
- 外研版必修一module2-mynewteachers(reading)课件
- 西华师范大学《装饰绘画》2022-2023学年第一学期期末试卷
- 2024年深圳公司试用期员工劳动合同范文(二篇)
- QBT 102T-2023 甜菜糖厂设计规范 (正式版)
- 2023年上海市闵行区中考二模语文试卷含详解
- 中国水印版画智慧树知到期末考试答案章节答案2024年中国美术学院
- 2024年山东济南新旧动能转换起步区专职网格员招聘笔试冲刺题(带答案解析)
- 走进民航智慧树知到期末考试答案章节答案2024年中国民航大学
- 项目四任务一《三股辫我会编》(课件)浙教版二年级下册综合实践活动
- 热力管道阀门井施工方案
- 2024仁爱版初中英语单词表(七-九年级)中考复习必背
- 国家开放大学《理工英语3》章节测试参考答案
- 智能手机维修技术第二版全套教学课件
评论
0/150
提交评论