信息检索 第01章 绪论专业课课件_第1页
信息检索 第01章 绪论专业课课件_第2页
信息检索 第01章 绪论专业课课件_第3页
信息检索 第01章 绪论专业课课件_第4页
信息检索 第01章 绪论专业课课件_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索

第01章绪论软件学院教研室陈鄞课程考核随堂考核:20%大作业:30%试卷:50%随堂考核(20%)课堂回答问题课堂讨论形式小组讨论过程每个学生简要发表一下自己的观点组内展开较深入的讨论整理形成组内观点,由一位组员代表发言(轮流发言)成绩评定其他组成员可以进行提问和评论(提问和进行评论在考核个人成绩时是加分的因素)发言提纲需交给教师,作为考核的重要依据提纲1.1什么是信息检索1.2信息检索的发展历史1.3信息检索系统的体系结构1.4信息检索的现状1.5信息检索的发展趋势1.6信息检索的当前研究热点1.1什么是信息检索TheWebWebspiderIndexerIndexesSearchUser在IR中,“相关性”是一个关键性的基础概念信息检索(InformationRetrieval,IR)广义:“信息存储与检索”将信息按一定的方式组织和存储起来,并根据用户需求从信息集合中找出相关信息的过程和技术狭义:“信息查找”或“信息搜索”信息检索的本质是排序问题信息检索系统vs.数据库系统信息检索系统与传统的数据库系统有什么不同?处理的对象不同数据库处理的是结构化的数据信息检索处理的是非结构化的信息查询结果的准确性不同数据库查询的结果一定是准确的;信息检索的结果不一定是准确的提纲1.1什么是信息检索1.2信息检索的发展历史1.3信息检索系统的体系结构1.4信息检索的现状1.5信息检索的发展趋势1.6信息检索的当前研究热点1.2信息检索的发展历史19世纪下半叶:开始发展过去,信息检索一直被人们称为“情报检索”,这一术语产生于图书情报领域。检索的主要目的是为了获取有价值的情报或对科学研究有帮助的资料1.2信息检索的发展历史19世纪下半叶:开始发展20世纪中期以前:手工式检索检索工具:书本或卡片式的索引和目录检索方式:手翻、眼看、大脑判断缺点:检索者负担沉重、效率低、容易漏检1.2信息检索的发展历史19世纪下半叶:开始发展20世纪中期以前:手工式检索20世纪中期:机械式检索检索工具:穿孔卡片优点:不需人工判断、卡片不需排序缺点:难以适应巨大规模信息库的要求1.2信息检索的发展历史19世纪下半叶:开始发展20世纪中期以前:手工式检索20世纪中期:机械式检索20世纪60年代:脱机批量检索1954年,美国海军军械试验站图书馆利用IBM-701计算机建立了世界上第一个信息检索系统,用于情报服务。1959年,H.P.Luhn(卢恩)利用IBM-650对文献进行统计分析,实现定题情报检索服务1.2信息检索的发展历史19世纪下半叶:开始发展20世纪中期以前:手工式检索20世纪中期:机械式检索20世纪60年代:脱机批量检索20世纪70年代到80年代:联机检索利用通信线路将设在各处的终端与计算机检索系统连接以提供情报检索服务的系统ORBIT(On-LineRetrievalofBibliographicInfomation-Timeshared)MEDLINE(美国国家医学图书馆)DIALOG国际联机情报检索系统(美国洛克希德公司)ESA-IRS(欧洲空间组织情报检索中心)1.2信息检索的发展历史19世纪下半叶:开始发展20世纪中期以前:手工式检索20世纪中期:机械式检索20世纪60年代:脱机批量检索20世纪70年代到80年代:联机检索20世纪90年代以后:Web信息检索互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为计算机检索Web检索的历史与发展FTP文件检索系统——网络刚刚诞生的时候Archie,加拿大麦吉尔大学(UniversityofMcGill),1990定期搜集并分析FTP服务器中的文件名信息,然后在本地建立索引用户通过交互界面输入查询词,系统自动在索引中查找相关的文件名和所在的FTP服务器的地址,并将查询结果返回给用户虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖Web检索的历史与发展FTP文件检索系统——网络刚刚诞生的时候目录式信息服务网站——互联网发展初期1994年,Stanford大学博士生DavidFilo和杨致远(JerryYang)创建的雅虎“Yahoo!”网站Web检索的历史与发展FTP文件检索系统——网络刚刚诞生的时候目录式信息服务网站——互联网发展初期1994年,Stanford大学博士生DavidFilo和杨致远(JerryYang)创建的雅虎“Yahoo!”网站1996年,中国,搜狐Web检索的历史与发展FTP文件检索系统——网络刚刚诞生的时候目录式信息服务网站——互联网发展初期现代网络搜索引擎集中式搜索引擎——早期整个搜索引擎系统的所有子系统都运行在同一台服务器上实现简单,占用资源比较少,投入资金少海量数据的处理能力比较弱,支持同时访问的用户数量比较少升级系统硬件,使用大型机和并行机提高处理能力扩展性有限,性价比也不高Web检索的历史与发展FTP文件检索系统——网络刚刚诞生的时候目录式信息服务网站——互联网发展初期现代网络搜索引擎集中式搜索引擎——早期分布式搜索引擎——现在用网络连接多台微机组成一个分布式的机群系统提供的分布式网络服务一些著名的搜索引擎Excite,1993年6个斯坦福大学学生开发WebCrawler,1994年华盛顿大学学生BrianPinkerton创建WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字Lycos,1994年卡内基·梅隆大学MichaelMauldin创建Lycos(CarnegieMellonUniversity)是搜索引擎史上又一个重要的进步。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。“Lycos”是Lycosidae(一种很善于捕捉猎物的狼蛛)的缩写。

Infoseek,1994年允许站长提交网址AltaVista,1995年AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND,OR,NOT等)Google,1998年斯坦福大学博士生LarryPage等主要的进步在于应用链接分析根据权威性对部分结果排序

北大天网,1997年北大天网是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET(中国教育和科研计算机网)上提供服务百度,2000年前Infoseek资深工程师李彦宏创建搜狗,2004年2004年8月3日,搜狐公司推出中文搜索引擎LiveSearch,2006年2006年9月,微軟公司正式推出了擁有自主研發技術的LiveSearch,宣布進軍搜索引擎市場,挑戰Google在網絡搜索領域的霸主地位有道,2006年2006年12月,網易公司推出中文搜索引擎MicrosoftAcademicSearch,2009年2009年11月,微軟學術搜索MicrosoftAcademicSearchbeta版啟用,該搜索引擎目前主要提供計算機學科及相關領域的學術論文、作者、會議和學術期刊提纲1.1什么是信息检索1.2信息检索的发展历史1.3信息检索系统的体系结构1.4信息检索的现状1.5信息检索的发展趋势1.6信息检索的当前研究热点文本数据库数据库管理建索引索引查询处理搜索排序排序后的文档用户反馈文本处理用户界面匹配的文档用户需求文本提问逻辑视图倒排文档词条化Stemming(词干提取)名实体识别信息标引为文档建立倒排索引表根据倒排索引表检索出与提问相关的文档将检索出的文档根据相关性排序对query进行变换,以改进检索结果1.3

信息检索系统的体系结构将用户输入的Query提交给系统将返回的文档输出给用户结果的可视化表示相关反馈提纲1.1什么是信息检索1.2信息检索的发展历史1.3信息检索系统的体系结构1.4信息检索的现状1.5信息检索的发展趋势1.6信息检索的当前研究热点1.4信息检索的现状搜索结果重复率高,搜索到的网页打不开等令人烦恼个性化内容少,结果雷同也是不可以忍受的专业搜索功能差信息更新速度慢73.3%54.1%48.3%49.1%多媒体搜索功能弱30.1%搜索引擎用户的抱怨不准、不全、不简洁、……提纲1.1什么是信息检索1.2信息检索的发展历史1.3信息检索系统的体系结构1.4信息检索的现状1.5信息检索的发展趋势1.6信息检索的当前研究热点1.5信息检索的发展趋势智能化个性化移动化商务化垂直化社区化多媒体化1.5.1智能化信息检索传统的IR系统主要采用基于关键词匹配的信息检索技术,往往存在查不全、查不准、不够简洁、检索质量不高等现象解决方案从自然语言处理技术入手,进行更加深入的内容理解词汇层面考虑词汇的意义(meaning)、考虑词汇的顺序(order)1.5.1智能化信息检索传统的IR系统主要采用基于关键词匹配的信息检索技术,往往存在查不全、查不准、不够简洁、检索质量不高等现象解决方案从自然语言处理技术入手,进行更加深入的内容理解词汇层面考虑词汇的意义(meaning)、考虑词汇的顺序(order)oror“苹果”:

“病毒”:NLP中的词义消歧(WSD)技术用户检索上下文分析1.5.1智能化信息检索传统的IR系统主要采用基于关键词匹配的信息检索技术,往往存在查不全、查不准、不够简洁、检索质量不高等现象解决方案从自然语言处理技术入手,进行更加深入的内容理解词汇层面考虑词汇的意义(meaning)、考虑词汇的顺序(order)利用分词词典、同义词典,同音词典改善检索效果1.5.1智能化信息检索传统的IR系统主要采用基于关键词匹配的信息检索技术,往往存在查不全、查不准、不够简洁、检索质量不高等现象解决方案从自然语言处理技术入手,进行更加深入的内容理解词汇层面考虑词汇的意义(meaning)、考虑词汇的顺序(order)利用分词词典、同义词典,同音词典改善检索效果利用分词词典改善检索效果1.5.1智能化信息检索传统的IR系统主要采用基于关键词匹配的信息检索技术,往往存在查不全、查不准、不够简洁、检索质量不高等现象解决方案从自然语言处理技术入手,进行更加深入的内容理解词汇层面考虑词汇的意义(meaning)、考虑词汇的顺序(order)利用分词词典、同义词典,同音词典改善检索效果利用同义词典改善检索效果“计算机”↔“电脑”“China”↔“PRC”“嗓子”↔“咽喉”↔“喉咙”“互联网”↔“万维网”↔“因特网”… 1.5.1智能化信息检索传统的IR系统主要采用基于关键词匹配的信息检索技术,往往存在查不全、查不准、不够简洁、检索质量不高等现象解决方案从自然语言处理技术入手,进行更加深入的内容理解词汇层面考虑词汇的意义(meaning)、考虑词汇的顺序(order)利用分词词典、同义词典,同音词典改善检索效果知识层面(概念层面)通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,进行辅助查询,给予用户智能知识提示

艺术电影舞蹈绘画…故事片纪录片文艺片…1.5.1智能化信息检索传统的IR系统主要采用基于关键词匹配的信息检索技术,往往存在查不全、查不准、不够简洁、检索质量不高等现象解决方案从自然语言处理技术入手,进行更加深入的内容理解词汇层面考虑词汇的意义(meaning)、考虑词汇的顺序(order)利用分词词典、同义词典,同音词典改善检索效果知识层面(概念层面)通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,进行辅助查询,给予用户智能知识提示例如,对于用户输入的查询“计算机”,可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴1.5.1智能化信息检索传统的IR系统主要采用基于关键词匹配的信息检索技术,往往存在查不全、查不准、不够简洁、检索质量不高等现象解决方案从自然语言处理技术入手,进行更加深入的内容理解词汇层面考虑词汇的意义(meaning)、考虑词汇的顺序(order)利用分词词典、同义词典,同音词典改善检索效果知识层面(概念层面)通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,进行辅助查询,给予用户智能知识提示推测用户的搜索意图,给予智能提示当输入城市名的时候,很可能要找:当地的酒店、地图、名胜等;当输入电影名时,很可能要找:影评、主要演员、在线观看的地址;当输入手机型号时,很可能要找:评测对比、性能等;当输入某些症状时,很可能找的是疑似病的特征、原因、治愈方法、专家医院等等。1.5.1智能化信息检索传统的IR系统主要采用基于关键词匹配的信息检索技术,往往存在查不全、查不准、不够简洁、检索质量不高等现象解决方案从自然语言处理技术入手,进行更加深入的内容理解词汇层面考虑词汇的意义(meaning)、考虑词汇的顺序(order)利用分词词典、同义词典,同音词典改善检索效果知识层面(概念层面)通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,进行辅助查询,给予用户智能知识提示检索结果聚类,使用可视化技术显示分类结构1.5.1智能化信息检索传统的IR系统主要采用基于关键词匹配的信息检索技术,往往存在查不全、查不准、不够简洁、检索质量不高等现象解决方案从自然语言处理技术入手,进行更加深入的内容理解词汇层面考虑词汇的意义(meaning)、考虑词汇的顺序(order)利用分词词典、同义词典,同音词典改善检索效果知识层面(概念层面)通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,进行辅助查询,给予用户智能知识提示检索结果聚类,使用可视化技术显示分类结构1.5.1智能化信息检索传统的IR系统主要采用基于关键词匹配的信息检索技术,往往存在查不全、查不准、不够简洁、检索质量不高等现象解决方案从自然语言处理技术入手,进行更加深入的内容理解词汇层面考虑词汇的意义(meaning)、考虑词汇的顺序(order)利用分词词典、同义词典,同音词典改善检索效果知识层面(概念层面)通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,进行辅助查询,给予用户智能知识提示检索结果聚类,使用可视化技术显示分类结构1.5.1智能化信息检索传统的IR系统主要采用基于关键词匹配的信息检索技术,往往存在查不全、查不准、不够简洁、检索质量不高等现象解决方案从自然语言处理技术入手,进行更加深入的内容理解词汇层面考虑词汇的意义(meaning)、考虑词汇的顺序(order)利用分词词典、同义词典,同音词典改善检索效果知识层面(概念层面)通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,进行辅助查询,给予用户智能知识提示检索结果聚类,使用可视化技术显示分类结构1.5.1智能化信息检索传统的IR系统主要采用基于关键词匹配的信息检索技术,往往存在查不全、查不准、不够简洁、检索质量不高等现象解决方案从自然语言处理技术入手,进行更加深入的内容理解词汇层面考虑词汇的意义(meaning)、考虑词汇的顺序(order)利用分词词典、同义词典,同音词典改善检索效果知识层面(概念层面)通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,进行辅助查询,给予用户智能知识提示检索结果聚类,使用可视化技术显示分类结构1.5.1智能化信息检索传统的IR系统主要采用基于关键词匹配的信息检索技术,往往存在查不全、查不准、不够简洁、检索质量不高等现象解决方案从自然语言处理技术入手,进行更加深入的内容理解词汇层面考虑词汇的意义(meaning)、考虑词汇的顺序(order)利用分词词典、同义词典,同音词典改善检索效果知识层面(概念层面)通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,进行辅助查询,给予用户智能知识提示检索结果聚类,使用可视化技术显示分类结构引入直接或间接的相关反馈机制,更准确地理解用户的需求相关反馈机制Imagesearchengine/imsearch/imsearch.htmlResultsforInitialQueryRelevanceFeedbackResultsafterRelevanceFeedback问答系统允许用户以自然语言方式询问,系统从单语或多语文档集中查找并返回确切答案或者蕴含答案文本片断世界上最大的宫殿是什么宫殿?紫禁城/故宫谁发现了北美洲?茉莉花每年能开花几次?黄山在哪个省?中国人口有多少?参加希腊奥运会的国家都有哪些?……容错式检索通配符查询实用场景用户对查询的拼写不太确定例:“Sydney”or“Sidney”→“S*dney”用户想查找某个查询词的所有变形例:“automat*”→automatic

automation

automated容错式检索通配符查询拼写校正1.5.2个性化信息检索文档……传统搜索引擎GRE红宝书毛主席语录考研红宝书个性化搜索引擎信息过滤计算机根据用户提供的一个过滤需求(UserProfile),从动态变化的信息流(比如Web)中自动检索出满足用户个性化需求的信息选择有用的信息推送(例如新闻定制)滤除无用的(有害的)信息过滤计算机根据用户提供的一个过滤需求(UserProfile),从动态变化的信息流(比如Web)中自动检索出满足用户个性化需求的信息选择有用的信息推送(例如新闻定制)滤除无用的(有害的)信息过滤计算机根据用户提供的一个过滤需求(UserProfile),从动态变化的信息流(比如Web)中自动检索出满足用户个性化需求的信息选择有用的信息推送(例如新闻定制)滤除无用的(有害的)垃圾邮件过滤反动言论、色情内容信息过滤vs.信息检索信息过滤与信息检索有许多共同的特征,Belkin和Croft认为信息过滤是一种特殊的信息检索,因为它们的目的都是搜索相关的信息但是,二者还是有一些区别信息检索信息过滤用户需求描述“Query”“UserProfile”用户需求动态静态信息资源静态动态需要了解用户的情况否是信息过滤的重要意义克服重复查询改变信息获取方式,“信息找人”节省网络资源、提高网络传输效率提高信息安全提高获取信息的效率1.5.3移动化1.5.4商务化1.5.5垂直化1.5.6社区化“社区化搜索”帮助用户获得其他用户所保存的同主题相关内容,使得用户既是搜索内容的使用者,又是搜索内容的创造者百度贴吧新浪爱问雅虎“知识堂”…1.5.7多媒体化基于内容的多媒体检索视频图像音频语音音乐…基于内容的图像查询

基于内容的图像查询:颜色、纹理、形状、空间结构等图像数据库/互联网用户的提问查询搜索引擎基于文本的图像查询提纲1.1什么是信息检索1.2信息检索的发展历史1.3信息检索系统的体系结构1.4信息检索的现状1.5信息检索的发展趋势1.6信息检索的当前研究热点1.6信息检索的当前研究热点信息抽取信息过滤文本数据挖掘问答系统异构信息检索分布式信息检索1.6.1信息抽取信息抽取(InformationExtraction:IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式从网页中提取有用的信息

根据邮件内容自动生成日程表(Calendar)Subject:curriculummeetingDate:January15,2012To:DanJurafskyHiDan,we’venowscheduledthecurriculummeeting.ItwillbeinGates159tomorrowfrom10:00-11:30.-ChrisCreatenewCalendarentryEvent:CurriculummtgDate:Jan-16-2012Start:10:00amEnd:11:30amWhere:Gates1591.6.2文本数据挖掘文本数据挖掘(TextMining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术话题检测与跟踪对新闻媒体等信息源进行新话题的自动识别和已知话题的持续跟踪应用领域信息安全金融证券市场分析行业调研…1.6.2文本数据挖掘文本数据挖掘(TextMining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术话题检测与跟踪微博数据挖掘非常事件的检测兴趣、偏好建模观点挖掘(情感分析)①基于微博的区域性非常事件检测

②基于微博的兴趣、偏好建模SCIR微博饮食地图不同地区的饮食习惯上海重庆湖北黑龙江不同性别的饮食习惯女性男性不同时间段的饮食习惯早上中午晚上交叉分析北京人晚上喜欢吃的食品广东男性的饮食习惯消费行为分析阅读习惯分析……③观点挖掘(情感分析)情感分析(Sentimentanalysis)又称倾向性分析,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程从电影评论中识别用户对电影的褒贬评价太令人失望了充满滑稽的人物、幽默的讽刺和曲折的情节有史以来最伟大的喜剧影片太可悲了。最糟糕的是拳击场面商业领域的情感分析niceandcompacttocarry!sincethecameraissmallandlight,Iwon'tneedtocarryaroundthoseheavy,bulkyprofessionalcameraseither!thecamerafeelsflimsy,isplasticandverylightinweightyouhavetobeverydelicateinthehandlingofthiscameraSizeandweightAttributes:zoomaffordabilitysizeandweightflasheaseofuse✓✗✓TwitterSentimentAppTwitter情感分析与传统的民调、投票等方法结果有高度的一致性预测股票走势、电影票房、选举结果等1.6.3异构信息检索异构信息检索发展的基点检索和整合不同来源和结构的信息涉及内容支持各种格式化文件的检索TEXT、HTML、XML、RTF、MSOffice、PDF、PS2/PS、MARC、ISO2709等支持多语种的信息检索支持结构化数据、半结构化数据及非结构化数据的统一处理和关系数据库检索的无缝集成以及其他开放检索接口的集成1.6.4分布式信息检索IR系统面临的效率方面

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论