现代信息检索技术_第1页
现代信息检索技术_第2页
现代信息检索技术_第3页
现代信息检索技术_第4页
现代信息检索技术_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

现代信息检索技术第1页,课件共58页,创作于2023年2月提纲2什么是信息检索?为什么要学习信息检索?课程情况第2页,课件共58页,创作于2023年2月提纲3什么是信息检索?为什么要学习信息检索?课程情况第3页,课件共58页,创作于2023年2月从几个互联网应用说起……4第4页,课件共58页,创作于2023年2月搜索引擎中科院研究生院2011年度秋季课程5第5页,课件共58页,创作于2023年2月中科院研究生院2011年度秋季课程6第6页,课件共58页,创作于2023年2月中科院研究生院2011年度秋季课程7第7页,课件共58页,创作于2023年2月三个应用例子的共同特征给定需求(或者是对象),从信息库中找出与之最匹配的信息(或对象)Google的例子:需求“现代信息检索”卓越-亚马逊的例子:对象“天王表-石英女表LS3522S(黑色)”世纪佳缘网的例子:对象“你自己”!8第8页,课件共58页,创作于2023年2月信息检索给定用户需求返回满足该需求信息的一门学科。通常涉及信息的获取、存储、组织和访问。从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。“找对象”的学科,即定义并计算某种匹配“相似度”的学科。9第9页,课件共58页,创作于2023年2月信息检索技术的应用10搜索推荐挖掘

IR技术情报处理内容安全舆情分析

第10页,课件共58页,创作于2023年2月信息检索应用系统搜索系统Web搜索引擎IBMWaston问答系统……推荐系统淘宝网豆瓣网当当网11第11页,课件共58页,创作于2023年2月从信息规模上分类个人信息检索:个人相关信息的组织、整理、搜索等。桌面搜索(DesktopSearch)、个人信息管理(PIM=PersonalInformationManagement)、个人数字记忆(PersonalDigitalMemory)企业级信息检索:在企业内容文档的组织、管理、搜索等。内容管理(ContentManagement)Web信息检索:在超大规模数据集上的检索。中科院研究生院2011年度秋季课程12第12页,课件共58页,创作于2023年2月提纲中科院研究生院2011年度秋季课程13什么是信息检索?为什么要学习信息检索?课程情况第13页,课件共58页,创作于2023年2月市场发展的需求用户需要信息检索技术:互联网的信息量太大、噪音太多,寻找所需要的信息非常不容易公司需要信息检索技术:搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、Sohu、Tecent、Netease都加入到这个搜索技术的竞争。不只是搜索引擎才需要信息检索技术,电子商务(如亚马逊网站、阿里巴巴)、社交网(微博、Facebook、twitter、校内网)、数字图书馆、大规模数据分析等都需要信息检索技术人才的竞争:搜索相关人才人数出现缺口,他们非常抢手,待遇如日中天是不是泡沫:2000年左右出现的网络泡沫和现在的互联网有什么不同,搜索引擎在其中占什么位置?14第14页,课件共58页,创作于2023年2月几个应用需求移动搜索产品搜索专利搜索广告推荐消费行为分析网络评论分析SEO营销……15第15页,课件共58页,创作于2023年2月对相关专业研究生的基本要求信息检索技术是内容应用特别是互联网内容应用的核心技术,可以说在这些应用中无处不在信息检索将会成为一门计算机专业的基础学科搜索(狭义的信息检索)的三个层次(个人观点)16第16页,课件共58页,创作于2023年2月中科院研究生院2011年度秋季课程17应用层次:搜索是一项非常重要的应用!第17页,课件共58页,创作于2023年2月中科院研究生院2011年度秋季课程18中间层次:搜索是极其重要的API第18页,课件共58页,创作于2023年2月中科院研究生院2011年度秋季课程19www.G第19页,课件共58页,创作于2023年2月中科院研究生院2011年度秋季课程20介绍一本有趣的书!第20页,课件共58页,创作于2023年2月中科院研究生院2011年度秋季课程21核心层次:搜索是未来操作系统的重要组成部分!第21页,课件共58页,创作于2023年2月提纲22什么是信息检索?为什么要学习信息检索?课程情况第22页,课件共58页,创作于2023年2月课程的宗旨信息检索的基本原理、模型和方法(含部分机器学习、自然语言处理方法)信息检索系统的基本实现方法如何进行(信息检索)研究选题、查找文献、读论文、做实验、写论文、作报告等等23第23页,课件共58页,创作于2023年2月老师介绍(1)主讲老师:王斌,中科院计算所博士毕业,副研究员,博士生导师。现为中科院计算所前瞻研究实验室信息检索课题组负责人。/~wangbin/

wangbin@新浪微博:计算所王斌/wang2bin1办公电话:6260135024第24页,课件共58页,创作于2023年2月老师介绍(2)助教:中科院研究生院2011年度秋季课程25第25页,课件共58页,创作于2023年2月本课程的特点不是教学生学怎么使用信息检索工具(另有课程),而是了解信息检索工具背后的基本原理和技术,并且能够进行深层的研究或开发相关的应用。知其然知其所以然。基本原理+广泛实践26第26页,课件共58页,创作于2023年2月授课内容简介(传统角度总结)信息检索的基本概念信息检索的评价信息检索模型和算法模型(布尔模型、向量模型、概率模型、语言模型)相关反馈、查询扩展文本处理技术文本分类和聚类技术(倾向性分析)信息过滤技术信息组织和索引并行和分布式检索信息检索的应用WEB检索27第27页,课件共58页,创作于2023年2月授课方案课堂讲述和课后练习相结合讲授内容既包含传统内容,也注意吸收最新研究成果学术内容和业界进展相结合既考虑一般学生普及入门的需求,也考虑相关专业学生更高的要求尽量用简单而风趣的语言、形象而逼真的例子进行讲授28第28页,课件共58页,创作于2023年2月课程基础数学基础概率统计线性代数计算机基础算法和数据结构编程29第29页,课件共58页,创作于2023年2月考核方式平时作业+期末考试(开卷)不定期考勤5%若干小作业15%1个大作业30%1篇读书报告15%(论文阅读)期末考试35%(课堂开卷)具体参考课程网站30第30页,课件共58页,创作于2023年2月2006年选课情况分析来自13个不同培养单位的62名学生选择本课程,其中计算所25人、软件所13人、自动化所5人计算机类专业有48人(占总数的77.4%),图书情报类专业学生有7人(占总数的11.3%),其他专业背景的学生7人(占总数的11.3%)。31第31页,课件共58页,创作于2023年2月2006年考试结果分析32第32页,课件共58页,创作于2023年2月2007年选课情况分析来自12个单位的71人选择该课程,其中计算所30人、网络中心8人、院图7人、软件所和自动化所各6人、其他单位14人。计算机类(计算机、自动化)专业58人(占总数的81.7%)、图书情报类专业9人(占总数的12.7%)、其他专业(信号处理、数学等)4人(占总数的5.6%)33第33页,课件共58页,创作于2023年2月2007考试结果分析34第34页,课件共58页,创作于2023年2月2008/2009/2010?35第35页,课件共58页,创作于2023年2月国际著名研究机构和代表人物美国康奈尔大学Salton(1927-1995)现代信息检索的奠基人,倡导向量空间模型SMART的完成人第一任Salton奖(1983年)得主,ACMFellow英国剑桥大学SparckJones(1935-2007)概率检索模型的提出者之一NLP和IR中的先辈曾获ACL终身成就奖和1988年Salton奖36第36页,课件共58页,创作于2023年2月国际著名研究机构和代表人物微软英国剑桥研究院、伦敦城市大学Robertson概率检索模型的先驱和倡导者开发了OKAPI检索系统2000年Salton奖得主美国UMassCIIRW.B.Croft,ACMFellow基于统计语言建模IR模型的提出者和倡导者和CMU共同开发了Lemur工具2003年Salton奖得主37第37页,课件共58页,创作于2023年2月国际著名研究机构和代表人物英国Glasgow大学Rijsbergen,ACMFellow信息检索逻辑推理学派的提出者和倡导者现在试图用量子的方法解决IR问题2006年Salton奖得主微软美国研究院SusanDumais隐性语义索引LSI的提出者2009年Salton奖得主38第38页,课件共58页,创作于2023年2月中科院研究生院2011年度秋季课程39第39页,课件共58页,创作于2023年2月中科院研究生院2011年度秋季课程40第40页,课件共58页,创作于2023年2月中科院研究生院2011年度秋季课程41第41页,课件共58页,创作于2023年2月国际著名研究机构和代表人物美国CMU美国UIUC微软研究院IBM研究院Google研究院Yahoo!研究院42第42页,课件共58页,创作于2023年2月一些活跃的华裔学者加拿大蒙特利尔大学聂建云教授跨语言检索IR模型美国UIUC翟成祥(ChengxiangZhai博士)IR模型、主题模型(TopicModel)美国CMU杨颐明(YimingYang)教授文本分类领域最著名的学者之一43第43页,课件共58页,创作于2023年2月一些活跃的华裔学者台湾中研院简立峰号称“中文搜索”第一人加入Google研究院44第44页,课件共58页,创作于2023年2月国内一些相关研究机构北京大学复旦大学清华大学哈尔滨工业大学上海交通大学中科院计算所中科院软件所中科院自动化所……45第45页,课件共58页,创作于2023年2月重要会议国际会议(COLING2010、SIGIR2011将在北京举行):SIGIR、ACL、WWW、SIGKDD、WSDM、ICMLCIKM、EMNLP、COLINGTREC、NTCIR评测会议ECIR、AIRS国内会议:全国信息检索学术会议(1年一届)全国计算语言学联合会议(2年一届)搜索引擎和WEB挖掘学术会议(1年一届,上半年)46第46页,课件共58页,创作于2023年2月ACMSIGIRACM:美国计算机学会SIGIR:specialinterestgrouponinformationretrieval,特定兴趣组ACMSIGIRConference:IR领域的最重要会议,起始于1971年,2009年是第31届。47第47页,课件共58页,创作于2023年2月IRvs.其他学科IRvs.NLP(自然语言处理)IRvs.ML(机器学习)IRvs.DM(数据挖掘)IRvs.SA(统计分析)……48第48页,课件共58页,创作于2023年2月IR及相关研究领域重要会议49ACMSIGIRVLDB,PODS,ICDEASISLearning/MiningNLPApplicationsStatisticsSoftware/systemsCOLING,EMNLP,ANLPHLTNIPS,UAIRECOMB,PSBJCDLInfo.ScienceInfoRetrievalACMCIKMDatabasesACMSIGMODACLICMLAAAIACMSIGKDDISMBWWWSOSPOSDITREC*本页借用了ChengxiangZhai的课件第49页,课件共58页,创作于2023年2月重要期刊国际:ACMTransactionsonInformationSystems(TOIS)ACMTransactionsonAsianLanguageInformationProcessing(TALIP)InformationProcessing&Management(IP&M)InformationRetrieval国内中文信息学报情报学报50第50页,课件共58页,创作于2023年2月重要工具Lemur、Indri:包含各种IR模型的实验平台,C++SMART:向量空间模型工具,C编写Weka:数据挖掘工具,Java编写Lucene:开源检索工具,Java版本受维护,存在各种语言编写的其他版本Nutch:开源爬虫,Java版本Sphinx:开源检索工具,C++Larbin:采集工具,C++Firtex:检索平台,C++,计算所开发更多:/tools/tools-opensource.html51第51页,课件共58页,创作于2023年2月网站地址外部网站:

/ircourse/研究生院课程主页:/课程微博:Gucas_2011_IRCourse,/31160652第52页,课件共58页,创作于2023年2月教材教材主页:/~wangbin/iir-book/

注意要选第二次印刷的版本,可以直接上图灵出版社的淘宝店订购。网上有英文电子版(对照阅读)53第53页,课件共58页,创作于2023年2月原版内容比较新例子多有关NLP和分类聚类的内容较丰富有相关最新算法的介绍有实现相关的内容54第54页,课件共58页,创作于2023年2月序55第55页,课件共58页,创作于2023年2月参考书籍及文献ChristopherD.Manning,PrabhakarRaghavan&HinrichSchütze,IntroductiontoInformationRetrieval,CambridgeUniversityPress2008Electronicversion(draft)canbedownloadedfrom/~hinrich/information-retrieval-book.htmlB.Croft,D.Metzler,T.Strohman,SearchEngine:InformationRetrievalinPractice,PearsonEducation,2009(国内机械工业出版社出版的影印版和中文翻译版)Baeza-Yates,R.&B.Ribeiro-Neto.eds.ModernI

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论