数据挖掘以及搜索引擎经典ppt_第1页
数据挖掘以及搜索引擎经典ppt_第2页
数据挖掘以及搜索引擎经典ppt_第3页
数据挖掘以及搜索引擎经典ppt_第4页
数据挖掘以及搜索引擎经典ppt_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索和知识发现马军山东大学计算机学院majun@Tel:91528讲课内容目前的信息检索与挖掘实质上是融合了文本及多媒体检索、数据挖掘、机器学习和自然语言处理的综合学科,因此本课程的内容包括:信息检索的基本知识简单的自然语言处理信息检索与知识发现中的主要计算 聚类与分类基于内容的图像检索技术信息检索课程章节1简介2理论模型(基本概念)3检索评价4Web信息获取算法5索引建立6基本运算算法7网页排序8分类计算9聚类计算10层次聚类11XML文档检索12-15图像检索16图像标注/IR-book/IR简介研究历史基本概念目前和未来的研究内容Web上的信息检索WWW发展迅速,Web文本数据以T=1000G计。而多媒体数据,如图片,视频,音频信息正快速增加。Web可以看做巨型的、非结构化的无所不在的数据库,除了传统的书面文档,目前口语形式的文档正在迅速增加(微博等)Web的发展要求有效的工具来管理、检索、过滤信息:Datamining结论:信息获取、组织和检索将成为现代社会的不可缺少的基础服务。Web的建立HowMuchInfo工程由Intel,Microsoft,HP,EMC等公司赞助,UCBerkeley大学完成2002年世界上共产生了5Exabyte的数据,其中92%的信息存储于电子介质相当于人类历史上所有说过的话语

所包含的信息量的总和大部分存储于Web中,构成了Web

中超过150Billion的网络页面WorldWideWeb是什么?

Theworldwideweb(web)isanetworkofinformationresources.Thewebreliesonthreemechanismstomaketheseresourcesreadilyavailabletothewidestpossibleaudience:1.Auniformnamingschemeforlocatingresourcesontheweb(e.g.,URLs).2.Protocols,foraccesstonamedresourcesovertheweb(e.g.,HTTP).3.Hypertext,foreasynavigationamongresources(e.g.,HTML).Web是一个有向图<href…><href…><href…><href…><href…><href…><href…>网页为节点网页中的HyperLink为有向边Crawl==图遍历,right?Web的发展带来了什么?信息数量的急剧膨胀知识的获取空前简单与繁荣从Web中有效的获取知识正在成为人们生活与工作的必须技能高科技企业员工1/3的时间用于查找资料由于无法找到有效信息而浪费的产值占企业收入1/5目前具有市场认可的搜索引擎技术的国家有:美国、韩国、俄罗斯和中国搜索引擎市场的激烈竞争Google市值的变化举世关注Baidu上市造就数以百计的百万富翁MSN推出新版搜索,MSRA建立搜索研究中心Yahoo中国重组主要门户网站Sohu,Sina,Netease,腾讯纷纷推出搜索引擎产品面向领域的搜索引擎目前最受北美IT毕业生青睐的公司GoogleApplefacebookMicrosoftYahoo!其中有3个公司的主要业务之一是信息检索。而Apple过去和Google一起,研制iphone的手机检索,但可能未来自己研发。微软已经认为他们过去没有重视搜索是犯了错误,目前正在飞速追赶。目前Google,微软在美国正在建立巨型的数据处理中心,保存通过Internet,卫星等收集的数据。上述3公司的搜索部门在面试时,一般会问关于现代检索的核心算法,概念等。Google某数据中心微软在芝加哥的数据中心国内IT百度,搜狐,搜狗,一搜阿里巴巴腾讯中国大学生评出的2008最佳雇主中有半数和搜索有关。

Google(中国)贸易:阿里巴巴

两大搜索:排第一Google和排第三的百度

三大游戏:盛大、巨人、完美时空

四大门户:腾讯、网易、搜狐、新浪

市场的需求所有的网站都需要搜索引擎,但目前很多借用Google等,搜索效果不好,因为不专业,Google的排序算法可能并不适合该网站的页面链接分析。专业搜索引擎的需求无止境,未来多媒体,问题求解形式的检索需求很大。从用户数量上看,截至2008年12月31日,中国网民规模达到2.98亿人,普及率达到22.6%,超过全球平均水平;网民规模较2007年增长8800万人,年增长率为41.9%。无论是政府还是商家,都更重视网络上的信息,讨论的热点及反应出的问题。而这些计算必须基于对BBS,论坛、博客内容的搜集和分析。信息检索的重要性全球范围数字化、信息化的基础服务科学研究领域中的信息获取电子商务中的产品检索、评估日常生活中的信息和知识的获取企业创新能力的提高DeepWep信息的获取原因:纸面载体的信息都数字化了,更方便进行获取。基于网络的广告根据2007年的统计,美国互联网上广告总收入为212亿美元,而通过搜索引擎进行的广告收入是总收入的41%。原因,通过搜索引擎,可以使广告更有针对性,把广告放到内容相关的网页上。而广告则是在互联网上进行经济活动驱动力和使搜索引擎,网站等盈利的重要手段。信息检索目前的状态目前基本认为是出于开始阶段未来的远景图个性化专业化多媒体检索智能化 检索形式的创新,不是输入关键词,可能是目标,得到的是解决方案。和以往IR研究的区别原来是图书馆学的专业方向,但目前的研究和以前的研究相差太大了。目前的研究者来自:数据库,人工智能,计算机算法,人机交互,多媒体,移动通讯,模式识别,地理信息和卫星图像处理等都加入到这个领域。目前信息检索的方式搜索web的三种方式:searchengine把一部分网络文献作为一个全文数据库webdirectories按主题来对所选择的Web文献进行分类(browser)利用hyperlinkstructure.目前的信息检索方式

Given:使用用文字(关键词)表示的检索意愿Find:搜索引擎返回一系列相关文档IR系统的构成-爬虫,中间处理和检索服务IRSystemQueryStringDocumentcorpusRankedDocuments1.Doc12.Doc23.Doc3..WebsearchbasicsTheWebAdindexesWebspiderIndexerIndexesSearchUser利用搜索引擎为工具的数据挖掘互联网的尺寸互联网的链接特征分析互联网的动态变化特征语义万维网互联网上的社区发现进入2000后对IR的研究2000’s基于网页链接分析技术的Google网页的排序技术PageRank网页的分析技术基于块的分解,内容提取和理解面向领域的垂直检索系统和查询内容有关、和领域知识有关和机器学习、人工智能的发展有关如何计算仍是一个未能很好解决的问题IR的新研究课题1自动文本摘要或主题的提取WhizbangFetchBurningGlass问题回答系统TRECQ/AtrackAnswer.google会话体文本的处理微博,博客

IR的新研究课题2多Multimedia(多媒体的检索技术)ImageVideoAudioandmusicCross-LanguageIR(跨语言的检索技术)DARPATidesAltavista(自然语言转换,网站或具体网页)DocumentSummarization内容摘要技术基于图象的标注技术

人工和基于机器学习不足之处一副画胜过千言万语,如何用简短的文字描述自然,风景?不可能文字也不能很好地表达感知的相似关系感知是人主观的东西,因人而异,而文字描述只能是唯一的。但目前如何自动地进行对图像的标注,仍是国际上研究的热点课题。是为图像建立语义特征的主要手段。图像的自动标注,使得对图像的检索可以借助关键词进行检索问题用户比较难于表达自己的检索需求(相对于关键词检索)能否把文本检索技术和图像检索技术结合起来进行检索?对很多主题,利用Googleimage检索出的图像数量远远高于对应的网页数量,如何排序?理想的状态输入关键词输入图像(草图)搜索引擎找到那些网页,它们即含有关键词同时包含和输入图像非常接近的图像。如何做?目前的现状如何解决图像的语义理解对图像进行标记,利用机器学习的方法,基于已经标注图像来解决新图像的标注。能否利用领域知识解决特殊对象的检索交通标记,企业的logo,特殊场景的发现等

IR的新研究课题3:

垂直检索技术目前通用的搜索引擎对Internet网页的覆盖率小于50%。未来计算机的存储和运算能力都不可能100%的覆盖,需要面向具体领域的专用搜索引擎如就业,股票,宾馆饭店,地图,天气,商品查找,任务,风景,。。。垂直检索也是未来利用移动通讯设备检索的支撑技术微软的科技论文垂直检索系统IR的新研究课题4

基于移动设备的信息检索Google已经决定进军手机的检索,而NEC,微软已经开始了对手机检索系统的研究。解决的科学与技术问题,如何在小屏幕上显示用户的检索结果,如何在小键盘上输入不方面的情况下进行文本检索?能否通过语音检索?能否通过图片进行检索?因为手机更方便语音和图像。用户量的需求调查微软的msn手机检索系统

IR的新研究课题5:

对DEEPWeb的信息检索DeepWeb是可以通过Internet访问的数据库,它们所承载的信息量是目前Internent的500倍!难点:如何发现DeepWeb?如何知道该数据库所属的领域和类别?目前研究的主要课题如何对DeepWeb网页的爬取?垂直搜索引擎,元搜索引擎?如何知道DeepWeb的内容?如何对DeepWeb数据库进行聚类和分类?

IR的新研究课题6:Web的数据和知识挖掘(如何利用虚拟世界研究现实世界)网上人气榜的排名网上对产品,任务、事件的评论网上所反映的最关心的热点和焦点是什么?网上对事物,人物,事件的正面和反面评价的比例是什么?作弊(spam)网页、重复网页及水军网页的发现Spam网站和网页的作弊手法在网页中加入大量的常用关键词以提高被匹配的可能性在网页中加入大量的链接,自己链向自己的链接,使得PageRank的值较大,当被检索到时,排名靠前如何对Web中的页面(网站)给出可信计算(credibility)?IR新研究课题7:基于对象的搜索

问题—回答对用户的需求返回的不是网页的URL,而是关于该问题的较全面的资料。信息服务公司,根据客户的需求建立描述,每天对Web上的信息检索、摘要和分类,把信息主动地送给用户。这是一个新兴的盈利模式和企事业需要的服务,如电力集团,报业、新闻记者等。研究问题8:如何利用Web上的资源进行知识发现Wiki百科利用维基百科对文档和图像的类别识别GoogleEarth利用图像中的坐标,通过Googleearth中相同位置的图像,对图像进行补充说明Web上的大型数据源,如图片库Flickr利用Flickr上的图像的标注,对新图像进行标注。研究9:基于互联网信息对人类活动进行研究-舆情分析,事件发现等通过对网络上的信息收集,了解公众对某种社会现象或社会问题的具有一定影响力和倾向性的共同意见。网络环境下舆情信息的主要来源有:新闻评论、BBS、聊天室、博客、聚合新闻(RSS)利用facebook,myspace等发现人类自身活动等。结论信息检索是一项飞速发展的科学技术信息检索是一项和人们生活密切相关的技术,是计算机科学研究领域中为数不多的理论和应用密切相关的研究领域。即理论研究可直接导致应用系统的产生。信息检索是包括了搜索算法,网络技术,机器学习,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论