版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、北京大学软件与微电子学院2009度课程1第七章 互联网应用技术概述2010年11月北京大学软件与微电子学院2009度课程2自我介绍n主讲老师:王斌,中科院计算所博士毕业,副研究员,博士生导师。现为中科院计算所前瞻研究实验室信息检索课题组负责人。北大软件学院兼职教师。先后从事和承担信息检索、自然语言处理相关的国家级研发项目10余项,发表相关论文100余篇。培养研究生20余名。计算机学会高级会员,acm、ieee、中文信息学会会员,中文信息学会信息检索专委会委员,中文信息学报编委。nhttp:/ n办公电话:62601350北京大学软件与微电子学院2009度课程3提纲n互联网应用的例子n基于内容的
2、互联网应用的基本技术n搜索技术n信息分类和聚类技术n信息过滤和推荐技术n考核方法北京大学软件与微电子学院2009度课程4提纲n互联网应用的例子n基于内容的互联网应用的基本技术n搜索技术n信息分类和聚类技术n信息过滤和推荐技术n考核方法北京大学软件与微电子学院2009度课程5搜索引擎搜索推荐推荐北京大学软件与微电子学院2009度课程6更多的搜索引擎北京大学软件与微电子学院2009度课程7google killer?2009-05-18推出2008-07-28推出北京大学软件与微电子学院2009度课程8email搜索分类北京大学软件与微电子学院2009度课程9email分类搜索推荐北京大学软件与微
3、电子学院2009度课程10分类目录搜索分类北京大学软件与微电子学院2009度课程11电子商务推荐北京大学软件与微电子学院2009度课程12bbs推荐搜索北京大学软件与微电子学院2009度课程13社区网站-豆瓣网推荐推荐搜索北京大学软件与微电子学院2009度课程14社区网站-校内网北京大学软件与微电子学院2009度课程15博客推荐北京大学软件与微电子学院2009度课程16以上应用的共同特征n基于内容的应用n内容是互联网应用的生命线n包括几个主要共同的技术n搜索n分类/聚类n过滤/推荐北京大学软件与微电子学院2009度课程17提纲n互联网应用的例子n基于内容的互联网应用的基本技术n搜索技术n信息分
4、类和聚类技术n信息过滤和推荐技术n考核方法北京大学软件与微电子学院2009度课程18搜索(search)n搜索:从大量文档(document)集合(collection)中根据用户的需求(user information need)返回相关(relevant)文档集合并排序(ranking)的应用。n主要特点:n用户的需求动态变化,文档集合相对静态n事先下载,事先组织,在线搜索n应用例子:n搜索引擎n站内搜索北京大学软件与微电子学院2009度课程19搜索技术n信息的获取技术n信息的组织和整理技术n相关度计算和排序技术n结果呈现技术n相关反馈、查询扩展技术n搜索的评估北京大学软件与微电子学院20
5、09度课程20搜索系统的组成框架文档集合管理器索引文档表示查询处理查找排序排序文档用户反馈文本处理用户界面结果文档查询文本查询表示爬虫internet北京大学软件与微电子学院2009度课程21信息分类(classification)n信息分类:根据已有的类别体系(如:体育、经济、军事)和训练文档(每个类别对应若干文档),对一篇新的文档判断其所属类别。属于有监督的机器学习n主要特点:n类别体系静态,但是需要分类的文档动态变化n事先训练,在线分类n需要大量训练文档集合n应用例子:n垃圾邮件/网页分类北京大学软件与微电子学院2009度课程22北京大学软件与微电子学院2009度课程23信息聚类(clu
6、stering)n聚类:从大量文档集合中自动聚团的过程,属于无监督的机器学习n主要特点:n事先无类别体系n需要事后进行解释n应用例子:n检索结果聚类n话题发现北京大学软件与微电子学院2009度课程24北京大学软件与微电子学院2009度课程25文本分类系统的组成框架文本表示训练过程分类过程训练文本统计统计量特征表示学习分类器新文本特征表示类别北京大学软件与微电子学院2009度课程26信息过滤n信息过滤:从动态的信息流中将满足用户兴趣的信息挑选出来,用户的兴趣一般在较长一段时间内比较稳定不会改变(静态)。n主要特点:n用户兴趣静态,数据动态n对用户兴趣建模n应用例子:n广告推荐/商品推荐北京大学软
7、件与微电子学院2009度课程27信息过滤系统的组成框架(d)学习器用户信息提供者(b)过滤器(a)数据分析器(c)用户建模更新反馈相关数据项数据表示项数据项个人信息用户模型北京大学软件与微电子学院2009度课程28提纲n互联网应用的例子n基于内容的互联网应用的基本技术n搜索技术n信息分类和聚类技术n信息过滤和推荐技术n考核方法北京大学软件与微电子学院2009度课程29考核方法n技术专题讨论(20%)n学生分小组,选定一技术专题,共同读资料学习技术,并在课上交流。 n阅读(30%)n阅读1篇论文sigir2008/2009,针对每篇文章写出至少阅读报告(含评论)n评论要有自己的见解,不要简单翻译
8、原文的摘要和结论n评论主要着眼于文章的主要创新点和对自己启发最大的地方,以及可能的下一步研究工作n课程项目(50%)n2到3名同学一组n完成可以演示的具有一定创新的课堂项目n可从建议的项目列表中选项目,也可自己拟定项目(但需要与任课教师协商,取得任课教师的认可)。北京大学软件与微电子学院2009度课程30论文阅读nacm sigir conference北京大学软件与微电子学院2009度课程31课程项目n(一)、检索型:n(1) 垂直搜索:选择2个或以上的餐馆网站进行爬行(餐馆记录不少于5000条),实现基于关键词的餐馆搜索,爬虫能够及时更新。n(2) 论文搜索:下载全部sigir论文,实现对
9、论文的标题、摘要及全文的搜索,并实现论文之间的关系链接图,分析作者的共现关系并以图的方式显示。n(3) 桌面搜索:能够实现本机ppt文件的抽取及搜索,不少于1000篇ppt文件。能够自动抽取ppt的标题、目录等信息。 北京大学软件与微电子学院2009度课程32课程项目(续)n(二)、文本分类型:n(1) 文本分类:分类体系为:财经、科技、汽车、房产、体育、娱乐、其它类,利用网站的新闻主页,训练一个分类器(训练集合不能少于2000篇文档)。能够实现新的网页的分类。n(2) 文本倾向性分析:下载餐馆的评论信息进行训练,最后对餐馆的评论进行文本倾向性分析,分析对餐馆的评价(包括总评和细评,细评包括价
10、格、味道、环境三个方面)是褒还是贬。n(3) 层次分类:pascal challenge on large scale hierarchical text classification,http:/lshtc.iit.demokritos.gr/node/1。提交short paper。时间表:nstart of testing: july 10, 2009. nend of testing, submission of executables: november 16, 2009. nend of scalability test and announcement of results: d
11、ecember 14, 2009. nsubmission of short papers: december 21, 2009.北京大学软件与微电子学院2009度课程33课程项目(续)n(三)、其他型:n(1)、问答系统:实现奥运知识的问答系统。奥运知识不少于1万条语句或记录。n(2)、歌曲检索:通过哼曲调的方法实现mp3歌曲的检索。mp3歌曲不少于200个。n(3) 广告搜索:搜集不少于1000个广告,实现对它们的搜索,搜索时不止是关键词匹配。n(四)、自选型:n学生可以自行设计和选择本课程相关的其他题目,但是需要经过任课老师同意。北京大学软件与微电子学院2009度课程34为什么要开这门课
12、?互联网内容应用的核心技术是信息检索技术北京大学软件与微电子学院2009度课程35市场发展的需求n用户需要信息检索技术:互联网的信息量太大、噪音太多,寻找所需要的信息非常不容易n公司需要信息检索技术:搜索引擎改变了很多传统的生活方式,yahoo、google、baidu,还有一些公司如microsoft、sina、sohu、tecent、netease都加入到这个搜索技术的竞争。不只是搜索引擎才需要信息检索技术,电子商务(如亚马逊网站、阿里巴巴)、数字图书馆工程等都需要信息检索技术n人才的竞争:搜索相关人才人数出现缺口,他们非常抢手,待遇如日中天n是不是泡沫:2000年左右出现的网络泡沫和现在
13、的互联网有什么不同,搜索引擎在其中占什么位置?北京大学软件与微电子学院2009度课程36几个应用需求n手机搜索n产品搜索n专利搜索n广告推荐n消费行为分析n网络评论分析nseo营销n北京大学软件与微电子学院2009度课程37对相关专业研究生的基本要求n信息检索技术是内容应用特别是互联网内容应用的核心技术,可以说在这些应用中无处不在n信息检索将会成为一门计算机专业的基础学科n搜索(狭义的信息检索)的三个层次(个人观点)北京大学软件与微电子学院2009度课程38应用层次:搜索是一项非常重要的应用!北京大学软件与微电子学院2009度课程39中间层次:搜索是极其重要的api北京大学软件与微电子学院20
14、09度课程40www.g北京大学软件与微电子学院2009度课程41介绍一本有趣的书!北京大学软件与微电子学院2009度课程42核心层次:搜索是未来操作系统的重要组成部分!北京大学软件与微电子学院2009度课程43相关研究人物和资源北京大学软件与微电子学院2009度课程44国际著名研究机构和代表人物n美国康奈尔大学 salton (1927-1995)n现代信息检索的奠基人nsmart的完成人n第一任salton奖得主,acm fellown英国剑桥大学 sparck jones (1935-2007)n概率检索模型的提出者之一nnlp和ir中的先辈n曾获acl终身成就奖和salton奖北京大学
15、软件与微电子学院2009度课程45国际著名研究机构和代表人物n美国 umass ciir w. b. croft,acm fellown基于统计语言建模ir模型的提出者和倡导者n和cmu共同开发了lemur工具nsalton奖得主n英国glasgow大学 rijsbergen, acm fellown信息检索逻辑推理学派的提出者和倡导者n现在试图用量子物理的方法解决ir问题nsalton奖得主n英国微软剑桥研究院、伦敦城市大学 robertsonn概率检索模型的倡导者n开发了okapinsalton奖得主北京大学软件与微电子学院2009度课程46北京大学软件与微电子学院2009度课程47北京大
16、学软件与微电子学院2009度课程48国际著名研究机构和代表人物n美国cmun美国uiucn微软研究院nibm研究院ngoogle研究院nyahoo研究院北京大学软件与微电子学院2009度课程49一些活跃的华裔学者n加拿大蒙特利尔大学聂建云教授n跨语言检索nir模型n美国uiuc chengxiang zhai博士nir模型n美国cmu yiming yang教授n文本分类北京大学软件与微电子学院2009度课程50一些活跃的华裔学者n台湾中研院 简立峰n号称“中文搜索”第一人n加入google研究院北京大学软件与微电子学院2009度课程51国内一些相关研究机构n北京大学n复旦大学n清华大学n哈尔
17、滨工业大学n上海交通大学n中科院计算所n中科院软件所n中科院自动化所n北京大学软件与微电子学院2009度课程52重要会议n国际会议(coling2010、sigir2011将在北京举行):nsigir、acl、www、sigkdd、wsdm、icmlncikm、emnlp、colingntrecnairs、ecirn国内会议:n全国信息检索学术会议(1年一届,下半年今年11月在上海交大举行)n全国计算语言学联合会议(2年一届)n搜索引擎和web挖掘学术会议(1年一届,上半年)北京大学软件与微电子学院2009度课程53acm sigirnacm:美国计算机学会nsigir:special int
18、erest group on information retrieval,特定兴趣组nacm sigir conference:ir领域的最重要会议,起始于1971年,2009年是第31届。北京大学软件与微电子学院2009度课程54ir及相关研究领域重要会议acm sigiracm sigirvldb, pods, icdevldb, pods, icdeasisasislearning/mininglearning/miningnlpnlpapplicationsapplicationsstatisticsstatisticssoftware/systemssoftware/systemsc
19、oling, emnlp, anlpcoling, emnlp, anlphlthltnips, uainips, uairecomb, psbrecomb, psbjcdljcdlinfo. scienceinfo. scienceinfo retrievalinfo retrievalacm cikmacm cikmdatabasesdatabasesacm sigmodacm sigmodaclaclicmlicmlaaaiaaaiacm sigkddacm sigkddismbismbwwwwwwsospsosposdiosdi trec trec北京大学软件与微电子学院2009度课程
20、55重要期刊n国际:nacm transactions on information systems (tois)nacm transactions on asian language information processing (talip)ninformation processing & management (ip&m)ninformation retrievaln国内n中文信息学报n情报学报北京大学软件与微电子学院2009度课程56重要工具nlemur:包含各种ir模型的实验平台,c+nsmart:向量空间模型工具, c编写nweka:分类工具,java编写nlucene:开源检索
21、工具,各种语言编写的版本nlarbin:采集工具,c+nfirtex:检索平台,c+,计算所开发北京大学软件与微电子学院2009度课程57参考书籍及文献nchristopher d. manning, prabhakar raghavan & hinrich schtze, introduction to information retrieval, cambridge university press 2008 electronic version (draft) can be downloaded from /hinrich/information-retrieval-book.html nbaeza-yates, r. & b. ribeiro-ne
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度LNG运输车辆改装与安全检测合同3篇
- 2024年食品行业社会保险管理与代缴合同
- 2025年度物流车辆智能系统升级合同4篇
- 2025年度医疗健康公司股权转让与产业链合作合同3篇
- 2025年度商业大厦车位包销及物业管理合同4篇
- 2025年度智能仓储物流系统建设承包经营协议4篇
- 2024石材行业石材应用技术研究采购合同2篇
- 2025年度网络直播个人劳务合同范本3篇
- 2025年度婴幼儿专用牛奶采购合作协议书3篇
- 2025年电动自行车品牌代理销售合同标准版2篇
- 《县域肿瘤防治中心评估标准》
- 做好八件事快乐过寒假-2024-2025学年上学期中学寒假家长会课件-2024-2025学年高中主题班会课件
- 【课件】寒假是用来超越的!课件 2024-2025学年高中上学期寒假学习和生活指导班会
- 2024-2025学年北师大版数学七年级上册期末练习卷
- 2025年山东兖矿集团公司招聘笔试参考题库含答案解析
- 燃气有限公司工程部管理制度汇编
- 2024年中国干粉涂料市场调查研究报告
- (自考)经济学原理中级(政经)课件 第二章 商品和货币
- ×××老旧小区改造工程施工组织设计(全面)
- 调解行业可行性分析报告
- 科创板知识题库试题及答案
评论
0/150
提交评论