Atitit现代信息检索_第1页
Atitit现代信息检索_第2页
Atitit现代信息检索_第3页
Atitit现代信息检索_第4页
Atitit现代信息检索_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Atitit 现代信息检索Line 1: 第1章引言Line 22: 第2章用户搜索界面Line 44: 第3章信息检索建模Line 79: 第4章检索评价Line 104: 第5章相关反馈与查询扩展Line 123: 第6章文档:语言及属性Line 160: 第7章查询:语言及属性Line 175: 第8章文本分类Line 210: 第9章索引和搜索Line 238: 第10章并行与分布式信息检索Line 260: 第11章Web检索Line 307: 第12章Web爬取Line 333: 第13章结构化文本检索Line 360: 第14章多媒体信息检索Line 409: 第15章企业搜索L

2、ine 444: 第16章图书馆系统Line 460: 第17章数字图书馆第1章 引言1.1信息检索1.1.1信息检索的早期发展1.1.2图书馆和数字图书馆中的信息检索1.1.3舞台中央的信息检索1.2信息检索问题1.2.1用户的任务1.2.2信息检索与数据检索1.3信息检索系统1.3.1信息检索系统的软件架构1.3.2检索和排序过程1.4Web1.4.1Web简史1.4.2电子出版时代1.4.3Web如何改变搜索1.4.4Web上的实际问题1.5本书的组织结构1.5.1本书的重点1.5.2本书的内容1.6本书的教学资源网站1.7文献讨论第2章用户搜索界面2.1介绍2.2人们如何搜索2.2.1

3、信息查找与探索式搜索2.2.2信息搜寻的经典模型与动态模型2.2.3导航与搜索2.2.4对搜索过程的观察2.3现今的搜索界面2.3.1启动搜寻2.3.2查询描述2.3.3查询描述界面2.3.4检索结果显示2.3.5查询重构2.3.6组织搜索结果2.4搜索界面的可视化2.4.1可视化布尔语法2.4.2可视化查询结果中的查询项2.4.3可视化词语和文档间的关系2.4.4文本挖掘的可视化2.5搜索界面的设计和评价2.6趋势和研究问题2.7文献讨论第3章信息检索建模3.1信息检索模型3.1.1建模和排序3.1.2信息检索模型描述3.1.3信息检索模型的分类体系3.2经典信息检索3.2.1基本概念3.2

4、.2布尔模型3.2.3项权重3.2.4TF-IDF权重3.2.5文档长度归一化3.2.6向量模型3.2.7概率模型3.2.8经典模型之间的简单比较3.3其他集合论模型3.3.1基于集合的模型3.3.2扩展布尔模型3.3.3模糊集模型3.4其他代数模型3.4.1广义向量空间模型3.4.2潜在语义索引模型3.4.3神经网络模型3.5其他概率模型3.5.1BM25模型3.5.2语言模型3.5.3随机差异模型3.5.4贝叶斯网模型3.6其他模型3.6.1超文本模型3.6.2基于Web的模型3.6.3结构化文本检索3.6.4多媒体检索3.6.5企业和垂直搜索3.7趋势和研究问题3.8文献讨论第4章检索评

5、价4.1介绍4.2Cranfield范式4.2.1历史简述4.2.2参考集4.3检索指标4.3.1精度和召回率4.3.2单值总结:Pn,MAP,MRR,F4.3.3面向用户的指标4.3.4折扣累积增益4.3.5二元偏好4.3.6排序相关性测度4.4参考文档集4.4.1TREC参考集4.4.2其他参考集4.4.3其他小规模测试文档集4.5基于用户的评价4.5.1实验室中的人工实验4.5.2并排面板4.5.3A/B测试4.5.4众包4.5.5使用点击数据的评价4.6实践说明4.7趋势和研究问题4.8文献讨论第5章相关反馈与查询扩展5.1介绍5.2反馈方法的框架5.3显式相关反馈5.3.1向量模型的

6、相关反馈:Rocchio方法5.3.2概率模型的相关反馈5.3.3相关反馈的评价5.4基于点击的显式反馈5.4.1眼动追踪和相关性评价5.4.2用户行为5.4.3点击作为用户偏好的指标5.5通过局部分析的隐式反馈5.5.1通过局部聚类的隐式反馈5.5.2通过局部上下文分析的隐式反馈5.6通过全局分析的隐式反馈5.6.1基于相似度同义词典的查询扩展5.6.2基于统计同义词典的查询扩展5.7趋势和研究问题5.8文献讨论第6章文档:语言及属性6.1介绍6.2元数据6.3文档格式6.3.1文本6.3.2多媒体6.3.3图形和虚拟现实6.4标记语言6.4.1SGML6.4.2HTML6.4.3XML6.

7、4.4RDF6.4.5HyTime6.5文本属性6.5.1信息论6.5.2自然语言建模6.5.3文本相似度6.6文档预处理6.6.1文本的词汇分析6.6.2去除禁用词6.6.3词干提取6.6.4关键词选择6.6.5同义词典6.7组织文档6.7.1分类体系法6.7.2分众分类法6.8文本压缩6.8.1基本概念6.8.2统计方法6.8.3统计方法:建模6.8.4统计方法:编码6.8.5字典方法6.8.6压缩预处理6.8.7文本压缩技术的比较6.8.8结构化文本压缩6.9趋势和研究问题6.10文献讨论第7章查询:语言及属性7.1查询语言7.1.1基于关键词的查询7.1.2非关键词查询7.1.3结构化

8、查询7.1.4查询协议7.2查询属性7.2.1Web查询的特征7.2.2用户搜索行为7.2.3查询意图7.2.4查询主题7.2.5查询会话与任务7.2.6查询难度7.3趋势和研究问题7.4文献讨论第8章文本分类8.1介绍8.2文本分类的特性描述8.2.1机器学习8.2.2文本分类问题8.2.3文本分类算法8.3无监督算法8.3.1聚类8.3.2朴素文本分类8.4监督算法8.4.1决策树8.4.2k近邻分类器8.4.3Rocchio分类器8.4.4概率朴素贝叶斯文档分类8.4.5支持向量机分类器8.4.6集成分类器8.4.7关于监督算法的结束语8.5特征选择或降维8.5.1项-类别出现列联表8.

9、5.2索引项文档频率8.5.3TF-IDF权重8.5.4互信息8.5.5信息增益8.5.6卡方检验8.5.7特征选择的作用8.6评价指标8.6.1列联表8.6.2准确率和错误率8.6.3精度和召回率8.6.4F测度和F8.6.5交叉检验8.6.6标准文档集8.7类别组织-构建分类体系8.8趋势和研究问题8.9文献讨论第9章索引和搜索9.1介绍9.2倒排索引9.2.1基本概念9.2.2完全倒排索引9.2.3搜索9.2.4排序9.2.5构建9.2.6压缩的倒排索引9.2.7结构化查询9.3签名文件9.4后缀树和后缀数组9.4.1结构:trie树和后缀树9.4.2简单字符串搜索9.4.3复杂模式的搜

10、索9.4.4构建9.4.5压缩的后缀数组9.5序列搜索9.5.1简单字符串:Horspool9.5.2复杂模式:自动机和位并行9.5.3更快的位并行算法9.5.4正则表达式9.5.5多重模式9.5.6近似搜索9.5.7搜索压缩文本9.6多维索引9.7趋势和研究问题9.8文献讨论第10章并行与分布式信息检索10.1介绍10.2分布式信息检索系统的分类10.3数据划分10.3.1文档集划分10.3.2文档集选择10.3.3倒排索引划分10.3.4划分其他索引10.4并行信息检索10.4.1介绍10.4.2在MIMD架构上的并行信息检索10.4.3在SIMD架构上的并行信息检索10.5基于集群的信息

11、检索10.6分布式信息检索10.6.1介绍10.6.2索引10.6.3查询处理10.6.4Web问题10.7联合搜索10.8在对等网络中的检索10.9趋势和研究问题10.10文献讨论第11章Web检索11.1介绍11.2一个有挑战性的问题11.3Web11.3.1特性11.3.2Web图的结构11.3.3对Web建模11.3.4链接分析11.4搜索引擎架构11.4.1基本架构11.4.2基于集群的架构11.4.3缓存11.4.4多级索引11.4.5分布式架构11.5搜索引擎排序11.5.1排序信号11.5.2基于链接的排序11.5.3简单的排序函数11.5.4排序学习11.5.5学习排序函数1

12、1.5.6质量评价11.5.7Web垃圾11.6管理Web数据11.6.1为文档分配标识符11.6.2元数据11.6.3压缩Web图11.6.4处理重复数据11.7搜索引擎用户交互11.7.1搜索矩形范式11.7.2搜索引擎结果页面11.7.3培养用户11.8浏览11.8.1扁平浏览11.8.2结构导向的浏览和Web目录11.9浏览之外11.9.1超文本和Web11.9.2搜索与浏览相结合11.9.3Web查询语言11.9.4动态搜索11.10相关问题11.10.1计算广告学11.10.2Web挖掘11.10.3元搜索11.11趋势和研究问题11.11.1静态文本数据之外11.11.2目前的挑

13、战11.12文献讨论第12章Web爬取12.1介绍12.2网络爬虫的应用12.2.1通用Web搜索12.2.2聚焦爬取12.2.3Web刻画12.2.4镜像12.2.5网站分析12.3爬虫的分类体系12.4架构和实现12.4.1爬虫架构12.4.2实际问题12.4.3并行爬取12.5调度算法12.5.1选择策略12.5.2重访问策略12.5.3友好策略12.5.4组合策略12.6评价12.6.1评价网络使用12.6.2评价长期调度12.7趋势和研究问题12.7.1爬取“暗网”12.7.2在网站帮助下的爬取12.7.3分布式爬取12.8文献讨论第13章结构化文本检索13.1介绍13.2结构化能力

14、13.2.1显式和隐式结构对比13.2.2静态与动态结构对比13.2.3单一层次结构与多层次结构对比13.3早期文本检索模型13.3.1基于非覆盖列表的模型13.3.2基于相邻结点的模型13.3.3结构化文本结果排序13.4XML检索13.4.1XML检索中的挑战13.4.2索引策略13.4.3排序策略13.4.4去除重叠13.5XML检索评价13.5.1文档集13.5.2主题13.5.3检索任务13.5.4相关性13.5.5测度13.6查询语言13.6.1特性13.6.2XML查询语言分类13.6.3XML查询语言样例13.7趋势和研究问题13.8文献讨论第14章多媒体信息检索14.1介绍1

15、4.1.1什么是多媒体14.1.2多媒体检索14.1.3文本检索与多媒体检索的对比14.2挑战14.2.1语义鸿沟14.2.2特征歧义性14.2.3机器生成的数据14.3基于内容的图像检索14.3.1基于颜色的检索14.3.2纹理14.3.3显著点14.4声音和音乐检索14.4.1指纹识别14.4.2语音识别14.4.3说话人识别14.4.4语音文档检索14.4.5音频基础知识14.5检索和浏览视频14.5.1视频摘要14.5.2静态摘要14.5.3图像拼接与跳跃剧照14.5.4动态摘要14.5.5交互式摘要14.5.6视觉与听觉浏览对比14.5.7摘要评价14.6融合模型:合并所有信息14.

16、6.1人脸命名14.6.2图像命名14.6.3音频命名14.6.4结合音频与视频的音-视频语音识别14.6.5结合音频和视频的多媒体处理14.7分割14.7.1视频分割样例14.7.2视频分割方案14.7.3利用边缘的视频分割14.7.4语音分割14.7.5分割评价14.8压缩和MPEG标准14.8.1强度和采样14.8.2颜色14.8.3有损压缩14.8.4无损压缩14.8.5时间冗余14.8.6运动预测14.8.7MPEG标准14.9趋势和研究问题14.10文献讨论第15章企业搜索15.1介绍15.1.1企业搜索的特点和应用15.1.2企业搜索软件15.1.3工作场所搜索15.2企业搜索任

17、务15.2.1搜索支持任务的例子15.2.2搜索类型15.2.3研究企业搜索15.3企业搜索系统的结构15.3.1收集15.3.2提取15.3.3索引15.3.4文本注释的索引15.3.5查询处理15.3.6搜索结果的展示15.3.7安全模型15.3.8联合/元搜索15.4企业搜索评价15.4.1企业搜索的公开测试集15.4.2企业搜索内部评价15.4.3企业搜索调试15.4.4所能期待的是什么15.5不满意的可能原因15.6情境化和个性化15.6.1情境化的控制和工具15.6.2情境化:本地、企业或全球15.6.3轮廓的隐私15.6.4定义、建立和维护轮廓15.6.5用户建模15.6.6隐式

18、评价15.6.7信息过滤15.6.8社会化推荐系统15.7趋势和研究问题15.8文献讨论第16章图书馆系统16.1图书馆的信息环境16.2联机公共检索目录16.2.1OPAC和书目记录16.2.2来自ILS的信息检索16.2.3混合图书馆的整合16.2.4OPAC和最终用户16.2.5ILS:供应商和产品16.3信息检索系统与文档数据库16.3.1书目和全文数据库16.3.2数据库记录的内容16.3.3联机产业:数据库供应商16.3.4来自文档数据库的信息检索16.4组织机构内部的信息检索16.5趋势和研究问题16.6文献讨论第17章数字图书馆17.1介绍17.2定义数字图书馆17.3通用架构17.4基本概念17.4.1数字对象和馆藏17.4.2元数据和目录17.4.3资源库/档案库17.4.4服务17.5社会经济问题17.5.1社会问题17.5.2经济问

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论