信息检索个人整理_第1页
信息检索个人整理_第2页
信息检索个人整理_第3页
信息检索个人整理_第4页
信息检索个人整理_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

心智模型:产生于用户头脑中的关于一个产品应该具有的概念和行为的知识。这种知识可能源自于对产品的概念和行为的一种期望。实现模型:技术和算法实现,他存在于设计人员的头脑中。表现模型:是指产品的最终外观以及产品呈现给用户后,用户通过观看或使用后形成的关于产品如何工作和使用的知识。这五个组成部分对理解信息检索研究是至关重要的:社会情境、信息搜寻者的认知空间、界面、信息对象、信息技术、权重(权值)的直观含义:一个term对于一个文本的重要程度;即在多大程度上可以将这个文档与其他文档区别开计算权值的两种简单方式:1)项目一出现/不出现:1或02)项目一出现的次数:0,1,索引项加权:给那些经常出现在一个文档中,而不常出现在其它文档中的项目以更高的权重,即让特别的词从一般的词中凸现出来。布尔模型的优点:1简单而整齐,为现代许多商业系统所用2自我保护功能,降低用户对搜索系统的期望,使自己不在责任方,检索结果不好的原因在于用户构造查询不好3简单、易理解、简洁的形式化。缺点:1关键词没有权重区别2输出结果没有重要性排序3查全率很难控制4要求用户具备很高的素质和语义提取能力向量模型的优点:索引项的加权改善了检索的性能,其部分匹配的策略允许所检索的文档与查询条件相近似,余弦排序公式按照文档与查询的相似程度对文档进行排序。缺点:无法揭示索引项之间的关系。不加区别地将其应用到所有文档中,会影响检索系统的整体性能概率模型的优点:1严格的数学理论基础与推到过程作为依据来计算相似度2文档可以按照其相关概率递减的顺序来排序3采用相关反馈原理,可进一步开发理论上更为坚实的方法。缺点:1开始时需要猜想把文档分为相关和不相关的两个集合,一般来说很难。2模型沿用了索引词在文档中的频率,假设索引项独立。二值权重。3索引项权重计算没有考虑词频加权因素采集涉及到的网络协议:URL规范、HTTP协议、User-Agent、Robots协议ROBOTS协议两条基本规则:User-Agent:指明适用该robots.txt文件的爬虫名称;Disallow:禁止采集的网页或目录。Disallowdirectory/pic/user-agent:*Disallow:/pic/Disallow:/*.jpg$爬虫的抓取方式抓取不是一次性行为,各种现实因素限制下的抓取方式选择。一般分为累积式抓取与增量式抓取。累积式抓取是指从某一时间点开始,爬虫遍历所能允许存储和处理的所有网页。在理想的软硬件环境下,经过足够的运行时间,累积式抓取可以保证抓取的网页规模。由于Web数据的动态性,已抓取的网页可能出现更新或存在死链,因此累积式抓取无法与真实环境中的网络数据保持一致。增量式抓取是指在具有一定量规模的网页集合基础上,采用更新数据的方式选取已在集合中的过时网页进行抓取,以保证所抓取的数据与真实网络数据足够接近。增量式抓取的前提是,系统己经抓取了足够数量的网页,并具有这些页面被抓取的时间信息。

两种基本抓取策略:深度优先,是指当爬虫访问某一网页时,跟踪浅层页面的链接并沿着链接逐层抓取深层页面,只到最深层页面无导出链接为止时,返回浅层页面的一种方式,深度优先有利于内页的抓取。广度优先,是指爬虫会先抓取某一网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。广度优先有利于提高搜索引擎的工作效率。正则表达式应用举例电子邮件地址(\w+\.)*\w+@(\w+\.)+[A-Za-z]+URL地址http://[-\w.]+(:\d+)?超链接va.*?href=\"(.*?)\“•*?>身份证号码中提取籍贯、出生日期、性别等,18位身份证号,前两位是省份,从第7位开始的8位数字是出声日期,第17位数字表示性别,偶数女,奇数男人代表字符串的开头$代表字符串的结束[]匹配指定一堆字符中的一个次次次次?表示前一字符模式可以被重复0次或1次次次次+表示前一字符模式可以被重复1次或n*表示前一字符模式可以被重复0次或n{x,y)匹表示前一字符模式可以重复x-y()子表达式丨用来指定几个规则只要匹配一个规则即成匹配,相当于OR字与词:中文不像英文那样在词与词之间有空格,字与字、词与词之间没有显性的界限标志。那么切分的粒度,基于单字与基于词的两种基本思路。从检索的语义考虑,切分词是我们着力解决的;尽可能准确地切分出词是中文信息处理与索引构建的基础保障。交集型切分歧义:一如果满足AX,XB同时为词(A,X,B分别为汉字串),汉字串AXB被称作交集型切分歧义。组合型切分歧义:如果A,B,AB同时为词,汉字串AB被称作组合型切分歧义。词干提取在信息检索中的作用:提高检索的查全率和减少索引文件的大小。词表的作用:解决了词的定义问题、减小专有名词的识别难度、能够解决无歧义的分词问题。词汇控制的工具:分类词表、主题词表、分类主题一体化词表。倒排文档:将主文档中的可检字段抽出,按某种顺序重新排列起来所形成的一种索引文档。由词汇表+记录表组成。(或关键字,目长,记录号集合)。词汇表是文档或文档集合中所包含的所有不同单词的集合;记录表是对词汇表中每一个单词,其在文档中出现的位置构成的列表。倒排文档的建立:1,、索引词选择2、对抽出的内容进行排序,便于归并相同内容3、对形同内容进行归并,把合并后的内容放入倒排文档的主键字段,统计每一数据的频次作为目长,把每一内容后的记录号顺序放入记录号集合字段。Lucene索引创建的基本步骤1、 创建Directory2、 创建IndexWriter3、 创建Document对象4、 为Document添加Field5、 通过IndexWriter添加文档到索引6、 关闭writer.close()代码publicclasshelloLucene{publicvoidindex(){IndexWriterwriter=null;try{〃1.创建Directory;//Directorydirectory=newRAMDirectory();Directorydirectory=FSDirectory.open(newFile("/users/fanw17/desktop/Lucene/index01"));//2.创建IndexWriter;//IndexWriterConfigiwc=newIndexWriterConfig(Version.LUCENE_35,newStandardAnalyzer(Version.LUCENE_35));writer=newIndexWriter(directory,iwc);//3.创建Document对象;Documentdoc=null;//4.为Document添加FieldFilef=newFile("/users/fanw17/desktop/Lucene/example");for(Filefile:f.listFiles()){doc=newDocument();doc.add(newField("content",newFileReader(file)));doc.add(newField("filename",file.getName(),Field.Store.YES,Field.Index.NOT_ANALYZED));doc.add(newField("path",file.getAbsolutePath(),Field.Store.YES,Field.Index.NOT_ANALYZED));//5.通过IndexWriter添加文档到索引中writer.addDocument(doc);}}搜索实现的基本步骤1、 创建Directory2、 创建IndexReader3、 根据IndexReader创建IndexSearcher4、 创建用户的查询输入Query5、 根据Searcher搜索并且返回TopDocs6、 根据TopDocs获取ScoreDoc对象7、 根据Searcher和ScoreDoc对象获取具体的Document对象8、 根据Document对象获取具体的值9、 关闭Reader代码:publicvoidsearcher(){try{〃1、创建Directorydirectory=FSDirectory.open(newFile("d:/lucene/indexXX"));〃创建索引的位置指定〃2、创建IndexReaderIndexReaderreader=IndexReader.open(directory);〃3、根据IndexReader创建IndexSearcherIndexSearchersearcher=newIndexSearcher(reader);〃4、创建用户的查询输入Query。〃4.1首先通过parser来确定要搜索的内容,第二个参数表示搜索的字段,分词器为标准分词器;QueryParserparser=newQueryParser(Version.LUCENE_35,"content",newStandardAnalyzer(Version.LUCENE_35));〃4.2通过parser传递的参数,创建查询对象,这里为搜索包含以下关键词的文档Queryquery=parser.parse("Dobby");〃5、根据Searcher搜索并且返回TopDocsTopDocstds=searcher.search(query,10);〃6、根据TopDocs获取ScoreDoc对象ScoreDoc[]sds=tds.scoreDocs;for(ScoreDocsd:sds){〃7、根据Searcher和ScoreDoc对象获取具体的Document对象Documentd=searcher.doc(sd.doc);〃8、根据Document对象获取具体的值System.out.println(d.get("filename")+"["+d.get("path")+"]");}〃9、关闭Readerreader.close();}catch(CorruptIndexExceptione){e.printStackTrace();}catch(IOExceptione){e.printStackTrace();}catch(ParseExceptione){e.printStackTrace();}搜索、浏览与导航的辩证关系广义的搜索是人类的一项基本交互行为。在计算机领域中将搜索定义为:计算机通过匹配用户的输入,检索出相关信息。通常我们所说的搜索一般是指知道要找什么,将需求表达为关键词,提交到搜索引擎得到相关信息。浏览可以视为搜索的一个特定类型,包括无目的的扫视和目标导向的搜索。有目的的浏览依赖于信息架构,结构是浏览的一个重要基础。用户浏览也是一个学习和认识深化的过程.导航是搜索活动的一个辅助机制,帮助用户在浏览过程中定位和指明方向。导航结构建立在信息架构之上,强调链接之间的路径设计。一种观点:将搜索与浏览作为两种基本搜寻行为,将导航作为辅助机制融入二者之中。PageRank是基于「从许多优质的网页链接过来的网页,必定还是优质网页丨的回归关系,来判定所有网页的重要性。影响因素:1反向链接数(单纯的意义上的受欢迎度指标)2反向链接是否来自推荐度咼的页面(有根据的受欢迎指标)3反向链接源页面的链接数(被选中的几率指标)为什么还要有HITS算法:PageRank算法中对于向外链接的权值贡献是平均的,即不考虑不同链接的重要性。而WEB的链接具有以下特征:1.有些链接具有注释性,也有些链接是起导航或广告作用。有注释性的链接才用于权威判断。2•基于商业或竞争因素考虑,很少有WEB网页指向其竞争领域的权威网页。3•权威网页很少具有显式的描述,比如Google主页不会明确给出WEB搜索引擎之类的描述信息。可见平均的分布权值不符合链接的实际情况 一HITS算法是HypertextInducedTopicSearch的简写.与PageRank采用的静态分级算法不同,HITS是査询相关的。当用户提交一个查询请求后,HITS首先展开一个由搜索引擎返回的相关网页列表,然后给出两个扩展网页集合的评级,分别为权威等级和中心等级。HITS优点:它根据查询主题来为网页评级,这样能够提供与查询更加相关的权威页和中心页。缺点:1容易作弊:因为在自己的网页上添加大量的指向权威页的链接是很容易的,所以很容易影响HITS算法。2话题漂移:在扩充的根集中很多网页可能和搜索话题无关。3査询时低效:查询时计算是很慢的。寻找根集,扩展根集然后计算特征向量都是非常费时的操作.PageRank与HITS:它们都利用了网页和超链组成的有向图,根据相互链接关系进行递归运算。两者又有很大的区别,主要在于运算的时机:1、Pagerank是在网页搜集告一段落时,离线的使用一定的算法计算每个网页的权值,在检索时只需要从数据库中取出这些数据即可,而不用做额外的运算,这样做的好处是检索的速度快,但丧失了检索时的灵活型。2、HITS使用即时分析运算策略,每得到一个检索,它都要从数据库中找到相应的网页,同时提取出这些网页和链接构成的有向子图,再运算获得各个网页的相应链接权值。这种方法虽然灵活性强,并且更加精确,但在用户检索时进行如此大量的运算,检索效率显然不高。信息检索系统的评价:1功能测试与分析:侧重于测试系统的软件功能是否存在错误与缺陷,是否符合预期的设计目标。往往不具备具体的评价标准,难以计量。2检索效益评价:测定检索系统提供的服务或系统本身投入使用所获得效益。3性能评价:性能评价的常用办法是衡量系统的时间和空间指标;对于检索系统的性能来说,要求检索结果按照相关度进行排序。系统角度的性能评价指标:相关性(查全率、查准率、漏检率、误减率);用户角度的性能评价指标:涵盖率、新颖率、相对查全率、查全效果信息检索研究中的相关性假定:对于一个给定的文档集合和一个用户查询,存在并且只存在一个与该查询相目关的文档集合。检索系统的目标就在于检出相关文档而排除不相关文档。相关性不是二值评价,而是一个连续的量,即使进行二值评价,很多时候也很难。从人的立场上看,相关性是:主观的,依赖于特定用户的判断;情景相关的,依赖于用户的需求;认知的,依赖于人的认知和行为能力;时变的,随着时间而变化査全率:检出的相关文档占相关文档总量的百分比査准率:检出的相关文档占被检出文档的百分比。信息检索评测:文本检索会议(TextRetrievalConference,TREC)是信息检索界为进行检索系统和用户评价而举行的活动,它由美国国家标准技术协会和美国高级研究计划局共同资助,开始于1992年,每年一次,参加者免费获得标准训练和开发数据、参加者在参加比赛时收到最新的测试数据,并在限定时间内作出答案,返给组织者、组织者对各参赛者的结果进行评价、包括检索、过滤、问答等多个主题大多数信息搜寻模型都是以陈述和图表形式表示模型是采用数学工具,对现实世界某种事物或运动的抽象描述,面对相同输入,模型的输出应能无限逼近现实世界的输出。信息检索模型:表示文档、用户查询以及查询与文档的关系的框架Wb信息釆集工作方式:1,收集一部分热门的、权威性高的、拥有较多超链接的网页为起点,这类站点被称为“种子网页集合”2,通过网络爬虫程序访问

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论