第九章网络信息检索的原理与技术_第1页
第九章网络信息检索的原理与技术_第2页
第九章网络信息检索的原理与技术_第3页
第九章网络信息检索的原理与技术_第4页
第九章网络信息检索的原理与技术_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 信息检索信息检索 原理与技术原理与技术第九章第九章 网络信息检索的原理及技术网络信息检索的原理及技术制作人:张美制作人:张美2014年年6月月10日日第三节第三节 网络信息的采集网络信息的采集 第四节第四节 网络信息的搜索网络信息的搜索 第一节第一节. 网络信息检索基础网络信息检索基础 第二节第二节.网络信息检索基本原理网络信息检索基本原理 讨讨 论论 题题3. 元数据?元数据?MARC元数据?元数据?DC元数据?元数据? 4. RDF?它的作用是什么?有啥特点?它的作用是什么?有啥特点? 1. 什么是什么是网络蜘蛛网络蜘蛛?工作原理?工作原理?2. 什么是主题信息采集技术什么是主题信息采集

2、技术? 7. 什么是数据库集群系统?优势和分类?什么是数据库集群系统?优势和分类? 5. Z39.50作用及特点?提供的服务?作用及特点?提供的服务? 6. 网络信息资源集成有什么意义?网络信息资源集成有什么意义? 第一节第一节. 网络信息检索基础网络信息检索基础 网网络络信信息息检检索索广义:指信息采集、组织、存储与检索的全过程广义:指信息采集、组织、存储与检索的全过程狭义:指广义检索过程中的检索部分,即用户根狭义:指广义检索过程中的检索部分,即用户根据网络检索工具查找网络信息的过程据网络检索工具查找网络信息的过程第二节第二节.网络信息检索基本原理网络信息检索基本原理 用户用户行为行为模式模

3、式网络信息网络信息检索技术检索技术用户在进用户在进行网络信行网络信息检索活息检索活动时的检动时的检索行为的索行为的一些特点一些特点和规律和规律网页搜索技术网页搜索技术标引技术标引技术索引技术索引技术检索技术检索技术排序技术排序技术实现网络实现网络信息检索信息检索功能的软功能的软件和数据件和数据集合集合网络信息网络信息检索系统检索系统架构架构2.12.3Internet人工收集自动收集 页面分类页面分类信息资源采集信息资源采集 地址列表地址列表 数据过滤数据过滤 用户界面用户界面索引数据库索引数据库检索服务器检索服务器用用 户户图9-4 信息检索系统的体系结构第三节第三节 网络信息的采集网络信息

4、的采集 网网络络信信息息采采集集广义:包括网络信息检索系统的所有信息采集和录入活动广义:包括网络信息检索系统的所有信息采集和录入活动 (如:电子化扫描、人工录入等(如:电子化扫描、人工录入等-系统通用方式)系统通用方式)狭义:指网络搜索引擎的信息采集狭义:指网络搜索引擎的信息采集网络信息采集的主要任务:为网络信息资源库录入信息资源网络信息采集的主要任务:为网络信息资源库录入信息资源网络搜索引擎的信息采网络搜索引擎的信息采集分为两个步骤:集分为两个步骤:1、站点索引、站点索引2、网络搜索、网络搜索4.1 搜索引擎及其分类第四节第四节 网络信息的搜索网络信息的搜索 1.搜索引擎搜索引擎综合分类综合

5、分类(1)全文搜索引擎()全文搜索引擎(代表:代表:Google、Fast/AllTheWeb、AltaVista等等)(2)目录索引(代表:)目录索引(代表:Yahoo!)(3)元搜索引擎(代表:)元搜索引擎(代表:InfoSpace、Dogpile、Vivisimo)2、常用的搜索引擎:、常用的搜索引擎:Google、百度、北大天网中英文搜索引擎、新浪、百度、北大天网中英文搜索引擎、新浪、 雅虎中国搜索引擎、搜狐、网易雅虎中国搜索引擎、搜狐、网易3、特色的搜索引擎:、特色的搜索引擎:(1)新闻搜索引擎()新闻搜索引擎(Google/百度新闻搜索、中搜新闻搜索)百度新闻搜索、中搜新闻搜索)(

6、2)音乐搜索引擎(搜刮网、百度)音乐搜索引擎(搜刮网、百度MP3搜索、搜索、1234567搜索)搜索)(3)图像搜索引擎()图像搜索引擎(Google/百度图像搜索、百度图像搜索、VisionNext搜索)搜索)(4)商机搜索引擎)商机搜索引擎 (soaso价格搜索引擎、价格搜索引擎、8848购物搜索购物搜索)4.2 搜索引擎索引技术搜索引擎索引技术网 页 正文信息正向索引反向索引分析网页分析网页过滤过滤切分切分倒排倒排图图 4.2 搜索引擎索引建立流程搜索引擎索引建立流程u1、分析网页、分析网页u2、建立倒排索引文件、建立倒排索引文件u3、搜索结果的排序、搜索结果的排序 (1)搜索引擎结果排

7、序方法分类)搜索引擎结果排序方法分类a、基于内容的排序方法、基于内容的排序方法b、基于链接的排序方法、基于链接的排序方法c、基于其他要素的排序方法、基于其他要素的排序方法(2)PagaRank算法算法(3)搜索引擎结果排序技术搜索引擎结果排序技术PagaRank算法算法PageRank:即网页排名,又称网页级别、即网页排名,又称网页级别、Google左侧排名或佩奇排名。左侧排名或佩奇排名。 是是Google用来衡量一个网站好坏的唯一标准!用来衡量一个网站好坏的唯一标准!创始人:拉里佩奇创始人:拉里佩奇(Larry Page ) Google创始人之一创始人之一算法核心思想:算法核心思想:Pag

8、eRank通过通过网络浩瀚的超链接关系网络浩瀚的超链接关系来确定一个来确定一个页页面面的的等级等级。Google把从把从A页面到页面到B页面的链接页面的链接解释为解释为A页面给页面给B页面投页面投票票,Google根据根据投票来源投票来源(甚至来源的来源,即链接到(甚至来源的来源,即链接到A页面的页面)页面的页面)和和投票目标的等级投票目标的等级来决定新的等级。这样,来决定新的等级。这样,PageRank会根据网页会根据网页B所所收到的收到的投票数量来投票数量来评估该网页的重要性。此外,评估该网页的重要性。此外,PageRank还会评估每还会评估每个投票网页的重要性,因为个投票网页的重要性,因

9、为某些重要网页的投票被认为具有较高的价值,某些重要网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值这样,它所链接的网页就能获得较高的价值。PagaRank算法相关概念算法相关概念PR值:用来值:用来评价网页的重要性评价网页的重要性,PR值越大越重要值越大越重要,其级别从,其级别从0到到10级。级。一般一般PR值值达到达到4,就,就算是一个不错的网站了算是一个不错的网站了。Google把自己的网站的把自己的网站的PR值定到值定到10,这说明,这说明Google这个网站是非常受欢迎的,也可以说这这个网站是非常受欢迎的,也可以说这个网站非常重要。个网站非常重要。阻尼因数:阻尼因

10、数:(damping factor)其值为0.85 阻尼系数d定义为用户不断随机点击链接的概率,所以,它取决于点击的次数,被设定为0-1之间。d的值越高,继续点击链接的概率就越大。因此,用户停止点击并随机冲浪至另一页面的概率在式子中用常数(1-d)表示。无论入站链接如何,随机冲浪至一个页面的概率总是(1-d)。(1-d)本身也就是页面本身所具有的PageRank值。PagaRank算法的简单计算算法的简单计算假设一个由只有假设一个由只有4个页面组成的集合:个页面组成的集合:A,B,C和和D。如果所有页面。如果所有页面都链向都链向A,那么,那么A的的PR(PageRank)值将是)值将是B,C及

11、及D的和。的和。 继续假设继续假设B也有链接到也有链接到C,并且,并且D也有链接到包括也有链接到包括A的的3个页面。一个个页面。一个页面不能投票页面不能投票2次。所以次。所以B给给每个页面每个页面半票。半票。以同样的逻辑,以同样的逻辑,D投出的投出的票只有票只有三分之一三分之一算到了算到了A的的PageRank上。上。 换句话说,换句话说,根据链出总数平分一个页面的根据链出总数平分一个页面的PR值值。 如图所示的例子来说明PageRank的算过程 PR值计算公式值计算公式PR(A)= (1-d)/N+d(PR(t1)/C(t1)+.+PR(tn)/C(tn) N: 网络中网页总数 d: 阻尼因

12、数 PR(x): 网页x的PR值 C(tn):网页tn的链出网页数 一个页面的PageRank是由其他页面的PageRank计算得到。Google不断的重复计算每个页面的PageRank。如果给每个页面一个随机PageRank值(非0),那么经过不断的重复计算,这些页面的PR值会趋向于正常和稳定。这就是搜索引擎使用它的原因。1. 网网 络络 蜘蜘 蛛蛛网络蜘蛛网络蜘蛛 即即 网络爬虫网络爬虫 (Web Spider)。)。 网络爬虫,是一种按照一定的规则,自动的抓取万维网网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自信息的程序或者脚本。另

13、外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。动索引,模拟程序或者蠕虫。 把互联网比喻成一个蜘蛛网,那么把互联网比喻成一个蜘蛛网,那么Spider就是在网上就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从找网页,从 网站某一个页面(通常是首页)开始,读取网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网到把这个网 站所有的网页都

14、抓取完为止。站所有的网页都抓取完为止。网网 络络 蜘蜘 蛛蛛 的的 基基 本本 原原 理理 广度优先广度优先搜索策略是搜索策略是指在抓取过指在抓取过程中,在完程中,在完成当前层次成当前层次的搜索后,的搜索后,才进行下一才进行下一层次的搜索。层次的搜索。该算法的设该算法的设计和实现相计和实现相对简单。在对简单。在目前为覆盖目前为覆盖尽可能多的尽可能多的网页,一般网页,一般使用广度优使用广度优先搜索方法。先搜索方法。 深度优先深度优先搜索策略从搜索策略从起始网页开起始网页开始,选择一始,选择一个个URL进入,进入,分析这个网分析这个网页中的页中的URL,选择一个再选择一个再进入。如此进入。如此一个

15、链接一一个链接一个链接地抓个链接地抓取下去,直取下去,直到处理完一到处理完一条路线之后条路线之后再处理下一再处理下一条路线。条路线。 最佳优先搜索策略按照一定的网页分最佳优先搜索策略按照一定的网页分析算法,预测候选析算法,预测候选URL与目标网页的相似与目标网页的相似度,或与主题的相关性,并选取评价最好度,或与主题的相关性,并选取评价最好的一个或几个的一个或几个URL进行抓取。进行抓取。网网 络络 蜘蜘 蛛蛛 对于搜索引擎来说,要抓取对于搜索引擎来说,要抓取Internet上所有的网页几乎上所有的网页几乎是不可能的。从目前公布的数据来看,容量最大的搜索引是不可能的。从目前公布的数据来看,容量最

16、大的搜索引擎也不过抓取了整个网页数量的擎也不过抓取了整个网页数量的40%左右。左右。1、砸去技术的瓶颈,无法遍历、砸去技术的瓶颈,无法遍历 所有的网页所有的网页 2、存储技术和处理技术的问题:、存储技术和处理技术的问题: 如果按照每个页面的平均大小为如果按照每个页面的平均大小为20KB计算,计算,100亿亿网页的容量是网页的容量是100*2000GB,及时能够存储,下载也存在及时能够存储,下载也存在问题,如果按照一台计算机每秒下载问题,如果按照一台计算机每秒下载20KB计算,需要计算,需要340台计算机不停地下载一年时间台计算机不停地下载一年时间网网 络络 蜘蜘 蛛蛛 有的网页如果不想让网络蜘

17、蛛抓取,可以对有的网页如果不想让网络蜘蛛抓取,可以对数据进行加密和权限设置数据进行加密和权限设置如果在网站上有访问日志记录,如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎网站管理员就能知道,哪些搜索引擎的网络蜘蛛来过,什么时候来过,以的网络蜘蛛来过,什么时候来过,以及读了多少条数据等及读了多少条数据等2. 简述简述什么是主题信息采集技术?什么是主题信息采集技术? 信息采集技术:是指利用计算机软件技术,针对定信息采集技术:是指利用计算机软件技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处制的目标数据源,实时进行信息采集、抽取、挖掘、处理,将非结构化的信息从大量的网页中抽

18、取出来保存到理,将非结构化的信息从大量的网页中抽取出来保存到结构化的数据库中,从而为各种信息服务系统提供数据结构化的数据库中,从而为各种信息服务系统提供数据输入的整个过程。输入的整个过程。 所谓主题,是指用户所需搜集信息的特征。主题信息所谓主题,是指用户所需搜集信息的特征。主题信息采集的任务是在尽可能短的时间内,搜集尽可能多主题采集的任务是在尽可能短的时间内,搜集尽可能多主题相关信息,尽可能少的搜索与主题无关的信息相关信息,尽可能少的搜索与主题无关的信息 主题信息采集策略主要有:基于内容评价的搜主题信息采集策略主要有:基于内容评价的搜索策略、基于链接结构的评价策略、基于未来回索策略、基于链接结

19、构的评价策略、基于未来回报价值的搜索策略、基于综合价值的搜索策略以报价值的搜索策略、基于综合价值的搜索策略以及基于动态价值评价的搜索策略。及基于动态价值评价的搜索策略。3. 、什么是元数据?什么是MARC元数据?什么是DC元数据?MARC和DC各自有什么优点和不足?元数据元数据一、元数据:元数据是指关于数据的数据。可以从广义和狭义上来理解。一、元数据:元数据是指关于数据的数据。可以从广义和狭义上来理解。广义:是指描述信息资源的一切数据广义:是指描述信息资源的一切数据狭义:指任何用于发现、识别、描述和定位网络电子资源的数据,是描狭义:指任何用于发现、识别、描述和定位网络电子资源的数据,是描述网络

20、信息资源的一种数据格式。述网络信息资源的一种数据格式。二、二、MARC元数据:元数据:MARC(机器可读目录,简称机读目录)是利用计算(机器可读目录,简称机读目录)是利用计算机识度和处理的目录。机识度和处理的目录。MARC是用于描述、存储、交换、控制和检索的一是用于描述、存储、交换、控制和检索的一套机读书目数据的标准格式。套机读书目数据的标准格式。lMARC具有标准的信息交换格式,方便具有标准的信息交换格式,方便数据交换;数据交换;l完整的书目描述,并且具有多种检索点;完整的书目描述,并且具有多种检索点;l各类信息资源在图书馆目录中的集成;各类信息资源在图书馆目录中的集成;l兼容性强。兼容性强

21、。lMARC无法及时处理大量的网络信息资源;无法及时处理大量的网络信息资源;lMARC对信息标引的专业性要求很高,不适于大多数普对信息标引的专业性要求很高,不适于大多数普通的信息用户;通的信息用户;l用用MARC格式著录的工作流程比较复杂,需要设计专业格式著录的工作流程比较复杂,需要设计专业的编目软件,编目人员要同时掌握软件操作能力和熟悉著的编目软件,编目人员要同时掌握软件操作能力和熟悉著录规则;录规则;l对于网络资源来说,对于网络资源来说,MARC所设的项目过于繁杂;所设的项目过于繁杂;lMARC元数据的产生速度不如其他元数据标准快。元数据的产生速度不如其他元数据标准快。三、三、DC元数据:

22、元数据:DC(Dublin Core)元数据即)元数据即“都柏林核心元数据都柏林核心元数据”, 是诸多元数据标准(规范)中最受关注且应用最广泛的网络信息组织元数是诸多元数据标准(规范)中最受关注且应用最广泛的网络信息组织元数据标准之一据标准之一DC用于网络信息资源编目具有以下优势:用于网络信息资源编目具有以下优势:uDC可以直接网络数据;可以直接网络数据;u通用性;通用性;u扩展性;扩展性;u适应性;适应性;u兼容性;兼容性;u灵活性;灵活性;u 简单性。简单性。4. 什么是什么是RDF?它的作用是什么?它有什么特点?它的作用是什么?它有什么特点? RDF:资源描述框架(资源描述框架(RDF)

23、是用于描述网络资源的)是用于描述网络资源的 W3C 标准,比如网页的标题、作者、修改日期、内容以及版权信标准,比如网页的标题、作者、修改日期、内容以及版权信息。息。作用:作用:为多种元数据的交互操作提供平台,为各种资源描为多种元数据的交互操作提供平台,为各种资源描述界提供定义所需要元数据单元的能力,采用述界提供定义所需要元数据单元的能力,采用“资源资源属属性性属性值属性值”的的“主谓宾主谓宾”结构,提供一种框架容器。结构,提供一种框架容器。1)独立性)独立性 2)使用)使用XML作为其描述语法作为其描述语法5. Z39.50标准协议的作用及特点标准协议的作用及特点,提供了哪些基本服务?提供了哪

24、些基本服务? 作用作用:将各个系统的具体实现映射到抽象模:将各个系统的具体实现映射到抽象模型上,才能使不同的系统在一个相互理解的、标型上,才能使不同的系统在一个相互理解的、标准的通信平台上进行交互,满足互操作的需要。准的通信平台上进行交互,满足互操作的需要。l 该协议是一种应用层协议,与使用的计算机平台、操作系统该协议是一种应用层协议,与使用的计算机平台、操作系统及检索软件无关,允许系统之间具有高度的互操作性。及检索软件无关,允许系统之间具有高度的互操作性。l 能够提供一致性的检索接口进行多数据库查询。能够提供一致性的检索接口进行多数据库查询。l 该协议是一种面向连接的有状态的协议,记录和维持

25、用户联该协议是一种面向连接的有状态的协议,记录和维持用户联机查询的状态,便于实现复杂的查询功能,查询效率高。机查询的状态,便于实现复杂的查询功能,查询效率高。l 该协议面向数据库检索,支持多种类型的数据格式与检索点该协议面向数据库检索,支持多种类型的数据格式与检索点使客户端易于整合并连接不同的服务器与数据库。使客户端易于整合并连接不同的服务器与数据库。 Z39.50标准协议提供的基本服务标准协议提供的基本服务 1、初、初 始始 化化11、终、终 止止10、扩、扩 展展 服服 务务9、解、解 释释8、资、资 源源 控控 制制7、存、存 取取 控控 制制6、分、分 类类5、浏、浏 览览4、删、删 除除 结结 果果 集集3、检、检 索索2、查、查 询询6. 网络信息资源集成有什么意义?

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论