《Web信息检索》word版.doc_第1页
《Web信息检索》word版.doc_第2页
《Web信息检索》word版.doc_第3页
《Web信息检索》word版.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

理想的Web信息查询模式浅谈黄小文(浙江省诸暨市实验职中 311800)摘要:Web信息查询模式是互联网信息共享的一个重要研究课题,实现信息查询的快速、高效、准确是研究的目标,本文通过讨论就信息查询涉及的关键技术,阐述了笔者眼中理想的Web信息查询模式的基本观点。关键词:Web,信息,查询模式一、 引言二十一世纪是信息高度密集发展的时代,Internet和Web已经成为人们日常生活和工作学习中不可缺少的部分。随着技术的发展和普及,Web已经成为一个全球性的巨型公众信息空间,而且仍在不断的扩张。几年前我们还只能够通过电视和报纸得知新闻或者天气预报的内容,只能通过商场和厂家的宣传材料获得产品的资料,只能从少数认识的人口中得到对最新电影的评价,等等。传统的信息获取渠道和方式不仅单一,而且缺乏,往往不能满足我们对信息的要求。而较之传统的获取信息的方式,Web信息查询具有更大的便利性,也更加全面。无须质疑,Web上面巨大的信息量为我们提供了获取任何信息的可能性。然而正是因为这种“众人拾柴火焰高”、“大家齐来添砖加瓦”的信息发布方式,Web上的信息量不断的膨胀。随着Web规模的日益庞大,要在Web中查找自己想要的信息变得越来越困难,很多人都发现自己花在搜索信息的时间大大增加,有的时候甚至Google了一天还是没能找到对自己有用的东西。这些现象我们称之为Web信息查询中的 “信息迷向”和“信息过载”,也是当前的Web信息查询模式本身的不足所带来的问题。要快速、高效、准确的找到所需信息就要改进Web信息查询模式,这里就我在使用过程中想到的几个方面来谈一下对理想信息查询的几点看法。二、理想信息查询模式对于用户而言,进行Web信息查询一般是通过直接浏览网页、使用搜索引擎和分类目录等等方式进行的。这种信息查询的模式能够让我们尽可能多的得到相关的信息,但问题正如前面所说,相关未必是最需要的信息。另外,在对信息查询需求的描述、对多个信息源的处理方面、对用户行为的分析和适应等等方面,还存在有很多的不足。那么,理想的Web信息查询模式到底是什么样的呢?相信每一个经常使用Web进行信息查询的人都会有自己的看法。从普通用户的观点来看,理想的模式应当使得查询准确、高效和方便,能够做到“所答即所问”。以下几点是我所认为的在现有模式的基础上,理想的Web信息查询模式所应当具备的特点:1. 符合语言习惯,易于描述需求的查询语言在查询语言方面,用户可以用自然语言将需求清楚地描述,比如“什么树的叶子有苹果的味道”、“人民中路附近有那些娱乐设施”这样符合我们平常语言习惯的句子。而对信息查询提供者而言,理解用户的查询需求需要提取句子的语义,将其转化为机器能够理解的规范化的语言,这就需要用到自然语言处理技术。在目前的搜索引擎中所用到的自然语言处理技术尚且有限,尤其是中文自然语言处理,只能识别一些简单的短语和常见的句子结构;由于自然语言处理使信息查询变得更加方便、快速和准确,目前已经有越来越多的搜索引擎支持自然语言搜索特性。而如何能让用户在Web信息查询中无限制的使用自然语言,同时又能很好的准确地理解用户的需求,还需要进一步的研究。系统能否准确表达用户查询,这对信息查询的准确度是最为重要的,同时系统也应能够向用户提供模糊查询方式,所以系统应将数据库技术与信息检索技术联合使用,提供精确查询功能与模糊查询功能。2. 用户即时需求与个性化的信息主动服务相结合的操作方式在操作方式上,除了在提交查询请求后及时地得到结果,用户还能够得到个性化的信息主动服务,定制一些查询,而信息提供商源源不断收集Web信息,一旦发现满足(或者更为满足)用户的查询则将通知给用户。这类似于目前的一些信息定制服务,比如一些电子商务网站上注册定期的电子邮件通知,或者短信的定制,以及一些金融方面的业务,这些都涉及到信息推送和数据流技术。这些信息定制服务有一个共同点是用户只能在提供者所提供的内容中进行选择,而采用信息主动服务方式的Web查询的内容和时间不应当受到信息提供者的限制;另外,Web信息主动服务还能够通过对用户的需求分析从而找到用户未表示但潜在的兴趣,从而主动的为用户提供相关的信息。Web挖掘技术能够支持这一点。Web挖掘是数据挖掘应用于Web上的产物。Web挖掘包含了从Web数据中发现潜在有用的未知信息或者知识的全部过程,涵盖了数据库中的知识发现(KDD)的过程。Web结构挖掘和使用记录挖掘对于用户定制个性化的查询服务非常必要。通过这两种Web挖掘的方式,信息提供者能够获取用户访问模式信息,帮助理解用户的意图和行为,对搜索引擎的信息分类与索引方式进行重新组织,为用户提供个性化的服务。另外,还可以了解Web结构,分析系统性能,改进Web站点的结构及其服务质量,改进Web系统设计。3. 支持基于内容、语义和知识的查询在信息的收集上,要从海量的信息中提取出有用的知识以支持基于知识的查询,这便是Web数据挖掘以及知识库管理所涉及的方面了。知识库是实现智能搜索的基础和核心,它是语义理解中最终将要提供给用户的结果,同互联网的状况相同,人类的知识结构和容量都在飞速膨胀,所以知识库也需要有良好的适应能力。Web内容挖掘则是从Web文档内容或其描述中提取有用知识的过程。这种挖掘方式在一定的程度上能够对Web信息做基于内容的分析,从而找到更有用的部分。而信息查询结果依赖于用户采用哪种查询方式,如果用户采用模糊查询方式,系统反馈给用户的是与用户查询相关的文档集合,如果用户采用的是精确查询方式,则系统按照概念模式将查询结果反馈给用户,因此系统需要对查询结果进行相关度排序。由于统计方法的机械性,要在Web上千差万别的信息中发现语义和知识是很困难的,这将会成为未来研究的一个重点。4. 提供的信息全面,并且减少冗余对于一个查询来说,能够尽可能多的提供当前Web上包含的对用户有效的信息,但对于包含同样的信息的副本则可以过滤掉。信息质量是Web信息查询最关键的因素,而做到全面并且减少冗余也是非常的困难,因为Web无穷的传播性,同样内容的信息可能在不同的网站上都有副本,而现在的搜索引擎技术和信息集成技术基本上会把这些全部显示给用户,使得用户必须访问多个站点才能获得比较全面的信息,这就增加了用户处理信息的困难。信息集成技术便是将各种数据源集成起来,提供给用户一个统一的视图和视角,使用户可以直接获得完整的信息却不用关心信息的具体来源和获得方式,使用户获得如同数据库查询一样的轻松。如此看来,如何进行信息源的集成转换和过滤是Web智能领域研究的重点之一。上面是对理想查询模式的几点看法。当然,所谓理想的模式,相信每个人都会有不同的看法。总的说来,科学技术的每一次进步,都是向理想靠近的结果,而绝对的理想是无法达到的,这也正是科技发展的源泉和动力所在。参考文献:1. Michael S.Lew. “Next-generation We

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论