下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、学生序号:课程论文论文题目:信息检索技术小结课程名称:现代信息检索课程序号:1110505学生姓名:王义龙学生学号:1101530124 所在学院:建筑与交通工程学院所在专业:土木工程2011-11-13随着Internet的发展,网络已成为人们获得信息的必要途径和手段,网络中的海量信息既给人们带来方便,也带来了许多问题。信息内容庞杂,为找到有用信息,人们经常要耗费大量宝贵的时间。因此,如何从大量信息中获取有用的信息,如何从迅速爆炸的信息中及时获取最新信息,都是目前面临的挑战性问题这些问题成为信息检索的新热点,因此信息检索技术成为现在信息技术的核心之一信息检索,顾名思义就是指查找满足特定需要的
2、过程。广义信息检索是指将信息按一定的方式组织和存储起来。狭义信息检索仅指信息的检索过程,即信息用户根据自己的需要,利用信息检索工具,在信息集中查找出所需要的信息的过程。信息的定义众说纷纭,莫衷一是。人们从不同学科、不同角度或不同方法对信息下了许多定义。信息定义的多样化,主要源于三方面的原因:第一,信息本身的复杂性。第二,信息科学尚不够完善成熟。第三,实际需要的不同。一般对信息概念通俗的解释是:“信息是物质的一种普遍属性,是物质存在的方式和运动的规律与特点”。信息检索的方法:(1)数据检索数据检索的条件一般具有清晰的定义,要求取得满足条件的所有对象,主要针对结构化的信息系统。这种检索在查询要求和
3、数据的存储上都要遵从统一的格式,具有固定的的结构。比较有代表性的是各种商业数据库。数据检索的特点有:依赖于代码的质量,检索花费大,检出的信息相对精确度高但查全率偏低。由于数据检索在检索中使用的字段标识方法和用户的理解可能产生误差,因此造成了数据检索的局限性。这种相对严格的匹配,也使得其支持语义匹配的能力也较差。(2)全文检索全文检索主要研究对整个文档信息的表示、存储、组织和访问方法,是以全文文本信息为主要检索对象,允许用户根据资料内容而不是外在特征,以自然语言来实现信息检索的先进查询手段。全面、准确和快速是衡量全文检索系统的关键指标。一个好的全文检索系统不仅要求将输出信息进行相关性排列,还应该
4、能够根据用户的意图、兴趣和特点自适应和智能似调整匹配机制,获得用户满意的检索输出。全文检索是把用户查询的请求以关键词的形式与文中的每一个词进行比较,而不考虑查询请求与文档语义上的匹配。这种检索方式主要基于词频分析技术。当前正被人们广泛使用的Google、Yahoo和百度等大多使用的就是全文检索技术。由于全文检索技术只针对字符串进行匹配,它的优点是检出信息量大,人工干预少;而缺点是返回结果精确度低,产生很多无关信息,这也加重了用户对查询结果的再次筛选的负担。(3)语义检索语义检索也称为基于概念的信息检索,其基本方法是通过对文献中的原文信息进行语义上的处理,析取各种概念信息,由此形成一个知识库,然
5、后,根据对用户提问的理解,在知识库中的相关信息的帮助下,发掘用户需要的信息。语义信息检索有以下几个特性:a)具有分析和理解自然语言的能力。可以对输入的原文根据其概念内容进行组织和安排,析取相关的概念信息和范畴知识;b)可以将用户查询过程以概念的形式存储到知识库,并能实现知识库的自动补充与更新,为用户提供更加智能化的服务。语义信息检技术的上述特性,提高了系统的查全率和查准率,同时由于其具备了智能检索的一些特性,有较强的理解原文内容及用户提问信息的能力,因此,备受检索用户的青睐。信息检索的意义:1.避免重复研究或走弯路 我们知道,科学技术的发展具有连续性和继承性,闭门造车只会重复别人的劳动或者走弯
6、路。研究人员在选题开始就必须进行信息检索,了解别人在该项目上已经做了哪些工作,哪些工作目前正在做,谁在做,进展情况如何等。这样,用户就可以在他人研究的基础上进行再创造,从而避免重复研究,少走或不走弯路。2.节省学习者的时间 科学技术的迅猛发展加速了信息的增长,加重了信息用户搜集信息的负担。许多学者在承接某个课题之后,也意识到应该查找资料,但是他们以为整天泡在图书馆“普查”一次信息就是信息检索,结果浪费了许多时间,而有价值的信息没有查到几篇,查全率非常低。信息检索是研究工作的基础和必要环节,成功的信息检索无疑会节省大量时间,使其能用更多的时间和精力进行科学研究。3.是获取新知识的捷径 大学生在校
7、期间,已经掌握了一定的基础知识和专业知识。但是,“授之以鱼”只能让其享用一时。如果掌握了信息检索的方法便可以无师自通,找到一条吸收和利用大量新知识的捷径,把大家引导到更广阔的知识领域中去,对未知世界进行探索。是谓“教人以渔”,才能终身受用无穷。文献检索:1文献检索的概念:狭义的检索(Retrieval)是指依据一定的方法,从已经组织好的大量有关文献集合中,查找并获取特定的相关文献的过程。这里的文献集合,不是通常所指的文献本身,而是关于文献的信息或文献的线索。广义的检索包括信息的存储和检索两个过程(Storage and Retrieval)。信息存储是将大量无序的信息集中起来,根据信息源的外表
8、特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的数据库或检索系统,供人们检索和利用。而检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息。2.文献检索的方式:手工检索是通过人工自己动手去查找,去对比检索标识和书本式检索工具(各种书本式目录、索引、文摘等)中的存贮标识的相符性,即通过“人书对话”来完成检索过程。计算机检索是通过计算机来模拟人的手工检索过程,由计算机来处理检索者的检索提问,将检索者输入检索系统的检索提问(即检索标识)按检索者预先制定的检索策略与系统文档(机读数据库)中的存贮标识进行类比、匹配运算,通过“
9、人机对话”而检索出所需要的文献。数据库索引:设计高效的索引对于获得良好的数据库和应用程序性能极为重要。为数据库及其工作负荷选择正确的索引是一项需要在查询速度与更新所需开销之间取得平衡的复杂任务。如果索引较窄,或者说索引关键字中只有很少的几列,则需要的磁盘空间和维护开销都较少。而另一方面,宽索引可覆盖更多的查询。您可能需要试验若干不同的设计,才能找到最有效的索引。可以添加、修改和删除索引而不影响数据库架构或应用程序设计。因此,应试验多个不同的索引而无需犹豫。SQL Server 中的查询优化器可在大多数情况下可靠地选择最高效的索引。总体索引设计策略应为查询优化器提供可供选择的多个索引,并依赖查询
10、优化器做出正确的决定。这在多种情况下可减少分析时间并获得良好的性能。不要总是将索引的使用等同于良好的性能,或者将良好的性能等同于索引的高效使用。如果只要使用索引就能获得最佳性能,那查询优化器的工作就简单了。但事实上,不正确的索引选择并不能获得最佳性能。因此,查询优化器的任务是只在索引或索引组合能提高性能时才选择它,而在索引检索有碍性能时则避免使用它。搜索引擎的分类:1. 按组织信息的方式分类:(1)采用分类主题目录形式。(2)使用关键词匹配方式。2. 按语种分类:(1)单语种引擎指搜索时只能用一种语言在同一搜索引擎中搜索。如中文雅虎、hotbot等。(2)多语种搜索引擎指那些可以用多种语言在同一搜索引擎中搜索。如“Altavista”。常用的搜索引擎:谷歌http:/百度http:/雅虎http:/搜狗http:/搜搜http:/网易http:/爱问http:/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论