新信息检索在数学建模型中的应用_第1页
新信息检索在数学建模型中的应用_第2页
新信息检索在数学建模型中的应用_第3页
新信息检索在数学建模型中的应用_第4页
新信息检索在数学建模型中的应用_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新信息检索在数学建模型中的应用第1页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用计算机信息检索,是指以计算机技术为手段,通过光盘和联机等现代检索方式进行信息检索的方法。与手工检索一样,计算机信息检索应作为未来科技人员的一项基本功,这一能力的训练和培养对科技人员适应未来社会和跨世纪科研都极其重要,一个善于从电子信息系统中获取信息的科研人员,必定比不具备这一能力的人有更多的成功机会,美国报道生活新方式的期刊POV也将交互网络检索专家作为未来十大热门职业之一,这些情况都说明了计算机信息检索越来越重要,故值得大家对这一技术予以重视。2文献

(1)科技文献的结构等级一次文献(primarydocument):是指作者以本人的研究成果为基本素材而创作或撰写的文献,不管创作时是否参考或引用了他人的著作,也不管该文献以何种物质形式出现,均属一次文献。大部分期刊上发表的文章和在科技会议上发表的论文均属一次文献。第2页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用

二次文献(secondarydocument):是指文献工作者对一次文献进行加工、提炼和压缩之后所得到的产物,是为了便于管理和利用一次文献而编辑、出版和累积起来的工具性文献。检索工具书和网上检索引擎是典型的二次文献。三次文献(tertiarydocument):是指对有关的一次文献和二次文献进行广泛深入的分析研究综合概括而成的产物。如大百科全书、辞典等。也有研究者在以上分类基础上再加上零次文献,它是指未经过任何加工的原始文献,如实验记录、手稿、原始录音、原始录像、谈话记录等。零次文献在原始文献的保存、原始数据的核对、原始构思的核定(权利人)等方面有着重要的作用。(2)十大情报源所谓“十大情报源”,是指人们在进行科研及技术工作时使用频率比较高的十种情报来源的总称。第3页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用a.科技图书:是对某专门知识或某学科进行系统的论述或概括的一种情报来源。其主要特征是内容比较成熟,但相对比较陈旧。合法出版的图书均有版权页。b.科技期刊(periodical):又称连续性出版物(serials),是一种定期或不定期连续出版的文献载体,它一般有同样的名称,按一定时间编定卷号,每一卷又分若干期。其类型有:i.学术性、技术性刊物,是科技期刊的核心部分。刊名一般为:Acta(学报)、Journals(杂志)、annales(纪事)、Bulletin(通报)、Transactions(汇刊)、Preceedings(会刊)、Review(评论)、Progress;Advancesin...(进展)等。

ii.快报型。Communication(通讯)、letters(通讯)、bulletin等。iii.消息性(newsyjournals)。news(新闻)、newsletters等。

iv.资料性(datajournals)。data、event等。科技期刊是最重要的一类文献来源。第4页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用c.科技报告:报道(记录)研究和开发调查工作的成果或进展情况的一种文献类型,一般都编有号码,供识别报告本身及其发行机构可以说,报告是一种典型的机关团体出版物,常用的报告名称有:科技报告按按报告的形式可分为:report(报告书),technicalnotes(技术札记),memorandum(备忘录),papers(论文),bulletin(通报),technicaltranslations(技术译丛),specialpublications(特种出版物)。按研究的进展情况分:primaryreport(初步报告),progressreport(进展报告),interrimreport(中间报告),finalreport(中间报告)。科技报告与其它文献的显著不同为根据科研水平的高低,科技报告分为若干密级,如topsecret(绝密)、secret(秘密)、confidential(保密)、restricted(非密限制发行)、unclassified(公开)、declassified(解密)。第5页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用d.会议文献:是指学术会议文献,它往往反映出科学技术的发展趋势,其特点是与最新成果的间隔时间短,但其内容与期刊相比可能不太成熟。会议类型大致可分为国际会议、全国性会议及地区会议等。会议和会议文献常用的主要名称有conference(大会)、meeting(小型会议)、symposium(讨论会)、proceeding(会议录)、paper(单篇论文)、transaction(汇报)等。e.专利文献:在实行专利制度的国家,凡是本国或外国的个人和企业有了创造发明,都可以根据专利法的规定,向本国或外国专利局提出申请,经审查合格,批准授予在一定年限内享有创造发明成果的权利,并在法律上受到保护,这样一种受到法律保护的技术专有权利叫做专利。专利是与产业活动密切相关的,因而其实用性非常强。根据专利的技术水平和应用情况,其类型有invention(发明)、utilitypatent(实用新型)、和designpatent(外观设计)等。第6页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用f.标准文献:标准化主要包括三个方面:

Ⅰ.产品标准化,即产品质量要符合技术规定;

Ⅱ.产品规格化和系列化,即产品按型号大小来分档,成系列的发展,从而保证以较少的品种来满足广泛的要求;

Ⅲ.零部件通用化,即同类机型零部件,特别是易损件要做到最大限度的通用互换性经过公认权威当局批准的标准化工作成果,可以采用文件形式或规定基本单位(物理常数)这两种形式固定下来、以文件形式出现的标准化工作成果,就是标准文献。g.学位论文:是高校研究生、毕业生为获得学位进行科学研究而写出的学术性论文。博士学位论文中,常含有独创性的学术性文献资料。h.产品资料:一般是指品样本,即产品说明书。好的产品说明书含有丰富的内容,包括产品规格、产品特点、产品专利号等多种对生产有用的信息。第7页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用I.技术档案:是指在生产建设中和科技部门的技术活动中形成的,有一定的工程对象的技术文件的总称。j.科技报纸:一些专门刊登科技类文献的报纸对了解当前的学科前沿和水平以及科学新闻很有益处。十大情报源中,最重要的是期刊、会议论文和专利。

3文献的特征一篇文章、一本书、一份报告等一般都有以下特征:(1)外表特征:题目、作者、作者工作单位,专利和科技报告还有专利号或报告号等,这些可以表征一篇特定文献的特征可以在文献的封面或扉页,即不打开书本,或不看文献的具体内容就可以确定一篇文献。(2)内容特征:假如我们深入到文献内容中间,则可以发现还可用另外两种方法来表征它:

a.一般,一篇文献都是论及某一方面的特定问题的,也就是说,与论题相关的词出现的频率较大。主题词或关键词即称为文献的主题特征第8页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用b.另外,一篇文献还可以按照各种自然科学和社会科学的分类方法进行归类,如《中图法》:是我国图书馆和情报单位普遍使用的一部综合性的分类法。《中图法》共分5个基本部类、22个大类。采用汉语拼音字母与阿拉伯数字相结合的混合号码,用一个字母代表一个大类,以字母顺序反映大类的次序,在字母后用数字作标记。为适应工业技术发展及该类文献的分类,对工业技术二级类目,采用双字母。第9页,共51页,2023年,2月20日,星期六新生入馆教育

A马列毛邓

B哲学类系C-K社会科学

N-X自然科学

Z综合性图书简表:

马克思主义、列宁主义、毛泽东思想

A马克思主义、列宁主义、毛泽东思想哲学

B哲学社会科学

C社会科学总论第10页,共51页,2023年,2月20日,星期六新生入馆教育

D政治、法律

E军事

F经济

G文化科学教育体育

H语言文字

I文学

J艺术

K历史地理自然科学

N自然科学总论

O数理科学和化学第11页,共51页,2023年,2月20日,星期六新生入馆教育

P天文学、地球科学

Q生物科学

R医药、卫生

S农业科学

T工业技术

U交通运输

V航空、航天

X环境科学、劳动保护科学综合性图书

Z综合性图书第12页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用

N

O

P

Q

R……自然科学总论数、理、化天文、地理生物医、卫

O1

O3

O4

O6

O7……数学力学物理化学晶体

O11

O12

O13……古典数学初等数学高等数学

O121O122

O123

O124算术初等代数初等几何三角这样,我们可以把某一篇文献归入某一类中,如有关三角方面的文献可归入O124中,O124即可称为该文献的分类特征。第13页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用T工业技术(这是最为庞大的一个类目,下面又划分许多子类目)TB一般工业技术

TH机械仪表工业

TN无线电电子学,电信技术例如:《电视图象信号处理》TN941.1TP自动化技术,计算机技术

TP311程序设计,软件工程(数据结构,数据库理论)TP312程序语言

TP316操作系统

TP391信息处理(文字,图像处理软件方面)TP393计算机网络

《中图法》适用公共图书馆和高校图书馆。第14页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用文献的外表特征与文献是一一对应的,即一组外表特征只对应一篇唯一的文献,而文献的内容特征与文献却是一种模糊的对应关系,即一篇文献有多个主题词(关键词)或分类号,一个主题词(关键词)或分类号也可对应多篇甚至几百篇文献。正因为存在这两种对应关系,使得两种特征的用途大不相同。利用外表特征只能检出很少的文献,有时只用于特定情况下(如已经知道作者名等)。利用内容特征一次能检出一批文献,这对研究者来说是极其有用的。

第15页,共51页,2023年,2月20日,星期六二计算机基本检索方法

一、布尔检索

利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。第16页,共51页,2023年,2月20日,星期六二、截词检索

截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词可有后截断、前截断、中截断三种类型。

不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。下面以无限截词举例说明:

(1)后截断,前方一致。如:comput?表示computer,computers,computing等。

(2)前截断,后方一致。如:?computer表示minicomputer,microcomputers等。

第17页,共51页,2023年,2月20日,星期六(3)中截断,中间一致。如?comput?表示minicomputer,microcomputers等。

截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在西文检索中,更是广泛应用。截断技术可以作为扩大检索范围的手段,具有方便用户、增强检索效果的特点,但一定要合理使用,否则会造成误检。

四、加权检索和聚类检索

1.加权检索

加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔检索、截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串第18页,共51页,2023年,2月20日,星期六是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。加权检索的基本方法是:在每个提问词后面给定一个数值表示其重要程度,这个数值称为权,在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和达到或超过预先给定的阈值,该记录即为命中记录。

运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围提高检准率的有效方法。但并不是所有系统都能提供加权检索这种检索技术,而能提供加权检索的系统,对权的定义、加权方式、权值计算和检索结果的判定等方面,又有不同的技术规范。

2.聚类检索

第19页,共51页,2023年,2月20日,星期六聚类检索是在对文献进行自动标引的基础上,构造文献的形式化表示——文献向量,然后通过一定的聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类的检索技术。根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。在这样的类目体系中,主题相近、内容相关的文献便聚在一起,而相异的则被区分开来。

聚类检索的出现,为文献检索尤其是计算机化的信息检索开辟了一个新的天地。文献自动聚类检索系统能够兼有主题检索系统和分类检索系统的优点,同时具备族性检索和特性检索的功能。因此,这种检索方式将有可能在未来的信息检索中大有用武之地。

五、扩检与缩检

1.扩检

第20页,共51页,2023年,2月20日,星期六扩检是指初始设定的检索范围太小,命中文献不多,需要扩大检索范围的方法。扩检的方法主要可以有以下几种:①概念的扩大;②范围的扩大;③增加同义词;④年代的扩大。

2.缩检

缩检是指开始的检索范围太大,命中文献太多,或查准率太低,需要增加查准率的一个方法。缩检与扩检相反,即概念的缩小、范围的限定、年代的减少等。此外,还可以通过以下方法进行限定:①核心概念的限定;②语种的限定;③特定期刊的限定。

扩检与缩检是检索过程中经常面临的问题。在联机检索时,由于机时的限制,用户应该在上机前就拟定好扩检与缩检的策略,也就是说,在拟定检索策略时,应该同时考虑如命中文献太少或太多时如何处理的办法。否则,会大大增加机时,而且不易得到满意的果。第21页,共51页,2023年,2月20日,星期六检索效果的评价

检索效果是指利用检索系统(或工具)开展检索服务时所产生的有效结果。计算机检索效果如何,直接反映检索系统的性能,影响系统在信息市场上的竞争能力和用户的利益。

一、评价的目的、范围

评价系统的检索效果,是为了准确地掌握系统的各种性能和水平,找出影响检索效果的各种因素,以便有的放矢,改进系统的性能。检索效果包括技术效果和社会经济效果两个方面。技术效果主要是指系统的性能和服务质量,系统在满足用户的信息需要时所达到的程度。社会经济效果是指系统如何经济有效地满足用户需要,使用户或系统本身获得一定的社会和经济效益。因此,技术效果评价又称为性能评价。社会经济效果评价则属于效益评价,而且要与费用成本联系起来,比较复杂。第22页,共51页,2023年,2月20日,星期六二、评价标准判定一个检索系统的优劣,主要从质量、费用和时间三方面来衡量。因此对计算机信息检索的效果评价也应该从这三个方面进行。质量标准主要通过查全率与查准率进行评价。费用标准即检索费用是指用户为检索课题所投入的费用。时间标准是指花费时间,包括检索准备时间、检索过程时间、获取文献时间等。查全率和查准率是判定检索效果的主要标准,而后两者相对来说要次要些。

查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。第23页,共51页,2023年,2月20日,星期六查全率=[检出相关文献量/文献库内相关文献总量]×100%

查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。

查准率=[检出相关文献量/检出文献总量]×100%查准率是用来描述系统拒绝不相关文献的能力,有人也称查准率为“相关率”。查准率和查全率结合起来,描述了系统的检索成功率。实际上,影响检索效果的因素是非常复杂的。根据国外有关专家所做的实验表明,查全率与查准率是呈反比关系的。要想做到查全,势必会要对检索范围和限制逐步放宽,则结果是会把很多不相关的第24页,共51页,2023年,2月20日,星期六

文献也带进来,影响了查准率。企图使查全率和查准率都同时提高,不是很容易的。强调一方面,忽视另一方面,也是不妥当的。应当根据具体课题的要求,合理调节查全率和查准率,保证检索效果。三、影响检索效果的因素

查全率与查准率是评价检索效果的两项重要指标。查全率和查准率与文献的存储与信息检索两个方面是直接相关的,也就是说,与系统的收录范围、索引语言、标引工作和检索工作等有着非常密切的关系。第25页,共51页,2023年,2月20日,星期六1.影响查全率的因素

影响查全率的因素从文献存储来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等。此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索系统不具备截词功能和反馈功能第26页,共51页,2023年,2月20日,星期六

2.影响查准率的因素

影响查准率的因素主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等等。

第27页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用第三节网络信息搜索1实用网络搜索技巧/搜索技巧实用网络搜索技巧

通过互联网获取信息,如何避免在浩瀚的互联网海洋中迷失方向,掌握一些基本的网上搜索技巧可以说是必需的。1.1基本搜索技巧1、使用逻辑词辅助查找比较大的搜索引擎都支持使用逻辑词进行更复杂的搜索界定,常用的有:AND(和)、OR(或)、NOT(否)及NEAR(两个单词的靠近程度),恰当应用它们可以使搜索结果非常精确。另外,也可以使用括号将搜索词分别组合,如[(新闻OR足球)AND米兰)NOT(“新闻”OR足球]。2、使用双引号进行精确查找如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,这样得到的结果最少、最精确。第28页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用3、有针对性地选择搜索引擎用不同的搜索引擎进行查询得到的结果常常有很大的差异,这是因为它们的设计目的和发展走向存在着许多不同,有的专用于USENET的搜索引擎,而有的则是针对邮递列表或IRC等的搜索引擎。使用时要根据自己的需要选择合适的搜索引擎。4、使用加减号限定查找很多搜索引擎都支持在搜索词前冠以加号“+”限定搜索结果中必须包含的词汇,用减号“-”限定搜索结果不能包含的词汇。5、细化查询许多搜索引擎都提供了对搜索结果进行细化与再查询的功能,如有的搜索引擎在结果中有“查询类似网页”的按钮,还有一些则可以对得到的结果进行新一轮的查询。第29页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用6、根据要求选择查询方法如果需要快速找到一些相关性比较大的信息,可以使用目录式搜索引擎的查找功能。如果想得到某一方面比较系统的资源信息,可以使用目录一级一级地进行查找。如果要找的信息比较冷门,应该用比较大的全文搜索引擎查找。7、注意细节在Internet上进行查询时如果能注意一些细节问题,常常能增加搜索结果的准确性,如许多搜索引擎都区分字母的大小写,因此,如果你正在搜索人名或地名等关键词,应该正确使用它们的大小写字母形式。8、利用选项界定查询目前越来越多的搜索引擎开始提供更多的查询选项,利用这些选项人们可以轻松地构造比较复杂的搜索模式,进行更为精确的查询,并且能更好地控制查询结果的显示。第30页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用1.2快速搜索技巧网上的信息搜索技术越来越多,怎样才能高效迅速地找到问题的答案呢?有几种技术可以帮助你更加快捷地找到所需网页。没有一种技术是万能的,但将几种技术巧妙地结合起来使用会大大加快网页搜索进程。1、搜索词组如果只给出一个单词进行搜索,经常会出现数以千计甚至以百万计的匹配网页。然而如果再加上一个单词,那么搜索结果会更加切题。在搜索时,给出两个关键词,并将两个词用AND(与逻辑)结合起来,或者在每个词前面加上加号“+”,这种与逻辑技术大大地缩小了搜索结果的范围,从而加快了搜索。幸运的是,所有主要的搜索引擎都使用同样的语法。一个带引号的词组意味着只有完全匹配该词组(包括空格)的网页才是要搜索的网页。把这几种符号结合起来使用,能大大提高搜索效率。第31页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用2、选择词组一般说来在网页搜索引擎中,用词组搜索来缩小范围从而找到搜索结果是最好的办法。但是,运用词组搜索涉及到如何使用一个词组来表达某一具体问题。有时简单地输入一个问题作为词组就能奏效,然而简单明了地提问方法只对一部分搜索奏效。选择合适的词组对提高搜索效率是很重要的,实在找不出时可以试试下面的方法。3、查找信息源有时词组搜索太精确或者一个词组无法准确表达所需信息。那么可以直接到信息源,这种技术“简单得似乎不值一提”,但却很有效。根本不用搜索引擎,直接到提供某种信息组织的站点去。很多时候我们可以用公式“www.公司名.com”去猜测某一组织的特点。从而得到所要搜索的信息的主要词组。第32页,共51页,2023年,2月20日,星期六信息检索在数学建模中的应用一.数字图书资源的检索使用较通用的数字超星关键词:数学建模

书目二.电子期刊资源的检索使用中国期刊全文数据库问题一:2009C题卫星和飞船的跟踪测控方法一:根据篇名

卫星

卫星跟踪

第33页,共51页,2023年,2月20日,星期六方法二:分析关键词阅读材料,我们列出以下关键词.

卫星轨道共面区域覆盖另外,我们还需要了解收集我国一个卫星或飞船的运行资料和发射时测控站点的分布信息

卫星运行发射

书目信息

测控站点分布问题二:高等教育学费标准探讨分析关键词:高等教育学费

书目信息1

书目信息2第34页,共51页,2023年,2月20日,星期六数学建模常用网站:

1、中国大学生数学建模竞赛:

/

2、数学中国:

/index.html

3、中国数学建模网:

/home/

4、中国工业与应用数学学会:

/

5、中国数学资源网:

/

6、苏北数学建模联赛:

/

7、国际赛:

/

第35页,共51页,2023年,2月20日,星期六

8、山东大学数学建模网:

/

9、赛才网数学建模论坛:

/bbs/

10、浙江大学数学建模网:

/mmb/

软件:

(1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论