版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息采集技术信息采集的途径与方法(二)信息采集技术信息采集的途径与方法(二)一、光盘检索采集方法一、光盘检索采集方法光盘检索简介 光盘检索:光盘的使用起始于70年代,最初主要用于制作激光唱片。80年代以来,随着计算机技术和数字化计算机的发展,光盘才开始应用于文献信息领域。光盘在文献信息领域的应用对信息的存储介质(纸、磁介质、缩微胶片等)带来了革命性的影响,并强烈地冲击着联机产业。由于以CD-ROM为代表的光盘技术具有易用、存储容量大等独特的特点,因而受到了人们的普遍欢迎,并很快发展成为一种新的检索系统——光盘检索系统。90年代初期,光盘数据库检索系统以它存储数据量大、操作简单、检索效率高、成本低廉、运行环境要求简单等特性,在高校图书馆中的到了广泛的应用,达到了它的顶峰时期。近两年来随着Internet的普及使得光盘数据库检索系统逐渐发展为光盘网络检索系统,但是目前光盘数据库的独特的优点使它仍然成为利用现代化手段进行文献检索的主要方式之一。
光盘检索简介 光盘检索:3光盘检索的特点优点:
(1)运行速度快
光盘数据库采用单机检索,不受检索线路是否拥挤的影响,即使连接在校园网上,由于传输距离较近,其运行速度也比较快。
(2)成本低,检索效果好
一般而言,CD-ROM数据库的检索费用比联机检索费用低得多,并具有很好的检索效果。购买CD-ROM数据库后,在一年内可以任意使用,利用率愈高,分摊的成本愈低,且在整个检索过程中不涉及远程通信网络问题,也不需要使用专线电话之类的通信线路,并考虑机时费与流通量的问题,没有联机检索按时间收费的紧张感,可为用户提供良好的检索条件和环境气氛。
(3)下载方便
用户可以方便地将光盘上的部分所需数据拷贝到软盘或其他计算机系统里,从而形成本部门或个人的局部数据库,以便随时查询。
(4)安全性能高
对于光盘数据库来讲,它是只读光盘,具有不可擦除性,更不会因病毒而造成文献丢失。
光盘检索的特点优点:
(1)运行速度快
光盘4光盘检索的特点缺点:
(1)使用范围有限
目前光盘数据库的规模和容量有限,一般都以某一领域学科为主,不可能囊括所有学科,而且受到所购置光盘专业种类的限制,有时会影响查全率。
(2)更新周期长
一般的光盘数据库更新需要3个月,最快也需要1个月。
(3)检索系统不兼容
不同出版商制作的光盘数据库不能在一个系统中兼容,使用上有很多不便。
(4)需要不断换盘
一个大型数据库,一般都是几张光盘,特别是全文数据库,例如中国学术期刊全文光盘数据库,每年都有一百多张光盘,检索时需要不断更换光盘。光盘检索的特点缺点:
(1)使用范围有限
目前光5光盘检索提供的服务(1)追溯检索服务
目前引进的CD-ROM数据库一般存储近5~10年的文献,对科研项目的研究提供追溯检索的服务。(2)定题服务
定题服务是为了跟踪某课题的最新动态,按用户事先预定的检索内容,主动连续地从新到的文献库中检出有关信息,提供给用户。CD-ROM数据库检索系统还具备保留和重新执行检索策略的功能,可以对检索策略进行任意修改和补充,因此实施定题服务是比较方便易行的。(3)专题追溯检索服务
教育技术研究者在开始一项新课题研究时,需要系统全面地了解这一课题的进展情况,需查找过去若干年中前人有关此课题的文献资料。由于CD-ROM数据库的使用几乎不受时间限制,因此可以为特定用户制定的专题提供专题追溯检索服务。由于受机时和费用的限制,联机检索系统一般不提供这类服务。光盘检索提供的服务(1)追溯检索服务
目前引进的CD-6光盘检索系统1.光盘检索系统的组成
光盘检索系统由光盘、光驱、计算机和相应软件组成。
(1)光盘
数据存储单元,一般由数据库供应商提供,数据在制作过程中固定在其物理介质上,不能抹掉也无法修改,称为CD-ROM。
(2)CD-ROM驱动器或光盘塔
光盘读取的专用设备,其发射的激光束聚焦在光盘的信息轨道上,在有小孔或无小孔处形成不同的光反射,这两种不同的光反射经光学系统接收后转换成电信号,计算机二进制信息“0”或“1”,经计算机解码后,成为原纪录的数字化信息。
(3)计算机及相应软件
光盘本身是一种机读文献,需在计算机上读取。目前使用的光盘检索系统都以计算机为基础设备,在普通的计算机上加载光盘驱动器的驱动软件和数据库的检索软件,即可成为光盘检索系统。
光盘检索系统1.光盘检索系统的组成
光盘检索系统7光盘检索系统2.光盘检索网络系统
光盘检索网络系统是90年代发展起来的计算机文献检索系统。随着光盘数据库的大量涌现,单机光盘检索需频繁换盘,给用户带来不便。而且在同一时刻只能有一个读者使用,无法充分发挥昂贵的光盘数据库的效益。在计算机网络的硬件和软件环境的支持下,产生了光盘网络检索系统。目前建成的光盘网络检索系统都是以计算机的局域网为基础,有多种模式,其共同特点是拥有能同时运行几十张光盘的光盘塔驱动器,它可供上百个用户同时检索同一张光盘。
光盘数据库网络的组成包括光盘塔和各种光盘组网软件以及光盘塔服务器等。
光盘检索系统2.光盘检索网络系统
光盘检索网络系统是98光盘检索的基本流程 光盘检索的基本流程为根据检索的课题选择合适的数据库,并确定检索词,根据检索要求编写检索式,开始检索,检索完毕后,分析判断检索结果,如不合适需修改检索词和检索式进行二次检索,最终得到满意的检索结果。
1.分析研究课题,明确查找要求
明确所需信息及文献内容、性质、水平等情况;在分析课题的基础上形成主题概念;根据检索主题概念的学科性质,确定检索的学科范围。
2.选择检索数据库
由于当前数据库的种类繁多,各数据库的内容相差很大,从国内外出版的数据库来看,一般从数据库的学科范围、数据库的文献范围、数据库的国别或语种范围三个方面来确定数据库的内容。
光盘检索的基本流程 光盘检索的基本流程为根据检索的课题选择9光盘检索的基本流程3.确定检索词
所谓检索词,就是将检索要求概括成的简洁词语。检索词的选择必须符合两个要求,一是能准确反映课题的检索要求,二是必须符合数据库对输入词的要求。4.编写检索式
一个课题往往需要用多个检索词来描述其含义,这些检索词又往往需要用一定的语法规则来规定,才能完整描述检索要求,这就要编写检索式。检索式是将检索词之间的关系用布尔逻辑算符和位置算符来描述的式子。5.检索结果显示及判断
根据显示文献信息的内容和篇数,可以判断检索结果是否符合要求,如果不符合要求,则调整检索词和检索式再次进行检索。
光盘检索的基本流程3.确定检索词
所谓检索词,就是将检10常用的光盘数据库1.《中文科技期刊数据库》光盘
《中文科技期刊数据库》光盘由中国科技信息研究所重庆分所于1992年6月开发成功。1993年面世,其前身为中文科技期刊篇名数据库软盘版。“中刊库”是目前国内最大的综合性文献数据库,收录了自1989年以来的中文科技期刊文献200多万条,引用期刊达5400余种,年报道量26万条,该库每季更新一次。
2.《中国专利文献》光盘数据库
中国专利文献光盘数据库(CNPAT)由中国专利信息中心出版,该数据库1992年开发成功,收录了自1985年至今在中国专利局申请并公开的全部专利信息约43万件,内容有题录、文摘和主权项,提供了关键词、发明名称、国际专利分类号、范畴分类号、申请号、发明人、公告号、优先权项、国别省市代码、申请日、公告日、申请人地址、代理机构代码共14个检索入口,其中申请人、发明人、发明名称为全文检索。3.英国《科学文摘》光盘数据库
英国《科学文摘》光盘数据库(INSPECOndisc)由英国IEE学会出版,是书本型ScienceAbstract(《科学文摘》)的机读版。其信息来源于世界范围内已出版了的计算机、电子学、物理学方面的文献,涉及期刊4200余种,会议、图书、技术报告和学位论文1000余种,每年提供25万条信息。INSPEC数据库中每条记录的著录项目有:论文题目、作者姓名、作者单位、期刊、会议、图书、报告、学位论文的信息、文摘、分类、叙词、自由词等主要项目,同时提供了分类号、主题词、自由词、数值索引、化学索引等27项检索入口。常用的光盘数据库1.《中文科技期刊数据库》光盘
11光盘检索采集的模式模式:单用户的光盘数据库信息采集模式点对点光盘数据库信息采集模式以局域网为依托的光盘数据库信息采集模式文件服务器模式/对等模式以广域网为基础的光盘数据库信息采集模式在虚拟网络基础上的光盘数据库信息采集模式E-mail,FTP、传真、程控电话等光盘检索采集的模式模式:12光盘检索采集的途径与方法途径与方法运用规范化的语言检索采集运用非规范化的语言检索采集运用规范化与非规范化语言相结合的检索采集运用文献的外形特征检索采集运用连续出版物的国际标准号码检索光盘检索采集的途径与方法途径与方法13二、全文检索采集方法二、全文检索采集方法全文检索一种将文件中所有文本与检索项匹配的文字资料检索方法。
全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。
功能上全文检索系统需要具有建立索引,处理查询返回结果集,增加索引,优化索引结构等功能。结构上具有索引引擎,查询引擎,文本分析引擎和对外接口等。全文检索15全文检索西文全文检索数据库的索引机制是心自然语言的单词为基本单元的,词与词之前有自然界限(以空格为标志)汉语的词则是以单音节为基础层层组合构成的,常用方法有“词典匹配法”、“词频统计法”、“联想词群法”、“设立标志法”、“知识与规则法”、“人工智能法”等等全文检索西文全文检索数据库的索引机制是心自然语言的单词为基本16全文数据库的结构与特点结构:包括两个部分顺序文档结构倒排文档结构特点:文本客观性/语言自然性/后控词表性/检索彻底性/较大稳定性全文数据库的结构与特点结构:17全文检索系统的模式单汉字无标引全文检索系统此系统是为了让原文每一个字都具有可检性,便通过计算机替原文的各个字都建立倒排档,以便信息人员或用户以各个单字检索入口进行检索的过程。全文检索系统在主文档中包括题名、著者、正文等字段;在倒排档中,包括字与地址集合,其中地址集合由三元组成,即文献记录号、增加字段标识与字的起始位置。特点:容易实现,维护方便,检索速度慢,浪费存储空间,查全率与查准率不高全文检索系统的模式单汉字无标引全文检索系统18例:例:19为有效检索主文档中的信息,依据主文档抽取一些字建立的倒排档:为有效检索主文档中的信息,依据主文档抽取一些字建立的倒排档:20检索过程检索过程21全文后控检索系统是为了在词与词之间建立一种指引关系,而运用后控词给予控制的体系。词与词之间有从属关系、等同关系、相关关系等。后控词表是由专家编制的一种辅助表,并由专家定期检查、更新与完善。系统特点:提高了查全和查准率;易产生歧义,量大时长;B2B1BEFGAA是B与E的上位词,E是B的同位词,B1、B2是B的同义词,F、G是B的相关词或近义词全文后控检索系统是为了在词与词之间建立一种指引关系,而运用后22例:与信息产业相关之词词间联系的参照符号:例:与信息产业相关之词词间联系的参照符号:23三、现代信息间谍采集方法三、现代信息间谍采集方法现代信息间谍采集方法概念-现代信息间谍采集方法,是间谍机构通过派遣间谍,运用现代化手段,以合法或非法的方式,采集本国或本单位所急需的、竞争对手中有极大价值的信息的方法现代信息间谍活动现状现代信息间谍采集方法概念-现代信息间谍采集方法,是间谍机构通25现代信息间谍盛行的原因是两军决用的秘密武器是搞跨竞争对手的法宝是取得奇效的上等秘诀现代信息间谍盛行的原因是两军决用的秘密武器26现代信息间谍活动的特点间谍与工具结合公开与隐蔽并施盟国与友军不存企业与企业较量专家与学者出动政府与民间携手生态间谍游荡现代信息间谍活动的特点间谍与工具结合27现代间谍采集信息的方式方法秘密方式:高空拍摄/窃取机密/行贿拉拢/美人利诱/安插内线/威胁恐吓/破译密码/假而实之公开方式卫星侦察/参观考察/分析文献/会议交流/留学搜集/无偿馈赠/发表论文/外交活动现代间谍采集信息的方式方法秘密方式:28四、社会调查采集信息的方法四、社会调查采集信息的方法社会调查采集信息的方法是针对用户的需要,向各种社会活动了解其活动情况、数据与资料的方法社会调查采集信息的方法是针对用户的需要,向各种社会活动了解其30社会调查的方法普遍调查(普查):对采集对象的运动状况、特征与趋向等进行全面采集与分析的方法,是统计调查的一种重要方式。有自上而下式和自下而上式如大规模的全国人口普查/经济普查等社会调查的方法普遍调查(普查):对采集对象的运动状况、特征与31社会调查的方法问卷调查:是采用出题与回答的方式采集信息的一种方法。是进行市场调查常用的有效方法之一。具有准确、可靠、及时的特点问卷题目的拟定要准确、简洁、易答、省时等社会调查的方法问卷调查:是采用出题与回答的方式采集信息的一种32社会调查的方法问卷调查常见的题型:是非题选择题品等题比较题填空题(比较式填空/定距定量填空)问答题社会调查的方法问卷调查常见的题型:33社会调查的方法观察调查:是信息人员深入现场后,借助于人的感觉器官与现代化设备(录音机、录像机、摄像机等)而采集信息的方法。具体办法有:浏览与询问结合扮演与混入相结合代销与观察相结合留心与捕捉相结合社会调查的方法观察调查:是信息人员深入现场后,借助于人的感觉34社会调查的方法试验调查:是采用市场营销与直接消费的方式而采集信息的方式。途径有:营销试验直接消费社会调查的方法试验调查:是采用市场营销与直接消费的方式而采集35社会调查的方法追踪调查:是将征求用户对本企业产品意见的卡片,放入产品包装盒、袋、柜等之中,待用户购买此产品时,用户便收到卡片。通过用户的使用反馈而获得信息。社会调查的方法追踪调查:是将征求用户对本企业产品意见的卡片,36社会调查的方法重点调查:是在被调查的对象中,选择部分有相当实力与影响的重点单位进行非全面的调查方法。社会调查的方法重点调查:是在被调查的对象中,选择部分有相当实37社会调查的方法典型调查:是在被调查的对象中,有意识地选择一些具有代表性的单位或个人进行调查,而后依据所调查的资料推论总体的方法。要选好典型!社会调查的方法典型调查:是在被调查的对象中,有意识地选择一些38社会调查的方法抽样调查:是从全体调查对象中,随机选取部分单位进行调查,将调查所得的信息,从数量上推算总体信息的方法。抽样调查的类型:随机抽样调查(单纯随机/抽签法/查乱数表法)分层随机抽样/分群随机抽样/等距随机抽样非随机抽样配额抽样/判断抽样/任意抽样社会调查的方法抽样调查:是从全体调查对象中,随机选取部分单位39信息采集技术信息采集的途径与方法(二)信息采集技术信息采集的途径与方法(二)一、光盘检索采集方法一、光盘检索采集方法光盘检索简介 光盘检索:光盘的使用起始于70年代,最初主要用于制作激光唱片。80年代以来,随着计算机技术和数字化计算机的发展,光盘才开始应用于文献信息领域。光盘在文献信息领域的应用对信息的存储介质(纸、磁介质、缩微胶片等)带来了革命性的影响,并强烈地冲击着联机产业。由于以CD-ROM为代表的光盘技术具有易用、存储容量大等独特的特点,因而受到了人们的普遍欢迎,并很快发展成为一种新的检索系统——光盘检索系统。90年代初期,光盘数据库检索系统以它存储数据量大、操作简单、检索效率高、成本低廉、运行环境要求简单等特性,在高校图书馆中的到了广泛的应用,达到了它的顶峰时期。近两年来随着Internet的普及使得光盘数据库检索系统逐渐发展为光盘网络检索系统,但是目前光盘数据库的独特的优点使它仍然成为利用现代化手段进行文献检索的主要方式之一。
光盘检索简介 光盘检索:42光盘检索的特点优点:
(1)运行速度快
光盘数据库采用单机检索,不受检索线路是否拥挤的影响,即使连接在校园网上,由于传输距离较近,其运行速度也比较快。
(2)成本低,检索效果好
一般而言,CD-ROM数据库的检索费用比联机检索费用低得多,并具有很好的检索效果。购买CD-ROM数据库后,在一年内可以任意使用,利用率愈高,分摊的成本愈低,且在整个检索过程中不涉及远程通信网络问题,也不需要使用专线电话之类的通信线路,并考虑机时费与流通量的问题,没有联机检索按时间收费的紧张感,可为用户提供良好的检索条件和环境气氛。
(3)下载方便
用户可以方便地将光盘上的部分所需数据拷贝到软盘或其他计算机系统里,从而形成本部门或个人的局部数据库,以便随时查询。
(4)安全性能高
对于光盘数据库来讲,它是只读光盘,具有不可擦除性,更不会因病毒而造成文献丢失。
光盘检索的特点优点:
(1)运行速度快
光盘43光盘检索的特点缺点:
(1)使用范围有限
目前光盘数据库的规模和容量有限,一般都以某一领域学科为主,不可能囊括所有学科,而且受到所购置光盘专业种类的限制,有时会影响查全率。
(2)更新周期长
一般的光盘数据库更新需要3个月,最快也需要1个月。
(3)检索系统不兼容
不同出版商制作的光盘数据库不能在一个系统中兼容,使用上有很多不便。
(4)需要不断换盘
一个大型数据库,一般都是几张光盘,特别是全文数据库,例如中国学术期刊全文光盘数据库,每年都有一百多张光盘,检索时需要不断更换光盘。光盘检索的特点缺点:
(1)使用范围有限
目前光44光盘检索提供的服务(1)追溯检索服务
目前引进的CD-ROM数据库一般存储近5~10年的文献,对科研项目的研究提供追溯检索的服务。(2)定题服务
定题服务是为了跟踪某课题的最新动态,按用户事先预定的检索内容,主动连续地从新到的文献库中检出有关信息,提供给用户。CD-ROM数据库检索系统还具备保留和重新执行检索策略的功能,可以对检索策略进行任意修改和补充,因此实施定题服务是比较方便易行的。(3)专题追溯检索服务
教育技术研究者在开始一项新课题研究时,需要系统全面地了解这一课题的进展情况,需查找过去若干年中前人有关此课题的文献资料。由于CD-ROM数据库的使用几乎不受时间限制,因此可以为特定用户制定的专题提供专题追溯检索服务。由于受机时和费用的限制,联机检索系统一般不提供这类服务。光盘检索提供的服务(1)追溯检索服务
目前引进的CD-45光盘检索系统1.光盘检索系统的组成
光盘检索系统由光盘、光驱、计算机和相应软件组成。
(1)光盘
数据存储单元,一般由数据库供应商提供,数据在制作过程中固定在其物理介质上,不能抹掉也无法修改,称为CD-ROM。
(2)CD-ROM驱动器或光盘塔
光盘读取的专用设备,其发射的激光束聚焦在光盘的信息轨道上,在有小孔或无小孔处形成不同的光反射,这两种不同的光反射经光学系统接收后转换成电信号,计算机二进制信息“0”或“1”,经计算机解码后,成为原纪录的数字化信息。
(3)计算机及相应软件
光盘本身是一种机读文献,需在计算机上读取。目前使用的光盘检索系统都以计算机为基础设备,在普通的计算机上加载光盘驱动器的驱动软件和数据库的检索软件,即可成为光盘检索系统。
光盘检索系统1.光盘检索系统的组成
光盘检索系统46光盘检索系统2.光盘检索网络系统
光盘检索网络系统是90年代发展起来的计算机文献检索系统。随着光盘数据库的大量涌现,单机光盘检索需频繁换盘,给用户带来不便。而且在同一时刻只能有一个读者使用,无法充分发挥昂贵的光盘数据库的效益。在计算机网络的硬件和软件环境的支持下,产生了光盘网络检索系统。目前建成的光盘网络检索系统都是以计算机的局域网为基础,有多种模式,其共同特点是拥有能同时运行几十张光盘的光盘塔驱动器,它可供上百个用户同时检索同一张光盘。
光盘数据库网络的组成包括光盘塔和各种光盘组网软件以及光盘塔服务器等。
光盘检索系统2.光盘检索网络系统
光盘检索网络系统是947光盘检索的基本流程 光盘检索的基本流程为根据检索的课题选择合适的数据库,并确定检索词,根据检索要求编写检索式,开始检索,检索完毕后,分析判断检索结果,如不合适需修改检索词和检索式进行二次检索,最终得到满意的检索结果。
1.分析研究课题,明确查找要求
明确所需信息及文献内容、性质、水平等情况;在分析课题的基础上形成主题概念;根据检索主题概念的学科性质,确定检索的学科范围。
2.选择检索数据库
由于当前数据库的种类繁多,各数据库的内容相差很大,从国内外出版的数据库来看,一般从数据库的学科范围、数据库的文献范围、数据库的国别或语种范围三个方面来确定数据库的内容。
光盘检索的基本流程 光盘检索的基本流程为根据检索的课题选择48光盘检索的基本流程3.确定检索词
所谓检索词,就是将检索要求概括成的简洁词语。检索词的选择必须符合两个要求,一是能准确反映课题的检索要求,二是必须符合数据库对输入词的要求。4.编写检索式
一个课题往往需要用多个检索词来描述其含义,这些检索词又往往需要用一定的语法规则来规定,才能完整描述检索要求,这就要编写检索式。检索式是将检索词之间的关系用布尔逻辑算符和位置算符来描述的式子。5.检索结果显示及判断
根据显示文献信息的内容和篇数,可以判断检索结果是否符合要求,如果不符合要求,则调整检索词和检索式再次进行检索。
光盘检索的基本流程3.确定检索词
所谓检索词,就是将检49常用的光盘数据库1.《中文科技期刊数据库》光盘
《中文科技期刊数据库》光盘由中国科技信息研究所重庆分所于1992年6月开发成功。1993年面世,其前身为中文科技期刊篇名数据库软盘版。“中刊库”是目前国内最大的综合性文献数据库,收录了自1989年以来的中文科技期刊文献200多万条,引用期刊达5400余种,年报道量26万条,该库每季更新一次。
2.《中国专利文献》光盘数据库
中国专利文献光盘数据库(CNPAT)由中国专利信息中心出版,该数据库1992年开发成功,收录了自1985年至今在中国专利局申请并公开的全部专利信息约43万件,内容有题录、文摘和主权项,提供了关键词、发明名称、国际专利分类号、范畴分类号、申请号、发明人、公告号、优先权项、国别省市代码、申请日、公告日、申请人地址、代理机构代码共14个检索入口,其中申请人、发明人、发明名称为全文检索。3.英国《科学文摘》光盘数据库
英国《科学文摘》光盘数据库(INSPECOndisc)由英国IEE学会出版,是书本型ScienceAbstract(《科学文摘》)的机读版。其信息来源于世界范围内已出版了的计算机、电子学、物理学方面的文献,涉及期刊4200余种,会议、图书、技术报告和学位论文1000余种,每年提供25万条信息。INSPEC数据库中每条记录的著录项目有:论文题目、作者姓名、作者单位、期刊、会议、图书、报告、学位论文的信息、文摘、分类、叙词、自由词等主要项目,同时提供了分类号、主题词、自由词、数值索引、化学索引等27项检索入口。常用的光盘数据库1.《中文科技期刊数据库》光盘
50光盘检索采集的模式模式:单用户的光盘数据库信息采集模式点对点光盘数据库信息采集模式以局域网为依托的光盘数据库信息采集模式文件服务器模式/对等模式以广域网为基础的光盘数据库信息采集模式在虚拟网络基础上的光盘数据库信息采集模式E-mail,FTP、传真、程控电话等光盘检索采集的模式模式:51光盘检索采集的途径与方法途径与方法运用规范化的语言检索采集运用非规范化的语言检索采集运用规范化与非规范化语言相结合的检索采集运用文献的外形特征检索采集运用连续出版物的国际标准号码检索光盘检索采集的途径与方法途径与方法52二、全文检索采集方法二、全文检索采集方法全文检索一种将文件中所有文本与检索项匹配的文字资料检索方法。
全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。
功能上全文检索系统需要具有建立索引,处理查询返回结果集,增加索引,优化索引结构等功能。结构上具有索引引擎,查询引擎,文本分析引擎和对外接口等。全文检索54全文检索西文全文检索数据库的索引机制是心自然语言的单词为基本单元的,词与词之前有自然界限(以空格为标志)汉语的词则是以单音节为基础层层组合构成的,常用方法有“词典匹配法”、“词频统计法”、“联想词群法”、“设立标志法”、“知识与规则法”、“人工智能法”等等全文检索西文全文检索数据库的索引机制是心自然语言的单词为基本55全文数据库的结构与特点结构:包括两个部分顺序文档结构倒排文档结构特点:文本客观性/语言自然性/后控词表性/检索彻底性/较大稳定性全文数据库的结构与特点结构:56全文检索系统的模式单汉字无标引全文检索系统此系统是为了让原文每一个字都具有可检性,便通过计算机替原文的各个字都建立倒排档,以便信息人员或用户以各个单字检索入口进行检索的过程。全文检索系统在主文档中包括题名、著者、正文等字段;在倒排档中,包括字与地址集合,其中地址集合由三元组成,即文献记录号、增加字段标识与字的起始位置。特点:容易实现,维护方便,检索速度慢,浪费存储空间,查全率与查准率不高全文检索系统的模式单汉字无标引全文检索系统57例:例:58为有效检索主文档中的信息,依据主文档抽取一些字建立的倒排档:为有效检索主文档中的信息,依据主文档抽取一些字建立的倒排档:59检索过程检索过程60全文后控检索系统是为了在词与词之间建立一种指引关系,而运用后控词给予控制的体系。词与词之间有从属关系、等同关系、相关关系等。后控词表是由专家编制的一种辅助表,并由专家定期检查、更新与完善。系统特点:提高了查全和查准率;易产生歧义,量大时长;B2B1BEFGAA是B与E的上位词,E是B的同位词,B1、B2是B的同义词,F、G是B的相关词或近义词全文后控检索系统是为了在词与词之间建立一种指引关系,而运用后61例:与信息产业相关之词词间联系的参照符号:例:与信息产业相关之词词间联系的参照符号:62三、现代信息间谍采集方法三、现代信息间谍采集方法现代信息间谍采集方法概念-现代信息间谍采集方法,是间谍机构通过派遣间谍,运用现代化手段,以合法或非法的方式,采集本国或本单位所急需的、竞争对手中有极大价值的信息的方法现代信息间谍活动现状现代信息间谍采集方法概念-现代信息间谍采集方法,是间谍机构通64现代信息间谍盛行的原因是两军决用的秘密武器是搞跨竞争对手的法宝是取得奇效的上等秘诀现代信息间谍盛行的原因是两军决用的秘密武器65现代信息间谍活动的特点间谍与工具结合公开与隐蔽并施盟国与友军不存企业与企业较量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《水泵水泵站》考试试题A
- 2024版展览馆照明设计施工合同
- 2025年浙教新版一年级语文上册阶段测试试卷
- 2024版工程招标代理委托合同范本
- 二零二五年度电子商务合同法对跨境电子商务税收问题的探讨合同3篇
- 个体建房施工安全保证合同版
- 2024年贵州护理职业技术学院高职单招职业适应性测试历年参考题库含答案解析
- 2025年人教新起点高一生物上册阶段测试试卷含答案
- 二零二五年电力设备搬运与检修维护协议2篇
- 2025年苏科版七年级科学上册阶段测试试卷
- 《城市环境污染》课件
- 食材质量控制方案
- 2024-2025学年外研版七年级英语下册 Unit1单词背诵(不带音标)
- 餐厅清洁与打扫服务合同范本
- 期末试题-2024-2025学年人教PEP版英语六年级上册 (含答案)
- 重症专科护士理论考试试题及答案
- 医疗器械经营质量体系文件-质量管理制度
- 刘润年度演讲2024
- 考研计算机学科专业基础(408)研究生考试试题与参考答案(2025年)
- 2024年浙江省普通高中学业水平适应性考试历史试题(解析版)
- 4《试种一粒籽》第二课时(教学设计)2023-2024学年统编版道德与法治二年级下册
评论
0/150
提交评论