已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 网络信息挖掘是一项新的研究课题。本文首先分析了网络信息的特点,如 资源空前丰富,更新频率快,涵盖范围广,信息化的趋势越来越明显等优势, 同时也指出了其中的不足,信息质量不一,优劣并存,难于获取等。在第二部 分引出了网络信息的本质内涵。提出了网络信息挖掘的过程、类型、方法、意 义。由于网络信息的广泛性和复杂性,因此对网络信息的挖掘仍是一件难事。 所以本文在第三部分具体分析了网络信息挖掘所存在的障碍,如在信息资源组 织方面、检索工具方面、设备方面、技术方面、网络传输速度、控制手段、人 才支持体系、信息用户、信息安全、信息地理分栖、信息收费等方面。针对这 些如前所述的挖掘障碍,本文在第四部分、第五部分提出了相对的挖掘策略。 有指导性的策略,也有具体所采取的挖掘措施。如更新观念,树立开发意识、 建立先进的技术设备系统、加强信息利用的规范化和标准化、建立明确的信息 资源选择标准、选择合适的网络信息检索工具、知识产权保护、科学的人才支 撑体系等。第六部分是文章的重点,也是本文的价值所在。即对网络信息资源 进行挖掘后的应用。用三个方面作为例证。一为利用访问挖掘,来对图书馆的 流通同志进行分析,从而有针对性地补充藏书、二为在信息检索方面的应用、 三为在开展个性化服务方面的应用,通过实际调查,进行数据分析来说明网络 信息挖掘的实际应用价值。最后对网络信息挖掘现状进行了分析和总结。 策略 关键词:网络信息资源:网络信息资源挖掘;挖掘方法;挖掘障碍:挖掘 a b s t r a c t i m e m e ti n f o r m a t i o nm i n i n gi san e wr e s e a r c hi s s u e t h i sp a p e rp r i m a r i l ya n a l y z e s i n t e m e ti n f o m a t i o n sc h a r a c t e r i s t i c s ,s u c ha st h ei n t e r n e ti n f o m 戤i o n sd e v e k p i n gi nl a r g e s c a l e ,n e t w o r ki n f o r m a t i o ni se m e r g i n gi nl a r g en u m b e r s a st h es a m et i m ei ta l s op o l m so u t t h eo b s t a c l e so fn e ti n f o 瑚a t i o n i nt h es e c o n dp a n ,t h ep a p e ri m e i p r e t sn e tm t o m l a t l o n m i n i n g st y p e s ,w a y s ,s i g n i f i c a t i o n s b u tn c ti n f o r n l a t i o nm i n i n gi s s t i l lah a r dw o r k ,t l l e 口a p e ra l s op o i n t so u tt h ed i f f i c u l t i e si nu n d e r c u n i n gt 1 1 en e t w o r ki n f o n n a t i o n s u c ha sm i n i n g t e c h n i q u e s ,i n f o n n a t i o n sf e e ,i n f o m l a t i o n ss e c u r i t y i nt h ef o u n ha n df i f t hp a n s ,m ea r t i c l e p o i n t so u tn c ti n f o h i l a t i o nm i n i n g sm e t h o d s s u c ha sc h a i l g eo p i n i o n s ,t h es i x mp a r ti st h e m o s “m p o r t a n t i tu s e st h r e ee x a m p l e st oi n t e r p r e tm ea p p n c a t l o no tn e ti n t o h n a n o nm l n m g t h r o u 曲r e a l i t yi n v e s t i g a t i o n s ,u s i n gd a t at oi n t e 巾r c t st h ew o r n lo fn e ti n t o 珊a t l o nm l n l n g a tl a s t ,m ep 印e rd r a w ss o i n ec o n c i u s i o n s k e y w o r d s :n e t w o r k e di n f o r m a t i o n ;n e t w o r k e di n f o r m a t i o nm i n i n g ;m i m n go b s t 8 c j e s m i n i n gw a y s 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。掘我所知,除了文中特别加以标注和致 谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得东北师范大学或其他教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的晓明并表示谢意。 学位论文作者签名;晕幽至 同期: 鲫sts 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位 论文的规定,即:东北师范大学有权保留并向国家有关部门或机 构送交学位论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权东北师范大学可以将学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编 学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:垂鲤指导教师签名:乏生鼻塾 日 期:o z 盥t ! 同期:o 盘壁b ;| 21 ) 电话 蟒邮编 引言 互联网的飞速发展使得越来越丰富的信息呈现在用户面前,但同时伴随的 问题是用户越来越难以获得其最需要的信息。网络文献数据库中隐含着许多有 价值的信息,是不可多得的知识源泉。目前的查询手段只限于对信息的粗加工, 不能从中归纳出隐含的有用的知识,使得这些知识不为人知和无法利用,这实 际上是对信息资源的一种浪费。 尽管i n t e r n e t 为信息资源的丌发利用提供了广阔的空间,但我国同发达国 家相比,网络信息资源开发利用率仍然较低。根据中国互联网信息中心对互联 网的调查,截止到2 0 0 6 年2 月8 同,我国在线数据库总数为1 6 9 8 6 7 个,5 4 3 的在线数据库隶属于企业网站,1 4 1 的在线数据库隶属于商业网站。同时,在 线数据库的主要服务内容为产品数据库,如粮油、医药、机械产品等数据库, 在所有拥有在线数据库的网站中,此类数据库约占6 0 ,其它一些如科技信息 数据库、报刊新闻数据库、政策法规数据库,只占1 1 一1 5 。另外,从在线数 据库的记录数量看,产品数据库中约有8 2 7 2 9 条记录,占5 0 ;其次为企业名 录数据库,约占2 7 7 :而科技信息库、报刊新闻数据库只占2 3 。与此相反, 用户在互联网上最主要获得的信息依次是新闻:6 3 5 ,计算机软硬件信息: 4 4 2 ,休闲娱乐信息:4 4 1 。由此可见,大部分的网络信息资源是少数人在 利用,而少部分的网络信息资源却被大多数人在利用。这种状况既反映了我国 网络信息资源的利用率低,也反映了我国网络信息资源的开发利用落后于电子 工业、通信网络、软件产业等其它信息基础建设。同时检索手段落后,检索工 具贫乏。 相对于国内来讲,国外网络资源的查找工具比较丰富。有搜索引擎、导航 指南、数据库等。在一定程度上能满足人们搜索相关专业信息的需要。但与此 同时。仍存在着一些不足之处。如缺乏专业搜索引擎,而综合搜索引擎提供的 专业信息资源又尚欠缺深度和广度,还达不到专业研究人员实际应用的要求: 导航系统并不能完全涵盖所有专业网络信息资源,对所收集的资料介绍还不够: 数据库的收费性质制约了一般人员的查找专业信息。因此,国外网络信息资源 的查找工具还有待于专业研究人员进一步丰富完善。 本文在吸取近几年网络信息资源挖掘领域最新研究成果的基础上,分析了 网络信息资源具有检索效率高、强大的并行性、高度兼容性等优点,同时也指 出其分散、无序、质量低等缺点,从而引出网络信息资源挖掘的本质内涵、分 析挖掘中遇到的障碍、对挖掘策略等做出进一步的探讨。在论述中,注意结合 网络信息资源挖掘实践,来逐步阐明网络信息资源挖掘的流程和意义,进行实 际调查,通过数据分析来说明网络信息挖掘的实际应用价值。同时也介绍了一 些国外的相关理论和方法。 一、网络信息资源及其特点。 ( 一) 网络信息资源( n e t w o r k e di n f o r m a t i o nr e s o u r c e ) 又称虚拟资源、联机 资源。对于网络信息资源,并没有统一定义。通常可以理解为在计算机网络上交流和利 用的所有信息资源总和。网络信息资源和传统信息资源的区别,表现为数字和非数字信 息资源的区别、信息资源拥有和信息资源存取的区别以及交互型信息资源和非交互型信 息资源的区别。网络信息资源已大大扩展了信息资源的原有内涵和外延。 ( 二) 、特点 1 优势 ( 1 ) 信息资源管理的技术手段不断创新。源于信息技术的信息管理技术是丌拓现代 信息服务业务和实现信息资源社会化开发与利用的基础,与此同时,社会化信息服务的 发展对信息管理技术推进提出了新的要求。二者相互依托、促进和发展,从而决定了信 息组织与开发技术推进的基本模式。 ( 2 ) 网络信息资源的快捷性。快捷性在用户的主动选择和信息检索的作用下,表 现得淋漓尽致。由于信息用户的主动性,可以直接挑选自己感兴趣的信息阅读,不分时 间、不分空间,随时查阅各类网络信息资源,寻找自己感兴趣的娱乐或消遣,而成为最 为有效的传播途径。但传统文献信息用户受时问限制,无法随时、即时地选择自己感兴 趣的内容,检索效率要求更高,网上的信息发布可以在数分钟内传到世界各地。查阅网 络信息资源既不受图书馆丌馆时间的限制,也不受地点和借阅数量的限制,只要用户有 电话和电脑,就可以自由方便地在自己家里查阅。传统文献主要是通过参考文献、引用 注释或二次文献等方式来提示相关文献,用户查找原始文献十分费力。而网络信息资源 检索利用超文本链接,构成立体网状文献链,能把不同国家、不同地区,各种服务器、 各种网页、各种不同文献都通过结点链接起来,以使查阅者在浩瀚的信息海洋中快捷、 准确地得到所需的有关信息。 ( 3 ) 时效性。由于网络信息资源从本质上改变了信息的创造交流和获取的方式,完 全抛弃了传统的出版概念、实行了无纸化的出版,从作者投稿、专家审稿到稿件编辑等 都在网上进行,避免了印刷、发行、投递等环节,因而大大缩短了文献的编辑出版时间, 其时效性是过去传统的文献信息资源不可比拟的。而且在网络资源出版的过程中,读者 和编者可不受时间和地域的限制即时交流,从而使内容更加新颖、及时。信息资源的智 能性。即可以自动记忆信息用户的点击次数,通过对查询内容或点击次数的对比,可以 判断信息需求者感兴趣的方向,有针对性的增加相关内容。而对于传统文献信息,要统 计信息传播影响范围,相对比较困难。这可能是网络信息检索在信息技术的基础上,为 网络信息快速、大范围传播起到的另一附加促进作用。同时网络信息资源还具有智能性、 交互性等特点。 2 不足 用户在利用网络信息资源的过程中也面临着相当大的困难,体现出网络信息资源不 足的一面:大量的信息有时使人无所适从,从浩瀚的信息海洋中快速而准确地查找到自 己最需要的信息,己不是一件易事。 ( 1 ) i n t e r n e t 上的信息没有一个中心没有统一的组织和管理。大量的信息资源分散 在各个主机和服务器上,网络信息发布或更新非常快,甚至由于修改与发布的容易,使 得在某一时刻查询是一种结果,而在另一时刻查嘲却又是不同的结果,因而,快捷性造 成了查询结果的多变性。网络信息无所不包,虽增加了查全的效果,但由于学科不同, 自然语言在不同学科中的一词多义现象的存在,造成查询结果中真正有用的信息不 多。信息分布和构成缺乏合理的结构和组织,信息源不仅分散无序,而且其更新和消亡 也往往无法预测,因此增大了信息资源选择、采集、管理和维护的难度且更新频繁,给 人们检索和查询造成一定的困难。 ( 2 ) 由于网络的开放性,使人们能更方便地利用世界各地的信息资源,但也使得整 个网络处于一种无政府状态,给网络带来大量的垃圾信息。例如虚假信息、失效信息、 冗余信息、过剩信息、骚扰信息、有害信息。这些信息垃圾不仅占用大量的存储空间、 增加分类检索时间、妨碍用户对有用信息的m 确选取,而且会使很多用户不受其利反受 其害,严重扰乱网络秩序。因此相对于f 1 益增长的用户需求来讲,网络信息资源就变的 十分稀缺了。 ( 3 ) 网络信息资源的分布十分广泛、无序,世界各地不同国家采取不同的语言、不 同的形式向因特网上发布各类信息,它们各自为阵,呈现着一种无限的、无序的状态, 给用户在利用网络信息资源时带来诸多不便。 二、网络信息资源挖掘的基本问题 ( 一) 网络信息资源挖掘的涵义 基于实现个性化的主动信息服务,网络信息挖掘技术成为近年来的一个新的研究课 题。它是数据挖掘技术、人工智能信息检索、自然语言理解技术在网络信息处理中的应 用”3 。网络信息挖掘有别于传统的信息检索,能够在异构数据组成的数据库中,从概念 及相关因素的延伸比较上抽取出用户需要的深层次信息,它将改革传统的信息服务方式 而形成一个全新的适合网络时代要求的信息服务组合。信息挖掘是对网络文献数据的深 层次开发,它能从大量数据中抽取出具有一定规律的知识,使之具有指导意义和创新价 值。 ( 二) 网络信息挖掘的过程 网络信息挖掘是一个极其复杂的过程,它不同于传统盼数据仓库技术和简单的知识 发现。它面对的海量信息不全是简单的结构化数据,而常常为半结构化的数据,如文本、 图形、图像数据、甚至是异构型数据。发现知识的方法可以是数学的,也可以是非数学 的,可以是演绎的,也可以是归纳的。它能够根据用户所提供的目标样本和系统设置, 提取目标的特征信息,根据目标特征自动在i n t e r n e t 上搜集资料,然后对所搜集到的 资料进行分类整理,并导入资料库。系统能够自动运行,不断更新用户的资料库,提供 个性化的主动信息服务。 网络信息挖掘大致分为四个步骤”1 :( a ) 资源发现,即先利用搜索引擎站点选择待 采集站点,再利用r o b o t 上程序采集静态w e b 页面,最后获取被访问站点网络数据库中 的动态信息,检索到所需要的网络文档;( b ) 信息选择和预处理,即从检索到的网络资 源中自动推选和预先处理得到专门的信息:( c ) 概括化,即从单个的w e b 站点以及多个 站点之徊j 发现普遍的模式;( d ) 分析,对挖掘出的模式进行确认或解释,提取原信息的 特征向量,并与目标样本的特征向量进行匹配,将符合阈值条件的信息提交给用户。 ( 三) 网络信息挖掘的类型 根据挖掘对象的不同,网络信息挖掘可以分为网络内容挖掘、网络结构挖掘和网络 记录挖掘。 1 网络内容挖掘 即从网络的内容、数据、文档中发现有用信息的过程。网络内容挖掘就是对页面进行挖 掘。按照处理对象的不同,将网络内容挖掘分为文本挖掘和多媒体挖掘”1 。网络文本挖 掘可以对网络上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用网络 文档进行趋势预测等,是信息内容之间关系分析、数据采集、知识发现的核心。建立 在内容挖掘基础上的信息使用是网络信息挖掘的最终目的,也是图书馆信息服务功能的 核心。网络信息资源类型众多,从网络信息源的角度看,大量的网络信息资源可以直接 从网上抓取、建立索引、实现检索服务,但是还有一些网络信息是“隐藏”的,如由用 户的提问而动态生成的结果,或是那些私人数据,它们无法被索引,从而无法提供对他 们有效的检索方式;从资源形式看,网络信息内容是由文本、图像、音频、视频、元数 据等形式的数据组成的,因此,网络内容挖掘是一种多媒体数据挖掘形式。目前在图书 馆的使用中,除了建立这种基于馆内自建数据库的书目信息的基本挖掘外,更加注重面 向互联网的各种开放式网络信息资源的内容挖掘和知识整理。以图书馆的信息服务系统 为平台,以专业的信息咨询人员为主体,以各种网络免费信息和协作数据资源为对象, 借助网络工具和各种数据分析工具,广泛采集评估有效信息内容,进行收藏或向相关读 者推送,从而全面提升图书馆的信息服务能力和信息服务质量,向数字化网络化信息中 心迈进。 2 网络结构挖掘 是对网络信息资源的各种异构数据、数据源之间、页面之问以及数据源与页面之问 的联系结构、组织方式进行挖掘。如w e b 页面之问的超链接关系等。体现文档之间的逻 辑关系,可以更加精确地理解网络内容的相关性及质量。目的是获取资源的组织结构和 规律性信息,为数据挖掘方法的建立提供准确的相关参数,提高挖掘效率和挖掘质量。 这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立w e b 自身的链接结构模式,可以用于网页归类,并且可以由此获得有关不同网页间相似度及 关联度的信息,有助于用户找到相关主题的权威站点,由此获得所需要的信息。网络结 构挖掘是网络信息服务的基础和前提,是内容挖掘的基础。在当前,结构挖掘处于信息 服务的基本层面,和网络协议数据资源的基本构造模型等要素联系紧密。 网络信息资源的数据挖掘。信息网络化和全球化的迅速发展,网络平台、信息载体 的异构特性和信息内容的非结构化,数据库组成的动态性等特点决定了通过网络获取有 价值信息的难度日益增加。现有的网上检索工具一般都存在着著录项目过于简单,命名 方式不统一,注重搜索广度而忽视搜索深度和精度等缺陷。同时网络用户尤其是学术研 究人员对获得信息的要求逐步提高,他们需要对信息个体的准确定位、对信息源的权威 导航和评估、个性化的主动信息提供服务以及基于信息内容的跨平台链接。网络信息资 源的数据挖掘就是针对网络信息源及其内容,按照特定的线索化方式,由人工或计算机 软件实施的信息收集、组织、整理和传播工作的总和。经过挖掘后,网络信息资源整体 ( 或某个局部) 上成为有序化结构,并且为访问者提供获得其所需信息的充分检索手段, 同时,在一定程度上,不同信息源之间的物理界限在逻辑上被屏蔽。 3 网络记录挖掘 即通过挖掘w e b 日志记录来发现用户访问w e b 页面的模式。这种挖掘方式也是网络信息 服务的一个重要基础。网络信息服务的基本特点主要表现在信息资源网络化、信息服务 网络化、信息服务主动化等几个方面,而我们通过对图书馆信息服务站点的用户注册资 料和信息广阔流进行分析,不但可以快速准确地获得用户的相关身份信息,而且可以从 用户的访问过程中总结出用户的信息消费倾向以及信息获取习惯。根据这些反馈,不但 可以帮助我们及时调整信息资源的组织结构和建设方向,及时组织相关热点信息,而且 可以让图书馆信息服务部门顺利开展推送式的主动信息服务活动。网络内容挖掘、网络 结构挖掘的对象是网上的原始数据,而网络汜录挖掘面对的则是在用户和网络交互的过 程中抽取出来的第二手数据。这些数据包括:网络服务器访问记录、代理服务器日志记 录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问方式等等, 通过网络记录挖掘可以发现潜在的用户、改进站点建设、增加个性化服务。随着科技的 迅猛发展,信息资源与信息需求急剧增加,文献信息资源共建共享已是大势所趋。特别 是进入2 0 世纪9 0 年代以来,飞速发展的电子计算机和通信技术相结合,形成了全新 的网络环境,给文献信息业的发展带来了最深刻的影响,使图书馆赖以提供服务的信息 资源结构发生了重要变化,从而使文献信息的挖掘进入了一个新的历史阶段。 ( 四) 网络信息挖掘的方法 可阻使用统计、数据挖掘、机器学习和模式识别等各领域中已开发的方法和算法, 但把这些方法和算法应用于w e b 使用信息挖掘时,要考虑w e b 数据的特性。常用的技术有 统计分析,关联规则发掘,生成序列模式,聚类和分类,以及依赖关系的建模等n ,。 1 统计分析 统计分析技术是最常用的从w e b 用户行为中抽取知识的方法。通过分析服务器日志文 件,可以得到各种统计分析描述,如用户驻留在某页面上的时间,用户浏览路径长度的 中值和平均值等。许多w e b 跟踪分析工具可以定期报告一些统计分析结果,如最频繁访问 页面、页面的平均浏览时间、浏览某站点的路径平均长度等。这种分析虽然看起来缺乏 深度,但分析结果往往对提高系统性能,加强系统安全性,辅助网站设计,提供市场决 策等方面有着不可替代的作用。 2 关联规则 关联规则挖掘技术用来在事务中发掘页面与页面之间的非序列关系。关联规则的生 成基于页面在事务中的共现模式,即关联规则中的页面经常在同一个会话中被访问,这 种共现模式不考虑页面之间被访问的顺序。绝大多数发掘关联规则的方法都是基于 a p r i o r i 算法。a ”i o r i 算法能够找出在许多事务中频繁同时出现的对象( 在w e b 使用挖掘 中指页面) ,称为频繁集。是否“频繁”取决于是否满足用户指定的最小支持度阈值。频 繁集中的页面之间可能没有超链接直接连接。发掘出的关联规则可以用来优化站点结构。 关联规则还可以作为启发式信息用于缓存中的页面预取,减少用户的下载延迟。关联规 则发掘的一个较大问题就是使用全局的最小化支持度闽值。由于阈值的限制,频繁集中 可能会丢掉那些较少出现但非常重要的页面。例如w e b 站点中的内容页面或产品导向页面 往往位于整个超链接结构的较深层次,它们出现的频率一般会比在第一层的浏览导向页 面少得多,所以包含内容页面或产品导向页面的规则通常会得到较小的支持度,然后被 丢弃。但实际上,在w e b 个性化应用中,找出包含内容页面或产品导向页面的规则,并依 此向用户作推荐是非常重要的。 3 序列模式 序列模式的发现是在时间戳有序的事务集中找出这样的内部事务模式:一些页面被 访问后紧接着另一些页面也被访问了。序列模式可以分为非邻接序列模式 ( s e q u e n t i a l p a t t e r n s ) 和邻近序列模式( c o n t i g u o u ss e q u e n t i a lp a t t e r n ) 两种。邻近序 列模式要求模式中的页面访问是连续发生的,也就是说访问之间是邻近的:而非邻接序 列模式只要求模式中的页面访问是顺序发生的,不考虑访问之间是否邻近。邻近序列模 式可以用来描述用户的频繁浏览路径,非邻接序列模式则描述了整个站点中更通用的浏 览模式。由于关联规则中的频繁集只是关注页面在会话中的出现,而不考虑它们出现的 顺序,因此频繁集描述了受到最少约束的浏览模式。序列模式还可用于商业和市场的决 策,以及站点的优化。 4 聚类和分类 聚类是将具有相似特征的对象聚成一个c l u s t e r 。在w e b 使用信息挖掘中,可以进行两种 有趣的聚类:用户聚类( 包括用户访问会话聚类和用户访问事务聚类) 和页面聚类。用户 聚类是要建立具有相似浏览模式的用户c l u s t e r 。这样的规则对于电子商务中的市场决策 和向用户提供个性化服务是非常有帮助的。页面聚类是要发掘具有相关内容的页面 c l u s t e r ,这对于i n t e r n e t 搜索引擎和w e b 提供商都是非常有用的。p a g e g a t h e r 算法基 于页面在用户访问会话中的共现对w e b 站点的页面作聚类。对聚类结果中的每一个 c l u s t e r ,系统自动生成一个包含该c l u s t e r 中所有页面链接的w e b 页面,称为索引页面。 每一个索引页面反映了一组用户可能具有的共同兴趣。利用索引页面,可以提高用户的 浏览效率。由于索引页面是系统自动生成的,因此p a g a g a t h e r 算法可以使w e b 站点具有自 适应性。 5 依赖关系的建模 依赖关系的建模在w e b 使用信息挖掘中也是很有用的模式发现技术。目标是要建立能 够描述w e b 领域中各变量之间有意义的依赖关系的模型。例如,建立一个描述一个用户在 个w e b 在线商店中购物的不同阶段的模型。一些概率学习技术可以用来对用户浏览行为 建模,如h i d d e nm a r k o vm o d e l se 和b a y e s i a nb e l i e fn e t w o r k s 。w e b 使用模式的建模 不仅为分析w e b 用户行为提供了理论框架,而且对提高用户的访问效率,提高网上产品销 量,预测未来w e b 的资源消耗大有用处。 ( 五) 、网络信息挖掘的重要意义 1 有助于网络信息资源的深层次开发 网络文献数据库中隐含着许多有价值的信息,是不可多得的知识源泉。目前的查询 手段只限于对信息的粗加工,不能从中归纳出隐含的有用的知识,使得这些知识不为人 知和无法利用,这实际上是对信息资源的一种浪费。信息挖掘是对网络文献数据的深层 次开发,它能从大量数据中抽取出具有一定规律的知识,使之具有指导意义和创新价值。 2 可以提高情报分析研究的科学性 信息挖掘和知识发现在情报研究分析中的应用具有很大的潜力,尤其是在情报分析 和加工、信息的开发和利用方面具有重要意义。加强这方面的研究,将会有助于情报研 究中新理论、新方法的发现。在网络环境下,数字化的网络信息资源对情报研究的作用 越来越大,利用网络数字化资源便于实现情报研究的自动化,提高情报研究的效率和质 量。同时,针对各种情报的需求,运用知识发现方法,采用相应的方法与模型进行分析, 可以挖掘出更多的隐含信息,发现各种信息之间的内在联系以及其间的变化规律,提高 情报的利用价值。可以说信息挖掘的研究与应用研究,为情报学的发展注入了新的活力, 大大提高了情报分析的科学性和精确度。 三、网络信息资源挖掘的障碍 ( 一) 在信息资源组织方面 现在许多网站都提供网上信息分类目录检索服务,这些目录是人工将各网站的网页 按主题分类的有系统网站的列表,附有搜索功能。大多数网站在信息资源的分类组织上 比较混乱。信息分类不规范不科学、主要表现在类目划分标准不合理,对信息资源在同 层次的划分标准不统一,出现同时用两个或两个以上标准划分的现象。这样,在资源 划分时就会产生重复和遗漏的现象。而且,在各类目的展开中,有不符合基本逻辑的现 象发生,存在整体不能包含局部的现象,也就是说,存在一个类目不能包含它的下一层 次子类的现象,且多无二级三级类目,各网站分类目录的类目变化较快,又是人工对各 网站网页进行搜集和排列的,因此分类目录不能及时补充网上新的信息内容“1 。笔者认为: 应该明确事物的外延和内涵,在信息分类时做到概念清晰,检索结果力求达到检准率和 检全率的恰当的结合。从一定意义上讲,这样确实方便了用户及时了解最新的信息,但 过多的动态信息使信息组织显得没有规律、没有逻辑性、没有层次,也会给用户的检索 带来不便。 ( 二) 在检索工具方面 数据库、检索工具虽多,大都是一般性通用性的,专题、专用的数据库、搜索工具 不多,检索的信息量大、冗余信息多,检准率、专指度低。网络上的商用数据库,搜索 引擎的信息组织,多使用自编分类体系,与传统分类法相比,缺乏严密的科学性、逻辑 性,不仅读者使用不便,图书馆工作者也颇感生疏,甚至有一定困难。查找网络信息资 源,主要利用检索工具。但是互联网上的检索工具并非尽善尽美。还存在着不少缺陷, 主要表现在以f 方面: 1 关键词式全文搜索引擎采用机器人搜索技术,自动标引不完善,搜索引擎索引 库中全部或部分下载的页面中有许多无用或暂时信息,影响了索引速度,也高消费了网 络通信资源;分类目录搜索引擎采用人工干预技术,信息分类不规范,没有一个统一的 控制词表和参照标准,大多数都是自然语言标引和检索,这种自然语言为关键词检索, 虽然有利于大众化,但对词和近义词不能实现有效控制,分类目录差别较大;搜索范围 较小,信息关联难以控制且重复链接信息较多,查准率低,误检率和漏检率高,检索时 输入一个关键词往往显示出大量的无关信息,增加了用户的检索和选择信息的难度:数 据库更新慢,查询交叉类目时容易遗漏;如果用户检索请求没有对应的分类目录,则无 法进行查找;搜索引擎索引库中全部或部分下载的页面中有许多无用或暂时信息,影响 了索引速度,也高消费了网络通信资源:站点、网页的内容经常变化,实时性难以保证。 另外,搜索引擎的截词技术、词位限定检索、字段限定检索或范围检索技术应用十分有 限,信息检索结果不太令人满意”1 。 2 检索工具不能适应网络发展的需要。由于互联网上是海量的信息,且更新快, 检索工具往往赶不上网络信息更新的速度,加之检索工具覆盖范围有限,对于较完善的 搜索引擎来说,最多也只能搜寻三分之一的网页。在互联网上的搜索引擎一般均为综合 性检索工具,而缺乏专业性检索工具,这些通用型检索工具,专指性较差,难以满足用 户某一专业范围的检索要求,这是检索工具不完善造成的障碍”1 。 3 大多数用户根本无法知道目前网上到底有多少检索工具,也不知道各种检索工 具的特点,更不知道如何选择。从用户角度来说,主要是根据网上介绍和推荐选择搜索 引擎,因而从不同功能和特点的检索工具中选择最适合用户自己需要的检索工具是很困 难的。 ( 三) 在多媒体技术方面 信息检索技术正在从传统的线性文本检索向超文本支持的非线性多媒体检索发展, 然而图像、声频、视频的多媒体检索技术却还是襁褓中的婴儿,需要特别的关心与爱护。 目前,多媒体检索技术主要借助于文本的信息检索,一般不涉及多媒体自身特征的分析 处理,即用户从反映多媒体信息内容的文字性描述( 如题名、类别、主题等) 角度来入 手检索,而以多媒体本身的颜色、纹理、形状、轮廓、时空关系等基本特征为入口进行 检索的技术还处于研究之中。基于内容的多媒体信息检索存在的缺陷有:对其进行基于 内容的识别和解释,多媒体特征的提取在检索中占有重要地位;多媒体的许多特征并不 能用简单的数值和字符来精确表达,需要能表达多媒体内容特征的查询方式及用户接 口;具有时空关系的多媒体数据必须确保各对象间的时空同步,它直接影响到数据库的 数据模型和索引方式。 ( 四) 在设备方面 众所周知,网络信息的利用必须依靠计算机网络来实现。用户必须拥有与网络连接 的计算机或其他显示终端,才能利用网络信息。如果用户没有上网的必要设备,或是网 络发生故障。无论是服务器、客户端还是传输线路发生问题,都不可能进行网络信息的 交流。解决设备障碍的办法比较简单,只要配备必须的上网设备并确保正常运行就可以 了。一些网络信息的利用还必须有相应的软硬件,否则无法利用该信息。比如许多网络 数据库都须先下载专门的阅读器才能看得到全文( 如p d f 文档必须要有a c r o b a t 阅读器) 。 另外由于网络带宽等原因,网络传输速度很慢,这是互联网最令人不满意之处。用户 所需的信息,有时要等半天才显示出来,速度慢得令人难以忍受0 3 。 ( 五) 在网络传输速度方面 随着互联网的普及和发展,上网的网民越来越多,导致有限的信息通道越来越拥挤 不堪,特别是在上网的高峰时问。尤其是网上的图片和图像声频资料等多媒体信息越来 越多,既便是宽带网,其传递速度也受到限制,直接影响到信息资源的检索效率n 。网 络速度太慢,国内网络之间的数据交流不通畅。网上信息查询中,读者最大的烦恼是网 络速度太慢,尤其是图片传输速度更慢,尽管目前网络传输带宽在不断扩展,但这种提 高远远满足不了逐渐增多的网络用户的需求,我国目前存在的c h n a e t u n i n e t 等几大网 站分别有着自己的国际出口与i n t e r n e t 相连,但是几大网站之间的数据交流还不十分通 畅。另外,信息源所具有的动态化、无序化、多样化的特点和存储信息介质品种的多样 而分期,帮助用户检索信息的技术没有达到人们想象的那样无障碍,界面也并非对用户 绝对友好,再加上我国网络信息资源建设信息与共享还缺乏统一标准规定,因此存在各 信息资源建设单位自主选择数字化信息资源开发与利用的混乱现象,不仅用户检索界 面、检索语言和管理系统等方面存在较大差异,而且大量的数据库及电子出版物结构本 身也不相容,各系统之间更难以相互沟通、相互应用。 目前正在兴起的宽带接入技术可以很好地解决这个问题。对于什么是宽带,目前并 没有很严格的定义,人们一般把骨干网的传输速率能够达到2g b s 以上,接入网能够 达到lm b s 的网络定义为宽带网。宽带上网比目前的普通拨号上网要快几十到几百倍。 基于有线电视的c a b l em o d e n 技术、基于普通电话线路的a d s l 技术以及基于卫星通信 的d i r e c p c 技术都是宽带技术的典型。 ( 六) 在控制手段方面 互联网的迅猛发展导致网络信息资源以指数方式增长,信息处理技术的更新跟不上 互联网络的发展速度。在网络信息资源开发利用的过程上,信息处理技术对网络信息资 源缺少控制手段,潜在的网络信息资源的提供者和接受者永远是一个未知数。网络信息 资源缺乏有效整理标准和手段,使得网络信息资源的开发带有很大的自由度和随意性, 最终致使网络信息资源呈现高度分散的堆砌状态。另外网络信息内容非常繁杂、混乱、 缺乏规范、精度低,容易造成信息污染,导致实际上只有一部分的信息资源能够真正被 用户所利用。 ( 七) 在人才支撑体系方面 网络信息资源检索不尽如人意主要是因为从事网络信息工作的人员大多不是专业 的分类人员,缺少专业知识,具体网站的信息组织人员也受到工作量的制约,不可能经 过仔细的考虑去对信息资源进行组织与检索。这必然导致了信息资源检索过程中,类目 名称设! 置! 得不够合理,此类问题屡见不鲜,给用户查询网络信息在一定程度上造成误导。 这些问题集中表现在检索人员在检索前,常常忽视对检索课题主题内容的确切分析,而 导致在检索过程中走了很多的弯路,浪费了宝贵的时间和精力。网络信息资源建设与开 发的迅速发展,迫切需要具有较高信息素质、掌握信息技术的复合型信息资源管理人才, 而信息管理人才的短缺已经成为一个全球性问题。特别是从我国目前互联网发展的现状 来看,大规模的网络设施建设正如火如荼的展开,而网上社科信息资源的建设与开发却 得不到应有的重视,内容混乱、缺乏精品等一系列问题正浮出水面,所以我国更需要一 大批精通网络规划、设计、管理、信息开发等专业人才。图书馆职称的素质不能适应网 络信息服务的需要。目前,图书馆严重缺少既懂专业知识又擅长计算机操作或精通外语 的复合型人才,能指导读者使用不断更新的软件、信息载体、信息技术和服务手段的人 才的短缺制约着网络信息服务的规模与质量,也制约着图书馆信息资源建设1 。 ( 八) 在信息用户方面 1 i n t e r n e t 是个新生事物,它f 式传入我国不过短短几年的功夫,许多用户对它 还不是十分了解,使用网络也存在着不适应性和局限性。网络信息资源在数量、结构、 分布、类型和控制机制、传递手段等方面,都与传统的文献信息资源有着显著差异,传 统的文献信息检索行为习惯,对用户仍有着广泛而深刻地影响。因此还不能得心应手地 利用网络信息。许多用户长期以来把图书、期刊等印刷型文献作为主要信息源,而对新 出现的网络信息源缺乏必要认识,不了解网络信息源的情况。诸如有哪些网络数据库, 其收录范围如何,各种搜索引擎所提供查找内容的侧重点怎样等等,都不甚了解。用户 对网络信息资源的了解及其利用还存在着一个认识接受和熟悉的过程,加之用户 的受教育程度知识结构等原因,也造成用户利用网络信息资源的局限性主要表现在: 用户对信息检索需求的理解和检索策略的制定关系到信息检索的质量;用户的计算机操 作能力及网络相关知识的掌握程度影响着信息检索的效率:用户对网络信息检索工具的 应用熟练程度影响着信息检索的效果;用户的外语水平影响着信息检索的广度与深度 或者又对网络期望太高,认为其无所不能造成用户信息能力障碍的原因在于缺乏相应 的计算机基础知识网络知识和必要的检索知识克服用户信息能力障碍最有效的途径是 对其进行培训目前我国除了对在校大学生开设文献检索或计算机信息检索课来培养他 们的信息检索能力之外,对社会用户基本谈不上信息能力培训即使是在校大学生的信 息检索课,也还有待改进社会用户群广大而分散,该选择何种方式对他们进行培训, 是一个值得考虑的问题各类型图书馆应该承担起对其读者进行培训的任务,可以采用 网上自助教学形式来进行,也可以定期或不定期地举办一些讲座,介绍一些基本的检索 知识计算机基础知识昂新的网络信息资源等,使读者掌握基本的利用网络信息的方法 【12 o 2 用户信息意识淡薄用户利用网络信息资源的意识淡薄,尤其对于需要付费的数 据库资源库利用较女图书馆没有把信息产品推向用户市场,造成了网络信息资源的极 大浪费,不能形成双轨运行的良性循环,社会效益和经济效益也就无从谈起 3 语言方面的障碍 ( 1 ) 自然语言 对于我国大多数网络用户来说,语言障碍也是一个不容忽视的问题n e r n e t 起源 于美国,网上资源绝大部分都是由美国生产上网的,目前i n t e r n e t 上9 0 以上都是英文 信息资源,中文信息资源非常缺乏啪:要臼除障碍,实现信息的中文化和本地化是关键 目前我国对信息基础设施的硬件方面投入很大,发展速度也比较快,以大容量光纤为主 的信息传输网已经覆盖全国,但对信息资源开发利用重视不够,投入不足,“重硬轻软” 的现象比较突出因此,国家应该制定政策,鼓励各信息机构和文献信息服务单位大力 发展网上中文信息资源,为实现资源共享创造条件另一方面,可以组织有关技术人员 研制翻译软件,将相关网络信息或资料自动翻译成所需要的语言,并且能用自己所熟悉 的语言与网上操其他语种的人交流目前己经有类似产品问世,如“网上通”“多语浏 览器”和“网络信息翻译集成处理平台系统”等 ( 2 ) 检索语言 由于大多数用户不懂得检索语言,缺乏必要的检索知识,导致不能充分利用网络信 息资源用户不了解数据库的收录范围编排体例或是检索策略选择不当都会影响用户充 分利用网络信息另外,由于语言本身所具有的模糊性随意性等性质,系统设计人员本 身知识结构的限制,也会导致检索语言不能完全准确反映主题概念,进而影响信息交流 与传播,造成漏检误检等情况如果仅仅是用户检索技能的缺乏,对检索语言不熟悉等 原因引起障碍,可以通过培训来解决;而由于检索语占本身的一些特性所造成的障碍, 目前还没有很好的解决办法,只能通过尽量做到标引规范化来缓解 ( 九) 在信息安全方面 互联网是一个“自由王国”,在赢得用户喜爱的同时,也使大量不宜传播的信息失 去控制,如“反动政治方面的信息”、“民族歧视方面的信息”、“暴力犯罪”和“大量 色情有害信息”,以及错误信息和从不同网站查出的重复信息等,充斥于整个信息网络, 随着网络迅速大量增加的同时这些“垃圾信息”也按比例增加“垃圾信息”给整个网 络信息造成混乱。而且直接影响用户的身心健康给人类社会造成极大的危害,也使人 们在检索有用信息的同时,成为信息障碍信息的污染,技术的发展,网络病毒的漫延, 己成为网络安全的十分重要的问题国家信息部、公掷等一直在打击清理网络垃圾,打 击并清除黄色网站数百个,一批犯罪分子受到法律的制裁信息污染阿略 9 病毒直接影响个人使用计算机的安全性,一方面影响网络信息检索效率,另一方面 侵害网上的数据库文档,严重的会破坏整个计算机网络。 ( 十) 在网络信息地理分布方面 由于社会经济文化的发展程度不同造成了网络信息在不同国家、不同地区之间的 分布不均衡从而给网络信息利用带来影响以美国为首的西方发达国家几乎垄断了网络 信息资源。据统计,在国际数据库市场上,绝大多数数据库产品是由发达国家开发和拥 有的”。网络信息的地理分布不平衡,对发展中国家极为不利,因为大多数网络信息产 品都是要付费的,它们不得不花费大量的外汇去检索这些资源,这就制约了发展中国家 充分利用信息资源。面对这种情况,发展中国家除了积极开发本国信息资源以期在未来 的信息竞争中占有一席之地外别无它法。而在我国,网络发展东部地区要优于西部地区, 据统计,w w w 站点最多的是北京、广州和上海,用户地域分布也是如此。要改变这种发 展不平衡的态势,国家有关部门在制定相关信息产业政策时,可以给予西部地区必要的 政策倾斜。 ( 十一) 在费用方面 根据中国互联网发布的网上用户调查结果,互联网最令人不满意的地方包括网上传 输速度慢( 1 5 1 ) ,上网费用高( 1 6 9 ) ,其中费用高居第一位。一般用户上网需要支 付通信费和网络使用费。目前我国拨号上网用户的通信费为o 0 2 元m i n ,即1 2 元1 1 , 网络使用费约为3 元1 1 ;宽带网使用费大约8 0 元月。尽管上网费用比以前已经有所 下调,但与发达国家相比,仍然偏高。而美国人的上网费只占个人月收入的l 左右, 中国人的上网费却占到了个人月收入的l o 左右。对个人用户来说,特别是一些经济状 况不太好的用户,上网费用高成为其利用网络信息的一大障碍。再者,我国网络用户中, 低年龄、低收入的人群占大多数,据统计,月收入1 5 0 0 元以下和无收入的网络用户约占 7 7 左右。对企业或其他机构而言,费用障碍或许会小一些,特别是一些己建成局域网 的用户,但是如果考虑其建网成本的话,费用也是相当惊人的。 互联网上的文献数据库,有些采取收费服务,人们在检索网络信息资源时,除了付 一定的上网费外,还须支付数据库检索费。用户进入数据库需要注册和收费,对用户来 说,目前数据库检索费用较高更重要的是大多数用户不知收费标准,加之网上许多娱 乐项目的欺诈性,导致用户对使用数据库产生不信任的心理,造成检索障碍。 ( 十二) 其他方面 还有一些其他因素,比如知识产权制度,在一定程度上也影n 向了网络信息的充分利 用,但可以通过定的法律手续,或是征得知识产权所有人同意,或是交纳一定的费用 求得解决。此外,还有政治因素,比如有些国家为了保密,或是由于政治、外交、经济 等多方面的原因对网络信息交流进行控制。 综上所述,网络信息利用障碍的形成原因是多方面的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 健身房砌墙施工合同
- 幼儿园景观照明电工招聘
- 保健分公司管理手册
- 知识产权侵权行为处罚办法
- 商业促销设备短期租赁合同
- 旧城改造项目密封条样本
- 建筑咨询项目经理施工协议
- 商铺自动门施工合同
- 剧院音响租赁合同
- 环保信息化管理行动计划
- 2024年广东省广州市市中考数学试卷真题(含答案解析)
- 年兽来了课件
- JT-T-524-2019公路工程水泥混凝土用纤维
- JBT 12403.1-2015 数控深孔珩磨机床 第1部分:精度检验
- 租赁合同增加承租人补充协议
- 语文五年级下册第六单元大单元整体教学设计
- QCT267-2023汽车切削加工零件未注公差尺寸的极限偏差
- 内科知识练习题库(附答案)
- (高清版)JTG 2232-2019 公路隧道抗震设计规范
- 扬州邗江区2023-2024六年级英语上册期中试卷及答案
- DZ∕T 0173-2022 大地电磁测深法技术规程(正式版)
评论
0/150
提交评论