版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中文网络信息资源的开发利用Exploitation and Using of Chinese Web Information ResourcesSun Guangsheng(Xingtai City Library,Xingtai 054000,China) This article analysed the problems and constraints that existed in the process of exploitation and using Chinese web information resources.It also discussed the developme
2、nt strategies.Keywords Chinese;web information resources;exploitation and using随着网络技术的迅猛发展 , 网络已成为世界上主要的信息传 播媒介和最重要的信息源之一。 以电子计算机为核心的现代信息 技术与互联网络的应用和普及 , 带来了社会经济、贸易、信息传 播的全球化 , 深刻地影响着社会各个层面 , 巨量信息涌入因特网 , 使 Internet 成为一个信息资源种类繁多 , 覆盖面广的巨大信息 资源库 , 网络信息资源的开发利用也因此经历了一个从无到有 , 从简单到复杂的过程。就我国网络信息资源建设现状来看, 高
3、档次硬件、中配置系统、低层次应用的情况仍然普遍存在。本文拟 就中文网络信息资源开发利用略作探讨 , 以期抛砖引玉。1 网络信息资源的内容和范围与传统的信息资源相比, 网络信息资源在数量 ,结构,分布和传播的范围 ,载体形态 ,内涵传递 手段等方面都显示出新的特点。 这些新的特点赋予了网络信息资 源新的内涵。作为知识经济时代的产物 , 网络信息资源也称虚拟 信息资源 , 它是以数字化形式记录的 , 以多媒体形式表达的 , 存储 在网络计算机磁介质 , 光介质以及各类通讯介质上的 , 并通过计 算机网络通讯方式进行传递信息内容的集合。简言之 , 网络信息 资源就是通过计算机网络可以利用的各种信息资
4、源的总和。 目前 网络信息资源以因特网信息资源为主 , 同时也包括其他没有连入 因特网的信息资源。2 中文网络信息开发利用各个环节中存在的问题2.2 中文信息编码不统一尽管全球中文网络使用的都是中 文,但在计算机编码方面却有很大的不同 , 即大陆通行的是简化 汉字,采用GB编码方式;港澳台通行的是繁体汉字,采用的是 BIG5编码方式;而海外(主要是北美)米用的又是HZ编码方式。 尽管近年来推出了转换内码软件 , 网络浏览器也相应具有内码转 换功能,同时众多网站均设置了 GB版或BIG5码版(有些还设立图 形版), 已经打破了信息交流的障碍 , 但阅读者在获取信息、资料 以及交流方面仍感到极大不
5、便。 此外, 专业用语的不统一 , 也带来 了很大的麻烦。 外国人对这种情况更感到莫衷一是。 中文是世界 上使用人口最多的文字 , 是联合国 6种工作语言之一 , 但目前的 状况很难使中文成为信息社会的强势语言。2.3 网络信息组织无序面对海量的网络信息 , 用户往往会感 到无所适从。在这种情况下 , 只有把大量随机的、分散的、无序的信息转变为有规律的、有序的信息 , 才能充分发挥其作用。早在1991年,OCLC就开始了一项名为“给因特网编目” (Cataloguing the internet) 的计划 , 研究网上信息资源能 否应用USMAR格式进行标准化编目。就我国而言,近几年来对网 络
6、信息分类组织的研究已经取得了不少有价值的研究成果 , 但还 不十分完善 , 研究大多停留在浅层次上的理论探讨 , 缺乏必要的 实证性研究 , 重复研究现象比较严重。2.4 从检索而言 , 中文网络信息检索工具功能有待改善目前 中文搜索引擎主要有 3种类型:目录式搜索引擎 (如新浪、搜狐、 中文雅虎 ) 、机器人搜索引擎 (又称全文搜索引擎 , 如百度 ,Google) 和元搜索引擎 (如万纬搜索 ), 与国外检索工具相比 , 还存在着很 多的缺陷 :2.4.1 信息覆盖面有限现阶段搜索引擎所覆盖的数据库的 规模非常有限 , 据美国科学期刊 Natures 一篇报告中称 , 全球最 大的搜索引擎
7、也只能覆盖现有网页的16%。中文搜索引擎因起步慢、中文信息所占互联网全部信息的比例小(只占全部网络信息的 5%)等原因在这方面尤为突出。2.4.2 标引深度不够 , 查准率较低大多搜索引擎根据单词、 短语在页面中出现的频度和位置来筛选、描述、标引页面 , 信息 加工深度不够 ; 分类体系与科学知识体系之间缺乏内在联系 ; 类 目之间逻辑关系模糊 , 导致检索路径与搜索引擎类目错位 ; 检索 功能单一 ; 检索词的专指性较差 ; 大部分的检索结果是题录式而 非全文式 , 其内容简单等等。机器人搜索引擎的分类和索引缺乏 人工的参与 , 其查准率不如目录式搜索引擎 , 且检索结果中还含 有大量的重复
8、、虚假的信息。2.4.3 对多媒体信息的检索技术不完善目前大多数的中文 搜索引擎由于技术原因 , 无法满足用户对除了文本信息外的声 音、图形、图像等多媒体信息的检索要求。2.4.4 专业性的搜索引擎发展迟缓目前中文搜索引擎大多 是综合性的 , 能同时收录各行业、 各学科的多种信息 ,但在反映某 一行业或某一专题的信息方面很难做到全面、精确 , 不能给用户 提供特定的信息服务。2.4.5 检索功能方面存在缺陷一是检索中符合布尔逻辑运 算符的搜索引擎极为有限 ; 二是要害词检索输出的结果相关度排 序方式杂乱 , 不能根据用户需要来选择信息输出的方式 ; 三是多 数的搜索引擎是面向主题搜索不是面向用
9、户搜索 , 不能重复利用 用户检索过的成果 ,更不能对特定的用户进行定题跟踪服务 ; 四 是检索网站的主页不规范 ,有些太简,有些又太繁 ,而且广告内容 太多 , 无法进行有效检索。2.5 网络信息的保存问题日益突出网络信息资源虽然浩如 烟海,寿命却非常短暂 ,宛如昙花一现。 在新的网页不断产生的同 时 , 旧的网页也在不断地消失 , 一个网页的平均寿命只有 44 天。 作为一种“原生性”数字信息 , 网络信息资源除了数字形式之外 别无其他形式。如果不能进行有效的保存 , 它们会很快地消亡。 经常使用搜索引擎的人都有类似的经历 , 当打开检索结果中列出 的链接时 , 会得到“页面已不存在”的提
10、示 ,这给用户带来了极 大的不便。必须加快脚步、 积极探索网络信息资源保存的新思路 , 否则将会有大批网络信息永远消失 , 这种损失是无法估量的。3 制约网络信息资源开发利用的因素分析3.1 宏观调控管理不力从管理体制上来说 , 近些年来 , 我 国的文献信息资源开发利用虽有了很大发展 , 但从总体上还缺乏 统一规划和组织协调 , 文献信息资源开发基本上还处于小范围协 作和单兵作战状态。 “条块分割”、 “各自为政”导致信息资源 开发分散、重复、规模小、标准不统一等种种弊端 , 成为影响我 国网络信息资源开发利用的主要因素之一。3.2 技术因素的制约汉语不同于西文 , 西文以词为基本单位 不存
11、在分词问题 , 而汉语则以字为基本单位 ,如果不将单词分析 出来 ,就无法进行以词为单位的索引。尽管中文信息处理技术有 了很大的发展 , 但到现在也没有很好的解决词切分问题。3.3 信息服务人员素质亟待提高由于长期以来信息服务人 员队伍的短缺和低水平 , 致使绝大多数信息服务部门都存在有技 术设备管理不善、 应用不足 , 很多可以开展的服务无法正常开展 , 已开展的服务技术含量低、 服务质量差。 这种水平的落后实际上 导致了投资的浪费 , 并成为桎梏信息资源开发利用的重要不利因 素。3.4 社会环境因素的制约一方面 , 由于我国东西部经济社会 发展水平和文化教育水平不同 , 造成区域之间的信息
12、传播落差 , 这种发展的不平衡制约了网络信息资源的开发利用。另一方面 , 由于信息化建设的策划者、领导者及工作者的重视程度不同 , 在 资金和政策上缺乏具体化、有力度的支持和保护政策 , 资金投入 不均衡 , 不能吸引更多的社会资本和外资投向信息资源开发。实 践证明,投资乏力 ,是目前制约网络信息资源开发利用的重要因 素。4 网络信息资源开发利用的策略4.1 统筹规划协调信息资源开发通过政府或行业组织对信 息资源建设进行信息立法、行业规范与控制 , 制定统一的规划 , 统筹协调各方面的资源力量 , 建立健全的开发管理体制。如在网 络化建设、软件及相关的建设中 ,制定统一的标准规范 , 保持与国
13、 际有关标准兼容 ,在数据库建设上走联合的集约化方式 , 通过全 国网络实现资源共享 ; 国家要加大对网络信息资源开发利用的经 费投入力度 , 保证基础性、公益性、综合性网络信息资源开发利 用所需的资金 ; 制定税收倾斜政策 , 减免或减低从事网络信息资 源开发利用行业的税收等一系列优惠政策 , 吸收更多的社会资本 及外商投资 , 参与信息资源的开发利用 ;建立健全信息资源开发 的法规体系 , 制定好信息网络与资源管理的政策法规 , 提高全社 会对信息资源开发利用的认识 , 保障信息资源建设健康有序的进 行。4.2 搞好网络信息资源的加工、组织与提供4.2.1 科学设计导航路线 , 开发多通道
14、职能界面要能通过多 种搜索引擎 , 对某一或某些主题信息上网查询、 浏览 , 并参考相关 文献,选择应用价值较高的信息资源,设置23级类目,引导网 络用户迅速找到所需的网址。 在各级类目和具体的信息资源网下 应有对该类目和具体网址的内容介绍 ,以方便用户对网络信息进 行选择 , 准确、快速地找到所需信息。4.3 加强网络信息资源开发利用技术的研究信息技术的核 心是技术 ,在网络信息资源的开发与利用上 ,应注意技术集成 ,瞄 准网络操作系统 , 优化资源配置 , 研究开发力量 , 完善技术创新体 系, 下大气力提高服务质量 , 这样才能拥有发展的主动权。 实现 较高水平的跨越。4.3.1 优化元
15、搜索引擎技术 , 切实加以利用元搜索引擎 (METASearch Engine) 是对分布于网络上的多种检索工具进行全 局控制的机制 , 它通过一个统一用户界面帮助用户在多个搜索引 擎中选择和利用合适的 (甚至是同时利用若干个 )搜索引擎来实 现检索操作。元搜索引擎一般都没有自己网络机器人及数据库 , 它们的搜索结果是通过调用、 控制和优化其它多个独立搜索引擎 的搜索结果 , 形成一个由多个分布的具有独立功能的搜索引擎构 成的虚拟逻辑整体并以统一的格式在同一界面集中显示 , 从而实 现对这个虚拟整体中各独立搜索引擎数据库的查询与数据处理。 用户可通过元搜索引擎优化检索结果 ,提高检索效率。目前
16、已有 的中文元搜索引擎 , 由于技术尚不完善 , 效果较好的只有马虎聚搜、佐意综合搜索、比比猫等少数几个 , 而大多数元搜索引擎如 万纬搜索、壹家搜、知合网的网页搜索、MMGOOG图片搜索等等,往往速度慢 ,功能较少 ,或单纯利用其他搜索引擎拷贝搜索结 果, 效果不尽如人意。4.3.2 开发小型专业搜索工具专业性的搜索引擎是为专门 收录某一行业 , 某一主题的信息而建立 , 能够提供专题信息查询 服务的搜索引擎。 目前我国互联网上的搜索引擎不论大小都是综 合性搜索引擎 ,搜索结果指向差 , 使得专业人员 ,是某一领域的学 者、专家不愿意利用中文搜索引擎去查询资料。 而小型专业搜索 引擎具有针对
17、性强、 开发周期短、 技术复杂性低、 见效快等优点 , 特别符合我国目前互联网上的发展现状。4.3.3 开发智能化搜索引擎智能搜索引擎是未来搜索引擎 的发展趋势。可以通过自然语言与用户交互 , 最大限度地了解用 户的需求。智能检索一是表现在搜索引擎技术的智能化 , 研究重 点放在自然语言处理技术和人工智能技术的研究上 ; 另一表现是 体现在搜索引擎面向检索者的智能化 , 它致力于通过分析检索者 的检索和浏览行为来学习检索者的需求 , 利用搜索引擎现有的服 务有选择地为检索者提供个性化的服务。4.4 加强信息服务人员的培养网络下的信息服务人员在素 质上应具有良好的职业道德和奉献精神、 扎实的专业
18、知识、 相关 的背景知识和较高的外语水平 ; 在能力方面应具有娴熟的现代信 息技术、敏锐的信息意识和信息获取、创新能力等。这是在互联 网日益普及 ,用户自我查询能力日益增强的背景下 , 用户对信息 服务需求的新特点。 对于信息服务人员的培养模式应该是跨学科 的,即从技术、文化、人文 3个层面, 来培养复合型人才。 在我国, 加强复合型人才培养的途径主要有两个 :一是继续教育 , 对从业 人员进行“补课” ,弥补其知识结构中的不足 ; 二是在校教育 ,这 需要调整我们现有的课程结构 , 使我们的专业设置更符合社会需 要。4.5 促进网络信息资源的联合开发和资源共享再生性信息 的生命周期比较短 , 读者层次比较高 , 要求量越来越大 , 这就要求 信息资源开发必须注意速度和时效 , 及时地对主要信息产品进行 更新,并不断改善产品结构 , 提高产品档次 ,尽可能地预测读者将 要产生的新的需求 ,生产新的产品 ,满足读者需要。 要实现这样的 目标 ,一个单位难以完成 ,必须组织力量联合攻关。 由于我国信息 化建设发展不均衡 ,部门之间、地方之间互相分割
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 西红柿熟了课件
- 苏教版江苏省徐州市2023-2024学年下学期高二年级第三次检测数学试题
- 六年级数学上册《高频错题训练》
- 西京学院《土木工程施工》2021-2022学年第一学期期末试卷
- 2024秋期国家开放大学本科《古代小说戏曲专题》一平台在线形考(形考任务4)试题及答案
- 2025届江西省高三语文试题及答案
- 西京学院《大数据存储与管理技术》2022-2023学年期末试卷
- 西华师范大学《中国宗教史》2022-2023学年第一学期期末试卷
- 图文《黄昏》课件
- 西华师范大学《外国历史要籍研读》2021-2022学年第一学期期末试卷
- 管理能力与领导力管理培训
- 2023上半年四川公务员考试申论试题(省市卷)
- 《工贸企业有限空间作业安全规定》知识培训
- 2024年版的企业绩效评价标准
- 行政复议法-形考作业3-国开(ZJ)-参考资料
- MOOC 职场英语-西南交通大学 中国大学慕课答案
- JTG C10-2007 公路勘测规范
- 联合办公协议书范本
- 深圳市中小学生流疫苗接种知情同意书
- SCA涂胶机内部培训资料
- GB/T 5237.1-2017铝合金建筑型材第1部分:基材
评论
0/150
提交评论