基于数据挖掘技术的情报分析与服务系统研究_第1页
基于数据挖掘技术的情报分析与服务系统研究_第2页
基于数据挖掘技术的情报分析与服务系统研究_第3页
基于数据挖掘技术的情报分析与服务系统研究_第4页
基于数据挖掘技术的情报分析与服务系统研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘技术的情报分析与服务系统研究

随着经济和社会计算机化时代的到来,社会计算机化程度的迅速提高,不同学科之间的交叉点发生了变化。另一方面,信息总量增加,旧信息总量减少,不同的信息总量像海洋一样。另一方面,人们对信息的需求从简单的接收扩展到收集信息和满足特殊需求的信息信息,更加个性化、专业化。传统的情报工作方法难以全面把握和处理这些纷繁复杂信息,更难满足日益增长的情报需求,特殊需求的信息情报更加个性化和专业化。情报研究与服务工作方法的转变和创新已迫在眉睫,必须通过情报信息技术支持,提高采集、分析、处理、加工、存储信息的能力,拓宽情报服务范围,加快情报研究工作的节奏,缩短从情报搜集到产生和发布情报研究成果的周期,以提高情报研究时效性和情报服务的相应速度,提高情报研究成果的精度和可信度,以满足信息社会情报用户的需求。1情报资源的采集、处理手段落后(1)缺少统筹的情报规划。情报机构按照自己的工作需求,通过自己掌握的信息收集渠道进行情报采集。无论是情报信息还是信息收集渠道,都缺乏整合和统一规划,留存在各个部门内部,不利于组织从整体需求出发开展情报工作,情报人员的协同工作有待规范,缺少技术性的支持手段。(2)情报采集的连续性和系统性差,存在大量重复劳动。现行开展的情报工作,往往是一事一办,针对情报需求进行一段时间内的情报采集,不能做到针对某个需求的持续性采集,造成了采集和信息的连续性和系统性差,信息不能有效地积累下来,遇到同样需求的时候,可能需要重新开展收集工作,降低了工作效率。(3)情报采集效率低、时效性差。面对海量信息资源,难以消化,难以辨别真假,信息形式不一致,难以统一处理,难于从大量纷繁复杂的信息中提取有价值的信息并进行深层次的加工即情报研究,同时缺少对动态信息的即时跟踪,缺乏发现机会和风险的能力。(4)情报服务范围有限,服务方式单一。目前的情报产品都是情报部门根据自己掌握的信息渠道而编制的,信息渠道的权威性和全面性得不到保证,服务对象不具有普遍性,情报需求不能及时响应。2更高层次的分析随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。在激增的数据背后隐藏着许多重要的信息,情报工作要求能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,有必要引进数据挖掘技术。2.1数据提取2.1.1微集物的知识挖掘数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的新颖的潜在的信息和知识过程,通过数据挖掘,可以发现隐含在数据中概念、规则、规律、模式等有用的知识。从广义的角度看,数据挖掘是从存储于数据库、数据仓库、数据集市或者其他非结构化的信息仓库的大量数据中挖掘出有用知识的过程。数据挖掘融合了数据库、人工智能、机器学习、统计学等多个领域的理论技术,是利用各种分析工具在海量数据中发现模型和数据间关系的过程,使用这些模型和关系可以进行预测,帮助决策者寻找数据间的潜在关联,发现被忽略的因素。2.1.2对有价值的知识、规则的知识和辅助决策的关键数据数据挖掘是对大量数据进行抽取、转换、分析和其他模型化转化处理,发现有价值的知识、规则,并从中提取辅助决策的关键性数据。图1为数据挖掘步骤图。2.1.3生成规则的描述数据挖掘的目的是从数据库中发现隐含的、有意义的知识,主要有以下功能:(1)自动预测趋势和行为。数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行手工分析的大量问题可以通过数据挖掘技术由数据本身得出结论。(2)关联分析。数据库中,若两个或多个变量的取值之间存在着一类重要的可被发现的知识,因为有时并不知道数据库中的数据关联函数,通过关联分析,找出数据库中隐藏的关联网,进而生成的规则有一定可信度。(3)聚类。数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。(4)概念描述。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征,其中特征性描述是对某类对象共同特征的描述,区别性描述是描述不同类对象之间的区别。生成区别性描述的方法很多,如决策树方法、遗传算法等。(5)偏差检测。偏差检测是对很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差等。其基本方法是,寻找观测结果与参照值之间有意义的差别。2.2情报分析与数据挖掘相结合情报研究与服务系统是根据社会用户的特定需求,以人的智力劳动为主导、信息技术为支撑、信息网络为手段,以社会信息的采集、选择、评价、分析和综合等系列化加工为基本过程,以形成新的、增值的情报产品,将为不同层次的科学决策服务为主要目的的一类社会化的智能活动,是信息管理和知识管理有效地结合起来的决策支持系统。其处理过程一般分为情报搜集、情报加工、情报分析、情报评估(见图2)。通过前面的分析我们可以发现,数据挖掘与情报分析与服务系统具有很强的相似性:二者数据源相似,情报分析的“信息”与数据挖掘的数据含义相同;分析过程相似,情报分析的步骤与数据挖掘的步骤基本相同,都经历了原始数据提取、数据筛选、数据分析、数据评价这几个关键步骤;目标相似,数据挖掘的目标是知识发现,通过对原始数据的分析提炼,找到其内在变量的联系,从而获得知识。情报分析的主要目的是通过对情报的分析,能够根据周围环境的变化,找出其内在规律,及时把握情报,也是获取和应用知识的过程。数据挖掘技术同当前传统的情报方法相比较,情报获取方式由人工搜取扩展到机器自动抓取;情报分析上升为多维分析,目前采用基于数据挖掘技术工具化软件对多种资源进行自动采集、自动分类和去重等处理,从海量信息中及时准确地筛选关键情报资讯信息,通过系统自动化与人工干预相结合的方式,经过可定义的处理流程,作为了解各类信息的重要渠道和决策辅助支持的工具,从而提高快速反应能力,无论从体系结构上还是从具体方法上,数据挖掘算法都能够很好地融合到情报系统中去。3情报分析与服务系统图3为基于数据挖掘技术的情报分析与服务系统功能模型图。数据挖掘系统主要包括数据收集、数据处理、数据分析、数据评价几个子系统,将数据挖掘系统的子系统嵌入到情报分析与服务系统中,将整合的多种信息源,包括互联网通用信息、已有数据库通过数据接口模块收集的信息等,经过挖掘技术初步筛选、查重去重、自动摘要、自动分类、自动聚类、相似性检索进行处理,去掉大多数系统不关注的信息,简化了情报分析中数据预处理工作的难度和复杂性;将信息筛选、编辑以及加工整理,将处理后的信息从原始信息库加入到情报信息库;经过评价后,进一步加工,形成情报产品,发布到情报门户平台,提供快捷友好的多途径检索、情报推送定制、邮件订阅等分层次情报服务。4情报信息服务的数据库及应用广泛,应用广泛,可以提高情报信息的服务和效率数据挖掘是信息处理发展到一定程度的必然产物,是利用数据的一个高级阶段,把数据挖掘技术用于情报研究和服务上,它可以拓宽情报服务范围,大大提高工作效率和情报的准确性。4.1多维数据库的统一利用政府决策若要体现科学性、前瞻性及执行的可行性,就必须对所涉及数据进行充分地利用。而政府管理决策所需要的数据通常是跟一些不同维数(每一维表示对数据的一个特定观察视角,如区域、行业、时间等)、不同级别(如部门、单位、地区、国家等)的统计和计算有关。政府管理所涉及的数据源可能是文档、层次型数据库、网络化结构化的数据、反向列表数据库、关系型数据库等,甚至是上述几种数据系统组成的混合系统,因此要考虑各种数据库的统一利用问题。数据挖掘等信息技术从根本上改变了基于传统数据库的决策支持系统的弊端,使数据信息更直接地辅助政府进行决策。4.2竞争情报模型企业需要随时保持竞争优势,而强大的竞争优势取决于企业的决策能力,决策能力又取决于情报资源。在现代信息经济的商业竞争中,对市场、自身、竞争对手、行业趋势、国家政策等竞争情报的全面和及时掌握也同样决定着企业的兴衰成败。基于数据挖掘技术的情报系统,使原本毫无结构、零散分布在企业内外的信息成为能够指导企业决策的体系明晰、逻辑紧密的竞争情报。对可能出现的机遇和危险提供早期预警,对竞争对手的动向进行监控和评估,同时,还能将整理有序的情报加以存储,配合情报服务功能,成为企业的知识系统,为企业提供内部信息交流、外部环境检测、战略决策辅助等支持。4.3注重技术创新,推动科学决策研究所谓技术发展预测,是对未来较长时期的科学、技术、经济和社会发展进行系统研究,以确定具有战略性的研究领域,选择对国家和地区经济和社会利益具有最大贡献的技术群的活动。其过程主要是征集区域重点领域经济社会发展(科技需求)技术、项目,选择重点领域关键技术;调查数据处理、统计分析,开展技术与经济社会发展的互动分析研究;在系统集成分析基础上选择关键技术,撰写综合研究报告;建立技术、项目数据库;预测研究需要综合运用大量的文献调查、比较法,根据现有数据预测未来的发展趋势。任何一个预测研究领域要取得研究的成功取决于两个方面:一是研究工作者能否找到事物过去发展的规律;二是研究工作者是否可以得到影响和决定事物未来发展形势所需的资料或数据。预测研究面对的信息集就是一个海量数据库,运用数据挖掘技术分析与预测,就是希望从海量数据中发现数据存在的关联规则,根据现有的信息预测未来的发展趋势,从信息海洋中发现知识。战略分析包括信息采集、信息加工、信息检索、信息分析、信息应用等部分,通过完整的价值链体系,将信息文献升值为技术发展方向的情报。4.4文献源和数据库的建设与完善定题服务也就是根据用户需求,情报人员主动进行调查,确定服务专题,以提供必要的情报资料或相应文献的方式,主动、持续、系统地向客户提供服务。定题服务同样也需要从大量纷繁复杂的信息中提取有价值的信息,进行深层次的加工即情报研究,同时对动态信息进行即时跟踪。定题服务、检索查新要求的文献源也呈多元化,信息量呈几何级数迅速膨胀。仅Dialog国际联机系统就囊括了600多个大型数据库,而且涉及范围相当广泛,包括了自然科学、社会科学、工程技术、人文科学、商业经济、报纸新闻等各个领域。人们常用的Google搜索引擎,目前就已包含有20多亿个站点,30多亿个网页,其中中文网页就有3000多万个。要想查准、查全,除了需要科学地制定检索策略和方案,确定解决问题的正确途径,还需要以数据挖掘技术为核心的情报系统的支持,从传统的、检索式的定题情报提供的服务方式上升为从广博的网上资源和数据库中自动挖掘,并通过互联网主动地把信息或知识推送给用户的服务方式;给出的查新分析报告经数据挖掘中的联机分析处理,提供了对多维信息的分析手段和对众多数据库采集、净化得到的数据仓库,其分析结果更加可靠。5基于数据挖掘技术的情报信息加工情报规划和情报资

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论