电子政务基础教程 第5章 电子政务资源的加工与使用_第1页
电子政务基础教程 第5章 电子政务资源的加工与使用_第2页
电子政务基础教程 第5章 电子政务资源的加工与使用_第3页
电子政务基础教程 第5章 电子政务资源的加工与使用_第4页
电子政务基础教程 第5章 电子政务资源的加工与使用_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章电子政务资源的加工与使用5.1概述政务信息资源(GovernmentInformation)是指政务部门为履行管理国家行政事务和社会公共事务的职责而采集、加工、使用的信息资源,政务部门在业务过程中产生和生成的信息资源,由政务部门投资建设的信息资源以及由政务部门采集、管理和使用的信息资源。5.2数据、信息与知识

5.2.1政务系统中的资源形态电子政务系统设计者在需求分析时会碰到两个问题,一是如何区分政务系统中的数据、信息和知识,二是弄清三者间的关系及政务应用所需的管理工具和特点等。在大数据、虚拟现实、人工智能与深度学习等新技术支持下,高层决策者会得到一些全新的知识视角和一些领域的知识图谱的呈现。5.2.2数据、信息与知识模型1)政务信息资源概念模型数据、信息与知识三者的内涵不同,但又彼此衔接且在一定条件下可互相转化,如图5-1所示。图5-1数据、信息与知识基本模型图5-1表明数据、信息与知识之间并无绝对区别,而是一个彼此间可互相转化,周而复始的循环升级过程,这符合人类认识论的过程特性。即模型中的知识通过编码、存储后可再产生新的数据、再通过加工生成新的信息、新信息再提升为更高阶的知识。2)政务信息资源的实际模型图5-2显示了实际的政务信息资源模型,它是大量复杂资源体的混合物,它们在不同机构、不同系统与不同应用中呈杂乱关联状态。该模式反映了实际政务资源的几大特点:资源多源性资源海量性渠道广泛性资源相关性资源多态性图5-2多源、多态、多层面的电子政务资源聚集体示意针对图5-2描述的政务资源,加之其多以非结构化形态存在,就使传统数据处理技术越来越难于支持日益扩展的电子政务应用的需求。主要体现在三个方面:(1)传统技术的限制(2)多形态、跨系统间的资源无法建立关联(3)缺乏成熟的服务模型,无法为各级用户提供个性化信息支持所以,解决上述问题应采用新技术支持的资源加工平台。3)理想的政务资源模型及实现途径

理想的政务资源架构模型如图5-3所示,它要求在一个平台上,实现各领域、各层面、各种来源、各类形态的资源的有序集聚与整合。图5-3理想的政务资源平台示意图5-3模型通过一个“智能数据操作层”来实现不同领域、不同机构中数据、信息与知识的有序集聚、标准化处理与整合,实现以下要求。电子政务系统对结构化与非结构化资源都是适用的。电子政务系统应支持多渠道、多来源资源的处理。电子政务系统中各资源体,代表不同信源、不同知识领域。电子政务系统支持数据、信息与知识的标准化处理与整合。电子政务系统整合的结果将生成新知识。电子政务系统应能被方便地集成到各类政务应用系统中。电子政务系统应能支持一系列的信息加工与服务功能。5.3电子政务基础数据资源与标准化实现图5-3的政务资源模式,关键是对三类资源的标准化处理。如对不同系统的数据如空间、人口、法人、经济、交通、社会等领域的数据集成,要从底层实施数据标准化,提升其可用性、可再加工性与共享性。政务数据资源标准化的主要内容为:基础层面上有各领域政务术语/概念的标准化,数据元素标准化,元数据及其组成的标准化等;处理层面有数据加工模式、规则与质量要求的标准化等;应用层面上则有附加资源(如标识与描述数据)、组合与关联资源等的标准化等。5.3.1政务术语/概念标准化1)政务术语/概念库基础术语和概念的标准化是指如人口、空间、机构实体、经济、社会等各类政务应用均需要数据的标准化,涉及对象概念定义、描述方法和工具的规范化开发与管理,具体为:术语概念标准化术语描述标准化术语库管理标准化5.3.2基础数据标准化

在政务信息资源中位于更底层,更基础的数据的一些特殊数据,主要为元数据、数据元素、代码等,这些数据的标准化将对政务信息资源的整体质量、可用性、可共享性等都起到重要作用。有关内容参见第8章。5.3.3基于概念的资源描述1)DublinCore实例简介

非结构化文档一般以文本文档为代表,其描述有一些国际公认的模型,如著名的DublinCore(都柏林核心数据集)就是代表性的文档描述规范,用于管理文档类资源,它由以下15种元数据组成:标题名称(Title)主题词和关键词(Subject)资源描述(Description)资源类型(ResourceType)来源(Source)与其他资源的关系(Relation)覆盖范围(Coverage)作者或创建者(Creator)资源的发布者(Publisher)对资源有贡献的其他人员(Contributors)版权管理(Rights)日期(Date)资源格式(Format)语言(Language)资源标识(Identifier)显然,这一描述模型的优缺点都是十分明显。优点是通过上述元数标注后,所有文档资源都变得比较规范,非结构化的资源变为半结构化的资源,可用数据库管理系统方便地进行管理。缺点是:首先;每篇文档如加上这15个数据项的话,只能通过人工标注,对于行政机构或信息中心而言,面对海量资源加工是极不现实的。其次,这些数据项用于描述文章内容的只有1~7项,反映其论述内容的只有前3项,且通常情况下,一篇文献所用的主题词或关键词只有3~5个,无法从更细致的角度去描述其内涵;第三,该架构无法支持在自动能力处理环境下的规模化资源加工与增值。2)政务领域的对象描述需求都柏林核心元数据集仍是一个“文档级”的轮廓性描述架构,不是针对文档中“概念级”的资源精细描述,故“颗粒度”较粗,对于现实图5-3理想状态的知识管理尚不完善,其他元数据集也有类似问题。原因是,许多元数据集都来源于图书馆管理的需求,最初对图书的描述也只限于对其外部特征的描述,而对内容的说明则一般限制在数个关键词内,附加内容摘要就可。这种管理的目的,并不是要让读者通过了解全文包含的主题词集合来了解书籍内容,而只是为读者们提供对书籍的选择,再引导他们去阅读图书。电子政务领域往往需要对资源对象“细颗粒”度的内容描述,一些专家采用本体来进行描述。但本体也有一定的问题,一是许多纯粹的本体是极其严格与内容庞大的,实际系统在应用时还要再进行一些剪裁;二是本体仍需和目录体系结合,才能构建某个领域的知识体系;三是本体在应用中,仍需和诸如柏林核心元数据集等相结合,才能在对象的宏观与微观层面描述上发挥作用。使计算机系统既能在图书、文本层面上加工资源,又能从概念层面上理解文件的内容范畴,这些就需要新的算法与技术。5.4语义计算5.4.1基于自然语言的资源处理技术电子政务在面对自然语言的海量信息、提升其价值方面正面临着日益严峻的挑战。计算机并不“理解”其所记录与传输的文档内容,特别是当它们都是自然语言表示的信息时。如果计算机能在某种程度上“理解”自然语言,就会使资源加工的质量与使用的便捷性方面大大提高。近年来,在语义计算领域出现的突破性进展,该技术使计算机能在统计意义上理解多种信息片段之间存在的关联,并通过复杂计算、自动实时的分析来使非结构化资源在知识层面上增值,由此给许多应用带来真正的业务价值。5.4.2汉语分词与专业语料库要使计算机“理解”并处理文本,分词是第一个环节。与拼音文字相比,汉语在分词处理上还存在着特殊困难,拼音文字可用各词汇间的空白实现自然分词,各类短语间的搭配也比较容易判断处理,而现代汉语除有标点符号分割外,其方块字首尾相连,故分词的难度比英语等拼音文字难得多。在分词库方面,国内已有一些公司提供了比较成功与实用的解决方案,但各专用领域的语料库还比较匮乏。而建立各领域的本体就是很好的解决方案,本体中的用代词、属分词、相关词等都是具体的语料。5.4.4语义计算的应用语义计算机是当前计算机技术、人工智能技术等领域的研究前沿,许多国家的研究机构、院校和专业公司对此开展了研究,取得了一系列重要的成果。其中,比较有名并投入实际运行,在各国政务、商务、产业等都拥有一批知名客户和典型案例的,是HP旗下Autonomy公司,它综合运用了贝叶斯-香农算法模型,在语义计算机领域取得了业界公认的领先成就,本书中的算法模型就以该公司的模型为标杆,结合其他一些研究成果进行阐述。1)语义计算的基本过程语义计算在针对文档中概念进行时,主要有三个环节,一是对文档进行预处理和词频率统计,二是将一些没有实际涵义的词汇、非核心概念类词汇等滤去,三是将文档中所有的概论词抽取出来进行关联度分析,给出一篇文档或一批文档的内容特征描述。(1)预处理(2)分词与词频统计(3)数据清洗2)相关算法与模型简介经过预处理后,进行概念抽取计算,目前比较多种成熟的算法,如Rocchio方法、贝叶斯方法、kNN方法、决策树方法、DecisionRuleClassifier、TheWidrow-HoffClassifier、神经网络方法、支持向量机SVM法、基于投票法(votingmethod)等。贝叶斯概率论-----贝叶斯对概率论的研究成为现代统计学建模的核心理论之一,他的研究方向集中在计算多个变量之间的概率关系,以及决定一个变量影响其他变量的范围问题。在信息处理领域,该理论可判断文档中各概念间的关联,从而计量出未来的结果分布(相关性判断)可更有效地被“已产生的”已知模型和相似性所利用。(5.1)(5.2)(5.3)以上三式是根据贝叶斯理论建立的文献概念关联的数学模型。(5.1)式是贝叶斯公式的基本形式,它代表彼此独立的事件之间当某一事件出现后,另一事件出现的概率。语义计算中,它用于计算当某一概念Di出现时,另一概念Cj出现的概率,再计算第三概念……的出现概率,由此给出整篇文档在统计意义上的关联模型;(5.2)式给出当计算机处理一批文档时,出现总文档数中出现Cj的文档数量;(5.3)式则表示另一个概念与Cj在所有出现的文档中的关系,由此对一个个的概念进行计算,最后给出这批文档中所有概念的统计意义上的关联特征模型。从认识论的角度,贝叶斯理论至少给出了两点结论:(1)人们所掌握某一领域的信息量越多,他对该领域问题的认知程度就越高。(2)人们先前获得的经验可用于推断新的情况。当然,从上述三计算式并结合分词理论可以看出,对一篇文章进行分词后再直接计算其间的概念及其关系特征的话,运算量是极其庞大的,再高性能的计算机也将会对海量处理文件无能为力的。于是,还需要采用另一种算法来对概念进行筛选与过滤,这就是基于香农信息论的一系列的预处理,特别是要先去除文档中的噪声与无关部分。香农信息论-------克劳德·香农提出在通讯时可以将信息作为可量化的数值加以处理的理论,已成为现代信息处理系统的数学基础。从香农1949年发表的《通信数学原理》中可看到,“信息”在处理中可被作为一种可计算值。根据香农的熵(平均信息量)或不确定测量,一个单元平均传送的信息量可表达成(5.4)式,式中含义同前3式。Entropy为平均信息量,亦称为熵,既可理解为内容的有序度,又可理解为内容的混乱度。当概率完全相同时(5.4)式达最大值:这意味着,对应文本内容应是任意的,倘若不是这样,被文本传送的信息将低于最大值,也就代表其中有冗余。(5.4)在内容特征描述时,一方面对词频过低或过高的词均可除去,同时还要考虑到某一词的“信息增益”值。(1)基于DF(文档频率)词的DF频率小于某个阈值去掉(太少,没有代表性);词的DF频率大于某个阈值也去掉(太多,没有区分度)。(2)信息增益(InformationGain,IG)

该词为整个文档所能提供的信息量(不考虑任何特征的熵和考虑该特征后的熵的差值),其计算式如(5.5)。(5.5)(3)

词汇的特征熵

该值越大,说明分布越均匀,越有可能出现在较多的位置与文档类别中;该值越小,说明分布越倾斜,词可能出现在较少部位与的类别中,这是香农理论原型。(4)相对熵

也称为KL距离(Kullback-Leiblerdivergence),反映了文本类别的概率分布和在出现了某个特定词汇条件下的文本类别的概率分布之间的距离,该值越大,该词对文本类别分布的影响也大。(5.4’)(5.5)(5)χ2

统计量

度量两者(词汇和类别)独立性的缺乏程度,χ2越大,独立性越小,相关性越大(若AD<BC,则类和词独立,N=A+B+C+D)。(5.7)(5.8)(5.9)(6)互信息(MutualInformation)MI值越大,词汇t和c的共现程度越大。还有其他一些算法,都从不同的角度对词汇和文档进行特征描述。(5.10)(5.11)(5.12)3)语义的权重语义计算不仅涉及数量,还涉及内容。当同一关键词出现在不同位置的两篇文档中,其中一篇关键词出现在文档中的显著位置,例如标题中,另一篇关键词出现在文档末尾,处理时应认为前者的重要性比后者高,系统应赋予其较高的权重值;关键词出现多次的文档得到的权重值也会比较高。一篇文章中涉及的概念词数量较多,经过分词、词频统计、自动标引、权重计算等后,一批文档产生了一个特征向量空间,称为文档的向量空间模型(VectorSpaceModel),其组成为:M个标引项ti(特征概念词),包括词根、词、短语、其他形式表达;每个文档dj用标引项向量来表示:(a1j,a2j,…,aMj);权重计算,N个训练文档:AM*N=(aij);相似度比较:余弦计算、内积计算……权重计算要通过文档进行实例训练,且文档数量越多,训练的效果越好,系统给各词赋予的权重也越合理。当然,好语义计算系统应允许人工对概念权值的调整。4)文档内容结构建模贝叶斯概率论提供了描述概念间联系模型的数据方法,香农信息论为提取相关文档中最有意义的概念提供了一种机制。但这两种年代久远的理论只有依靠先进的计算机系统才能在现代互联网海量文献的环境中发挥作用。语义计算软件应能在解析文档所含概念、关键词及大量关联信息的基础上来理解上下文,构建其语义模型,即由主题词、词频值、文章数值、参照文档等的集合构成一件文档的语义模型。其后采用如贝叶斯或其他算法,对词间关联计算后,得到各篇文章及总体文档的概念模型。5)文档资料的处理流程

图5-4表示系统对文档集的语义处理流程,它代表从个性语义单元到文章整体语义特征的基本处理流程。图中流程分为文本表示、训练过程和分类过程三块。左上部分是系统对一批资源(训练文本)进行分词与词频统计分析与统计量暂存;右上部分是将训练文档处理后产生一系列的语义特征表示,它们在与用户的交互过程中,会通过不断的学习进行自我优化,并由一个分类器产生一系列的特征分类,其结果远比人工界面上呈现的分类目录要细致得多,这也是系统的中间处理过程,由分类器将产生动态分类中超过一定阈值的稳定类目呈现给用户,再进入新一轮的学习与优化过程。其后,每当有新文本加入时,系统会进行再训练,将新文档中知识元素作用于既往的资源集,又将既往积累的统计知识、特征集等作用于新文档,使其能利用以往系统资源加工的知识积累。整个系统将通过不断的资源积累、知识沉淀以及在和用户的交互过程中训练学习,优化其产出。最后,基于语义计算的知识系统将越来越“聪明”,越来越“善解人意”,并对以下各类处理提供越来越强的支持,分别是:(1)自动信息采集。

(2)自动分类整理。(3)自动网页链接。(4)自动全文概括。(5)自动相关信息提示。(6)全文内容自然语言查询。(7)信息多渠道发送,等等。对于客户端,知识管理系统带来的益处是一系列的新型服务:(1)自动建立个性化资料中心。(2)建立个性化的窗口设置。(3)自动建立信息推送渠道,通过关联性优化选择将信息动态发至桌面。系统的处理量级,在当前的一般电子政务主流硬件配置环境下,百万件量级的文章,2~3小时内按核心内容完成自动分类,以及按内容含义实现自动网页链接。5.5基于知识管理的电子政务系统架构5.5.1传统三层架构系统模型的缺陷基于知识管理的政务系统将提供与以往OA、MIS及其他所有传统政务系统完全不同的资源加工与服务模式,对用户的支持效果也完全不同,故需要不同的信息系统架构来支持。图4-6所示的是传统架构系统的代表模型,底层为各种数据资源服务器,顶层是通过各种标准传输协议支持的结果呈现层,中间是各类应用服务器,各类核心中间件、应用层中间件、系统级服务接口以及面向业务对象的各种逻辑层等。这种体系即标准的三层架构模型如图5-5所示。但这种架构不能面向概念处理,它没有一个将文档级的内容块加工为词汇级概念集合与分析计算的处理机制。语义计算在一至二层之间增加了一个智能数据操作层(IntelligentDataOperatingLayer,IDOL),如图5-6所示。增加了这一层后,使面向文档流转、信息发布、常规作业等的传统信息系统上升为可同时面向知识发现、内容挖掘与决策支持的知识系统。5.5.2智能数据操作层架构1)智能数据操作层的概念智能数据操作层(IDOL)既是个逻辑架构,也是一种功能服务器,作用是收集来自各连接器的数据,并通过快速处理和智能检索的独特方式来储存数据。在处理信息时,IDOL能联系概念和语境来理解数据库中的内容;支持对大量不同格式的信息、使用者的关注域进行自动分析;可实现对数据资源的多种类型的操作,包括超链接、代理、摘要、分类、聚类、结构化信息抽取、建档、个性化信息定制、内容提醒以及关联检索等。该服务器还允许人工参与控制,通过人工与自动化互补方式可获得更大的灵活性;它还能与原来遗留系统整合,使用户能传承原系统的资源并与新系统整合。图5-6表示智能数据操作层,它实现语义计算,提供了一些新的资源处理功能。2)智能操作层功能(1)功能模型图

图5-6中的智能数据操作层的功能模型如图5-7所示,图中虚线部分代表图5-6。图5-7中,智能数据操作层实现对机构内外网中各种格式的信息资源的语义处理,再与传统架构系统对接后经门户呈现。而左侧的智能信息平台和右侧商务智能工具等表示其适用环境及与其他应用的整合。(2)体系架构智能数据操作层(IDOL)的核心模块有三个,一是动态推理引擎(DRE)、二是分类服务器、三是用户服务器,各自功能如下。①动态推理引擎(DRE):动态推理引擎是一个高扩展性的多进程模块,能对目标内容进行分析并提交给用户。②分类服务器:在动态推理引擎能实现统计意义上的理解上下文信息的功能基础上,分类组织实现了高扩展性的自动分类解决方案。③用户服务器

在前两个模块的基础上实现个性化操作。④其他⑤连接器模块⑥参数设置5.6基于知识管理的电子政务系统功能采用基于概念分析的知识管理系统,将智能数据操作层(IDOL)集成到电子政务系统中,可实现如图5-8的各种应用。底层是各类数据源,如来自OA、新闻、电子邮件、文件系统、互联网、数据库、文档、业务系统、XML、声音影像等形态与格式的信息,通过第二层(连接器层)将各种不规整信息、半规整信息、规整信息、语音、图像等信息导入第三层即智能数据操作层,该层核心就是上述含动态推理引擎、分类服务器、用户服务器等,支持分布式架构,再上就是传统系统中的第二、三层,图中省略,简单地以其支持的各种应用系统层来代表,如政务门户集群、信访系统、OA、阳光权力、决策支持和其他应用等。在效率上,当智能数据操作层(IDOL)集成到电子政务系统中后,会将传统上需要手工操作的大部分过程实现自动化,提高政府机构内部的生产力、改善信息的共享与分布状况、降低数据维护成本以及根除因人为因素引起的不准确性。特别是对机构内外部信息资源的规模化采集、集约化管理、自动化处理方面产生革命性的变化。在基于概念统计分析技术上,系统可自动地或辅助人工对大量信息进行识别和匹配,实现以以下技术为关键点的系统性能改善。5.6.1自动相关链接通过概念统计分析可识别各文档资料中内容间的主要关系,实现文档内容间的交叉索引对照。此类技术可处理底层代码形态的记录,所以无论什么格式与内容的文档,都可在操作层识别出与其相关联的资料。实时生成相关超链,实时更新,无需手工插入链接。当某篇文档被查阅时,这些链接可自动地一次性插入文档中,可将以前处理过的文档中建立起来的内容超链作为当前文档的参考,并与之内容结合,档案资料也可以链接到最新的新闻或其他形态的相关资料中。该功能在电子政务系统中可生成如下一些应用。(1)与外部信源内容关联(2)机关内部应用(3)提高内外部信息服务质量(4)对依法行政的支持(5)在提升语音服务水平上的应用所以,自动超链功能对电子政务的改进主要体现如下。降低多种应用环境下非结构化信息的维护成本降低查找相关信息的时间降低重复劳动

发现新知识点,提升服务质量让人们了解信息的更迭以及最新信息,等等。5.6.2形成自动摘要系统可对内容中主要概念进行自动摘要,也可以根据原始查询的上下文环境进行自动摘要,并将最适合的动态摘要提交给指定的需求。

该功能在电子政务系统中可生成如下一些应用。在移动政务领域的应用在政府机构中的应用在快速变化的时代,主管机构需要尽可能快地做出正确决策,以保证以敏捷、能动的态度服务社会公众。动态内容摘要可以帮助各级公务员节省大量评估信息内容所需时间。特别是高层官员,因时间紧、活动多,更需要先通过摘要来了解各路发来的材料、信息的概要。所以,动态内容摘要功能对电子政务的改进主要体现如下。当显示能力有限时,动态内容摘要可发送高度精确的信息概要。提高用户处理信息的能力,加速政务运作。让人们能更快地做出适当的决策。与自动链接功能结合,可连续、动态地提供更灵活、灵巧的内容服务。5.6.3内容匹配尽管公务员和行政事业单位员工每天都可接触范围很广的信息,从内部文档到网站上动态新闻,但他们必须花时间和精力来找到对其有用的信息。互联网内容的增长,使查找信息的时间和精力越来越多,“主动匹配”可自动帮他们做这项工作。主动匹配可以将典型的文档或以数据为中心的用户界面转变成以任务为导向的智能界面,识别用户当前的问题,确定相关的信息并且积极主动地提示用户,让他们了解到相关内容。该功能在电子政务系统中可生成如下一些应用。在公文起草中的应用在机构内部使用所以,主动匹配功能对电子政务的改进主要体现如下。可以主动向用户提供其尚未搜索的信息。减少收集及时信息所需要的时间和精力。最大程度上允许信息的复用。提供依法行政的保障、降低失误发生的可能性。5.6.4信息获取和检索可根据任何语言和格式进行内容搜索,不论内容存放在哪里,并且自动地实时地将内容摘要以及与其类似信息的链接呈现出来。检索方案应是可拓展的,通过理解概念,它可保证较高的准确性和全面性。在电子政务应用中,系统应提供概念级的识别能力以保证资源的获取性,包括自然语言、概念搜索、自动摘要、二次概念检索,联合检索、多语言搜索,以及传统的搜索机制,例如关键词、布尔检索等。与这一功能密切关联的是自动摘要,它允许用户快速精练其搜索,精确地将焦点定位在其需要的上下文环境上。5.6.5自动内容综合与精练如今,各级政府机构作为社会公用信息资源的最大拥有者,越来越意识到信息资源是一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论