版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章政务信息资源分类6.1政务信息资源分类概述6.1.1分类简述类,是具有共同属性或特征的事物、对象或概念的集合;分类,是按对象的特征属性进行区分,将具有某种共同属性或特征的分类对象划分在一起、或彼此区别的过程。《大英百科全书》认为分类的关键是:人类在认识和理解世界的过程中需要解决3个问题:(1)区分对象及其属性;(2)区分整体对象及其组成部分;(3)不同对象类的形成及区分。解决这3个命题的过程就是分类过程,其实现就是人类对上述3方面实践与认知的积累。6.1.2政务信息资源分类依据GB/T25647《电子政务术语》的定义,政务信息资源分类是“为了有序管理和开发利用政务信息资源,把具有某种共同属性或特征的政务信息归并在一起,通过其类别的属性或特征来对政务信息进行的归类。”通过分类将实现政务信息资源的有序采集、科学管理、共享使用与交换增值等。从形态上,政务信息资源分类也是文件档案、资料、公文、作业与服务对象等的资源组织与处理的过程,它涉及文献著录、主题标引、特征描述、内容编目、赋予标识代码等作业,成果是生成相应的政务资源目录。6.2政务信息资源的分类原理6.2.1信息资源的基本分类原理信息资源的分类,主要考虑其分类体系架构、分类对象描述、分类节点间的关联等,由此产生相应的分类原理与方法,如线分类、面分类、混合分类、复杂分类与多重分类等。线分类法线分类又称层次分类、树型分类或体系分类。它将分类对象按选定的若干属性或特征,从上而下逐次分为若干层级,各层级又分为若干类目。同一分支的同层级类目之间构成并列关系,不同层级类目之间构成隶属关系。面分类法选定对象的若干属性或特征,将分类对象按每一属性或特征集划分成一组独立的类目,每一类目构成一个“面”,再按一定顺序将各个“面”平行排列。使用时根据需要将有关“面”中的相应类目按“面”的指定排列顺序组配在一起,形成一个新的复合类目的分类方法。如服装可按“性别”、“年龄”、“款式”、“布料”、“颜色”等分类,各组之间可按任何有实际意义的概念进行组合。混合分类是线分类与面分类结合的分类方式。现实世界中,许多事物或概念间既具有层次性特征,又显示出多面并列的属性关系。如信息系统中,树型分类目录下挂接数据表的现象比比皆是,就是这种混合结构的具体体现。许多应用系统中,人们往往采用线分类为主导分类,以显示资源的体系化组织的层级脉络;又对其末端条目采用一系列特征面来描述,面越多,对象描述就越丰富与细致。复杂分类面分类中“对象-属性”为二维关系,可用表格描述;线分类中“层级-对象”也可用表格描述;二者混合后的“层级-对象-属性”关系,也能用关系型数据数据库来定义。但现实中有许多对象间呈现复杂的网状关联,一些不同来源的信息资源在融合时也呈现多维的树-网复合型关联,节点间层级关系不清,上下位属彼此纠缠,不能用简单的关系规则与刚性路径来定义。多重分类对象可按不同的属性、特征、应用等划分不同的分类体系。同一对象可能在一个系统中被多重分类,如“太阳能”可能出现在能源类中,又可能在环保类下,还可能在高新技术类中。同一对象在不同系统中会有不同分类与代码标识。上述几种分类模式构成了政务信息资源分类的多种性和复杂性,它是客观世界多重性和复杂性在信息领域的反映。在政务资源领域中,线分类法能反映某个领域的知识轮廓、层级架构与总体容量,各节点概念在分类体系中有稳定的位置和次序,适于作资源架构的总体描述。面分类适于对末端条目的属性进行描述,描述面越多,对象特征呈现就越详细。而在多系统融合、跨领域交互的综合系统中,信息资源分类就可能呈现网状嵌套的复杂结构。6.2.2政务信息资源的分类原则电子政务具有跨部门、跨区域、跨行业等特点,其信息资源分类应遵循如下原则。科学性系统性兼容性规范性可扩展性实用性6.3政务信息分类系统6.3.1政务信息分类技术架构
政务系统中,信息资源分类是相对独立的子系统,其技术架构与功能如图6-1所示。图6-1从内容、特征与外表外表特征等角度提供了政务信息资源的4重分类,“资源形态分类”从外表特征或载体来区分其形式,是唯一与内容无关的分类;而主题分类、行业分类和服务分类均与内容相关。其中,主题分类是基础,它从对象最客观、稳定、与应用无关的本质属性出发对资源进行分类,当其他分类不便或不详时,当以主题分类为依据。图6-1也表明了它对行业分类与服务分类的支持。行业分类是从行业角度对资源的分类,此分类便于行业应用,但对跨行业、多领域的场合就显不足;服务分类是对政府公共服务的划分,便于公众检索,但显得较为粗放。电子政务系统可根据上述4种分类,对信息资源进行采集、注册与归纳,产生相应的分类元数据项。使用时,机构可根据所需服务对信息资源进行识别、导航和定位;也可根据提供服务的职能部门的所属行业或领域,或根据其资源主题内容等,对政务信息资源进行识别、导航与定位等。6.3.2四种政务资源分类和编码结构
国家标准GB/T21063.4-2007《政务信息资源分类》给出了主题分类、行业分类、服务分类与形态分类等4种应用分类法。6.3.2.1主题分类法主题分类是政务资源的基础性分类,GB/T21063.4-2007《政务信息资源分类》规定了政务信息资源目录体系中政务信息资源的分类原则和方法,明确以及主题分类为基础,用于各机构在建立政务信息资源目录时提供分类依据。该标准将政务信息资源的主题分为21个一级类和133个二、三级类。表6-1为该标准中政务资源的主题分类示例。表6-1采用线性分类法,3级4位编码,第1级用2位数字,2级和3级类目各用1位大写罗马字符(A-Z中除I、O)表示,结构如图6-2所示。6.3.2.2行业分类法政务信息资源的行业分类是在参照GB/T4754《国民经济行业分类与代码》的基础上,作了部分增减形成的。GB/T21063.4-2007中的行业分类示例如表6-2所示。
其编码方法采用3层4位的线分类结构,如图6-3所示。一级类由1位大写罗马字符(A-Z中除I、O)表示,代表国民经济“产业门类”;二级类由2位数字代表“行业分类”;三级类目由1位数字组成,代表行业“细目”。6.3.2.3服务分类法
此分类描述政府公共服务,用于:(一)指导构建服务型政府;(二)体现政府的经济调节、市场监管、社会管理、公共服务等职能;(三)利于机构间跨部门、跨行业、跨地区的信息共享。服务分类是近年面向公众需求发展起来的分类体系,在美国获得成功。它以构建面向公众的政府服务为宗旨,打破机构间的界限,以公众服务为轴心,涉及各相关机构时,均从其履行的职能出发,无缝地组织民提供的服务,使社会公众感觉其是面向“一个政府”。为此,美国推出了联邦电子政务体系架构(FederalEnterpriseArchitecture),描述服务的业务模型,运用业务分解和分类描述方法,确定政府不同职能的边界和范围,界定、定义各类业务,以形成统一的、满足电子政务总体要求的政务信息资源分类体系。政府服务逻辑上可分为目标、方式、方式支持环境、资源等4方面,按公众服务属性就相应体现为公众服务、服务方式、服务方式支持环境、服务资源等4领域。表6-3为GB/T21063.4-2007中的政府服务分类与代码示例。编码结构采用线分类表示信息间的层次关系,采用无含义代码。第1层用1位数字代码,表示4种服务性质之一;第2、3层各采用2位数字代码,分别表示业务类、服务细目等分类。代码结构如图6-4示意。6.3.2.4资源形态分类法此分类按政务信息资源的不同形态进行。表6-4为GB/T21063.4-2007的政务资源的形态分类示例,此分类只反映资源的外在形态与记载形式,与内容无关,主要用于对不同形态的政务资源进行管理。其代码结构采用3层5位的线分类,具体如图6-5所示。建立政务信息资源目录体系时,应首先采用主题分类、再根据应用情况同时选择其他3种分类,且这些分类均应与主题分类建立映射,既保证系统的完备性、可管理性,又能为用户提供多种检索途径。其中,资源形态分类与内容无关,不需建立内容映射。但任何信息都必须以一定的形态表现,故描述具体政务资源时,应引用表6-4来说明其资源形态。6.3.3面向资源共享的政务信息分类体系面向多机构、跨系统信息资源共享的分类体系,是深化政务资源服务的基础。由于共享资源的内容与属性不同,就使分类具有了多样性与复合性,可按资源属性、层级属性、共享属性和涉密属性等进行4面分类。6.3.3.1资源属性分类
资源属性按基础类、主题类、开放类与需求类划分如下。(1)基础信息资源目录(2)主题信息资源目录(3)部门信息资源目录(4)信息资源开放目录(5)信息资源需求目录6.3.3.2层级属性分类
从国家级开始逐级向下的分层分类,具体如下。(1)国家政务信息资源目录(2)国家部委政务信息资源目录(3)省级政务信息资源目录(4)部门政务信息资源目录6.3.3.3共享属性分类
政务信息资源类型分为无条件共享、有条件共享、不予共享等3种。6.3.3.4涉密属性分类政务信息资源目录按涉密属性,分为涉密和非涉密政务信息资源目录。涉密政务信息资源目录和非涉密政务信息资源目录的梳理、编制、管理、应用等,应分别依托国家数据共享交换平台(政务内网)、国家数据共享交换平台(政务外网)开展。涉密政务信息资源目录和非涉密政务信息资源目录,均有相应的资源属性分类、元数据、目录代码等要求,应予分别编制。6.4共享政务信息资源分类体系为确保各地各级各领域的电子政务系统能资源共享与交换,必须构建统一的政府信息资源分类体系。6.4.1共享政务信息资源分类体系架构1)分类结构图6-7体系架构是从全国出发,宏观统一了政务资源的分类与编码结构,实现对共享的支持,又允许各类机构按需在其基础上扩展或剪裁,将其私有分类体系与之映射。编码结构图6-7对应的编码体系如与图6-8所示。从中可看出,共享政务信息分类体系只对“类”、“项”、“目”3级分类给出的定长码位,也就限定了各级的对象容量,第4级“细目”采用不定长结构,具有无限容量。编码体系在宏观、中观与微观层面分类与代码的统一,支持此3层以上的资源共享与交换,同时对细目放开,允许各机构或应用自行对细目对象分类与编码,从而使整个体系具有较大的灵活性与实用性。图6-8中分隔符“/”以后是不定长码段,可标识细目下无限量的具体信息资源。6.4.2分类层级与结构6.4.2.1“类”与“项”图6-7的根节点“政务信息资源目录”下,一级设有基础、主题和部门3个“类”,具体内容在二级“项”下初步展开如下。1)基础信息资源类是为构建政务应用提供基础信息的资源层。主要包括:人口基础信息、法人单位基础信息、其他组织基础信息、自然资源和空间地理基础信息、宏观经济数据基础信息、法律法规基础信息、文化基础信息、金融基础信息、信用基础信息、统计基础信息、科技基础信息、电子证照基础信息,等等。2)主题信息资源类主题分类将政务服务从顶层分为全民健康保障、全民住房保障、全民社会保障、药品安全监管、食品安全监管、安全生产监督、市场价格监管、金融监管、能源安全保障、信用体系建设、生态环境保护、应急维稳保障、行政执法监督、民主法治建设、执政能力建设、投资审批等主题。主题分类按政务活动与对象的本质属性分类,不是按机构设置分类。因为政府换届时可能对政府部门设置进行调整,故机构分类的稳定性较;其次,同一业务会有多个机构行使相关职能,如食品药品卫生与安全监管,就涉及工商、质监、卫生防疫、海关等一系列部门,将其划归任一部门都不妥当,只有按主题职能进行分类,各相关机构与之建立映射。部门信息资源类部门信息资源对从中央到地方的各级职能机构进行分类,用于识别政务资源中各类信息“源”和“宿”,以及中间各参与单位等。由于不同政府机构行使不同的行政职能,所以这一分类就具有行业分类特征,如金融管理、税务管理、财政管理、医疗卫生管理、经济贸易、公共安全、国民教育、社会保障、国家安全、外交、国防等等。6.4.2.2“目”、“细目”与后段码“项”以下分类为“目”,如图6-6中“法人单位信息资源库”项下就分为“行政”、“事业”、“企业”等法人单位之“目”。对其再进一步的划分就用“细目”,如行政类法人单位信息资源下的内部管理,就有公文管理、人事管理、办公管理、财务管理、土地管理、项目管理、房屋管理、资产管理、采购管理、车辆管理等。“细目”是对“目”的扩展,其不定长代码中允许使用者视需求可再分类或不分类。如公文管理对象为:决定、通知、报告、请示、批复、意见、函、会议纪要等9种主要形式;行政公文有:命令、公告、通知、方案议案4种;常务行政公文有:决议、指示、公报、条例、规定等5种。这些分类只能在细目中按行业标准或规范再度分类,纳入体系中。细目后为图6-8中分隔符后的后段码,因细目代码不定长,故后段码可视为细目内的一种逻辑划分。后段码中也可进一步分类,或直接采用流水号,对对象作顺序编码,如机关公文就可按上述各种文件成文顺序编排发布。6.4.3主题分类GB/T21063.4-2007《政务信息资源目录体系第4部分:政务信息资源分类》要求以主题分类为主体,其他形式的分类均要与主题分类建立映射,故主题分类为基础分类。6.4.3.1GB/T21063.4的主题分类GB/T21063.4-2007《政务信息资源目录体系第4部分:政务信息资源分类》给出了电子政务主题分类,表7-5是其中“经济管理”的部分主题内容示例。代码名称描述说明………………ZB经济管理关于经济的管理、规划、发展概况ZBA00经济管理综合类ZBB00经济发展计划关于经济的宏观发展规划ZBC00经济管理关于经济的宏观管理现状ZBD00经济体制改革关于经济体制改革的管理和规划、发展情况ZBE00经贸管理关于经济贸易的宏观管理和发展调查报告、统计资料ZBF00统计关于统计工作的管理和发展情况ZBG00物价关于物价的管理和调查报告、统计资料,以及物价体系规划ZBH00工商关于市场监督管理和维护公平竞争的市场秩序………………1)代码结构第一列类目代码的编制规则从右至左含义如下:(1)分类类别用1位大写罗马字符表示,“Z”代表主题分类,其它分类还有行业分类(H)、部门分类(B)、服务分类(F)和资源形态(X)分类等,以不同字母表示。(2)一级类用1位大写罗马字符表示,如“A”代表“综合政务”、“B”代表“经济管理”等。本级代码采用除字符“I、O”以外的字母,代码容量为24。(3)二级类用1位大写罗马字符及2位阿拉伯字符表示,如表中“ZBD00”代表“主题分类、经济管理一级类、经济体制改革二级类”。2)主题目录代码对应的主题名称与描述,是定义某个政务信息资源特征的一组信息。这些主题词既代表了政务领域的公共资源核心元数据,又是系统交换时的核心元数据,通过它们间的对照可实现其类目下的资源交换。本表只给出“名称”和“描述说明”,而规范的元数据描述应包括:对象定义、英文名称、数据类型、值域、短名、注解等。显然,本标准仅提供最简单、必要元数据描述框架,给各类应用系统的开发留下扩展空间。6.4.3.2GB/T21063.4-2007的主题扩展分类显然,表6-5的主题分类过于粗放,与面向事务的应用需求还有颇大距离,故实用中还要进行拓展。拓展既包括对原标准的类目进行扩充与细化,也包括对元数据描述字段的扩充。拓展的依据,仍应采用国际与国家相关的标准,以及如联合国、世界银行等权威机构实际使用的目录体系及架构模型、一些国际知名的专业机构的成熟的分类体系等,这些分类目录已成为事实上的工业标准。1)“经济管理”类目扩展架构模型如表6-6,GB/T21063.4-2007对“经济管理”的描述是“关于经济的管理、规划、发展概况”,这是个庞大而笼统的定义,实用中应进行扩展。此处参照世界银行知识管理系统中“宏观经济与经济管理”子系统进行扩充。主题扩展要先建立扩展分类模型,“经济管理”的扩展模型如图6-9所示。2)类目扩展原则无论此处的初级扩展,还是后续的多级拓展,都应遵循以下原则。系统性科学性完整性规范性实用性可扩展性3)拓展类目与编码依据图6-9模型,采用GB/T21063.4-2007体系结构,参照引进世界银行体系对“经济管理”分类拓展的结果如表6-6所示。代码二级类目名称(中文)二级类目名称(英文)描述和说明ZBC01市场与商贸Markets&Commerce600ZBC02消费Consumption280ZBC03经济理论与研究EconomicTheory&Research650ZBC04财政与货币政策Fiscal&MonetaryPolicy1302ZBC05政治经济PoliticalEconomy39ZBC06经济状况EconomicConditions311ZBC07经济体系EconomicSystems180ZBC08收入Income140ZBC09区域经济SubnationalRegionalEconomics98ZBC10税收与补贴Taxation&Subsidies534ZBC11投资Investments1376ZBC12日用商品Commodities134ZBC13经济行业调整EconomicSectorAdjustment83ZBC14信贷调控AdjustmentLending747ZBC15援助效力AidEffectiveness392ZBC16投资、储蓄与增长EconomicGrowth,Investment&Savings95ZBC17国家战略与实施CountryStrategy&Performance355ZBC18…………各类下级词目数表6-6中代码按顺序规则从“ZBC00”起直接延续。在与用户系统资源对接时,可通过代码对照表建立映射。第4列“描述和说明”中的数字代表该类目下目前已扩展的3级词条数,可看出,世界银行运行的“经济管理”是一个庞大而缜密的分类目录体系。4)类目的二级拓展与编目对专业应用,表6-6的分类仍嫌粗放。电子政务对经济监测和管理朝科学化、精细化发展,分类管理也越来越精细,往往需要再度拓展。以表6-6中“ZBC06经济状况”为例,其3级类目收录了311个词目,部分拓展实例如表6-7所示。代码三级类目名称(中文)三级类目名称(英文)ZBC06001经济状况EconomicconditionsZBC06002边际收入MarginalrevenueZBC06003财富WealthZBC06004财富分配WealthdistributionZBC06005财政鸿沟FiscalgapZBC06006财政压力FiscalpressuresZBC06007成长率GrowthrateZBC06008城市经济功能EconomicfunctionsofcitiesZBC06009迟滞StagnationZBC06010迟滞经济学StagnationeconomicsZBC06011出口引导经济增长ExportleadeconomicgrowthZBC06012地下经济UndergroundeconomiesZBC06015发展障碍ObstaclestodevelopmentZBC06016发展中国家DevelopingcountriesZBC06017发展中地区DevelopingareasZBC06020国际经济InternationaleconomyZBC06194住屋开支HousingexpendituresZBC06195…………表6-7中“代码”的前3位仍按GB/T21063.4-2007结构编制,低位可采用定长或不定长位码向右拓展,原则是保证其中的前5位代码不被“胀破”。“ZBC06经济状况”有300多词目,故增加3位码就可。以上只是示例性的分类扩展,在下一道工序的资源编目中,还需要增加一批数据项如词条定义、内容描述、位属标识、名词来源、版本与日期等说明性与管理性字段。6.4.4其他主题政务分类标准1)联合国系列标准针对GB/T21063.4-2007,还有一些权威机构的主题分类标准可参照采用,如联合国统计分类署(UNSD)制定的,在各国政务系统中广泛采用的一套综合性管理、统计与信息交换UNSD标准。这套标准有COFOG、COICOP、COPNI和COPP共4件,既可用于政府机构之间、政府对公众、政府对企业与社会机构之间的业务往来,又在分类结构和编码上一致,彼此兼容的成熟分类标准。联合国制定UBSD分类标准的初衷,是对联合国系统内部及与各国往来的业务进行管理和统计分析。冷战结束后,促进经济、发展贸易、推进产业和招商引资等已成各国政务的主题,这套以经济、行政、社会管理、文化促进、环境保护、人类和自然遗产保护、教育援助等为主导内容的分类系统就非常适于作为各国政府的电子政务资源分类架构。这4套标准分别是:(1)政府职能分类体系(ClassificationoftheFunctionsofGovernment,COFOG)。(2)个体消费目的分类体系(ClassificationofIndividualConsumptionAccordingtoPurpose,COICOP)。(3)非营利机构家庭服务项目分类体系(ClassificationofthePurposesofNon-ProfitInstitutionsServingHouseholds,COPNI)。(4)生产经营开支项分类体系(ClassificationoftheOutlaysofProducersAccordingtoPurpose,COPP)。这4套分类体系不仅能实现电子政务系统的一致与兼容,还解决了其与电子商务系统的兼容问题,也解决了政府的公共行政、公共管理与公共服务信息资源的共享问题。此套系统与联合国的其他信息分类体系兼容,所以能保证其建立的政务系统具有实用性和稳定性。2)联合国《政府职能分类(COFOG)》标准联合国的《政府职能分类(COFOG)》体系,是在考虑各国政府最普遍、最一般的行政职能基础上,制订出的适用性最广的政府职能标准。(1)标准结构COFOG目录体系采用分层代码结构,3层如下。层级1——主题类(2位数)。层级2——分组类(3位数)。层级3——细目类(4位数)。由于层级上可再分且总代码不定长,就使其结构上能无限扩展,直至满足中最基层、最细致的业务项描述。所以,这4套标准的扩展空间无限、故能支持的资源内容也无限。(2)分类本体结构
联合国在综合各国政府的基本职能基础上,本着分类实用与宽窄适度的原则,将政府的最一般职能分为10个大类,分别为“公共服务,国防,公共事务与安全,经济,环境保护,医疗保健,娱乐、文化和宗教,教育和社会保护”。这10大类为政府职能的一级目录,再设立2级、3级目录等。1级目录下有2级分类,示例如下:01——公共服务。01.1——行政与立法机构,财政和金融,外交。01.2——外国经济帮助。01.3——一般公共服务。01.4——基础研究。01.5——综合公共服务研发。
……
以上是1、2级类目示例,往下为3级类目,示例为:01.1.1——行政和立法机构(CS)。01.1.2——财政与金融(CS)。01.1.3——外交(CS)。……
COFOG分类体系的特点,是其采用了一般编码系统中较少使用的后缀码,来区分同一描述对象所在的不同场合。例如:“06.2社区发展”和“06.2.0社区发展(CS)”,以及“10.4家庭和儿童”和“10.4.0家庭和儿童(IS)”,就有不加第3位代码“0”描述对象名称后加后缀码(CS)与(IS)等3种形态。区别是:不加“0”与后缀码者为一般意义的描述对象,通常表示类;加后缀码(CS)表示“集体服务”项目,(IS)表示“个体服务”项目,由此可识别同一对象在G2G、G2P、G2B与G2C的应用场景。6.5信息资源的自动分类6.5.1信息资源自动分类概述大数据环境下,电子政务领域知识庞大、结构复杂,传统分类方式在内容范围、动态服务的灵活性和方便性等方面,已不能满足政务应用创新和所涉领域迅速扩展的需求。且实际上,按图6-8结构的基本分类编码已近30位,扩展编码更可能多至50余位,已接近人工识别与分类编目的极限,将给政务资源应用带来日益增加的困难。以下为传统分类方式在信息爆炸时代面临的挑战。1)分类体系的限制传统分类强调分类体系的稳定性和类目的单一性,而实际使用中要面临全社会中新现象、新知识、新表述的不断出现,导致分类的多元性和动态性。如:传统分类中,对象基本以一种分类归属为主,且不允许经常性类目变动。但在快速发展的社会及其变革中,同一概念分属多个政务类目已是常见情况。如“艾滋病”按科学分类属于传染病学科,而在公共行政领域,它同时从属于卫生防疫、公共安全、社会教育、伦理道德、贫困扶持、民政安置、公益宣传、科普教育等领域,单一分类显然不能满足政务应用之需。2)对象颗粒度传统分类对象的“颗粒度”较粗,而政务应用涉及的对象颗粒度越来越细。如传统分类对象可能是一册图书,一份文件或一段视频;知识管理对象则要求细化到文章中的各种概念、主题词、数字、与视频段对应帧的一句解说语、一个关键词等。3)分类方法传统分类采用矩阵法,而知识描述采用矢量法。如一份文件、图书馆资料等多以线分类、面分类法等二维表格来描述其外在特征;但文献内容中的数据、概念、主题等的描述可形成一组特征矢量,再将所有资源的概念组成矢量集,将一批文献看作多维资源空间中的概念集,映射到不同资源类中,实现对知识的多角度关联与展示,大数据统计与动态分析等。4)分类体系适应性传统分类体系结构是刚性的,一旦制订就难随意增删减改,更不能随意改变其层级架构。信息爆炸导致一些纲目下的内容急剧膨胀另一些则不断萎缩;社会急剧变革,对刚性分类体系架构形成冲击;各种新知识新业态的产生与突破,一再打破既定的政务知识结构,产生各种新概念、新知识领域与关系空间,以及对原来概念的重新理解。反映到分类体系上,就会产生新类目、新层级、新体系等。6.5.2自动分类技术的需求背景信息爆炸也导致了信息的杂乱与冗余,少量有用信息稀释在大量杂乱、重复与低质页面中。人们对具有实用价值、能提升资源检索与呈现效率的自动分类技术产生了强烈的需求。同时,非结构化信息的爆炸性增长带来巨大挑战,传统分类需要耗费大量人力从事元数据标记、创建分类、定义词组与概念,以及按分类原则划归等工作,但已难以应对这些问题。自动分类是指系统按特定算法对信息资源进行自动采集、整理与归类的技术,它将关键词搜索、知识管理与目录组织等技术结合,提高用户在海量资源环境下对所需信息的高速搜集与呈现,根据不同用户的使用习惯进行个性化搜索与组织。自动分类源于“网络蜘蛛”一类信息资源探测器,它能自动监测其跟踪的信息源中的内容变化,进行动态采集与分类,代表了网络时代应对海量资源的信息组织与呈现技术变革。6.5.3自动分类算法简介6.5.3.1自动分类的处理流程自动分类的处理流程如图6-10所示。
图中左上侧为待定义类别名称C1、C2、C3…Cn,取S1、S2、S3…Sn为分类训练样本,计算机通过对分类资源的内容特征进行处理、与样本资源作比对与学习,产生分类特征序列,将对应资源通过特定算法在分类器中进行自动划分并呈现结果。6.5.3.2自动分类的几种算法
算法是自动分类的核心,常用的有KNN法、SVM法、VSM法、贝叶斯法等,简介如下。KNN法(K-NearestNeighbor)
(1)KNN算法简述
即K最近邻法,思路简单直观:如一个样本在特征空间中的k个最相似样本中的大多数属于某一个类别,则该样本也属于此类别,并具有此类别样本的特性。KNN算法中,所选择的邻居都是已正确分类的对象,故分类决策就只与少量的相邻样本有关,即其只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。图6-11表示图中心点将被决定归于何类,是三角形还是四边形?如K=3,由于三角形占比为2/3,中心点就将被赋予三角形类;如K=5,由于四方形比例为3/5,因此它将被赋予四方形类。2)KNN的算法流程KNN的算法流程如下:准备数据,对其预处理。选用合适的数据结构存储训练数据和测试元组。设定参数,如k。维护一个大小为k的距离由大到小的优先级队列,存储最近邻的训练元组。随机从训练元组中选取k个元组作为初始的最近邻元组,分别计算测试元组到这k个元组的距离,将训练元组标号和距离存入优先级队列。遍历训练元组集,计算当前训练元组与测试元组的距离。将所得距离L与优先级队列中的最大距离Lmax比较,若L>=Lmax,则舍弃该元组,遍历下一个元组。若L<Lmax,删除优先级队列中最大距离的元组,将当前训练元组存入优先级队列。遍历完毕,计算优先级队列中k个元组的多数类,并将其作为测试元组的类别。测试元组集测试完毕后计算误差率,继续设定不同的k值重新进行训练,最后取误差率最小的k值。(3)KNN法的优缺点优点:该法简单,易理解,易实现,无需估计参数,无需训练;适于对稀有事件分类;适于多分类问题(multi-model,对象具有多个类别标签),KNN比SVM(支持向量机法)的表现要好。KNN法主要靠周围有限的邻近样本,而非靠判别类域的方法来确定所属类别的,故对类域的交叉或重叠较多的待分样本集,以及样本容量较大的类域,该方法较为适合。KNN法不仅用于分类,还可用于回归。通过找出一个样本的k个最近邻居,将其属性的平均值赋予该样本,就可得到其属性。更好的方法是将不同距离的邻居对该样本产生的影响给予不同的权重值,通过调节不同特征的影响力来使分类更精确适用。缺点:当样本不平衡时,如一个类的样本容量大而其他类样本容量小时,就可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数,而只计算“最近的”邻居样本就会产生偏差甚至错误。
另一不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。同时,它的可理解性差,无法给出像决策树那样的规则。(4)改进方向
主要从分类效率和分类效果两方面入手。分类效率:先对样本属性作约简处理,删除对分类结果影响小的属性,快速得出待分类样本的类别。该算法适于对样本容量大的类域的自动分类,而样本容量小的类域则比较容易产生误分。分类效果:采用权值法(和该样本距离小的邻居权值大)来改进,可针对分类做可调整权重的k最近邻居法WAkNN(weightedadjustedk-nearestneighbor),以促进分类效果;另一改进途径是提出由不同分类对象的本身数量的差异,依照训练集合中各种分类的文件数量,选取不同数目的最近邻居,来参与分类。
(5)适用方向KNN法较适用于以下应用场合有:(一)模式识别,特别是光学字符识别(OCR);(二)统计分类;(三)计算机视觉;(四)基于内容的图像检索应用,如人脸识别;(五)导航系统;(六)网络营销;(七)DNA测序;(八)拼写检查,推荐正确拼写;(九)剽窃检查,等等,使其能在政务信息资源特征描述与分类领域获得广泛应用。2)SVM法(SupportVectorMachine)(1)SVM法简述SVM即支持向量机法,是一种有监督的学习模型,用于模式识别、自动分类以及回归分析,是一种常见判别方法。其思路可简单地以图6-12表示。图6-12左侧划分两种不同形状对象的线不是直线,可视为距离两类点都有相同距离的许多条直线组成的图形。支持向量就是离这些分类最近的点,通过与对象特征的逐个划分形成分类空间。如果是高维的点,SVM的分界线就是平面或超平面。通过非线性映射p,把样本空间映射到一个高维乃至无穷维的对象特征空间中,如图6-12右侧所示。使得在原来样本空间中非线性可分问题,转化为在特征空间中的线性可分问题。简言之,就是升维和线性化处理。升维把样本向高维空间映射,在对象分类、回归等领域,它将低维样本空间无法线性处理的样本集,在高维特征空间中通过一个线性超平面实现线性划分。该方法是建立在统计学习理论上的机器学习法。通过学习算法,SVM可自动寻找出那些对分类有较好区分能力的支持向量,由此构造的分类器可以最大化类与类之间的间隔,因而有较好的适应能力和较高的分类准确率。该法对小样本的自动分类有较好的结果。(2)SVM的主要思想
它针对线性可分情况进行分析,对线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,使高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。它基于结构风险最小化理论,在特征空间中构建最优超平面,使学习器得到全局最优化,并且在整个样本空间的期望以某个概率满足一定上界。(3)SVM的适用领域SVM主要适用于:(一)文本分类(SVM有助于文本和超文本分类,因其程序可显著减少对标准感应和转换设置中标记的训练实例的需求);(二)图像分类(实验表明,支持向量机的搜索精度要比传统的查询优化方案高。图像分割系统也如此,包括使用特定的修改版SVM的系统);(三)手写字符识别;(四)生物识别(SVM法用于对高达90%正确分类的化合物进行蛋白质分类。一些专用的解释SVM模型为识别模型使用特征预测,在生物科学中有特殊意义)。(4)SVM的优缺点优点:应用范围较广且理论较成熟。缺点:需要对输入数据进行全面标注,SVM只适用于两类任务。因此,必须应用将多类任务减少到几个二进制问题的算法,对于多类问题分类的效果不好。同时,其求解模型的参数难以解释。
(5)改进方向
主要向多类SVM分类发展,旨在通过使用支持向量机为实例分配标签,其中标签从有限的几个元素集中描述,将单个多类问题减少为多个二进制分类问题。3)VSM法(VectorSpaceModel)(1)VSM向量空间模型法简介
基本思想是将文档内容表示为加权特征向量,即把文本内容的处理简化为词汇向量空间中的向量运算,通过分词、去除虚词、抽取、计算词频与加权等处理,建立文本在语义空间中的向量模型,如图6-13。再通过计算各文档间内容相似度的方法来确定待分样本的类别。当文档被表示为空间向量模型时,其间的相似度就可借助特征向量间的特征集来表示,故VSM法更适合于专业文献的分类。(2)VSM法的特点
此法通过先建立文档的内容空间,再用相似度分析比较其内容表达的相似度,直观易懂。比较是通过计算向量间的相似性来度量文档间的相似性,最常用的相似性度量是余弦距离。根据余弦定理,如三角形的三条边为a,b和c,对应的三个角为A,B和C,则角A的余弦为:cosA=(c2+b2-c2)/2bc如将三角形的两边bc看为两个向量,则上式可表为:分母表示两向量b和c的长度,分子表示两向量的积。VSM法的实例:如文档X和文档Y对应向量分别是x1、x2、…、x64000和y1、y2、…、y64000,那么它们间夹角的余弦为:在文本相似度计算中,向量中的维度x1、x2、…xn是词项的权重,就是词项特征tf-idf值。
文本相似度计算的处理流程是:对所有文档进行分词。分词的同时计算各词的tf值。所有文档分词完毕后果计算idf值。生成每篇文档对应的n维向量(n是切分出的词数,向量的项是各词的tf-idf值)。
对文章的向量两篇两篇地代入余弦定理公式计算,得到的值就是它们间的相似度。(3)选择余弦定理的特点
余弦计算为介于0到1的数,如向量一致就是1,正交就是0;符合相似度百分比的特性;余弦为零表示分类词向量垂直于文档向量,即两者内容无重合,该文档不应归入此类目。
词组向量空间模型是一个应用于信息过滤,信息撷取,索引以及评估相关性的代数模型。通过此模型,文本数据就转换成了计算机可以处理的结构化数据。档中的语料被视为索引词(关键词)形成的多元向量空间,索引词的集合通常为文件中至少出现过一次的词组。搜寻时,输入的检索词也被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。4)贝叶斯法(1)贝叶斯分类法简述
贝叶斯分类是一种利用概率统计进行自动分类的算法,贝叶斯分类器是在具有模式的完整统计知识条件下,按贝叶斯决策理论设计的一种最优分类器。所谓分类器,是对每一个输入模式赋予一个类别名称的逻辑实体或硬件,贝叶斯分类器是各种分类器中分类错误概率最小或在预定代价的情况下平均风险最小的分类器,其设计法是一种统计分类方法。把代表样本的特征向量x分到c个类别(ω1,ω2,...,ωc)中,某一类的最基本方法是计算在x的条件下,该模式属于各类的概率,用符号P(ω1|x),P(ω2|x),...,P(ωc|x)表示。比较这些条件概率,最大数值所对应的类别ωi就是该模式所属的类。例如表示某个待查细胞的特征向量x属于正常细胞类的概率是0.2,属于癌变细胞类的概率是0.8,就把它归类为癌变细胞。这一定义的条件概率也称为后验概率,在特征向量为一维的情况下,一般有图6-14中的变化关系。当x=x*时,P(ω1|x)=P(ω2|x),对于x>x*的区域,由于P(ω2|x)>P(ω1|x),因此x属ω2类,对于x<x*的区域,由于P(ω1|x)>P(ω2|x),x属ω1类,x*就相当于区域的分界点。图中阴影面积反映了这种方法的错误分类概率,对于以任何其他的x值作为区域分界点的分类方法都对应一个更大的阴影面积,因此贝叶斯分类器是一种最小错误概率的分类器。(2)算法原理
一般情况下,不能直接得到后验概率而是要通过贝叶斯公式进行计算。式中P(x│ωi)为在模式属于ωi类的条件下出现x的概率密度,称为x的类条件概率密度;P(ωi)为在所识别问题中出现ωi类的概率,又称先验概率;P(x)是特征向量x的概率密度。分类器在比较后验概率时,对于确定的输入x,P(x)是常数,因此在实际应用中,通常不是直接用后验概率作为分类器的判决函数gi(x),而采用下面两种形式:对所有的c个类计算gi(x)(i=1,2,...,c)与gi(x)中最大值相对应的类别就是x的所属类。(3)朴素贝叶斯算法
朴素贝叶斯(NaïveBayes)分类算法在许多情况下可以与决策树和神经网络分类算法相媲美,能运用规范大型数据库,方法简单、分类准确率高、速度快。设每个数据样本用一个n维特征向量来描述n个属性的值,即:X={x1,x2,…,xn},假定有m个类,分别用C1,C2,…,Cm表示。给定一个未知的数据样本X(即没有类标号),若朴素贝叶斯分类法将未知的样本X分配给类Ci,则一定是P(Ci|X)>P(Cj|X)1≤j≤m,j≠i根据贝叶斯定理,由于P(X)对于所有类为常数,最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci)。如果训练数据集有许多属性和元组,计算P(X|Ci)的开销可能非常大,为此,通常假设各属性的取值互相独立,这样:先验概率P(x1|Ci),P(x2|Ci),…,P(xn|Ci)可以从训练数据集求得。根据此方法,对一个未知类别的样本X,可以先分别计算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度货物买卖合同标的为化工产品
- 二零二四年度医疗器械采购与维护服务合同3篇
- 二零二四年度互联网技术服务合同
- 2024年度音乐人MV拍摄与版权合同
- 二零二四年度物联网技术研发合作合同
- 二零二四年度国际农业技术推广与合作合同
- 2024年度车展废弃物处理服务合同
- 《“普二新政”背景下幼儿照料困境研究》
- 《雌激素提前干预对膀胱癌的影响及其与FGFR3相关性研究》
- 二零二四年度农产品加工代理合同
- 2024年秋新精通版(三年级起)英语三年级上册课件 Unit 5 Lesson 1
- 20S515 钢筋混凝土及砖砌排水检查井
- 2024年应急管理部所属事业单位第二次招聘考试笔试高频500题难、易错点模拟试题附带答案详解
- 医院重点监控药品管理制度
- 2024年陕西省中考英语试题及解析版
- 英汉汉英口译智慧树知到答案2024年山东科技大学
- 部队文职述职报告
- 18 《浏览数字博物馆》(教学设计) 五年级信息技术武汉版
- Unit 2 单元教案 2024-2025学年人教版(2024)七年级英语上册
- 《药品管理法》知识考试题库300题(含答案)
- 巾帼家政职业技能竞赛(家政服务)理论考试题库(含答案)
评论
0/150
提交评论