新华网三期总体设计书_第1页
新华网三期总体设计书_第2页
新华网三期总体设计书_第3页
新华网三期总体设计书_第4页
新华网三期总体设计书_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新华网内容管理系统设计书文档修订记录文档审阅确认纪录领导小组成员甲方日期总包方日期监理方日期乙方日期项目经理甲方日期总包方日期监理方日期乙方日期目录新华网内容管理系统设计书1第1章.文档介绍91.1文档目的91.2文档范围91.3参考文献91.4术语与缩写解释94.UNICODE143.1.5.WEB服务153.1.6.XINHUAML标准153.1.7.CNML标准163.1.第4章.设计策略184.1扩展策略184.2复用策略184.3折衷策略19第5章.系统总体结构206.WEBSERVICE305.2.7.碎片文件30第6章.系统单元设计31第7章.外部接口1087.3内部接口111第1章.文档介绍1.1文档目的本文档用于描述新华网内容管理系统的总体设计框架。本文档的预期读者是项目经理、系统分析员、系统设计人员、软件开发工程师、软件测试工程师。作为总体设计方案,本文档用于指导整个新华网内容管理系统项目,方正公司项目组的开发进程,并作为详细设计的输入文档,指导项目的详细设计和开发工作。本文档同项目需求文档一起,构成项目测试方案的输入文档,以此为依据形成项目的测试方案。1.2文档范围本文档包含:新华网内容管理系统总体结构设计图及对应的描述,系统各个单元模块的概要设计方案,本系统与外部系统的接口设计。1.3参考文献【1】《新华网内容管理系统招标文件》1.4术语与缩写解释第2章.系统概述内容管理系统项目要求定制开发一套能够满足新华网未来发展需要的新一代内容管理系统软件,购置与扩充所需的服务器硬件与网络设备,建立新华网总网、地方频道、社办报刊频道、网群、短信等于一体的多站点内容加工与发布平台,统一总网、地方频道及网群等站点间的信息资源,实现新华网图片、文字信息、多媒体、短信等多种信息和多语种信息的采集、编辑以及发布,提供统一、规范的可扩展操作平台,实现内容的快速、灵活发布。图新华网内容管理系统体系结构如图所示,新华网内容管理系统可以划分成:♦内容采集系统♦内容管理系统♦客户端平台♦发布系统♦分发系统♦远程发稿模块♦直播系统第3章.设计约束3.1遵循的标准或规范Java企业级计算平台,Java2平台企业版[2](Java2platformEnterpriseEdition,J2EE实质上是一个分布式的服务器应用程序设计环境,它提供了基于组件的,以服务器为中心的多层应用体系结构,为企业应用系统提供了一个具有高度的可移植性和兼容性、安全的平台。J2EE的多层体系结构的设计特点极大的简化了开发、配置和维护企业应用的过程,它最大的优点就在于将企业的业务逻辑同系统服务和用户接口分开,放在它们之间的中间层。它提供了一系列的底层服务,如事务管理、缓冲池等,使得开发者能够将精力集中于企业的业务逻辑,而无需过多的关心与业务逻辑不太相干的系统环境等。由于采用多层结构,系统中同时会有多台服务器在工作,这样不仅能提高系统的整体运行效率,而且一旦某一台服务器出现故障,应用程序会自动转移到另一台服务器上接着运行,这就有效的保障了系统整体运行的可靠性。WorldWideWebConsortium(W3C对XML进行了如下描述:"ExtensibleMarkupLanguage,缩写为XML,描述了一类被称为XML文档的数据对象,并部分描述了处理它们的计算机程序的行为。XML是SGML(StandardGeneralizedMarkupLanguage[ISO8879]的一个应用实例或一种受限形式。从结构上说,XML文档顺从SGML文档标准。"与HTML一样,XML也是一个基于文本的标记语言,用标记(一对尖括号来表示数据。不同的是,XML的标记说明了数据的含义,而不是如何显示它。XML的标记由一对尖括号组成,在它们之间是XML数据的一个元素。一个元素可以完全包含在另一个元素之中,这样就可以表示层次结构。XML与HTML的一个重大区别就是XML文档必须是格式良好的,它必须满足几条规则,如标记不能交错嵌套等。如果没有DTD(DocumentTypeDefinition,文档类型定义,文档可以包含任何类型的标记。但如果XML文档有相应的DTD,那么它还需满足语义限制。DTD规定在XML文档中可以包含的标记种类和有效布置。只有其结构、数据类型和数据关联等均满足DTD要求的XML文档,才能被称为有效的XML文档。XML文档由一个个存储单元组成,这些单元称为实体,包括解析数据(parseddata和未解析数据(unparseddata。解析数据由字符组成,其中一些形成字符数据,另一些形成标记。标记是对了文档存储格式和逻辑结构的描述。在形式上,标记有以下各种可能项:注释、引用、字符数据段、起始标记、结束标记、空元素、文档类型声明(DTD和序言。每个XML文档都有一个逻辑结构和物理结构。从物理角度来看,文档由实体单元组成,一个实体也可以在其他文档的实体中被引用。一个文档以一个根元素或文档实体来开始。从逻辑上讲,文档由声明(declaration、元素(element、注释(comment、字符引用(characterreference和处理说明(processinginstruction组成。这些组成部分在文档的标记中必须明确规定。物理结构从另一角度来规范XML文档。文档的起始标记和结束标记对数据进行结构化组织,并确定了元素的范围和相互之间的关系。XML对格式的定义更为严格,并具有层次结构,处理起来更加容易。它是与厂商无关的标准,可以任选一个解析器来处理。XML在采用简单、柔性的标准化格式表达和在应用间交换数据方面迈出了一大步。HTML提供了查看数据的通用方法;XML则提供了直接在数据上工作的通用方法。XML的威力在于将用户界面和结构化数据相分离,允许不同来源数据的无缝集成和对同一数据的多种处理。从数据描述语言的角度看,XML是灵活的、可扩展的、有良好的结构和约束;从数据处理的角度看,它足够简单且易于阅读,几乎和HTML一样易于学习,同时又易于被应用程序处理,因此,XML必将带来下一代网络应用技术的革命。为了实现组织目标,有关业务活动依时序或逻辑关系相互连接构成业务流程。在业务开展过程中,文档、信息或任务,依据组织规范在参与者之间传递、处理或执行。业务流程中,实现了基于计算机自动化的全部或部分称为工作流。工作流管理系统(WorkflowManagementSystem,WFMS是定义、创建、执行工作流的系统。在最高层上,WFMS应能提供以下三个方面的功能支持:建造功能:对工作流过程及其组成活动定义和建模;运行控制功能:在运行环境中管理工作流过程,对工作流过程中的活动进行调度;运行交互功能:指在工作流运行中,WFMS与用户(业务工作的参与者或控制者及外部应用程序工具交互的功能。3.1.4.UNICODE基本上,计算机只是处理数字。它们指定一个数字,来储存字母或其他字符。在创造Unicode之前,有数百种指定这些数字的编码系统。没有一个编码可以包含足够的字符:例如,单单欧州共同体就需要好几种不同的编码来包括所有的语言。即使是单一种语言,例如英语,也没有哪一个编码可以适用于所有的字母,标点符号,和常用的技术符号。这些编码系统也会互相冲突。也就是说,两种编码可能使用相同的数字代表两个不同的字符,或使用不同的数字代表相同的字符。任何一台特定的计算机(特别是服务器都需要支持许多不同的编码,但是,不论什么时候数据通过不同的编码或平台之间,那些数据总会有损坏的危险。Unicode给每个字符提供了一个唯一的数字,不论是什么平台,不论是什么程序,不论什么语言。Unicode标准已经被这些工业界的领导们所采用,例如:Apple,HP,IBM,JustSystem,Microsoft,Oracle,SAP,Sun,Sybase,Unisys和其它许多公司。最新的标准都需要Unicode,例如XML,Java,ECMAScript(JavaScript,LDAP,CORBA3.0,WML等等,并且,Unicode是实现ISO/IEC10646的正规方式。许多操作系统,所有最新的浏览器和许多其他产品都支持它。Unicode标准的出现和支持它工具的存在,是近来全球软件技术最重要的发展趋势。将Unicode与客户服务器或多层应用程序和网站结合,比使用传统字符集节省费用。Unicode使单一软件产品或单一网站能够贯穿多个平台,语言和国家,而不需要重建。它可将数据传输到许多不同的系统,而无损坏。WebService是一种新的Web应用,是自包含、自描述、模块化的应用,是基于网络的、分布式的模块化组件。实现系统的各部分(模块之间的通讯和整合,将相对分散的子系统组成一个统一的整体;实现子系统间的功能控制和信息交互与共享。WebService是一种动态的集成方案,所有的服务都可以通过UDDI标准动态地被发现、绑定和使用,容易适应系统的变动,提高系统的灵活性和伸缩性。Web服务系列技术是架构在在XML技术基础上的网格计算技术,其体系架构与Web应用的N层架构是类似的,不同点在于最上层的面向浏览器的WebServer被面向程序(WebServiceClient的Web服务所取代。而使用Web服务的程序可以是桌面应用程序,同样也可以是另一个Web服务。在本系统中,我们将采用J2EE作为Web服务应用平台。J2EE是一种利用Java2平台来简化诸多与多级企业解决方案的开发、部署和管理相关的复杂问题的体系结构。J2EE技术的基础就是核心Java平台或Java2平台的标准版,J2EE不仅巩固了标准版中的许多优点,例如“编写一次、到处运行”的特性、方便存取数据库的JDBCAPI、CORBA技术以及能够在Internet应用中保护数据的安全模式等等。XinhuaML是由新华社新闻信息标准研究项目组制定的内部数据交换标准,它是以XML技术为基础,借鉴了NewsML等国内外相关技术标准的经验,考虑了国内媒体的普遍情况,结合新华社的具体业务要求和实际情况,研制的适合新华社业务的内部数据交换标准,是联系新华社新闻业务流程“采集、编辑、生成、发布、供稿、表现、反馈”各个环节的纽带。XinhuaML经过一年的研制工作,于2003年3月完成制定,目前已在新华社的各个新建技术项目中得到了广泛的应用。内容管理系统实现XinhuaML标准,支持数据按XinhuaML标准导入和导出,实现与社内各系统间数据传输的应用统一,要求系统采用XinhuaML稿件格式进行导入、导出或传输,以满足数据规范要求。中文新闻信息置标语言标准是用于新闻信息创建、采集、加工、发布、评估反馈各个生命周期中使用的与国际接轨、又有中国特色的多媒体新闻信息元数据规范。该技术标准采用了XML和RDF技术,支持文字、图片、图形、音频、视频等多种媒体类型以及多媒体混合的新闻信息的描述,支持对新闻信息间关系和语义的描述,为新闻信息的自动解释、交换和处理等新业务的发展留有余地。该标准具有良好的扩展性和实用性,可用于多媒体新闻信息在通讯社、报社、广播、电视台、网站以及新闻信息用户之间进行交换和共享。内容管理系统可以将符合规范的稿件直接输出为CNML的格式,实现与社内系统和其他系统基于CNML的数据交换。中文新闻信息分类是用于标准化、规范化的对信息信息进行分类,以便实现新闻行业之间、新闻行业和广大用户之间的新闻信息交换、存储、处理和共享。实现新闻信息分类体系的统一和规范,是中文新闻信息标准化的重要组成部分。与中文新闻信息分类对应的中文新闻信息分类与代码国家标准有利于进一步开发和整合全社会的中文新闻信息资源;不仅为新闻信息分类工作人员提供分类标引的依据,也为实现中文新闻信息分类自动化打下一个可靠的基础。内容管理系统提供按中文新闻信息分类标准对稿件信息进行分类,系统内的每条稿件信息都有一个相应新闻信息分类与之相对应,实现信息分类的标准化和统一化。3.2软件、硬件环境数据库服务器:SunFireV890×6应用服务器:SunFireT2000×6发布服务器:Dell6850×6分发服务器:Dell2950×6静态资源服务器:Dell2950×2直播服务器:Dell2950×2内容管理系统数据库:Oracle10g内容管理系统应用服务器:BEAWebLogic9.2JDK5.0Oracle以分组、分RAC方式部署,WebLogic以负载均衡、Cluster方式部署。3.3软件质量约束项目实际进度与合同偏差度不超过20%第4章.设计策略4.1扩展策略根据新华网内容管理系统项目需要,结合CMS系统设计人员,以内容编辑的需求为发展战略,制定扩展策略如下:XML信息片的发布方式;CMS系统的发布子系统,发布数据采用基于XML的信息片文件描述,在生成服务器上进行信息片文件生成。基于XML的信息片的发布方式,为将来扩展多介质、多展现形式的的扩展策略提供了数据基础。WebService的Server端程序设计;在内容管理系统中,提供所有业务逻辑处理功能的标准WebService接口,允许第三方厂商调用,为将来扩展客户端、扩展外围系统提供了基础。基于对象的内容管理子系统;系统采用基于网站对象的内容管理子系统,能够定制对象属性、定制对象的存储方式与存储策略,为将来系统对象的再次利用提供了扩展策略。4.2复用策略根据新华网内容管理系统项目需要,结合CMS系统设计人员,以内容编辑的需求为发展战略,制定复用策略如下:XML编辑器;在CMS系统中,将采用全新设计的XML编辑器作为页面编辑工具,XML编辑器基于XML内核设计,除了完成页面对象的编辑之外,还具备了为其他功能复用的基础。编辑器采用插件机制,为将来扩展编辑器功能提供基础。内容组件设计;在CMS系统中,采用了基本组件和内容组件的设计方式,经过基本组件编辑而成的内容组件,在系统中可以被别的编辑进行复用。4.3折衷策略项目进度要求非常进展,所以在各模块的设计开发中应尽量考虑使用成熟的技术以保证降低风险,保证进度。另外,在设计的时候应该尽量减少编码过程中产生关键路径,以便保证能够让多人投入并行开发。第5章.系统总体结构5.1系统结构新华网内容管理系统(CMS,将采用C/S+B/S体系结构,系统中间件平台采用WebLogic,数据库服务采用Oracle数据库。在新华网内容管理系统中,系统将将采用C/S+B/S体系结构,C/S采用客户端平台与Server端WebService通讯,完成业务流程所需功能,由内容管理系统负责封装成WebService,客户端不做过多的业务逻辑处理;B/S采用传统的方式,由浏览器访问Jsp+Servlet来完成业务流程处理。基于B/S和C/S架构中都采用分层结构设计,系统的分层结构示意图如下:图新华网内容管理系统技术架构图系统的物理部署示意图如下:图新华网内容管理系统物理部署图图中分为应用数据区和前端服务区要使用的服务器;系统存在接口的其他系统的服务器位置。1、源稿库存储时长稿件条数稿件数据量无图片量1个月≈3.3(万条≈9.6(G≈380(M3个月≈10(万条≈29(G≈1.1(G半年≈20(万条≈58(G≈2.3(G1年≈40(万条≈117(G≈4.6(G如果按归档规则为保存半年来计算,需要的存储量为2.3G。2、编辑库根据目前多站点系统中的基础数据计算数据指标数据值稿件量≈2.3(万条人数413(人平均稿量≈56(稿件/人目前所有系统使用人员≈950(人预计人员增长到≈2.4(千人据此计算存储情况,需要存储量为:9.8G。3、签发库发布稿件条数发布图片量(张发布图片数据量(K稿件正文量(K稿签量(K稿件图文总量(K1月900,0001,673,70958,579,8081,409,201172,765.4460,161,7741年10,950,00020,363,457712,720,99117,145,2742,101,979.54731,968,2443年32,850,00061,090,3712,138,162,97451,435,8216,305,938.612,195,904,733如果签发库归档规则平均按1年来计算,则签发库要保存的图文总量在732G。如果将数据控制在百万级以内,则存储需要大概350G。4、发布库发布库的记录数基本与签发库的记录数一致。只是对于存储在数据中的图片,发布库与签发库共用一份,因此发布库的数据量,一年总量在2G。5、成品库成品库中保存的是发向新华社多媒体数据的稿件,目前每天送稿量是200,如果此数据比较平稳,不考虑突发增长量的情况如下稿件数稿件量(K1天20020,0641月6,000601,9243月18,0001,805,771半年36,0003,611,5411年73,0007,323,403按归档规则保存半年的数据存储量是7.3G。6、资料库资料库中主要保存的是系统中归档的数据,也按每天1万条稿件计算,情况如下稿件数稿件量(K1天30,0003,009,6181月900,00090,288,5323月2,700,000270,865,595半年5,400,000541,731,190按归档规则保存半年的数据,存储量是542G。7、系统日志根据目前多站点系统的日志情况计算:日志记录数日志量(K1天80,30040,1501月2,409,0131,204,5063月7,227,0383,613,519半年14,454,0757,227,0381年29,309,65214,654,8262年58,619,30529,309,6523年87,928,95743,964,479如果日志归档规则按保存一年的情况来计算,需要存储量14G。根据总体设计,数据存储应用的划分如下1、稿源库、编辑库使用数据存储单元:RAC1、RAC3,总数据存储量为(2.3+9.8+350=362.1G,平均每单元存储量为6G。a注:新华社图片稿件的图片存储在应用服务器的NAS上面,每半年占据55G数据存储空间,由归档模块负责清理2、日志、用户、栏目、成品库、资料库等其他数据使用存储单元:RAC2,总数据量为(7.3+542+14=563G。3、签发库、发布库总共需要的存储量大概是1+2=3G经过认真分析与讨论,我们制定如下的内容管理系统总体结构,系统总体结构图的模块划分如下所示。图新华网内容管理系统总体结构通过对用户需求的细致分析,经过公司专家组成员的建议与评审,我们设计的内容管理系统包含如下的功能模块。♦内容采集系统内容采集模块,是系统的批量资料导入接口,在内容采集模块中,提供了标准的JavaAPI和WebService接口(包含XML文件接口,供第三方厂商调用,提过直接调用这两种形式的接口,可以直接把信息推送到内容管理系统中。比如:TRS系统,通过内容采集模块的WebService接口的调用,便可以把抓取到的页面内容载入到内容管理系统中,以便内容管理系统的内容编辑继续完成下一步的发布工作。也可以通过文件共享方式,定时扫描指定目录,把其他外接口系统提供的数据文件解析成内容管理系统数据进行入库。比如:新华社电稿文件都放在某一个共享目录中,内容采集系统的轮询引擎监控目录中文件变化情况,对新增的文件进行入库操作。♦内容管理系统内容管理模块是网站CMS系统的核心分布式存储模块,完成CMS系统得成品资料、背景资料以及其它的需要存储管理的资料的存储和管理工作。在内容管理模块中,系统提供了对于数据资料的分库存储管理,按照资料属性的不同的文档文件夹管理,多种分类方式的分类管理,元数据定义等功能,实现了网站内容的海量存储。♦发布系统发布系统完成内容管理系统中数据到页面的发布的工作,系统依据内容管理系统模版管理、组件管理、栏目管理、发布树管理等功能,很好地完成了基于XML信息片的实时和定时合成和页面生成工作。♦分发系统把发布系统生成的静态页面、关联图片、js文件、css文件等生成结果安装指定的规则发送出去,在发送的过程中,按照指定逻辑可以对发送的文件进行一些简单的逻辑处理。♦客户端平台提供完整的内容管理系统功能共用户使用。同时该平台上采用插件结构设计,可以把其他系统功能加入进来,插件可以随时开发自由注册,方便客户端平台的扩展。♦远程发稿模块为了方便外出人员进行在系统中工作,远程发稿模块通过远程代理的方式,实现了远程使用系统进行发稿、管稿、发稿等内容管理系统功能。5.2关键技术与算法工作流是针对工作中具有固定程序的常规活动而提出的一个概念。通过将工作活动分解成定义良好的任务、角色、规则和过程来进行执行和监控,达到提高生产组织水平和工作效率的目的。工作流引擎是用于定义、实现和管理工作流运行的一套软件系统,它与工作流执行者(人、应用交互,推进工作流实例的执行,并监控工作流的运行状态。为了增强适应性,工作流引擎使用一种技术手段,保证能够由可以自己定义工作流,包括定义任务动作、状态以及如何组合成一套流程。内容管理中的稿件,最适合用XML表示。对于其内容的编辑,需要用一种可视化的编写方法,保证所见即所得。同时,需要记录稿件的版本与修改痕迹。在常规的可视化编辑页面技术上,允许其中的部分内容用一种“组件”表示,该组件的实际内容需要结合内容管理中的数据才能完整呈现。在可视化编辑过程中,“组件”可以显示为一些占位文字,也可以自动根据内容管理中的数据生成。内容管理的内容发生变化后,系统立即找到需要更新的所有最小单位,并将其迅速生成出来,同过简洁的步骤更新到网站上。内容管理系统在一个系统中同时管理多种语言的内容,并且能够正确地在网站上发布每个语种的内容。5.2.6.WebService内容管理系统在对业务逻辑抽象后,封装出标准的WebService接口,各平台上的各系统可以按标准的方式调用,即可实现内容管理系统的某业务功能。发布系统在完成组件内容解析后,把解析结构缓存成碎片文件。发布系统在生成页面时对本次发布操作没有影响的区域,采取直接对碎片文件的策略,减少组件解析时间提高效率。第6章.系统单元设计6.1系统单元划分系统总体结构设计详见5.1“系统结构”章节。图新华网内容管理系统总体结构♦内容采集系统内容采集模块,是系统的批量资料导入接口,在内容采集模块中,提供了标准的JavaAPI和WebService接口(包含XML文件接口,供第三方厂商调用,提过直接调用这两种形式的接口,可以直接把信息推送到CMS系统中。比如:TRS系统,通过内容采集模块的WebService接口的调用,便可以把抓取到的页面内容载入到CMS系统中,以便CMS的内容编辑继续完成下一步的发布工作。♦内容管理系统内容管理模块是网站CMS系统的核心分布式存储模块,完成CMS系统得成品资料、背景资料以及其它的需要存储管理的资料的存储和管理工作。在内容管理模块中,系统提供了对于数据资料的分库存储管理,按照资料属性的不同的文档文件夹管理,多种分类方式的分类管理,元数据定义等功能,实现了网站内容的海量存储。♦发布系统发布系统完成内容管理系统中数据到页面的发布的工作,系统依据内容管理系统模版管理、组件管理、栏目管理、发布树管理等功能,很好地完成了基于XML信息片的实时和定时合成和页面生成工作。♦分发系统把发布系统生成的静态页面、关联图片、js文件、css文件等生成结果安装指定的规则发送出去,在发送的过程中,按照指定逻辑可以对发送的文件进行一些简单的逻辑处理。♦客户端平台提供完整的内容管理系统功能共用户使用。同时该平台上采用插件结构设计,可以把其他系统功能加入进来,插件可以随时开发自由注册,方便客户端平台的扩展。♦远程发稿模块为了方便外出人员进行在系统中工作,远程发稿模块通过远程代理的方式,实现了远程使用系统进行发稿、管稿、发稿等内容管理系统功能。6.2内容采集系统内容采集系统以无人值守的方式从指定的稿件源上读取稿件数据,并把稿件添加到内容管理系统的源稿中心。内容采集系统在执行稿源数据采集时可以由管理用户为稿源数据指定格式模板,也可为入库引擎指定运行策略,同时对采集到的数据可以做一定的信息过滤和自动校正的处理。稿件送入内容管理系统前,采集程序需要调用智能处理接口,对稿件的摘要、关键字等稿签项做一个自动处理。稿源管理包含稿源新增、稿源修改和稿源删除功能。稿源是用来建立源数据文件和内容管理系统源稿库的关系的。稿源信息包含:源数据位置、目标站点、稿源模板、稿源采集规则等信息。新华社电稿、图片库等稿件信息可以通过设置稿源来实现入内容管理系统源稿库,同时可以通过稿源设置实现E-mail、短信、彩信等方式的投稿。模板设置模板是用来建立源数据文件与内容管理系统各元数据项直接的映射关系的。通过在系统中增加模板,使得内容采集系统能对采集数据源进行扩展。系统预置CNML、XinHuaML、FounderEnpML模板。模板设置包含:模板新增、修改和删除操作。模板指定把设置好的采集模板指定到稿源上。规则设置设置采集引擎的工作规则,通过规则对采集引擎的采集内容范围、采集内容方式、采集内容数量和采集内容大小等进行规范。规则信息中包含:采集文件类型(扩展名、每日工作时间范围、采集数量(条数、被处理文件大小、轮询间隔、对不符合规则数据的处理方式(删除、移到备份、不处理。规则设置包含:规则的增加、修改和删除功能。规则指定把设置好的采集规则指定到稿源上。配置采集系统工作需要的基本参数,如:数据库连接、采集系统工作目录、备份目录、临时目录等信息。数据扫描采集系统为每个数据源,在采集引擎中产生一个数据扫描器,数据扫描监控数据源对应的数据目录,按采集规则规定的各项属性进行数据感知。对符合规则的数据文件,提交给引擎的数据处理模块进行下一步处理;对不符合规则的数据,通过规则指定的方式进行处理。数据扫描器以多线程方式工作,线程数可以配置。数据处理根据数据源使用的采集模板,对数据扫描提交过来的数据文件进行处理。1、建立数据文件中各置标项与内容管理系统元数据项的对应;2、根据对应关系结合模板从数据文件中提取各元数据项进行信息提取;3、对获取的数据项进行自动信息过滤和校正。过滤和校正的规则可以在采集系统中管理;4、把数据提交到智能处理接口,由处理接口为数据做一些自动智能处理后,把数据在提交给采集引擎;5、采集引擎把数据保存到内容管理系统的源稿库中。整个采集引擎系统设计采用接口实现,通过配置指定接口的实现类,从而达到以后扩展和重构引擎功能的目的。自动摘要把采集的稿件内容通过WebService方式提交到智能处理系统,智能处理系统根据内容返回相应的摘要信息。自动关键字把采集的稿件内容通过WebService方式提交到智能处理系统,智能处理系统根据内容返回相应的关键字信息。自动分类把采集的稿件内容通过WebService方式提交到智能处理系统,智能处理系统根据内容返回相应的分类名。7.WebService接口WebService接口是采集系统对外提供的服务接口,接口系统可以按内容管理系统规定格式的XML提交数据,有采集系统根据稿源管理中的设置把数据添加到内容管理系统对应的稿源库中去。6.3内容管理系统图内容管理系统结构图在内容管理子系统中首先分为如下几个大的功能块,系统管理、内容制作、内容组织、审批流程、辅助模块。其中系统管理包括了归档子模块,归档策略在内容管理系统中设置,归档程序是独立于内容管理系统、运行于其他JVM的后台的程序,可以运行在任一应用服务器上。系统管理是对内容管理系统运行基础系统数据进行管理。用户管理、权限管理、日志管理、归档管理、发布策略管理和系统监控功能模块。部门管理完成内容管理系统中部门设置。包括部门增加、部门信息修改、部门删除等功能。部门按住实际部门架构方式管理,部门有上下级关系。部门增加完成部门录入工作,并按上下级关系保存到数据库中。部门的上下级关系对后续的业务流程权限是有影响的。上级部门能默认对下级部门的业务做一些操作。部门修改修改部门信息及部门之间的关系。部门删除部门用户指定把系统中建好的用户指定到部门中来,一般站点用户需要指定到部门的角色上去,否则该用户每月系统权限。部门复制从指定的部门复制生成新的部门节点。复制的源部门的所有数据项信息。批量创建创建使一次输入多个部门的名称,每个名称以“,”分隔,系统一次能建立多个部门。在用户管理中完成各个站点的用户管理,包括增加用户、修改用户信息、修改密码、删除用户、角色分配和部门分配等功能。在内容管理系统中的用户分为三个层次:系统管理员、站点管理员、站点用户。用户管理在实现上以接口方式,能够支持LDAP和数据库两种方式。用户的信息中需要包含部门信息,可以在用户查询列表的时候按部门进行查询;另外能够支持在工作量统计中按部门进行分组统计。增加用户给出用户信息录入界面,在填写完用户相关信息后,提交保存。若信息不完整,则给出合理的提示信息并回到提交前的页面。修改用户选择内容管理系统中已经存在的用户进行修改操作,系统进入用户信息修改页面,在页面上显示用户已有的信息,不包括密码。在做完修改后提交保存。若信息不完整,则给出合理的提示信息并回到提交前的页面。选择系统中存在的用户,进行删除操作,可进行用户的批量删除。在删除用户时需删除用户的角色、权限等其他的相关信息。修改用户密码由于密码是一项特殊的、敏感的数据,而且在CMS系统在保存用户密码时会做特殊的加密处理,因此密码信息不能象用户的其他信息那样处理,而应单独提供功能来操作。修改密码有两种情况:每个用户在登录系统后可以修改自己密码、系统管理员重置(也可成批地指定用户的密码。功能入口点不一样,但是实现是一样的。在修改密码的时候,需要输入新密码两次,以避免输入失误。设置站点角色(对一般站点用户为用户指定角色,一个用户可以同时具有多个角色。同一个系统角色只对同一个站点分配一次。栏目权限设置根据用户拥有的部门信息,确定用户能工作的站点。通过栏目权限设置,规定用户在不同站点中在哪些栏目能中进行业务处理。用户列表将系统用户以列表方式展现,在列表时能够支持分页和简单查询(根据登录名、用户名的模糊查询用户复制复制系统中已有用户的信息,包括用户名、登录名等。在复制时可以选择是否复制源用户的角色、权限数据。批量创建创建用户时,一次输入多个用户名,每个用户名直接用“,”分隔。系统自动创建多个用户。指定用户站点显示系统中已有的站点列表,选择一个或多个站点分配给用户。可以同时选择多个用户进行操作。内容关系系统的权限分配对象是角色,采用角色来承载权限,用户或部门通过设定角色的方式来获取系统权限。角色本身没有部门信息,角色管理形成的每个可以分配到多个部门中。系统提供内置角色,即预定义的角色,在系统初始化时装载的。增加角色在角色添加页面填写角色名称、选择角色类别及角色关联的权限,点击提交保存。若名称或类别为空则不予保存,给出提示信息,并回到提交前的页面。从已有角色创建从一个现有的角色创建出一个新的角色。系统提供若干内置角色,可以从内置角色创建新的角色出来。这样创建出来的角色自动继承了原角色的权限信息。修改角色修改角色的名称。选择系统中已有的角色进行删除操作,若角色已经分配给用户或角色已应用到工作流程中,则不能删除。在删除角色的时候,应把该角色关联的权限一并删除。权限设置选择系统中已有的角色,进行权限设置。此处的权限主要是指系统中的功能权限。角色列表查询列出系统中所有的角色或根据指定的角色名称进行模糊查询。角色复制选择系统中已有的角色批量创建一次输入多个角色的名字,每个角色名字以“,”分隔,系统自动创建多个角色。权限对应到角色上,用户当登录的时候需要唯一确定角色,即操作系统时只能使用一个角色进行操作。CMS中对用户操作进行了严格的控制。权限定义包括权限类型、能执行的操作、能操作的对象或者范围,通过权限的仔细划分,避免用户能够执行不必要的操作,保证用户的操作都是可控的。权限类型是指该权限的性质,一个用户在系统的行为是由两部分组成的:一个是执行了什么操作(系统功能和该操作影响了哪些系统对象,在权限系统中把权限分成了:功能权限和对象权限。能执行的操作其实就是用户有哪些功能权限,系统中站点管理、用户管理、角色管理等功能都属于功能权限的范畴,能操作的对象或者范围就是用户有哪些对象权限,系统中的的站点、频道、栏目等都属于对象权限。权限的控制还能细化到稿件级,一个用户对什么站点、什么频道、什么栏目具备什么权限、对稿件是否有操作权限都进行严格的控制和管理,来保证内容的安全性、严肃性、准确性。可以为用户和角色分别设置权限,当权限产生冲突的时候遵循最小权限原则。栏目权限设置在用户管理中为用户设置栏目权限。功能权限设置在角色管理中,为角色设置功能权限。在设置完成后,属于该角色的用户只能使用系统中规定好的功能。功能权限管理用户对系统功能权限进行管理,对系统功能权限进行增加、修改和删除。删除时需要注意,若删除的权限已经被授予某系统角色,需要把授权记录一并删除,删除的意义等同于功能停用。权限检查系统具有统一的权限检查模块负责其他所有模块的权限检查。7.栏目管理管理整个CMS系统的栏目树。新增、修改、删除栏目上的节点。与签发栏目管理功能相同。多站点管理功能主要是管理整个内容管理系统中的各个逻辑站点。由于各站点是管理程序是分布运行的,为了在各个站点之间进行资源共享和工作协同,需要在系统设置好各个逻辑站点的一些基本信息,如:站点名、站点包含栏目、语种和站点对应发布服务器信息。站点管理中除站点列表外的其他所有功能都是系统管理员才能操作,其他用户不能够通过授权来进行站点管理的任何操作。站点组管理站点组是对多个站点进行逻辑划分的组,一个组中可以包含若干的站点。在内容管理系统中可能会包含比较多的分组,所以需要通过分组的方式更加方便的管理站点。⏹新增新增站点组的时候只需要填写站点组的名称,填写站点组名称完毕后,点击保存就完成新建过程。⏹修改可以对已有的站点组名称进行修改,修改界面与新建界面类似,填写完成后,点击保存就会将原来系统中的该站点组的名称更换为新的名称。⏹删除可以将一个无用的站点组删除掉,要删除的站点组下面不能包含任何站点,如果是非空的站点组系统将提示操作用户不能删除。站点管理站点是内容管理系统中的一个逻辑站点,一个站点必须属于且仅属于一个站点组,而且必须为一个站点设置逻辑的服务器⏹新增系统支持能够新增一个逻辑站点,新增的逻辑站点至少要包含如下属性信息◆站点名称◆站点开通时间◆站点关闭时间◆站点状态◆站点域名如果当前时间不在开通时间和关闭时间之间,或站点状态为关闭状态,后端的发布子系统将不对站点做任何发布处理。站点创建时会创建一套新的逻辑表以保存站点数据。⏹修改修改已有的站点相关属性。修改后要同步通知发布子系统,更新相关缓存信息。⏹删除将一个逻辑站点删除掉,删除的前提条件是当前时间要么在关闭时间之后,要么站点为关闭状态。站点删除后数据库中的数据并不实际删除掉,只是做上标记,等待归档模块将该站点的稿件内容、模板内容进行归档;归档程序在将稿件进行归档的同时还会将站点信息、站点下的用户信息全部删除掉(如果是跨站点的用户则只删除用户的应用关系,同时还会删除该站点发布用的信息片数据。删除时需要同步通知发布子系统,更新相关缓存信息。站点列表该模块能够提供一个站点组、站点的列表树,在站点管理中看到的站点是一个完整的列表树,而在其他地方出现的列表树都是需要通过用户的站点权限来控制显示;也就是权限不足的用户看到这个列表将是一个部分分支的树结构。站点栏目分配内容管理系统对网站发布栏目采取统一管理、统一分配的方式。在站点管理中可以为站点指定栏目体现结构。发布策略指定为站点指定系统中设置好的发布策略。指定发布策略后,站点中所有发布操作默认都是按站点发布策略指定的方式流转。当然也可以在站点中某个栏目上指定发布策略。发布策略是内容管理系统中对页面生成发布处理流程的逻辑上的管理。发布策略主要包含这些信息:生成消息存放路径、本策略对应产生的消息由哪些进程处理、设置发布的进程的属性(普通、急稿、动态调整发布资源。生成程序管理包含增加、修改、删除逻辑生成程序功能,同时也能通过逻辑生成程序对生成程序进行停止和重启。一个逻辑生成程序包含:生成程序ID、生成程序服务器IP、端口、通道属性。生成服务器管理生成服务器管理也是从逻辑上来管理生成程序。通过生成服务器管理把生成程序归并到一组来。生成服务器管理功能包含:新增、修改、删除生成服务器,并能为生成服务器分配生成程序。生成程序根据所在的服务器和所在的发布策略能监控相同的消息目录或消息队列,从而在生成程级别达到动态负载均衡。各生成服务器主要是根据所属的发布策略来取属于自己的消息文件,不过若生成服务器中生成程序空闲时间过程,他们也可以帮生成其他生成服务器来处理消息文件,从而在生成服务器级别达到动态负载均衡。发布策略管理包括发布策略的增加、修改、删除等功能。同时能把系统中已有的逻辑生成程序和逻辑生成程序服务器分配到策略中来,同一个生成程序和生成程序服务器可以出现在不同的发布策略中。发布资源调配及实现通过发布策略树的管理可以实现发布的调配。1、把系统中已有的发布服务器添加到策略上,一个发布服务器可以在多个策略中出现,这样发布服务器中所有发布程序都可以按策略指定的方式工作;2、把系统中已有的发布程序添加到发布服务器上,一个发布程序可以出现在多个服务器中出现;3、当一个发布资源(发布服务器和发布程序出现在多个策略或服务器中时,该资源是同时按多种方式工作。4、调配动作会影响各个发布程序的配置和启动脚本,同时根据配置文件的改数据源管理包含增加、修改、删除数据源信息,数据源是内容管理系统中的逻辑概念,每个数据源对应一个在weblogic中配置好的数据库连接池。数据源信息包含:数据源名、数据源JNDI串、数据库连接字符串。功能模块管理系统预置内容管理系统的所有功能模块的信息。在系统扩展时,可以通过模块新增功能在系统中添加相应的功能模块信息。功能模块主要是在存储策略管理中使用,为指定的功能模块指定功能所需的数据库连接信息。存储策略管理包含增加、修改、删除存储策略信息。存储策略信息包含:策略名、数据源。存储策略建立后,内容管理系统可以为系统功能模块指定相应的存储策略。内容管理系统在执行功能需要使用数据库时,根据本功能模块使用的存储策略来使用相应的数据库连接。存储策略调度根据请求的功能归属的策略,查询存储策略配置,取得相应的数据库连接。系统监控功能主要分为三块:系统监控、流程监控和发布监控。系统监控主要是监控运行环境各个部分的运行状态信息,流程监控是针对内容管理系统主要业务流程各个环境的业务处理状况,发布监控主要是监控发布系统的页面处理、生成状况,其中流程监控和发布监控组合能实现内容管理全流程的监控。系统监控设计成平台性质,支持扩展。写好扩展的监控逻辑后,向系统监控注册,内容管理系统能在统一监控界面中展示新增监控域。监控内容管理系统使用的各个数据库的状态,如:剩余表空间、数据库连接数等。并能对各监控项设置阈值,系统在临近阈值时能报警提示。监控内容管理系统使用的各应用程序服务器的状态,如:JVM的吞吐量、等待队列和内存的状况等。并能对各监控项设置阈值,系统在临近阈值时能报警提示。监控发布、分发程序运行的JVM的状态信息,如:进程是否存在、内存使用等。并能对各监控项设置阈值,系统在临近阈值时能报警提示。监控内容管理系统中各工作流的处理情况。主要包括工作流中未完成流转的流程数、每个流转步骤上等待处理的稿件数和相关处理人。监控功能采用实时查询的方式获取监控数据。阈值设置和报警,对监控项可以设置相应的阈值,并在用户执行监控功能时,对突破阈值的流程采用报警显示。监视内容管理系统各个稿件库内稿件数情况,包括源稿库、编辑库、签发库、发布库、资料库、成品库。监控功能采用实时查询的方式获取监控数据。阈值设置和报警,对监控项可以设置相应的阈值,并在用户执行监控功能时,对突破阈值的流程采用报警显示。监视内容管理系统各站点各栏目的使用情况,包括栏目下稿件总数、栏目下已发布和待发布稿件数、栏目上次更新时间。监控功能采用实时查询的方式获取监控数据。阈值设置和报警,对监控项可以设置相应的阈值,并在用户执行监控功能时,对突破阈值的流程采用报警显示。监视内容管理系统编辑库中各编辑的稿件使用情况,包括未被选用稿件数、上次稿件被选时间。监控功能采用实时查询的方式获取监控数据。阈值设置和报警,对监控项可以设置相应的阈值,在编辑库中有过多未选用稿件和某编辑稿件长时间未被选用时可以报警显示。监控系统用户的登录情况,显示当前在线用户登录时间、登录IP等情况。监控信息采集归档模块实现内部状态信息收集器,对一定时间范围内总归档稿件数、失败稿件数、总共花费时间、处理文件数、异常信息等进行收集和上报。上报的方式是直接调用内容管理系统监控程序端提供的状态收集接口。监控程序收到信息后,对信息做一个的计算和统计,更新系统中监控数据。统计信息展现以采集的内容采集系统监控数据为基础,提供总归档稿件数、指定日期范围归档稿件数、成功失败稿件数和归档异常信息的展现。效率监控计算内归档模块的一定时间段内工作效率。7.内容采集系统监控监控信息采集内容采集系统实现内部状态信息收集器,对一定时间范围内总采集数、失败稿件数、总共花费时间、处理文件数、异常信息等进行收集和上报。上报的方式是直接调用内容管理系统监控程序端提供的状态收集接口。监控程序收到信息后,对信息做一个的计算和统计,更新系统中监控数据。统计信息展现以采集的内容采集系统监控数据为基础,提供按来源、按时间、按结果统计内容采集系统的工作情况。效率监控计算内容采集系统的一定时间段内工作效率。监控信息收集在发布程序中加入日志信息收集线程,该系统负责收集发布系统中关键日志信息,如:页面生成成功或失败、页面生成花费时间、生成失败时关键异常信息,该线程定时向内容管理系统提供的收集接口上提交信息。监控平台收到发布系统提交信息后,对信息做一定处理后才能保存信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论