(计算机应用技术专业论文)基于sharepoint+search的内容管理应用.pdf_第1页
(计算机应用技术专业论文)基于sharepoint+search的内容管理应用.pdf_第2页
(计算机应用技术专业论文)基于sharepoint+search的内容管理应用.pdf_第3页
(计算机应用技术专业论文)基于sharepoint+search的内容管理应用.pdf_第4页
(计算机应用技术专业论文)基于sharepoint+search的内容管理应用.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文摘要 捅要 随着现代社会的逐步发展,信息每天都在以惊人的速度增长。如何保证这些 信息被充分利用,实现信息价值的最大化,是一个非常迫切需要解决的问题。从 传统信息系统到内容管理系统的转变是解决这一问题的一条途径。 从上述的实际背景出发,本文首先介绍了有关内容管理的相关理论和技术应 用,然后以作者负责设计和开发的内容管理系统为背景,论述了运用内容管理的 理论和相关技术、采用s h a r e p o i n t 应用框架以及s h a r e p o i n ts e a r c h 构建一个 内容可管理、可定制和可搜索的内容管理系统的详细过程。 文章详细分析了该应用的主要需求并得出相应的设计目标以及围绕这些目 标的具体设计思路,重点讨论了若干系统关键机制和相应的实现方案,并给出了 其实现方法和过程。文章还对该应用与之前已有应用做了技术上的比较并得出结 论。 关键词:内容管理,s h a r e p o i n t ,m o s s ,搜索,文档管理 浙江大学硕士学位论文 a b s t r a c t a b s t r a c t w i t ht h eg r a d u a ld e v e l o p m e n to fm o d e r ns o c i e t y ,i n f o r m a t i o ni n c r e a s e s a tas t r i k i n gr a t ee v e r yd a y h o wt oe n s u r et h a ts u c hi n f o r m a t i o ni sf u l l y u t i l i z e d ,a n dm a x i m i z et h ev a l u eo ft h ei n f o r m a t i o n ,i sav e r yu r g e n t p r o b l e mt ob er e s o l v e d t h ec h a n g ef r o mt h et r a d i t i o n a li n f o r m a t i o ns y s t e m t ot h ec o n t e n tm a n a g e m e n ts y s t e mi sas o l u t i o n o ft h i sp r o b l e m f r o mt h ea b o v e p r a c t i c a lb a c k g r o u n d ,f i r s t l y i nt h i sp a p e rw e i n t r o d u c ea b o u tt h ec o n t e n tm a n a g e m e n tt h e o r ya n dr e l e v a n tt e c h n o l o g y a p p l i c a t i o n s ,a n dt h e na c c o r d i n gt ot h ed e s i g na n dd e v e l o p m e n to fc o n t e n t m a n a g e m e n ts y s t e mt h ea u t h o ri sr e s p o n s i b l ef o r ,d i s c u s st h eu s eo fc o n t e n t m a n a g e m e n t t h e o r ya n d r e l a t e dt e c h n o l o g i e s , a n du s es h a r e p o i n t a p p l i c a t i o nf r a m e w o r ka n ds h a r e p o i n ts e a r c ht ob u i i da c o n t e n tm a n a g e m e n t , w h i c hi sc u s t o m i z a b l e ,a b l et ob em a n a g e da n ds e a r c h e d w ed e t a il e da n a l y z et h em a j o rr e q u i r e m e n ta n dd r a wt h ec o r r e s p o n d i n g g o a l s a r o u n dt h e s eg o a l sa n do b j e c t i v e so ft h es p e c i f i cd e s i g n ,w ef o c u s o nan u m b e ro fk e yc o r r e s p o n d i n gs y s t e mm e c h a n i s m st oa c h i e v et h ep r o g r a m , a n dg i v ei t sm e t h o da n dp r o c e s s w ea l s oh a v ed o n eat e c h n i c a lc o m p a r i s o n w i t ht h ep r e v i o u sa p p l i c a t i o na n dd r a wc o n c l u s i o n s k e y w o r d s : c o n w n tm a n a g e m e n t ,s h a r e p o i n t ,m o s s ,s e a r c h ,d o c u m e n t m a n a g e m e n t 浙江大学硕士学位论文图目录 图目录 图2 1m o s s 2 0 0 7 和w s s3 0 之间的关系【9 】1 2 图2 2s h a r e p o i n ts e a r c h 架构【9 1 1 4 图2 3s h a r e p o i n t 站点结构【圳1 6 图2 4 子站点和列表结构一j 1 7 图2 5 文件的访问过程【9 】1 8 图2 6w e b 请求过程图【9 】1 9 图3 1 系统功能图2 1 图3 2 系统用例图2 2 图4 1 系统网络拓扑图2 3 图4 2 文档库访问流程图2 9 图4 3 高级搜索w e b 部件图3 2 图4 4 搜索页面关系图3 3 图4 5 搜索页面的组成图一3 3 图4 6 搜索类的层次结构图3 4 图4 7 搜索类的调用图3 6 图4 8 普通用户访问流程图3 8 图4 9 文档浏览页面结构图一3 9 图5 1 文档库显示效果图4 2 图5 2 菜单效果图4 4 图5 3 相关链接文档列表效果图4 5 图5 4 文档属性配置效果图4 5 图6 1 首页效果图4 8 图6 2 浏览页面效果图一4 9 图6 3 选择文档后效果图4 9 图6 4 搜索结果效果图5 0 图6 5 选择编辑页面51 图6 6 添加网页部件51 图6 7 修改网页部件属性值并调整网页部件位置一5 2 图6 8 点击上传5 2 图6 9 填写属性值5 3 图6 1 0 启动工作流5 3 i i i 浙江大学硕士学位论文表目录 表目录 表4 1 文档库列的设计表2 6 表4 2 事件处理表2 9 表4 3 搜索参数定义表3 7 表7 1 内容管理比较对应表5 7 表7 2 工作流比较对应表5 8 表7 3 搜索比较对应表5 9 i v 浙江大学硕士学位论文 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得浙江大学或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文作者签名:旦告、积 签字日期: 矽玉年莎月石日 学位论文版权使用授权书 本学位论文作者完全了解浙江大学有权保留并向国家有关部门或机构 送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权浙江大学可 以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影 印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:关召阎 导师签名: 签字日期:朋年月石日 签字日期多日 浙江大学硕士学位论文 第1 章绪论 第1 章绪论 1 1 课题背景 无论机关单位还是商业机构,在其建立和发展的过程中都会产生一系列的文 件,政策和标准等。这些资料可能零散的存放在服务器或者某些公用文件夹中, 难以管理和维护l l 】。如果要寻找某方面的相关文件或者政策,在用户看来是比较 费劲的。而且随着时间的变迁,很多资料需要更新或者重新发布。对单位的管理 者而言,如果没有统一的管理系统去做,也是相当繁琐的一个事项。作者所实习 的公司就是一家大型企业,光在人力资源方面的文件和政策所形成的文档就有几 万份之巨。而这些文档又区分成不同国家和地区,比如一份员工加班补偿的政策 在大部分国家和地区是有区别的,而且随着当地政府的劳工方面的政策变动而改 变。可以想象,公司员工想找一份自己需要了解的政策文件,他必须面对大量的 其它不相关的内容,往往变得无所适从。而人力资源的管理和维护人员在需要发 布和更新相关文档时同样会碰到棘手的问题。这包括查找文档,更新文档以及报 上级审查批准和正式发布的过程。 随着互联网的逐步发展,信息每天都在以惊人的速度增长。信息的种类也在 不断地扩展,i b m 研究部门调查发现,全球8 5 的信息是非结构化的,包括纸上 的文件、报告、视频和音频文件、照片、传真件、信件等 2 1 。由于内容的表现 形式存在多样性,人们在内容管理上耗费了大量时间,在寻找内容上也付出了相 当大的精力,所以迫切需要有效地将内容管理起来。内容管理系统是i t 先进技术 的综合应用,能够解决各种数字资源的采集、管理、利用、传递和增值,能为企 业决策提供支持和参考。 因此,企业对内容管理的需求正在加剧,企业希望确保信息内容的安全性、 真实性及完整性,并且利用自动化的策略简化管理,为企业和机构内各个部门的 内容共享提供条件,并以恰当的成本为重要的信息内容进行分级别保护。企业不 但需要通过策略驱动的自动化替代劳动力密集人工流程,帮助企业管理和保护非 结构化的数据内容【3 】。同时,可以根据用户定义业务规划管理任意片断内容的修 改和批准流程。再次,企业希望通过智慧化的能力创建和管理原始数据,使得搜 索和检索工作更快速和高效。目前许多企业都发现,他们淹没在了内容的汪洋大 海之中【4 1 。在知识工人处理日常活动的过路中,要用到数百种应用程序创建并跨 网络和存储设备分发数千种不同类型的内容。要减少这一混乱现象,便需要使用 浙江大学硕士学位论文第l 章绪论 可处理所有形式内容的单一基础结构来解决这些问题让内容易于发现和管 理,不管其应用程序是什么,存储在什么位置也不管最终它将如何使用。 1 2 目的和意义 在这种形势下,我们为某公司开发内容发布系统时,引入了内容管理思想。 内容管理作为一种组件级的信息管理模式,与传统的数据管理和文档管理不同, 它把信息进行抽象和结构化,将信息划分成更小的单元( 即内容组件) 来进行管 理。并且引入了元数据对信息进行描述。这样可以提高系统中信息的清晰度和透 明度,并可实现基于内容的检索、加工、传递,为建立高层次、多样化、个性化 的应用打下坚实的基础。另外,如果系统能提供给用户自己去抽象新内容的手段, 那么将会大大增强系统的通用性。本课题涉及的系统正是按照这个想法来构建 的。 要说明的是,我们没有去实现一个完整的内容管理系统,而是在内容组件化、 结构化的基础上,提供从内容收集、创建到最终发布这一过程所需要的基本功能 以及文档和网站内容搜索的功能。同时也力求使构建的系统能够具备以下两方面 特征:扩展性强和通用性强。 系统从功能到发布界面都给用户极大的定制自由,从而可以使用户根据自己 的需要部署一个量身定做的系统。信息系统中存有大量的内容信息,这些内容除 了向外发布外,可能需要进一步的处理才能满足某些应用需求。本系统设计了较 完善的模块部署规范,提供了便利的方式将符合部署规范的应用模块集成进来。 这样在不改动系统原有代码的情况下,就可以集成新的应用到系统中。而且只要 遵循了模块的部署规范,第三方开发的模块也可集成进来,从而使得系统的灵活 性进一步增强。另外,用户可以根据需要对系统进行功能上和界面上的定制。这 就简化了建立一个符合自己需要系统的过程。用户可以根据情况定制系统发布界 面,并且可以在系统功能上进行适度取舍。系统所要管理的内容信息不仅仅包含 那些己经结构化的数据,还有许多数据是半结构化和非结构化的。为了能将这部 分异质的内容数据也管理起来,我们在系统异质数据集成方面作了一些尝试。 本文详细介绍了某公司内容发布系统的设计和实现。该系统是一个开放的基 于特定应用,内容可管理的信息发布系统。以s h a r e p o i n t 平台为基础,通过 w e b p a r t 页面模块框架,以及a s p n e t 页面模板、x s l t 技术来建立一套模板机制, 使得系统具有以下一些特点: 信息的组织是基于内容管理的 即按照内容管理的思想对信息进行抽象和结构化,并合理划分成内容组件来 6 浙江大学硕士学位论文 第l 章绪论 进行管理。同时用元数据对信息进行描述,并对内容进行全文索引,以实现更高 层次的信息服务,而不仅仅是简单的发布。 信息的逻辑类型是可扩展的 提供给用户针对某种信息类型自己创建模板的手段。使得用户可以自己对新 的信息逻辑类型进行抽象。从而,创建自己的内容组件,集成新类型的数据。 系统的发布界面是可定制的 即可以根据需要对系统的界面布局和信息的显示方式进行设置,而不需要修 改系统代码。 系统是可扩展的 系统管理的信息是经过组织和描述的,一旦有建立在这些信息之上的新的应 用出现,系统允许在不修改任何代码的情况下将这些应用作为功能模块集成进 来。 系统内容是可检索的 结合信息本身内容的全文检索以及信息元素的设计组织和描述,使系统具有 很强的搜索功能。 7 浙江大学硕士学位论文第2 章技术背景 第2 章技术背景 2 1 内容管理 随着社会信息化的推进,内容信息量呈急速膨胀趋势。良好的内容管理解决 方案是现代企业、组织实施信息化战略的一个重要保障。 2 1 1 内容 要明白内容管理是什么首先要说明内容这一概念。内容是记录在介质上的意 义,这种意义与记录它的媒体无关。意义是人们对事物的共同理解,是包含在某 些思想和度量中的。意义有四个基本特征:定义( d e f i n i t i o n ) 、状态 ( s t a t e ) 、上下文环境( c o n t e x t ) 和行为( b e h a v i o r ) 。1 5 j 内容的成熟需要经过三个阶段,分别是数据、信息和知识。数据是值的简单 描述或机械度量。数据本身难以解释,它必须借助相关的环境和关系,只有在特 定的上下文环境中或是与其它数据的联系中才有意义。如果把数据置于具体的上 下文环境中并和其它数据一起经过组织,数据就成熟为信息。信息不是孤立存在 的,信息与信息之间有复杂的关系。当把信息加以组织然后以某种方式为了特定 的目的发布出来后,信息就成为了内容。【5 】 2 1 2 什么是内容管理 对于内容管理,目前业界还没有一个统一的定义。一般认为内容管理是:协 助组织和个人,借助信息技术,实现内容的创建、储存、分享、应用和更新,并 在企业个人、组织、业务、战略等诸方面产生价值的过程。内容管理最大的特点 在于其管理的是内容而不是数据。因此内容管理与数据管理相比有很大的不同。 2 1 3 内容管理的其它相关概念 内容域 是指所要获取、管理、发布的信息的范围。内容域通常与内容管理系统的目 标有直接联系。合理确定内容域是内容管理的第一步。 内容组件 内容域确定下来后,就需要确定内容的类型,然后根据抽象好的模型将信息 划分成一个个易于管理、方便使用的小单元,即内容组件。组件的创建、维护、 分发可以自动化的实现。每种组件都有自己的属性,每个组件都是独立的,不局 限于特定的上下文中,组件是内容管理的最小单元。任何内容都是由若干个内容 组件组成,内容的创建、删除、维护都是以组件为基本单位来进行的。组件的划 分并不是任意的,必须按照一定的原则来进行,这种划分也是与内容的具体应用 浙江大学硕士学位论文 第2 章技术背景 领域相关的。正确的组件划分可以带来高效率的组件重用。 元数据 元数据就是关于数据的数据。在内容管理中,元数据给计算机提供了处理内 容所需要的信息,从而使得计算机可以根据元数据进行内容的自动化处理。在内 容管理中所涉及到的元数据主要包含以下几类: 1 ) 拆分性元数据 计算机可以根据这类数据正确一致地把内容拆分成内容组件。 2 ) 访问性元数据 访问性元数据包含了内容的位置信息。 3 ) 管理性元数据 管理性元数据主要是指为了方便内容管理而附加的一些信息。 4 ) 集成性元数据 这部分元数据规定了内容与内容继承的规则和方式。除了包括内容组件组合 成复杂的内容实体的集成外还包括不同类型内容的集成,如关系型数据和非结构 化文档的集成。 2 2 当前内容管理的应用状况 2 2 1 基于w e b s p h e r e i b mw e b s p h e r e 的内容管理建立在关系数据库系统基础上,包括数字信息的 组织、管理、查询技术,具有安全保护、访问许可等完善的权限管理功能,经授 权的信息通过利用i n t e r n e t 发布技术,实现大范围内的信息传播【6 】。 w e b s p h e r e 的内容管理框架由一个索引服务器、一个或多个对象服务器和一 个或多个客户程序构成,其中资源管理器就是对象存储库,一个索引服务器能 支持多个本地和远程的资源管理器,用户通过索引服务器来对对象进行存储和 访问。这种内容管理框架,主要包括以下几个主要方面: ( 1 ) 数据模型。w e b s p h e r e 内容管理框架的数据模型包括项目和对象,一个 项目通常表示一个文档并且有一系列的用户定义属性。一个项目能包含一个或多 个对象,包括实际的文档内容、批注、附件等等。索引属性通常保存在索引服务 器中,对象保存在一个或多个对象服务器中。项目和相关的属 性要实现很多的功能:与其他项目之间的关系、权限控制、多级存储管理的 控制、内容生命周期和维护、工作流、流程整合和自动化。 ( 2 ) 查询与访问。w e b s p h e r e 内容管理提供了多种查询方法,包括参数检 索、全文检索以及面向中文的智能检索,并且能支持用户同时和分开使用这几种 9 浙江大学硕士学位论文 第2 章技术背景 检索方法。 通过参数检索,用户能快速访问所有元数据信息:全文检索能对已建立了 文本索引的内容进行自由文本检索,从而快速查找到相关的文档:而中文智能 检索能力将基于中文语义进行检索,支持包括近义词、上下位概念、同一名称等 智能检索能力。支持x p a t h 查询语言标准,可以非常容易地支持内容管理框架中 的多级数据模型,同时支持联合的参数、全文检索以及版本访问,同时能自动转 换为s q l 在数据库中高效执行。 ( 3 ) 内容整合。w e b s p h e r e 内容管理通过提供信息整合的体系架构来实现单 一入口的针对内容存储库的访问接口。通过使用内容连接器来访问i b m 的存储库, 包括c m 、c mo n d e m a n d 、c mi m a g e p l u s 以及l o t u sd o m i n od o c 。同时,基于公 共接口的联合连接器能访问任何的内容数据源,并且用户能依据标准接口来定 制其他的内容源的连接器。 ( 4 ) 分布式存储和多级存储管理。w e b s p h e r e 内容管理框架的资源管理器通 过标准的h t t p 、f t p 和f i l e 协议来进行通讯,资源管理器和索引服务器紧密合 作来确保数据完整性和一致性,资源管理器通过数据库来记录对象的位置,同 时资源管理器提供了缓存能力来提高对象访问的性能。资源管理器通过和i b m t i r o l is t o r a g em a n a g e r 紧密结合来提供多级存储管理能力,它能分布在企业 内部的任何地方,因此可将资源管理器放在离客户最近的地方,以提供快速访 问能力。通过使用v i d e o c h a r g e r 提供对流媒体对象管理的能力,并且支持各种 各样的媒体格式,支持众多的标准协议。 ( 5 ) 文档流转。文档流转是w e b s p h e r e 内容管理框架内置的工作流服务,用 来实现企业范围的灵活的文档流转功能,它的工作流支持并行流转、数据变量和 子进程,并且提供了将c m 、c mo n d e m a n d 、c mi m a g e p l u s 等存储库中的内容进行 集中流转的能力【6 j 2 2 2 其它 还有基于开源软件的内容管理系统。开源软件指的是那些程序源码可以被公 众使用的软件,并且此软件的使用、修改和发行也不受许可证的限制。全世界有 超过几万套开放源码软件,从网页浏览器、文书处理工具、操作系统以至于企业 应用程序等一应俱全【7 1 。在各种开源系统中,w e b 内容管理系统的竞争最为激烈, 从最早的p h p n u k e 、x o o p s ,到现在的d r u p a l 、m a m b o ,开源w e b 内容管理系统不 下3 0 多种。据p a c k t 公司2 0 0 6 年9 月初结束的“t h ep a c k to p e ns o u r c ec o n t e n t m a n a g e m e n ts y s t e ma w a r d ”结果表明【8 】:基于p h p + m y s q l 的开源c m s 系统 1 0 浙江大学硕士学位论文 第2 章技术背景 在w e b 开发大战中显示了绝对的优势,赢得了优秀c m s 系统前5 名中的4 个席位 ( d r u p a l 、e 1 0 7 、j o o m l a 、x o o p s ) ,p l o n e 成为唯一使用p y t h o n 开发的获胜者, 没有基于j a v a 开发的项目入围。p l o n e 是一个专业的内容管理系统,适合用作搭 建对外网站、内部网系统、文档发布、协同群件系统等。 系统环境:p l o n e 是基于发展多年的w e b 应用服务器z o p e 和内容管理框架 c m f 的开源项目,采用p y t h o n 语言开发。 功能:它拥有强大的特性,支持工作流( w o r k f l o w ) 、用户管理、新闻事件按 排、全文搜索等功能,可管理发布h t m l 、w o r d 、p d f 等各种类型文档,还可以对 内容的元数据、皮肤、文本格式转换、评注及讨论等进行管理, 其它支持:被广泛使用( 包括一些跨国公司和国际组织) ,而且多次获奖。它 有一个专门的基金管理,版权受到保护( 没有版权问题,可放心使用) 。p l o n e 得到全世界数百个公司的支持,拥有庞大和健康的社区,开发人员数量巨大, 每年发布两个版本,可得到持续的更新和支持。同时p l o n e 拥有大量第三方开放 源产品( 功能模块、模版和皮肤) 可供选择安装,以添加新的功能特性与内容类型。 2 3s h a r e p o i n t 架构概述 s h a r e p o i n t 产品系列包括两个平台,一个是w i n d o w ss h a r e p o i n ts e r v i c e s ( w s s ) ,另外一个是m i c r o s o f to f f i c es h a r e p o i n ts e r v e r ( m o s s ) 。简单的说, w s s 是可以被用来创建普通团队协作用的网站。而m o s s 在w s s 基础上扩展出门户 发布,企业级搜索,企业内容管理,商业流程自动化,商业智能( b u s i n e s s i n t e l l i g e n c e ) 报告和分析工具。如果说w s s 是服务于小企业和独立机构的,那 么,m o s s 是被设计成一个企业级的平台,这个平台用来管理和控制企业的多种多 样的知识财产p j 。 m i c r o s o f to f f i c es h a r e p o i n t s e r v e r2 0 0 7 ( m o s s2 0 0 7 ) 是一个服务器 功能集成套件,它提供全面的内容管理和企业搜索、加速共享业务流程并便利跨 界限信息共享以更好地了解业务,从而有助于提高组织的工作效率【9 】。m o s s2 0 0 7 通过一个集成平台而不是依靠分散的系统来支持整个企业内的所有i n t r a n e t 、 e x t r a n e t 和w e b 应用程序。此外,该协作和内容管理服务器还为i t 专业人员 和开发人员提供了实现服务器管理、应用程序可扩展性和互操作性所需的平台和 工具。m o s s 2 0 0 7 构建在w s s3 0 基础之上,扩展出网络内容管理( w e bc o n t e n t m a n a g e m e n t ) ,记录管理( r e c o r d sm a n a g e m e n t ) ,综合数字权限管理( i n t e g r a t e d d i g i t a lr i g h t sm a n a g e m e n t ) ,工作流( w o r k f l o w s ) ,单点登录( s i n g l es i g n o n ) , 文档保持( d o c u m e n tr e t e n t i o n ) 以及扩展的搜索功能。m o s s2 0 0 7 也为每个用 浙江大学硕士学位论文 第2 章技术背景 户提供“我的站点”,它可以提供用户一个存储个人信息的私有界面,也提供了 共享界而来分享照片和私人信息等。 mi c r o s o f to f f i c es h a r ep o i n ts e r v e r2 0 0 7 w i n d o w s s h a r e p o i n t s e r v i c e s 图2 1m o s s2 0 0 7 和w s s3 0 之间的关系【9 】 其中c a l 是c l i e n ta c c e s sl i c e n s e 的缩写。 2 3 1s h a r e p o i n t 内容管理 m o s s2 0 0 7 内容管理构建于早期版本的核心文档管理服务之上,其中包括对 大文档库的支持,提升的搜索功能,以及更健壮的文档库服务( 包括紧密的检入 和检出支持) 。这些相当丰富的功能包括以下方面:1 ) 文档管理中包括增强的文 档库服务,文件级别的安全策略,以及和m i c r o s o f t0 f f i c e 更好的整合性。2 ) 提升的元数据管理和综合信息权限管理( i n t e g r a t e di n f o r m a t i o nr i g h t s m a n a g e m e n t ) 。3 ) 包含持有策略管理的记录管理。4 ) 网络内容管理。5 ) 文档中 心协作。6 ) 工作流。7 ) 搜索。8 ) 电子表格。 下面着重描述本应用中所使用到的功能。 2 3 1 1 文档管理 m o s s2 0 0 7 通过详尽的可扩展策略管理来控制文档。包括定义自定义文档管 理策略,以便在项目级控制访问权限,指定保留期和到期操作,并通过文档审核 设置来跟踪内容。与熟悉的客户端应用程序之间的策略集成使得依从工作对员工 1 2 浙江大学硕士学位论文第2 章技术背景 透明且更加简便。与信息权限管理之间的集成可帮助确保更好地保护专有和机密 信息,即使在未与服务器连接时也能更好地保护【1 0 1 。 2 3 1 2m e t a d a t a 管理 m o s s2 0 0 7 有几个特性来允许用户实现和提升用户的元数据( m e t a d a t a ) 策 略。定义元数据的主要目的是提升一个组织的大多数宝贵资源( 信息) 的存储和 恢复能力【1 1 1 。m o s s2 0 0 7 提供了定义元数据容器( c o n t e n tt y p e ) 的工具,也提 供了合成这些元数据到搜索体验中的工具( s i t ec o l u m n ) 。一个内容管理策略的 基本点是开发一个易于理解的在组织中使用的文档类型( c o n t e n tt y p e ) 。这些 文档的类型包括表单,协议以及在部门间的协调活动、客户的交互活动和帮助组 织处理商业事务形成的文件或者电子文档。 在m o s s2 0 0 7 中的文档类型浓缩了独立的元数据字段、工作流协作和信息管 理策略【1 2 】。因此它创建了一个独一无二的流程结构,来允许区别的管理同一文档 类型的文档中的信息,而不是仅仅是不同文档类型的文档中的信息。通过抓取不 同的字段应用到工作流中来实现信息流的控制【l3 1 。可以说,文档类型在m o s s2 0 0 7 中是一个管理元数据的标准单位。 2 3 1 3s h a r e p o i n ts e a r c h m o s s2 0 0 7 中的企业级搜索是m o s s2 0 0 7 的一个共享服务,它提供了广泛的 并且可扩展的内容收集,内容索引以及内容查询。这个服务支持基于s t r u c t u r e d q u e r yl a n g u a g e ( s o l ) 查询语法的全文本搜索,也提供了一种新的支持关键词 搜索的关键词语法【1 4 j 。 下面的图详细说明了搜索服务的内部结构。 第2 章技术背曩 q u e r y0 b j e c tm o d e l & s e a r c hw e bs e r v i c e 田口口日;翮,固 c o n t e n t 图2 2s h a r e p o i n ts e a r c h 架构【9 】 图中搜索服务的内部结构的主要组成部分有: 1 )索引引擎( i n d e xe n g i n e ) :处理从内容源中过滤出来的大量的文本 和属性,并把它们存放在内容索引和属性仓库中u s 。 2 )查询引擎( q u e r ye n g i n e ) :基于内容索引和搜索的配置信息来执行 关键词和s q l 语法的查询。 3 )协议处理者( p r o t o c o lh a n d l e r s ) :用其本身的协议来打开内容源, 并暴露文档和其它的信息以用来过滤。 4 ) i f i l t e r s : 用其自身的格式来开放文档和其它内容源并过滤成文本 和属性。 1 4 叮u凸ljod叮l30芷cou c u l 浙江大学硕士学位论文第2 章技术背景 5 ) 内容索引( c o n t e n ti n d e x ) :存储内容项的中的词和位置的信息。 6 ) 属性仓库( p r o p e r t ys t o r e ) :存储属性和对应值的列表。 7 )搜索配置信息( s e a r c hc o n f i g u r a t i o nd a t a ) :存储了用于搜索服务 的信息,这些信息包括检索( c r a w l ) 配置,属性模型,范围( s c o p e ) 等。 8 )单词分离器( w o r d b r e a k e r s ) :查询引擎和索引引擎用其来分离混合 单词和词组,变成单独的词语或者标记【1 6 1 。 当一个搜索查询被执行时,查询引擎经由指定语言的单词分离器传递该查 询。如果没有该指定语言的单词分离器,那就使用中性的单词分离器。中性的单 词分离器使用空白( w h i t e s p a c e ) 风格来做单词分离,这意味着在语句和词组中 会按照空白的出现来分离单词。在单词分离完成之后,其形成的语句被传递给 s t e m m e r ,s t e m m e r 来形成特定语言格式。在检索和查询过程中,单词分离器和 s t e m m e r 的使用可以提高搜索的效率,因为对应于用户查询词组的相关替代语句 被生成了。当查询引擎做一个属性查询时,索引首先被检查,然后生成可能匹配 的列表。那些匹配文档的属性从属性仓库中导出,然后在查询中的属性在一次被 检查,以确保确实有匹配产生。查询的结果是所有匹配结果的一个列表,它们按 照用户查询语句的相关度来排序。如果用户没有权限来访问匹配的文档,那么查 询引擎会过滤掉这一文档而排除在列表之外。 2 3 2s h a r e p o i n t 站点架构概述 2 3 2 1 站点结构 图2 3 显示的是基于m o s s2 0 0 7 建立起来的站点结构。从图中可以看出,处 于最顶端的是f a r m ,f a r m 可以有多个物理s e r v e r 组成。在f a r m 中管理员可以 展开协同和配置工作。f a r m 下面是w e bs e r v i c e ,一个m o s s2 0 0 7 就可以看成一 个w e bs e r v i c e 。而m o s s 又可以由多个a p p l i c a t i o n 组成。从直观上看,一个 a p p l i c a t i o n 就对应一个端口,比如h t t p :l o c a l h o s t :8 0 8 0 就对应一个 a p p l i c a t i o n 。再从a p p l i c a t i o n 往下看,你会发现a p p l i c a t i o n 又由站点集合 ( s i t ec o l l e c t i o n ) 组成。不同的a p p l i c a t i o n 可以选择存放在不同的s q ls e r v e r 数据库,而s i t ec o l l e c t i o n 是数据统一存放的基本单位。所以在站点迁移时, 迁移一个s it ec o ll e c t i o n 是很方便的。 浙江大学硕士学位论文 第2 章技术背霖 图2 3s h a r e p o i n t 站点结构【9 】 图2 4 描述了s i t ec o l l e c t i o n 以下的结构。顾名思义,s i t ec o l l e c t i o n 肯定由s i t e 组成。在建好一个s i t ec o l l e c t i o n 之后,其就有一个u r l 地址和 s i t ec o l l e e t i o n 一样的s i t e ,而在此之后,用户还可以在下面建立很多的子站 点。一个s i t ec o l l e c t i o n 方便用户同意管理。比如w e bp a r t 和m a s t e rp a g e 等都统一存放在s i t ec o l l e c t i o n 下。而s i t e 下面有很多的列表( 1 i s t ) ,在这 里文档库就是一个特殊的1 i s t 。l i s t 可以根据不同的需要建立,比如通知l i s t , 链接1 i s t 。而l i s t 的元数据( m e t a d a t a ) 看起来就象一个表,由字段组成。一 个文档或者其它的l i s t 元素对应一个i t e m ,类似与表中的行。用户可以自定义 f i e l d ,可以增加,修改,删除以及定义f i e l d 的值类型。与数据库表不同的是, 这里的“行”还对应了一份文档。如果文档类型是属于o f f i c e 的,那o f f i c e2 0 0 7 可以保存这些m e t a d a t a 在自己本身的文档中。比如用o f f i c e2 0 0 7 打开一份w o r d 1 6 浙江人学硕士学位论文第2 章技术背景 文档,用户可以在w o r d 中直接编辑f i e l d 的值,这样给用户一个一气呵成的感 觉。从技术上讲,这是无缝的连接过程。 s i t ea r c h i t e c t u r ea n do b j e c tm o d e lo v e r v i e w = = 暑9 1 f iidsi i e l f ii e l 0 8 f1f 一: r ;1 一 r - 。 二 l i t e m ii i t e m2 二二二二 一 i ll i s t i t e r r l3 一 lr e m 暑 n e m 。一一一一l 图2 4 子站点和列表结构【9 】 2 3 2 2 文件访问的完成过程 访问m o s s 站点可以分为4 类:浏览器访问、o f f i c e 访问、s h a r e p o i n td e s i g n e r 访问和w i n d o w s 文件浏览器直接访问( 看起来有点象文件央的共享访问) ,如图 2 5 所示。 所有的内容文件都是存放在数据库的,只有少量的全局定义是放在服务器的 文件系统中 浙江大学硕士学位论文第2 章技术背景 图2 5 文件的访问过程p j 2 3 2 3w e b 请求的完成过程 m o s s2 0 0 7 的w e b 服务是建立在a s p n e t 基础上的。在页面请求中也遵循 a s p n e t 的w e b 请求过程。在最里层,数据是w s s3 0 提供的。一个w e b 页面由 三部分组成:页面内容,布局页面和m a s t e r 页面。如图2 6 所示,该图取自m o s s 2 0 0 7s d k ,但本人认为自定义的m a s t e r 页面也存放在数据库中,也就是说图中 少了一个箭头指向w s s3 o 。 浙江人学硕士学位论文 第2 章技术背景 图2 6w e b 请求过程图9 1 9 浙江大学硕士学位论文第3 章需求分析 第3 章需求分析 3 1 功能分析 本系统是为某公司开发的一个基于内容管理的文档和信息的发布系统。目的 是将各类数据以内容组件的形式管理起来,使内容能够以更灵活的方式被应用, 并且系统提供多种方式保证从数据的创建,修改到发布以及内容的搜索整个过程 的平滑高效。除了利用公司现有的文档格式内容外,系统还提供用户自己抽象和 创建内容展示方式的手段。另外,系统还可以在不修改原有代码的情况下,灵活 组织新的用户接口。此外,系统的外观布局和内容的发布方式也是可以定制的。 从功能的角度看,系统可以划分为以下几部分: 1 ) 内容的产生 提供文档和信息的创建和添加元数据的工具。这部分除了完成内容的创建 外,同时实现内容的单元化和描述。这部分信息基于内容管理的基础。 2 )用户接口( 界面) 以及其管理 提供基本的界面组成模块,实现对内容间组织关系的界面化。满足用户能够 友好的访问内容。并且,这些用户界面是模块化的,以方便管理者对发布界 面和内容的表现形式进行定制。 3 ) 内容的类别管理 本应用要具备对内容的抽象分类的能力。所谓分类,既是对现有的内容建立 内容模型,并且在内容上赋予逻辑处理,这样就构成了内容的类别。其中也 应该包括工作流的管理,也就是说工作流应该基于内容的类别。 4 ) 搜索功能和对搜索的管理 除了层次级的浏览方式以j l - ,应用还要包括系统级别的全文本搜索和元数据 搜索。搜索的功能应该是模块化的,以方便定制搜索的显示形式的新的组织 方式。在应用中的搜索范围也是可定制的,包括内容类别的范围,元数据的 对应关系等。 5 )存储管理 这一部分要完成对内容源的管理,包括内容源的添加、修改和删除。基于内 容管理的系统查询机制要比一般的关系型数据库复杂,因为系统中有许多非 结构化的数据,所以要将元数据查询和全文搜索相结合。所有的发布的内容 都是以内容组件和模块存在的,在发布时都需要经过动态的组装和转换,所 以还需要建立缓冲机制来提高效率降低系统负担。 浙江大学硕士学位论文第3 章需求分析 此外,还有用户管理,版本控制等部分。 以上的功能划分可以用图3 1 系统功能图来说明。 图3 1 系统功能图 3 2 用例分析 图3 2 用例分析图展示的是系统级别的抽象的用例过程。从图中可以看出, 用户分成三类: 1 ) 管理员 管理员负责系统的维护工作,主要负责

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论