网络信息组织_第1页
网络信息组织_第2页
网络信息组织_第3页
网络信息组织_第4页
网络信息组织_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章 网络信息组织学习目的和要求通过本章的学习,使学生对网络信息组织环境的有一个全面的了解;掌握网络信息组织的主要理论方法与技术应用,包括:1)经典信息组织方法的继承与网络化延伸;2)新兴网络信息组织方法与技术。本章学习重点网络信息环境;传统信息组织方法的继承与网络化延伸;信息组织方法在网站信息架构中的应用;新兴Web2.0信息组织方法内容安排第一节 网络信息环境第二节 传统情报检索语言的网络化改造与应用第三节 语义网信息组织第四节 网站信息架构第五节 Web2.0信息组织方法第一节 网络信息环境一、网络信息环境扫描Web发展阶段Web 1.0 文档的网络将信息内容本身上网,提供单向浏览与下

2、载。Yahoo分类目录、网络搜索引擎。Web 2.0 用户参与创造的互动网络以人为中心的网络,用户不仅仅是信息的消费者,而是作为信息生产者与消费者双重角色进行各种各样的网络活动。标签Tagging、维基Wiki、集成Mashup等。Web 3.0 语义网(数据的网络)语义网是指网络数据被赋予指定含义的明确信息。建立在计算机对资源内容本身的可理解基础上,智能代理程序(Agent)能够自动化处理数据之间的关系。 文档网络是基础,互动网络是主流,语义网络是趋势微内容的生产与传播Web发展图谱二、网络信息组织的挑战开放无序海量数据碎片化关联化用户需求差异化三、网络信息组织的目标与任务传统知识组织网络化

3、再造与应用服务自身发展知识组织的进化经典信息组织方法的网络化应用 应用拓展网络信息架构新兴网络组织方法与技术创新兼容并包语义工具结构是内核,搜索发现是目的。第二节 传统情报检索语言 的网络化改造与应用一、分类法的网络化发展与应用(一)分类法自身的网络化发展分类法载体大体经历了纸版、光盘版、网络版三个主要阶段:纸 版:作为出版流通目的依然存在,但直接利用率偏低。光盘版:是分类法数字化存储、交换与业务功能发挥的集合体,但将分类法局限在一个相对封闭系统环境中,缺少对外数据开放接口与功能延展,实现的是少数点对点应用。网络版:提供特定范围的分类体系访问与数据下载服务。在网络化过程中,其所有者对其使用范围

4、进行了分层界定,从免费版的粗粒度大纲到付费版的详细类目,以及附加服务功能,开放程度不一。DDC载体发展中图法载体沿革DDC网络版WebDeweyUDC网络版中图法网络版具备了网络环境下的访问与检索服务。从服务集成目标看,初步搭建了与外部OPAC系统等第三方网络应用的挂接通道。未来,中图法网络版在自身数据开放与应用服务形式多元化上还有更广阔的探索空间。(二)分类法的网络化应用网络信息使用环境的两个特点:网络用户大多数是非研究型专业用户;网络资源除了学术资源之外,有更广泛的主题覆盖;网络分类类目划分原则:“主题为主,学科为辅”的设类原则辅以扁平化、多维划分、多重列类、交叉参照等方式克服等级体系划分

5、中的单一路径局限。网络分类目录存在的问题:类目设置的随意性、资源归类的不合理性、编辑人员专业技能层次不齐、商业盈利驱动的不公平性、缺乏科学规范化控制等,导致网络分类目录整体质量和用户检索满意度下降。网络分类法举例二、叙词表自身的网络化发展(一)叙词表自身的网络化发展叙词表是面向信息检索的词语及其关系规范化处理的典型受控语言,有助于提高检索效果。叙词表自身网络化发展与作为检索系统内部的后控词表是并行发展的。艺术与建筑叙词表AATAAT(Art & Architecture Thesaurus)是一部面向人文艺术领域的分面叙词表。AAT提供有关人名、地点、事物的优选术语(Preferred Ter

6、ms)与同义词,设置了相关概念、物理属性、风格和时期、活动、材质和物件等七个分面,通过概念之间界定的语义关系构建知识库,提供丰富的领域知识与情境知识。自1997年之后,不再出版纸本,只提供机读格式数据和网络检索服务,每年7月1号更新一次。统一医学建模语言UMLSUMLS(Unified Medical Language System)是美国医学图书馆为医学、生物、健康专业领域设计开发的一体化主题概念系统。UMLS的结构与语义复杂度早已超越传统叙词表内涵,主要包括三部分:元叙词表(Metathesaurus)、语义网络与专家词汇库。(二)叙词表的网络化应用叙词表的网络应用主要是作为嵌入检索系统的

7、后控词表,也称为“检索用叙词表”,目的是提高检索效果。叙词表以检索系统内部组件的形式存在,一般用户看不到完整独立的叙词表显示。在检索过程中,叙词表通过检索系统给出的规范化词汇、术语建议、查询扩展等方式发挥作用。中国分类主题词表的网络化探索中分表网络版提供了更有吸引力的知识发现环境,具有非常丰富的主题概念集与语义关系资源。如何进一步在内部体系里深度挖掘和与外部系统之间产生映射的强相关互通是未来的努力方向。中分表Web版“蛋白质”族首词可视化示例三、基于传统情报检索语言的术语网络服务(一)术语网络服务的要素辨析概念是抽象唯一的基本知识单元,可由一个或多个术语表示。术语是一种人为规范和约束的语言词汇

8、。概念先于术语,概念的产生变化通过术语来表现,概念的语义关系通过对术语相关性进行揭示而外化。受控词表是各种情报检索语言工具的载体存在,概念与术语是组成受控词表的核心要素。(二)术语网络服务定义JISC报告的定义:JISC报告中对术语网络服务的定义较为全面,列举出面向机器和用户的检索、浏览、发现、翻译、映射、语义推理、主题标引和分类、获取、提醒等各类服务。OCLC对术语服务从四个维度进行解构:支持元数据创建活动,为资源描述提供术语;支持资源发现过程中的查询最优化,例如查询扩展;支持术语管理和共享,创建和共享本地术语;支持术语的社会化交互,例如用户提供的各种术语,自由标注等。除此之外基于术语资源之

9、上的智能语义关系挖掘也是术语服务的高级应用阶段。术语网络服务项目OCLC对DDC与各种大型词表的映射DDCLCCLCSHMESHBISAC进行映射匹配;高层次集成叙词表HILT(1-4期)项目以DDC为兼容转换中枢实现各类词表之间的主题互操作;国际粮农组织FAO基于AGROVOC开发的Concept Server Workbench 等;(三)术语网络服务设计与实现术语网络服务开展的基石是对受控词表本身进行科学有效管理。如果将受控词表看作是一种信息资源,其具备从产生、发布、集成、变更以及退出的信息生命周期。第一阶段:基于词表的整体(Scheme)层次,提供各种词表的元数据描述和使用统计等相关描

10、述。第二阶段:跨词表的基于术语层次的概念语义揭示与检索服务,包括单个概念主题的检索与关联发现,术语网络浏览,术语编辑与修订,提供特定应用需求的术语集合等。第三阶段:在前两层的基础上以概念、术语、语义层次的规范结构化机制对外向第三方应用提供服务。具体应用领域包括:自动分类与索引、命名实体识别、计算机辅助翻译与自动翻译、查询扩展与限定、语义推理等。术语网络服务设计与实现第三节 语义网信息组织/sciammag/?contents=2001-05语义网(Semantic Web)是对现有网络的扩展,信息拥有良好结构定义的涵义(well-defined meaning),促进更好的人机协同工作。智能代

11、理Agent通过对分布式异构网络的有效访问和检索,从中抽取、组合、加工所需情报,帮助用户寻找解决方案,提高办事效率以及贴心提醒服务等近似科幻情景,向大众描绘了语义网实现的美好愿景。语义网(一)万维网与互联网资源结构关系对比(二)语义网技术架构/wiki/Semantic_Web纵观语义网技术架构,目前研究重点集中在第三层到第六层。第三层涉及RDF资源的描述与发布共享研究;第四层是RDFS词汇集的映射与互操作研究;第五层是本体构建与检索利用研究;第六层是基于本体的语义推理研究等。第七层和第八层目前还没有实现。二、本体模型 (一)本体的涵义及作用根据Gmez-Prez等认为本体由五个部分组成:概念

12、(Concept)也被称为类Class,领域内所有专指概念,采用面向对象思想,拥有相同属性的一类对象的集合。对概念进行层次梳理形成本体骨架(Taxonomy)。本体的概念与之前提到的受控词表概念空间的道理相同。实例(Instance)是特定概念类之下的具体实体。例如:若“狗”是一个概念类,那么“哈士奇”就是“狗”这个概念的一个实例。根据本体建模特定需要,同一领域本体的概念类与实例划分可能不同。Cont.关系(Relation)指领域内概念、属性、实例之间的交互(interaction)明确化定义。本体中常见的语义关系有整体与部分关系Part-of、等价关系sameAs、继承关系kind-Of、

13、概念与实例关系is-a等。函数(Function)是一类特殊的关系。在关系上附加约束条件,可唯一确定函数取值。公理(Axiom)也称为断言(Assertion),作用在概念和属性上的规则,实现语义推理的基础。本体的作用概念描述:通过概念描述揭示领域知识;语义揭示:本体具有比RDF/RDFS更强的表达能力,可揭示更丰富的语义关系;一致性:本体作为领域知识的明确规范,可以保证语义的一致性,从而彻底解决一词多义、多词一义和词义含糊现象;推理支持:本体在概念描述上的确定性及其强大的语义揭示能力在数据层面有力地保证了推理的有效性。1.按照本体的领域依赖程度与侧重分:顶层本体:描述普适性的概念,例如,时间

14、、空间、地区等一般范畴概念,具有一定通用性。顶层本体可在不同学科领域之间复用,类似通用复分表的作用。常见的顶层本体有OpenCyc、SUMO等。领域本体:针对特定领域的概念及概念关系,在专业领域里达成共识和共享交换基础。大多数本体构建属于领域本体。任务本体:围绕任务的结构、方法、推理、行动等方面展开,研究可共享的问题解决方法,主要涉及动态知识。应用本体:将领域本体与任务本体结合起来,设计针对具体应用的本体。(二)本体的类型2.按照本体的形式化程度分:完全非形式化本体即采用自然语言的本体,只具备用户阅读理解功能,计算机可理解性最差。(2)结构非形式化本体即采用受控的人工语言表示本体,具备一定规范

15、控制水平。(3)半形式化本体即采用人工定义的形式化语言表示的本体。(4)完全形式化本体形式化语言表达上最为严谨规范,具备一致性与完整性检验。以上对本体的划分方法,从不同角度展示了本体研究的复杂性。(三)本体的构建方法1.本体构建原则(Thomas Gruber本体设计的五个原则):明确性(clarity):本体中的概念应有客观、明确的形式化定义。一致性(completeness):概念定义本身与其推理之间是相容的,公理在逻辑上一致。可扩展性(extendibility):本体是一个动态演变的有机体,具有共享和被复用修改的扩展性。最小编码偏好(minimal encoding bias):本体的

16、概念体系应建立在知识层面,不要过于强调符号层面的处理。最小本体承诺(minimal ontological commitment):本体建模过程中尽可能减少约束声明,方便未来跨领域跨系统的共享。Gruber, Thomas R. Toward principles for the design of ontologies used for knowledge sharing?. International journal of human-computer studies 43.5 (1995): 907-928.2.本体构建步骤确定本体的领域和范围。考虑重用已有本体。不要重新发明轮子,善用已

17、有相关本体与词表素材资源。罗列领域内的重要概念。定义概念及概念体系。这一步主要是分类结构的建立,可采用自上而下、自下而上或两者相结合的方式。定义概念的属性(slot,槽值)。这一步强调语义属性的建立。定义属性的分面(facet)。包括取值类型、取值的基数限定(candidates)、定义域与值域等。创建实例(Instance)。根据概念类添加具体的实例,通过类的继承关系,3.本体构建工具Protg 三、语义网形式化表征语言从语义复杂度递进的角度看:OWL是本体表征的终极理想语言;基于RDF的各种应用是当前适应资源表征的中级形式化语言,具有一定的语义表达能力,但语义丰富度和推理规则较弱。OWLO

18、WL建立在RDF之上,扩展了RDF/RDFS的语义能力,使用DL(Description Logic)作为推理机制,具有较完备的推理能力。它的前身是DAML+OIL,现在由W3开发维护,目前最新标准是OWL2。OWL由3个子语言组成:OWLLite 用于简单分类和属性约束的本体构建。OWLDL在OWLLite的基础上提供推理能力,属性约束完整。OWLFull提供最大程度的表达和无计算保证的RDF语法自由能力。目前的本体开发处在OWLLite和OWLDL两个层次,完备的OWLFULL本体非常少见。四、关联数据关联数据的定义:关联数据不是一种具体的语义网技术,而是基于RDF模型,采用URI命名网络

19、对象,通过HTTP协议进行网络数据发布和资源关联检索发现。关联数据的发布原则(1)使用URI作为网络上任何事物的标识名称;(2)使用HTTP URIs让任何人都可以访问到;(3)当有人访问某个标识名称时,提供有用的信息;(4)尽可能提供相关的URI,以便人们可以发现更多的事物。关联数据云图以DBpedia为核心的关联数据集在以飞快速度扩张,不断变大的关联数据云图就是很好的例证。截止2013年底,关联数据云图中的数据集已达到319个。第四节 网站信息架构信息架构(Information Architecture,IA)是组织和设计信息空间结构的一门艺术与科学。这一专有名词是由美国建筑师理查德沃尔

20、曼(Richard Wurman)先生于1975年提出的。国内理论研究多将IA翻译为信息构建,互联网行业多采用信息架构这一说法,二者本质相同。一、信息架构的内涵真正互联网意义的信息架构始于1998年Peter Morville和Louis Rosenfeld共同撰写的Web信息架构:设计大规模网站(2002年第二版,2006年第三版),该书对信息架构的理论、方法、技术、行业等多角度系统化论述,开创了网站信息架构的专业领地,两位作者也被视为网站信息架构之父。图书、网站与图书馆的信息架构解释比较框架信息架构图书网站图书馆信息架构组成封面、书名、作者、章、节、页、目录、索引等主页、导航条、链接、内容

21、页、网站地图、搜索等内容存取、销售产品、达成交易、促成合作等出版物收藏与借阅目的维度二维;线性、顺序展示多维信息空间,超文本链接浏览多媒体、文件格式、文档类型图书、杂志、音乐等构成界限可触摸且边界,明确的开头和结尾无形边界,与其他网站之间存在各种联系分布式运行、子网站各自维护高度集中化,物理馆藏实体集中程度信息架构三圈图强调人、信息以及人与信息环境的相互作用。用户涵盖其服务的受众、需求、任务与搜寻行为、体验效果等;内容涵盖资源对象、属性与结构等;情境指目标、技术环境、资源限制、政治文化影响等。一个好的信息架构设计必须重视用户的需求与搜寻行为,把控网站内容的质量与数量,切合目标与愿景,具有较好的

22、环境适应性与动态变化性。信息架构学会足迹致力于全球推广信息架构的非营利性专业组织,成立于2002年,目前多地设有分会,拥有1200多名会员。美国信息科学与技术学会ASIST是信息架构研究交流的主要推动者之一。ASIST每年举办一次信息架构峰会(IA Summit),自2000年以来已举办14次。2014年将迎来信息架构峰会十五周年。客观讲,信息架构峰会是信息架构发展最深刻的一面镜子,从中可以了解过去,把握未来发展。2000年4月-定义信息架构;2001年2月-实践信息架构;2002年3月-完善技艺;2003年3月-建立联系;2004年2月-开辟新天地;2005年3月-跨越边界;2006年3月-

23、学习、行动、销售;2007年3月-丰富信息架构;2008年4月-体验信息;2009年3月-扩展视野;2010年4月-发生在大厅的最佳对话;2011年4月-更好地提问;2012年3月-跨渠道体验;2013年4月-观察、构建、分享与重复;2014年3月-前进的道路。二、网站信息架构剖析信息架构作为底层基础性工作,涉及的内容和方面很多,精心的设计与辛勤的劳动并不一定被用户在访问网站时深刻了解到。其实,也不需要用户刻意了解,好的信息架构是无形的。用户只关注到他们的信息查找与问题求解,顺利愉快地完成任务,不会迷失找寻方向和遇到难以理解的障碍,这就是好的信息架构。组织系统标识系统导航系统搜索系统(1)组织

24、系统网站信息架构的基础,本质上是结构化信息组织活动,形成信息描述与组织方案,搭建起网站框架。以精确与模糊的组织方法为指导原则,大型网站组织系统中主要采用等级分类法与分面分类法两种。分面分类法是网络信息架构吸收应用最成功的一个典范,目前成功应用于专题资源库、电子商务商品分类、搜索发现界面等。多维度划分和归类事物的分面分类思想是一种通用认知方法,遵循人们多角度看待事物的自然方式。标识系统是关于语词命名的方式。如何以用户可理解的方式对内容对象进行描述,使得组织系统更容易被接受,导航标签与搜索辅助指示更加通俗易懂等,这些都是标识系统的目标。标识系统主要涉及的信息组织方法有:元数据描述同义词环规范文档叙

25、词表常用网络术语(2)标识系统元数据描述为标识系统提供了如何准确严谨描述内容对象的现成方法。对元数据方案的复用是表达与理解一致性的有效手段,例如,网络资源通用元数据DC、相片元数据EXIF、音乐元数据ID3等。同义词环是具有等价关系(或类似特定含义)的词汇连成一个环,环上所有的词是等价的。这样的标识结构意义在于,当用户输入同义词环上任何一个词汇进行搜索时,就把环上其他所有词放入查询表达式中,执行或(OR)操作,目的是降低因为采用词汇表达形式不同而带来的漏检率。规范文档比同义词环更进一步,它是图书馆著录中对标目一致性的规范化取值依据,是首选术语与专有名称的集合。网络信息架构借助规范文档对内容对象

26、和栏目名称进行谨慎命名,确保精确性和领域一致表达,避免随意性。规范文档还包括各个专有名词对应的其他名称表示,因此,通过其他名称表示指向规范名称,对搜索而言,起到入口词与规范检索词的映射。叙词表为标识系统提供了大量已有专业词汇表达,以及丰富的语义关系,对用户而言是不可见的,作为系统内部的受控词表,改善词汇质量与搜索效果。一些常用网络术语在设计标识时应认真考虑采纳,不要试图标新立异,普遍共识是最安全的标识设计,新的标识命名需要广泛调研讨论。用于标识系统的常见网络术语,例如,首页、主页、联系方式、关于我们、新闻&大事记、声明、帮助、FAQ(常见问题解答)等。(3)导航系统网络信息架构的导航系统是在组

27、织系统搭建的信息空间结构中,提供辅助浏览与定位功能,并通过标识系统与用户交互。与盖房子类比,组织系统是建造房子的主体框架,导航则是增加门窗。导航系统主要在用户的浏览行为中提供引导支持,帮助用户知晓人在哪里、去过哪里、可以去哪里以及提供怎么去的路径。全局导航(Global Navigation)始终显示在整个网站特定位置的,一般表现为页面顶端的导航条,连接重要栏目板块和包括一个首页返回链接。无论用户处在网站的哪个位置,都能通过全局导航实现大幅度的快速跳转。局部导航(Local Navigation)是用户进入特定栏目或主题下展开的导航设置,作为全局导航的辅助扩展。局部导航提供的访问内容可能差异巨

28、大,每一个局部导航栏目也可称为站内子网站。情境导航是根据当前页面的信息内容,延伸或关联到相关页面的启发式链接,类似“参见”链接效果,例如,电子商务网站进行的相关产品推荐,资讯类网站的相关文章或类似主题就是情境导航的应用场景。辅助导航是一组导航形式的统称,包括面包屑导航、网站索引、网站地图(SiteMap)等。导航的方式(4)搜索系统狭义的搜索是指关键词搜索,知道要找什么,将需求表达为关键词,提交到搜索引擎得到相关信息。此处与网络搜索引擎密切相关,又不完全重合。此处的搜索系统主要指面向网站与企业内联网的站内搜索,其构建原理与搜索引擎相同。三、信息架构与搜索体验从信息架构角度改升搜索体验将信息检索

29、(技术主导)和信息搜寻行为(认知主导)两方面结合起来,提出信息组织与检索研究的转变思路,从文档匹配的分析方式走向对信息搜寻所有阶段的直接引导(Guidance)的发现过程,目的是改善用户的搜索体验。 用户体验要素模型Jesse Garrett在用户体验模型中,将信息架构融入更广泛的互联网产品与服务设计之中,与其他设计方面密切配合,扩展了信息架构的实践内涵。战略层范围层结构层框架层表现层第五节 Web2.0信息组织方法Web2.0信息组织方法Web2.0强调以人为中心,发动群体智慧,在用户参与内容组织的过程中形成人与人的联系和互动。网络信息资源组织的主体已经由专业网站扩展到个体用户,从专业组织的

30、制度化、把关式的模式扩展为更多“自组织”的个性化描述和组织形式。与传统内容出版相比,Web2.0用户参与的内容创建体现出片断化、碎片化的非系统化特征。微内容(Microcontent)的概念是可用性研究学者Jakob Nielsen于1998念提出的,早期是指介绍正文的标题、天气预报等简单内容。真正地意义上的兴起还是Web2.0环境中用户创建的各种内容片断,例如微博、评论、图片、视频等。标签法Tagging、维基wiki、集成融汇Mashup一、标签法Tagging标签法产生的大量标签集合以及基于资源链接的主题相关性产生的语义关系最终组成一个扁平松散式的体系结构Folksonomy(分众分类法

31、)。Folksonomy是由Folks和axonomy组合而来,指“群众”自发性定义的平面非等级标签分类。有“分众分类法”,“通俗分类法”,“大众分类法”, “民众分类法”等不同翻译.Folksonomy特点:由个人自发性定义。标签分类是公开共享的,可以被所有人看到。这种分类法是由用户群体定义的频率来决定。 -维基百科定义Folksonomy分类法、叙词表结构扁平松散层次结构,具有严谨的逻辑性自由民主集权,专家权威用户主导领域专家,专业分类人员简单便利门槛高,需要学习分布式合作集中制编撰动态变化更新周期长Folksonomy VS 分类法、叙词表 标签的最大优势是赋予用户使用自然语言自由标引资源的权利,越多的标签词汇为用户查找相关信息提供了更多的查询入口,但这些处在一个平面内的标签也使得查询越来越困难,资源组织体系越来越混乱。绝对的自由是不存在的,自由必然存在规律的约束中。因此标签应用的发

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论