版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 核心期刊多源信息深度聚合模式及应用 摘要:针对核心期刊相关信息的分散异构,探索其在管理与服务中的创新应用。从3个层次聚合期刊相关信息,即数据层收集和整理各来源的核心期刊相关数据,信息层采用元数据和本体词汇对期刊相关数据及其特征进行语义规范描述,知识层基于本体和关联数据技术,从语义上揭示期刊信息各概念之间的关系,实现了中外文核心期刊信息的多维展示、关联发现和多维统计分析,并进一步分析其在采访决策和个性化服务中的应用前景。关键词:核心期刊,多源信息,深度聚合,知识组织1引言期刊是高校图书馆馆藏文献资源建设和服务的重点。在期刊采访、管理和服务等过
2、程中,其相关信息(如收录情况、影响力、分区、开放性、馆藏和利用情况等)多而杂,且来源广泛,具有无序性、独立性、多源性和分散性,给读者的发现和利用带来困难,也不便于对利用情况进行分析。为方便读者利用,进而指导高校图书馆馆藏期刊资源的建设,有必要对期刊的相关信息进行整合。邱均平等1认为随着读者需求的提升,对数字资源进行深度聚合是数字资源建设发展到一定阶段的必然要求。童旺宇2研究了图书相关信息的聚合,并指出其可为用户提供决策支持服务。对多源期刊信息进行聚合能够使期刊相关信息更为集中、有序,从而更好地为读者提供期刊信息服务,对其特征和利用行为的分析可为进一步优化馆藏期刊资源的配置提供决策支持。2相关概
3、念2.1核心期刊及其信息的多源性核心期刊是指学术水平较高的期刊,或某一学科中高水平、高影响力的期刊。英国文献学家布拉德福在1931年首先揭示了文献集中与分散规律,发现某时期某学科1/3的论文刊登在3.2%的期刊上3;1971年,sci创始人加菲尔德统计了参考文献在期刊上的分布情况,发现24%的引文出现在1.25%的期刊上4。这些研究均表明期刊存在“核心效应”,进而衍生出“核心期刊”的概念,同时在国内外产生了多种核心期刊遴选体系。国内核心期刊遴选体系有中文核心期刊要目总览(北京大学)、中国科学引文数据库核心库(中国科学院)、中文社会科学引文索引(南京大学)、中国科技期刊引证报告(中国科学技术信息
4、研究所)。国际核心期刊遴选体系主要有scie(收录理科工科类)、ssci(收录经济管理人文类)、a&hci(收录艺术与人文科学类)、ei(收录工科及少量管理类)等。期刊多源信息是指期刊的相关信息来源于不同的信息平台,其相关信息包括期刊刊名元数据、收录信息、分区信息、影响因子、开放性等(如图1所示),针对具体的高校机构还包括馆藏和机构成果等,这些信息分散于不同的信息环境中。图1核心期刊的多源信息2.2信息聚合聚合原意为将分散的个体聚集在一起。在互联网领域,信息聚合是指挑选、分析互联网上的海量信息并根据内容进行归类,进而为用户提供优质有用的更具针对性的信息5。本研究中的核心期刊信息聚合是指
5、针对高校的教学和科研需求,聚合各来源多维度的期刊相关数据,展示期刊的整体概貌,方便读者发现和甄别自己感兴趣的期刊,同时为图书馆期刊采访提供决策支持。3核心期刊多源信息聚合模式核心期刊相关信息类型多样、来源广泛且关联性强。对核心期刊相关信息的聚合不仅要收集期刊各个维度的数据,而且要对数据特征进行语义描述,反映其知识关联,以对期刊相关信息进行有效揭示。因此,根据数据来源和信息组织形式,期刊相关信息可从数据层、信息层和知识层3个层次进行聚合,在此基础上提供创新应用服务。聚合模式如图2所示:图2核心期刊多源信息聚合模式数据层聚合是对多来源的期刊相关数据进行收集和整理。数据收集是依据核心期刊收录标准收集
6、期刊的描述性元数据,以及与期刊相关的影响因子、分区、收录情况、开放特征、馆藏特征、机构成果、评价等数据;数据整理是对所收集的期刊数据进行去重、归并、规范化和数据增强等数据清洗工作,如期刊分类整理、重复数据合并、字段格式规范、缺失数据补充等,以保证期刊相关数据的完整性和准确性。信息层聚合是对期刊相关数据及其特征进行语义规范描述,以实现机器可理解。图书馆领域常用的语义元数据描述规范有dc、marc、bibo、frbr和prism等本体词汇。知识层聚合是对事物的本质及事物间的关系进行揭示和控制。对期刊信息进行知识层聚合是对期刊所涉及的相关概念及其关系进行有效关联,并进行语义描述。知识层聚合涉及的相关
7、技术有语义网、本体、关联数据和叙词(skos)等6-7,可从多角度揭示期刊信息的知识内容和相互关系。基于以上3个层次的期刊相关信息聚合所提供的创新应用服务有多视角期刊信息的分面导航、关联发现、多维统计分析、定制与推荐,以及为期刊采访提供决策支持等。4核心期刊多源信息聚合关键技术分析核心期刊多源信息聚合涉及的关键技术主要包括多源信息的etl(extract-transform-load,抽取-转换-加载)、期刊信息知识组织的本体概念模型,以及期刊相关概念属性元数据语义描述。4.1期刊多源信息的etl期刊多源信息的etl是指从各数据源抽取所需的数据,经过数据清洗,最终按预定的数据格式加载到系统中。
8、需要抽取的期刊信息数据类型、来源和收集数据要求如下表所示:期刊信息来源及数据要求数据类型来源收集数据要求期刊刊名元数据中文:国图期刊目录外文:ulrich's需要获取的期刊刊名元数据主要包括:刊名、历史刊名、issn、语种、出版频次、创刊年、简介、官网地址、分类等收录情况中文:cscd、cssci、北大核心、中信所引证报告等外文:scie、ssci、a&hci、ei等包括每一年各种类型的收录情况,主要元数据包括:刊名、issn、收录年、期刊分类、收录类型分区信息中科院期刊分区汤森路透期刊分区汤森路透期刊分区包含的信息有刊名、issn、分区年份、期刊分类、分区类型(q1-q4);
9、中科院期刊分区包含的信息有刊名、issn、分区年份、期刊大类、期刊小类、分区类型(1区-4区)、是否为top期刊影响因子jcr期刊影响因子需采集的信息主要有刊名、issn、年份、被引次数、影响因子、特征因子机构成果元数据中文:中国学术期刊网外文:wos、ei高校或科研机构的期刊文章元数据,主要包括:题名、作者、机构、期刊刊名、issn、年、卷、期、页码、关键词、摘要、doi期刊馆藏图书馆采购的电子刊、纸本刊馆藏纸本刊的主要信息有刊名、issn、馆藏年份、馆藏期刊号等电子刊的主要信息有刊名、issn、来源数据库名称、网址等开放特征doaj、gooa(中科院开放论文服务系统)等主要信息有刊名、is
10、sn、oa期刊类型期刊利用各期刊数据库厂商counter2标准中期刊报告1中的信息有标题、issn、月份、请求量(每种期刊成功的全文请求量)表中各种类型的期刊相关信息可从相应的来源网站下载或要求数据库厂商提供,由于不同来源的数据格式不一致,需要对数据进行清洗。期刊相关信息的清洗工作主要包括数据归并、数据规范化和数据增强。期刊数据归并,即对各来源的期刊相关数据与期刊总库做唯一性匹配。由于各种来源期刊的issn号和刊名可能与总库中的信息不一致(如刊名和issn号变更、书写方式差异等)而无法匹配,需要通过程序对各来源相关信息进行唯一性检测或人工整理,使其与总库的期刊相匹配。这是一项基础性工作。期刊数
11、据规范化,即对各个字段的格式进行规范统一,如issn号统一为xxxx-xxxx格式,年份统一为4位等。期刊数据增强,即当有些信息不全时,需从不同的来源进行元数据补充,甚至人工录入。4.2期刊信息知识组织的本体概念模型期刊信息知识组织的目标是对期刊相关信息进行整序,使知识存储有序化、易获取。本研究对期刊相关信息的知识组织是基于概念层次而非知识内容层次,采取语义网和本体(ontology)技术相结合的方式建模。期刊相关信息知识组织的核心是建立本体概念模型,模型主要涉及期刊相关概念、概念的属性及概念之间的相互关系。根据上表中期刊相关信息所包含的内容,其可定义的概念类有期刊母体、期刊文章、科研机构、科
12、研人物,以及期刊母体的属性概念子类:影响因子、期刊分区、收录来源、开放期刊、馆藏特征和利用情况。期刊相关信息本体概念模型如图3所示,概念和子概念以节点表示,各概念之间的关系以边表示,概念之间定义了关系,如科研人物是科研机构的成员(memberof),卷期是期刊母体的部分(ispartof),收录来源是期刊母体的子属性(subpropertyof)等,同时这些关系也是互逆的,各概念彼此之间构成网状关联结构,一个概念可以关联到其他各个概念。图3期刊相关信息本体概念模型4.3期刊相关概念属性元数据语义描述期刊相关信息本体概念模型建立了期刊各概念之间的相互关联,其概念、关系和属性要使机器可理解,需借鉴
13、本体词汇(如bibo、fabio、foaf、dcterms、rdfs、owl等)进行语义规范。对于扩展的词汇,本研究自定义扩展词汇的命名空间为journal。概念和关系的语义规范描述词汇已定义(如图3所示),下面对各概念的属性元数据进行语义规范描述。期刊母体类可用bibo:journal本体词汇描述,其数据属性为刊名(dc:title)、历史刊名(dcterms:alternative)、issn(bibo:issn)、语种(dc:language)、出版频次(dcterms:accrualperiodicity)、创刊年(prism:creationdate)、简介(dc:descripti
14、on)、主题分类(dc:subject);对象属性有官网地址(prism:url)。机构成果为机构科研人物所发表的期刊文章,概念类有科研人物(foaf:person)、科研机构(foaf:organization)、卷期(bibo:issue)和期刊文章(fabio:journalarticle),其数据属性主要有题名(dc:title、dcterms:alternative)、年(prism:year)、卷(prism:volume)、期(prism:issue)、页码(prism:page)、关键词(prism:keyword)、摘要(dcterms:abstract),对象属性有doi(
15、bibo:doi)。卷期类与期刊母体为属于与被属于的关系(ispartof/haspart),期刊文章类与卷期类也是属于与被属于的关系,期刊文章由科研人物创建(creator),科研人物为科研机构的成员(memberof)。期刊母体相关属性类的概念采用自定义词汇集(journal),其具有的子属性关系(rdfs:subpropertyof)的类有收录来源(journal:source)、影响力(journal:impact)、分区(journal:zone)、开放特征(journal:open)、馆藏特征(journal:collection)和期刊利用(journal:utilization
16、)。子属性类的数据属性有年份(prism:year)、月份(prism: month)、主题分类(dc:subject)、收录类型(journal:collectiontype)、分区类型(journal:zonetype)、top期刊(journal:top)、被引次数(journal:totalcites)、影响因子(journal:impactfactor)、特征因子(journal:eigenfactor)、请求量(journal:numberofrequests)、来源数据库(journal:database)、网址(prism:url)、oa期刊类型(journal:opentyp
17、e)。以上从语义上定义了期刊相关信息的概念类、属性及其关系,通过各概念之间的语义关联使期刊相关信息的各概念构成了一种网状关联结构,从而便于进行知识推理,从任意维度出发发现更多有价值的信息,便于期刊信息的深度发掘。5核心期刊多源信息聚合的应用基于上述核心期刊相关信息聚合模式,本研究收集整理了核心期刊的7类相关信息:最新收录、影响因子、分区、开放特征,以及某单位图书馆的期刊馆藏、机构成果和期刊利用数据,实现核心期刊信息导航展示与多维分类统计、期刊多维信息展示与关联发现,并对其在期刊采访决策和个性化服务中的应用前景进行分析。5.1核心期刊信息导航展示与多维分类统计用户可以从收录来源、分区类型和年份等
18、多个维度统计和展示各个学科类别或分区的核心期刊数量、oa刊数量、馆藏刊数量、友好刊数量(本机构成员发文的期刊),然后再导航到各类期刊的列表。一方面,可方便用户找到自己感兴趣的各种特征的期刊;另一方面可方便采访人员了解各学科的核心期刊分布情况。5.2核心期刊多维信息展示与关联发现期刊相关信息各概念之间的语义关联使具体期刊的相关信息发现更为便捷。一方面可以从多个维度聚合期刊相关信息,将期刊各维度的信息展示出来,如对于某一具体期刊可聚合期刊元数据,各种类型各年份的收录、分区、影响因子信息、期刊的机构发文、电子及纸本馆藏信息、期刊利用情况等;另一方面,期刊各概念关联层次的多级性使用户可以发现更多有价值
19、的信息,同时可关联到同学科、同分区或相同收录来源的相关期刊等。5.3期刊采访决策期刊相关信息聚合后便可从多个角度对期刊进行统计和分析,为图书馆期刊采访提供决策支持。高校图书馆在做期刊采访决策时,需要对期刊的影响力、利用情况、学科分区、馆藏特征、友好性和开放性等进行分析8。从聚合的核心期刊相关信息中可统计出本馆已订购各学科哪些核心电子刊、纸本刊;已订购的每种核心期刊在本校的利用情况、使用成本;各数据库中的期刊利用率情况;各学科中哪些核心期刊未订购;各学科未订购的核心期刊的影响力、开放性、友好性、来源数据库情况。这些都是期刊采访需要了解的信息,其统计和分析结果可为期刊采访提供决策支持。5.4期刊信息定制、推荐与服务融合在数字图书馆个性化服务中,期刊相关信息的定制是指用户自定义期刊相关主题、刊名、作者、收录来源和分区等组合的检索条件,系统自动把检索到的期刊或文章最新结果集提供给用户,使用户更加及时便捷地获取自己感兴趣的期刊相关信息。期刊信息的推荐是指根据用户的发文、借阅或检索行为等,把与读者行为相关的期刊信息、期刊目次或期刊文章推荐给用户。期刊相关信息服务融合是指将期刊数据服务融入其他平台,便于用户发现和利用。如融入图书馆学科信息服务系统,提供学科期刊信息服务;融入微信、图书馆个性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论