




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章
信息资源的分布及其规律《信息资源管理》目录content2马太效应0101帕累托法则0202长尾理论0303信息增长与老化规律0404文献计量学的三大基础规律0505网络信息分布:互联网结构及规律0707引文分布规律06063.1马太效应3马太效应的基本含义及具体表现01基本含义20世纪60年代由美国社会学家罗伯特·莫顿(R.K.Merton)首次提出好的愈好,坏的愈坏,多的愈多,少的愈少的一种现象存在于主体与他者之间的一种心理现象,在个人发展、企业、国家的竞争乃至生物演化中都普遍存在具体表现经济领域:贫富差距的存在和扩大,富者越富、穷者越穷科学活动领域:科学奖励系统、科学交流过程、科研机构等信息资源领域:网络信息资源在地域上分布不均、核心出版机构、领域核心期刊、核心作者等4马太效应的基本含义及具体表现01信息资源分布的马太效应信息的核心趋势高产作者群体的形成:在某一主题领域,可能出现少数的作者群体发表了大部分文章高频关键词的出现:某研究领域或学科部分关键词出现频次非常高主要期刊信息密度增大:部分的主要期刊刊载了学科领域内大部分文章……信息的集中取向高被引论文被多次引用:获得较高被引次数的论文,之后获得引用的概率更高热门网站的点击和浏览:点击和浏览较高的网站,之后频繁被用户点击和浏览的概率更高图书的频繁借阅……5马太效应无处不在的原因026规模效应:如经济领域,规模化经营会给带来巨额利润、可以降低生产成本领先效应:“一步领先,步步领先”,在这种领先过程中,有利的客观条件会逐渐向领先者倾斜,落后者要想追赶上这些人就相当困难齿轮效应:大齿轮转一圈,小齿轮要转许多圈;时针走一圈,分针要走六十圈;分针走一圈,秒针要走六十圈资源效应:优势的形成的过程就是对资源占有以及加以利用的过程,占有的资源越多,利用的越充分,优势就会明显上升马太效应的影响037积极影响:激励作用,有利于人们充分发挥主观能动性对科学活动的积极影响形成某学科的学术权威,指导和引领科研人员探索提高整个学术团体的学术地位和影响力正确的学术思想更容易得到传播、认可和发展保障学术团体的正常运转、协作和发展对信息分布的积极影响在信息资源的管理上,突出重点,摒弃平均,有利于信息资源的选择、获取、平均和开发利用在理论上,帮助人们认识信息集中和离散的特征、趋势和规律,发现信息分布的基础定律马太效应的影响038消极影响:资源的不公平分配对科学活动的消极影响不利于发扬学术民主、不利于学术创新学术成果认可和激励上的等级差异对信息分布的消极影响信息分布的富集现象容易导致过分重视核心的信息源,忽略其他信息的价值(例如零被引文献)优势和劣势的积累限制了新思想、新知识的传播,信息工作者不求革新,颠覆性创新不受重视信息聚集造成信息价值评价误差3.2帕累托效应9帕累托效应的产生与发展0119世纪末,意大利经济学家帕累托(V.Pareto)基于大量事实提出,社会上20%的人占有80%的社会财富,即财富在人口中的分配不平均。20世纪40年代,美国管理学家约瑟夫·朱兰(J.M.Juran)在商业管理中发现80%的影响来自20%的投入,将描述社会财富不均的帕累托原理引入企业质量关系,并将该管理学原理命名为“帕累托法则”,又称“二八定律”。10帕累托法则的内容02
11
帕累托法则的内容02帕累托分布的累积概率分布函数为:12
帕累托法则的内容02帕累托分布的概率密度函数为:13
帕累托法则与马太效应03帕累托法则与马太效应是对同一现象(即资源分布不平衡)不同表现形式的总结马太效应是指好的越好、坏的越坏或者多的越多、少的越少的一种现象帕累托法则是发现大多数财富掌握在极少数人手里在两者思想之上更具有总结性的规律是“幂律分布”马太效应与帕累托法则的区别:马太效应是对现象的描述,帕累托法则是根据社会现象通过数据进行统计上的验证和总结马太效应描述的是强者越强的动态资源分布,帕累托法则是对资源分布不均的静态描述在马太效应和帕累托法则的应用中,马太效应强调对消极影响的规避,实现资源合理分配;帕累托法则运用统计方法,利用资源分布不均现状,鼓励人们关注“少数”而获得更多“资源”14帕累托法则的应用04数据分析中的二八定律思维二八定律可以用来检验两组类似数据之间的关系,发现两组数据关系的关键起因。如20%的投入有80%的产出,20%的维基百科词条获得了80%的访问。不同于线性思维,二八定律关注影响某一变量的关键原因,
检验被大多数人所忽视的非线性关系。科学技术的突破创新20%的科学文献获得了80%的被引计数,20%的科学研究实现了80%的科学创新与突破。因此,关注头部文献的创新模式有助于推进科学突破的进程。APP应用的UI迭代一个移动APP大多拥有几十甚至上百个UI页面,然而仅有少数的页面是用户经常用的。因此在APP应用更新时,将有限的资源和时间投入到少数关键页面能带来更大收益。153.3长尾理论16长尾理论的提出01在图书市场中,流通的大多数书籍难以找到自己的目标读者。由于销量少,许多书店和出版商只能将畅销书作为经营的核心,关注“头部”图书,即“二八原则”,20%的图书支撑了80%的销售额。亚马逊作为一家万亿市值的电子商务公司,其超过一半的图书销售量都来自在排行榜上位于13万名开外的图书。如果以亚马逊的销售数据统计为依据,这意味着那些并不在实体的线下书店销售的图书要比那些摆在书店书架上的图书具有更大的市场。显然,亚马逊意识到了“尾部”图书的需求一直存在。17案例:长尾需求——亚马逊在长尾书中的市场长尾理论的提出01在传统的图书销售中,由于货架、门店、消费者找书成本等供给瓶颈抑制了需求曲线的长度,并非真正的需求本身如此。库存和销售成本近乎为0的亚马逊线上书店,做到了藏书量在百万以上,有限货架变成无限货架,降低搜索和获得成本,让消费者可以接触到更多的图书,大大拉长了被忽视的“尾部”需求。18案例:长尾需求——亚马逊在长尾书中的市场长尾理论的提出01“长尾”(TheLongTail)这一概念最初是由美国《连线》杂志主编克里斯·安德森在2004年提出。安德森观察到在互联网企业的销售中,以数量、品种为二维坐标的需求曲线拖着长长的尾巴,向“品种”横轴尽头延伸,“长尾”因此得名。“长尾理论”被认为是对传统的“二八定律”的颠覆。如果以海洋和陆地来形容市场,过去由于海平面的限制,人们只能接触到小部分的陆地。而到互联网时代,海平面的下降使得真正的需求曲线出现,被忽视的尾部越拉越长。19大数据时代的长尾资源开发及应用02随着大数据时代的到来,长期被忽视的长尾数据的价值和潜力逐渐得到重视,体现在:大数据时代数据量的急剧增加科学技术的进步和成熟互联网普及和应用20大数据时代的长尾资源开发及应用02科研活动中的长尾现象科研资助中,80%的资金用于资助小投资项目,在CSSCI中,近80%的科学文献来自省市级基金或无基金资助的成果,这些成果由于缺乏关注其价值被长期忽视。Heidorn[1]在调查研究中指出80%的科研活动都处于科研活动长尾部分,并首次将长尾理论概念用于描述科学研究中的科学长尾数据,进一步理解科学研究活动中的灰色数据。例如在科研产出中,20%的科研机构、团队、人员具有较高的科研成果产出,近80%的科研机构、团队、人员处在科研活动的长尾上;在科学期刊上,高影响力文章大多来源于20%的高影响力期刊,80%的期刊处在科研数据的长尾上而被忽视。然而80%的期刊也可能产生大量高影响力文章[2],小项目/机构的产出总和可能比大项目更多。21[1]HeidornPB.SheddingLightontheDarkDataintheLongTailofScience[J].LibraryTrends,2008,57(2):280-299.[2]SunY,GilesCL.PopularityWeightedRankingforAcademicDigitalLibraries[C]//AdvancesinInformationRetrieval,29thEuropeanConferenceonIRResearch,ECIR2007.Rome,2007:605-612.大数据时代的长尾资源开发及应用02隐藏在长尾中的“睡美人”文献科学论文的引用是科学论文影响力的体现,因此过去对于科学文献的研究重点关注高被引的头部论文。长尾理论的提出引起了人们对于尾部文献的思考,我们是否忽视了零被引文献的价值?通过对引文曲线的绘制,学者注意到有些论文发表后一段时间不受重视,多年后突然被大量引用,被学界称为“睡美人”文献。尤金·加菲尔德(E.Garfield)认为论文零被引除了研究创新和质量较低外,研究内容过于超前或具有变革性而不被引用[1]。“睡美人”文献代表着科学成果的重大发现,已有研究表明在1900—2012年间的诺奖获得者发表的论文中,“睡美人”文献有758篇[2]。隐藏在无数零被引论文中的“睡美人”文献其价值可能高于部分高被引论文。22[1]GrafieldE.UncitednessⅢ:ImportanceofNotBeingCited[G].CurrentContents,1973(8):5-6.[2]LiJ,ShiD,ZhaoSX,etal.Astudyofthe"heartbeatspectra"for"sleepingbeauties"[J].JournalofInformetrics,2014,8(3):493-502.3.4信息的增长与老化规律23信息增长的规律模型01普赖斯指数增长模型普赖斯(D.Price)考察统计了科学期刊的数量增长情况,用坐标轴形象地表示了文献增长规律。以文献量为纵轴,以时间为横轴,发现科学文献随时间呈指数函数关系。24
信息增长的规律模型01普赖斯指数增长模型局限性:科学文献并不总是按照指数函数关系增长没有考虑文献增长日益老化因素统计某年的科学期刊累计总数时没有排除已停刊的科学期刊k趋于正无穷时,科技文献的增量会趋于正无穷,因此不能预测文献的未来趋势25信息增长的规律模型01逻辑曲线由弗·纳里莫夫和格·弗莱托茨提出。文献的增长是有阶段性的:在初始阶段,文献的增长是符合指数增长规律;当文献量增长到某一定值的时候,其增长率开始变小;最后阶段文献缓慢增加26
信息增长的规律模型01逻辑曲线局限性:逻辑曲线是在大量统计基础上得到的结论按照逻辑曲线增长理论,当科学发展到一个阶段时,文献增长率为零,不符合实际27信息增长的规律模型01
28信息增长的极限02推动因素科学信息的增长主要受科学自身所属的环境条件所影响。第一,目前我们正处于社会化、移动化、网络化、物联化的社会,人们可以通过智能手机、移动终端、便携设备快速产生、分享和获取信息,并通过网络进行迅速地传播;第二,科学技术的不断发展,比如:载体技术、出版技术、电子计算机、现代信息技术等;第三,科研经费和科技人员的大量增加;第四,专业范围的扩大化和细分化以及学科之间的渗透;第五,科研活动的成果产出与转化的增速;第六,通信技术、出版技术、情报工作等的发展。29制约因素信息增长的制约因素主要包括用户因素和信息环境因素。第一,用户需求。用户对信息的需求是信息增长的根源,但随着信息复杂程度增加且质量参差不齐,用户对信息的需求开始降低或开始有选择性;第二,信息环境因素。信息环境瞬息万变,导致信息的增长存在不确定性。信息老化的规律03半衰期1958年由英国物理学家、科学学家贝尔纳(J.D.Bernal)提出的、使用物理学中测度放射性核素寿命长短的指标来衡量情报学中文献老化程度的概念。所谓文献的半衰期,是指某学科领域现时尚在利用的全部文献中的一半是在多长一段时间内发表的。计算方法:作图法。将统计数据制成引文频次分布表,以引文累积量或引文百分累积量为纵坐标,已被引文出版的年龄为横坐标作图,在图中找到与纵坐标上引文积累量或百分积累量一半处的对应点的横坐标T,即为所求结果。定量模型计算法。对统计数据建立文献老化模型,再根据定义找出半衰期的计算公式,将相应数据代入求得结果。30信息老化的规律03
31信息老化的规律03
32文献信息老化的影响因素04文献增长:文献的增长和老化一体两面,从不同角度描述科学的发展,阐明科学知识的修正率。学科差异:世界上93%~98%的科学杂志引用寿命为20年左右,但不同学科的文献老化速率差异甚大。学科发展阶段的差异:即使是同一学科,不同阶段文献的半衰期也具有差异。信息环境和需求:信息环境和需求。不同信息用户对文献信息的需求不同,因而信息利用者的需求及所处的信息环境就十分重要。33信息增长与老化的应用05在文献管理中的应用从信息增长的角度来看,科学文献信息增长规律的研究最早是出现在图书馆的文献管理中的。科学文献的数量以及未来的发展趋势在图书馆对于资料收集策略、经费分配、书籍期刊的购买等决策起着重要的指导作用。从信息老化的角度看,科学文献的老化规律能够指导文献情报服务效率的提升。将老化的文献从文献库中分离并剔除,一方面大大提高了有用文献的检索效率,减少老化文献对检索策略的影响;另一方面,图书馆的馆藏空间是有限的,大量的文献堆积将会导致藏书空间的拥挤,造成难以管理、流通差的问题。老化文献的剔除为馆藏空间腾出了更多的空间,提高有用文献的利用率。因此确定文献的老化在文献管理中至关重要。34信息增长与老化的应用05在科学研究和评价中的应用文献数量的增长变化规律是科学知识发展的直接表现,对于文献数量增长规律的探索其实质是对学科科学史发展的探索。很多对科学学及科学史的研究大多关注科学文献数量增长的规律来模拟总结某科学技术的发展过程及规律,如普赖斯指数等。因此科学文献的增长规律结合老化规律,可以完整地描绘科学发展的过程、速度及规律,更全面反映出科学发展历史中的知识继承以及当前科学发展所处的阶段。从学科角度来看,文献信息的增长及老化与学科性质密切相关。根据文献的增长及老化趋势的指标数据,能够在众多学科中识别出重点学科、重点研究领域及其发展趋势,确定学科所处位置,找出“领头羊”学科。同时,也能发现短板学科,帮助制定相应的学科发展政策。从文献价值发现来看,文献的增长及老化指标有助于了解文献的特性,相关规律能帮助我们从时效性方面确定科学文献当前的价值。35信息增长与老化的应用05在科学发展预测中的应用科学文献的增长规律是科技人员开展科学分析研究、掌握科技发展动态并进行科学预测的可靠手段。科学文献(如专利等)数量的增长能反映一个国家某项科学技术当前的发展水平。例如科技人员经常利用专利文献的发展变化来进行科学技术发展的分析。而从信息老化角度来看,俄国科学家米哈伊洛夫认为,对信息的老化问题的研究是建立在对已发表的文献进行分析的基础上,因此信息老化问题能够对未来的信息利用情况做出可靠的预测,支持科学决策。例如,对于半衰期较短的科学、技术,可以加强对相关学科或技术的报道、分析和传播。363.5文献计量学的三大基础规律37布拉德福定律01布拉德福定律的发现布拉德福(S.C.Bradford)世界著名的文献学家和化学家并非专攻图书馆学和文献学长期从事图书馆工作与波拉德等人合作,创建了英国国际目录学协会布拉德福定律创始人布拉德福定律被发现的客观背景:文献资源的分散现象客观不变存在学科交叉与关联现象的存在,即科学统一性原则文献统计研究是布拉德福定律产生的基础38布拉德福定律01布拉德福定律的发现布拉德福的统计数据:以“应用地球物理学”和“润滑”专业领域为样本统计了490种期刊,1727篇论文按照相关论文载文量的多少降序排列采用三种研究方法:区域分析、图像观察、数学推导39布拉德福定律01布拉德福定律的发现研究方法一:区域分析(按年平均载文量分为三个区)核心区:四篇以上的期刊相关区:多于一篇而小于四篇的期刊外围区:一篇或不足一篇的期刊结论:n1:n2:n3≈1:5:5240分区期刊载文数量(篇/年)应用地球物理学润滑期刊数量论文数量期刊数量论文数量核心区x>494298110相关区4≥x围区1≥x258404127152布拉德福定律01布拉德福定律的发现研究方法二:图像观察假设一定时间内(通常为一年)共有N种期刊刊载了某学科的论文(简称为“相关论文”)K篇,将这N种期刊按照所载“相关论文”的数量降序排列横轴表示期刊累计数的对数纵轴表示相关论文累积数描绘两个学科的相关论文分布曲线研究方法三:数学推导数学推导:对经验数据及公式作数学推导。41R(n)CBDNLogenR(N’)COAR(N)n1R(n1)N’布拉德福定律01布拉德福定律的内容如果将科技期刊按其刊载某学科论文数量的多少以递减顺序排列,可以将期刊分为该学科领域的核心区、相关区和非相关区,各区具有相同数量的文章。此时核心区、相关区,非相关区的期刊数量比是1:n:n2。42布拉德福定律01布拉德福定律的后续发展(1)维克利对布拉德福定律的推论英国情报学家维克利(B.C.Vickery)针对分区进行修正分区不同,比例系数就要发生相应的变化推论:n1
:
n1-2
:
n1-3
:…:n1-m=1
:
V
:
V2
:…:Vm-1n1-k(k=2,
3,…,
m)——第一区到第k区的期刊累计数量m——划分的区域数V——分散系数(或称为维氏系数)43布拉德福定律01布拉德福定律的后续发展(2)布鲁克斯对布拉德福定律的描述英国情报学家布鲁克斯(B.C.Brookes)布拉德福未能用数学公式进行描述创造性地用数学表达式来描述布拉德福定律发展图像分析方法,为其实际应用开辟了新的道路44布拉德福定律01布拉德福定律的后续发展(2)布鲁克斯对布拉德福定律的描述数学表达:R(n)=α*nβ1<=n<c
R(n)=k*lg(n/s)c<=n<=NR(n)——对应于n的相关论文积累数n——期刊等级排列的序号(级)α——第一级期刊中相关论文数R(1),也就是载文率最高的期刊中相关文章数C——核心区的期刊数,即曲线进入光滑直线部分的交点的n值N——等级排列的期刊总数β——参数,与核心区的期刊数量有关,大小等于分布图中曲线部分的曲率k——参数,等于分散曲线中直线部分的斜率,可用实验方法求得,当N足够大时,K=Ns——参数,其数值等于图形直线部分反向延伸与横轴交点的n值45布拉德福定律01布拉德福定律的应用46①
确定核心期刊使用区域法或图像法都能够确定特定学科的核心期刊⑤
用于文献检索利用布拉德福定律数学公式,可以预计完全检索n种期刊的论文总数,还可通过计算来评价文献检索的效率②
确定核心出版社⑥
动态馆藏的维护⑧
指导期刊订购工作④
指导读者利用期刊⑦
学科幅度的比较③
检索工具完整性的测定通过不断统计期刊流通的最小核心和连续区,预测未来一年的流通要求,同时通过布拉德福定律找到经常被利用的核心期刊,为准确地收藏服务确定某一遮盖度的文摘索引至少要摘索多少种情报源,也能通过实际统计数据与理论值进行比较来评价某一特定学科的检索工具的完整性对不同的学科的期刊论文数量进行分析,能得到大小不同的核心区和S值,学科的差别就得以体现通过统计分析各大出版社关于某一学科或专业的专著出版情况,从而掌握其专著的基本分布,确定某一个学科的“核心出版社”用“核心期刊”这种量的概念指导读者用“核心期刊”,为期刊选定提供证据布拉德福定律01布拉德福定律的应用在网络环境下,布拉德福定律也有用武之地:有研究表明,期刊网络下载频次在一定程度上能反映该期刊对于该专业的贡献大小和学术地位,并且在期刊中的分布具有明显的布拉德福分布特征。网页链接度的分布也可以用布拉德福定律进行进一步的研究。通过对网络中学术网站的网页数量的计量分析,得出网站的网页分布的近似曲线与布拉德福曲线较为接近,但又与传统文献的布拉德福定律存在着不同:网络信息资源集中的网站比较集中,马太效应特别突出。47洛特卡定律02洛特卡定律的发现洛特卡(A.J.Lotka)美国人口统计学家悉心于社会学术活动研究了生物体总体的动态状况,发展了“人口分析理论”,提出了“竞争增长率”提出了经典的“洛特卡定律”48洛特卡定律02洛特卡定律的发现洛特卡定律被发现的客观背景:大量的科研成果出现著述多寡的问题促使人们关注论文作者的分布规律引入了“科学生产率”的概念1926年,在美国一家人寿保险公司供职的统计学家洛特卡经过大量统计和研究,在美国著名的学术刊物《华盛顿科学院报》上发表了一篇题名为“科学生产率的频率分布”的论文,旨在通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献。这篇论文发表后并未引起多大反响,直到1949年这一成果才引起学术界关注,并誉之为“洛特卡定律”。49洛特卡定律02洛特卡定律的发现洛特卡的数据来源:选取化学和物理两个领域文献载体中的数据统计分析了《化学文摘》1907~1916年10年累积索引中的部分作者,即姓氏以字母A和B开头的6891位作者。分别列出发表过1篇、2篇,一直到346篇论文的人数。《物理学史一览表》包括了1900年前物理学领域内出现的1325位物理学家及其论著,取其全部数据进行统计。50洛特卡定律02洛特卡定律的内容生产2篇文章的作者大约是生产一篇文献作者数的1/4生产3篇文章的作者大概是生产一篇文章作者的1/9写n篇文章的作者数是生产一篇文章作者数的1/n2数学表达式:f(x)=C/x2C——某主题领域的特征常数f(x)——写了x篇论文的作者数占作者总数的比例等式两边积分可得:C=0.607951洛特卡定律02洛特卡定律的发展科学研究越来越复杂化、交叉化、高深化,科研合作现象显著洛特卡定律适用于文献多为单独杜撰的作者普莱斯发现论文数量与每篇论文的平均作者数之间存在着显著的关系普莱斯得到方程:f(x)=C/xnx——作者的平均合作论文数f(x)——写x篇论文的作者占作者总数的比例C,n——参数52洛特卡定律02洛特卡定律的应用53①
情报学和图书馆学方面预测发表不同数目文章的著者数量和特定学科的文献数量,便于进行文献情报的科学管理以及情报的理论研究②
预测科学方面④
反映科技劳动成果方面③
科学学和人才学方面研究人才的著述特征,便于科学学的理论研究和科学史的探讨,从而为整个科学学和人才学的研究提供新的途径和手段。统计科学著者数量来预测文献数目的增长速度和文献流的动向,掌握文献的交流规律科学论文的发表数量是评价科研人员劳动的主要指标。可以利用洛特卡定律考察某一个学科内,科研人员一定时期内以科技文献形式出现的科研成果状况。⑤
掌握科学论文的作者队伍对科学论文作者结构的统计和计量分析,可以了解科学活动的特点,掌握科学发展的规律,预测科学发展趋势的前景,从而合理地组织科研队伍,加快科学发展的速度。齐普夫定律03最省力法则齐普夫(G.K.Zipf)《人类的行为与最省力法则--人类生态学引论》对“最省力法则”作了精辟的论述。每一个人的运动,不管属于哪种类型,都是在一定道路上进行的,而且将受一个简单的基本法则的制约,千方百计地选择一条最省力的途径。54齐普夫定律03最省力法则与词频分布定律进行语言表达时,“最省力法则”使我们就像受到两个方向相反的力的作用一方面希望被别人理解,一方面希望尽量简短两力取得平衡,自然语言词汇的频次分布呈现双曲线词汇是表达和载荷信息的基本单元。词汇的选择、使用及出现频次影响着信息的分布。55齐普夫定律03齐普夫定律的内容齐普夫(G.K.Zipf)美国哈佛大学著名的教授、著名语言学家和心理学家用大量的统计数据来验证前人有关词频分布规律的研究成果进行深入系统的理论研究,最终发现齐普夫定律56齐普夫定律03齐普夫定律的内容将一篇较长文章(约5000字以上)中每个词出现的频次统计起来按频次递减顺序排列,并用自然数给这些词编上等级序号等级值和频次值的乘积是常数数学表达式:Fr*r=C(C为常数)Fr——该词在文章中出现的频次r——该词的等级序号57齐普夫定律03齐普夫定律的内容若N为文章所包含的词汇总数(词容量)其表达式为:fr=c*r-1fr——该词在文章中出现的频次,且fr=Fr/Nr——该词的等级序号c——常量,且c=C/N58齐普夫定律03
59齐普夫定律03
60齐普夫定律03齐普夫定律的应用齐普夫的表达仅适宜于中频词的情况,高频与低频词与该表述偏差较大。中国数学家和语言学家周海中曾经指出:齐普夫定律是描述词频分布规律的强大数学工具;作为经验定律,它仍有不足之处,有待进一步完善。研究词频分布对编制词表,制定标引规则,进行词汇分析与控制,分析作者著述特征具有一定意义。经验表明,中频词往往是包含大量有检索意义的关键词。而一篇文献全文输入计算机后,计算机是很容易检出中频词的。在文献标引和词表编制中的应用词表编制自动标引61齐普夫定律03齐普夫定律的应用在情报检索中的应用在建立情报检索系统时,一般都要建立倒排档(辅助索引),一个倒排档的大小,取决于同一属性字段内不同词的多少以及每个词的出现频率。通过大量研究发现,文献库中的词频特征与齐普夫定律是一致的,通过计算便可求出数据库所需的存储量。在科学评价中的应用运用关键词计量分析的方法展示一个学科领域的研究动向基于网络环境所进行的大规模的词频统计分析,提高了研究结论的可信度,受到科技管理部门的青睐。62齐普夫定律03齐普夫定律的应用在网络信息计量学中的应用有学者选取一个月内某网站收到的页面请求进行分析,发现网页点击率和网页链接率都符合齐普夫定律,并认为可以通过齐普夫曲线分析网站的受欢迎程度[1]。还有学者发现,二重齐普夫模型可用于挖掘网页访问量与目标网址数量之间的关系,表述网页的受欢迎程度。另外,齐普夫定律还可以应用于论坛发帖者与发帖数量的关系分析。有研究表明,论坛发帖数量和发帖者数量、发帖数量和发帖者在论坛的等级之间的关系分别服从幂指分布和指数分布[2]。63[1]AidaM,AbeT,TakahashiN.AProposalofDualZipfianModelforDescribingHTTPAccessTrendsandItsApplicationtoAddressCacheDesign[J].IEICETransactionson
Communications,1998,E81-B(7):1475-1485.[2]邱均平.文献计量学(第2版)[M].北京:科学出版社,2019:119-131.3.6引文分布规律64被引量的分布01被引频次分布当随机选取一定数量的文献或某一领域的特定文献时,根据论文的被引频次进行统计分析可以发现其分布呈现明显的长尾分布,即少部分文献获得了大量引用,大部分文献处于零被引或低被引状态。张靖雯等[1]选取美国物理学会(APS)文献引文数据中累计被引次数在200以上且时间窗在20年以上的文献1475篇,发现论文累积被引在500次以上的文献仅占16%,总被引次数越大,论文数量越小,呈现长尾分布。65[1]张靖雯,孙建军,闵超.引文起飞的定义与量化方法研究[J].情报学报,2019(8):786-797.被引量的分布01
66[1]AvramescuA.ActualityandObsolescenceofScientificLiterature[J].JournaloftheAmericanSocietyforInformationScience,1979,30(5):296-303.被引量的分布01
67[1]EggheL,RaoIKR.Citationagedataandtheobsolescencefunction:Fitsandexplanations[J].
InformationProcessing&Management,1992,28(2):201-217.被引量的分布01
68[1]Sangam,S.Obsolescenceofliteratureinthefieldofpsychology[J].Scientometrics,1999,44(1):33-46.引文动态分布——引文扩散02引文是连接科学知识的重要线索,为我们提供了理解知识产生、交流、转化乃至创新规律的金钥匙。对于科学载体(如文献、论文集等)在科学系统被引用的动态演化过程称之为引文扩散。更具体地,引文的扩散是指某个知识主体(如一篇论文、一个作者的论文集、一个知识主题的论文集)的被引状态,在科学系统中动态演进的过程与现象。这种动态过程可以在时间维度发生,也可以在空间维度发生,反映了科学系统自身的发展演化。69引文动态分布——引文扩散02引文扩散要素引文扩散的影响因素多种多样,不仅受制于基本的引文规律,而且受到随机噪声、重要历史事件等因素的影响。时间环境:是指文献发表的时刻以及发表时所处社会环境的特征,最典型的是论文发表的年代。不同年代发表的论文,其引文模式存在显著的差异。首次被引:是指文献发表后第一次被引用的时刻。相当比重的论文在发表之后,终其一生可能也未被其他文献引用,某些论文则在发表之后获得较多的关注和引用数。引文高峰:文献被引的次数可能会在某些年份形成峰值,即之前与之后年份的引文都明显低于这一年,称之为“引文高峰”。引文曲线上体现出两种高峰。其一是“本地高峰”,即引文数仅在一小段时间内表现出峰值,而其他时段内可能存在另外的峰值,某些本地高峰可能会高于其他本地高峰。其二是“全局高峰”(或者称为“引文顶峰”),即在所有本地高峰中最高的那一个,也就是文献发表以来,达到最高年度文数量的时刻。70引文动态分布——引文扩散02引文扩散要素最终引文数量:这是一个相对抽象的概念,指文献在整个生命周期中,最终能够吸引到的所有引文数量的总和。引文累积速度:不同的文献在吸收引文的速度方面存在着明显的差异,有的文献快速积聚引文却后继乏力,有的文献启动缓慢却后劲充足。引文生命周期:是指文献从发表、兴盛到衰老、死亡的整个生命过程。以往的研究认为,一篇典型文献的生命周期是在发表之后2~6年达到引文峰值、然后开始衰老的过程[1]。文献网络/生态系统:文献网络是指经由文献之间的引用关系形成的网络系统。一篇文献通过引用其他文献和被其他文献引用,加入到文献网络系统中,引文的扩散也是在文献网络系统中进行。引文起飞(take-off):引文起飞是首次被引之后的另一个特殊时点,它衔接了文献从引入阶段到引文快速增长阶段的演进过程。71[1]AminM,MabeMA.Impactfactors:useandabuse[J].Medicina(BuenosAires),2003,63(4):347-354.引文动态分布——引文扩散02引文扩散结构所谓级联,是指某个事件一下触发后续一系列事件的反应。引文级联具体而言,一篇论文会被后续论文引用,后续论文还会被后续论文引用,如此往复,形成一个由源头论文出发的有向无环图。我们将这样的一个有向无环图称为一个引文级联。72图
某文献触发的引文级联3.7网络信息资源分布:互联网结构及规律73Web结构图与链接的相关概念01Web结构图图论中的图是由若干给定的点及连接两点的线所构成的图形,若以节点表示网页,用有向边表示从一个节点到另一个节点的直接链接关系,网络就可以用有向图来表示。互联网结构以Web结构为主,即由节点与连线构成的网状结构。其中节点可以是网页、网站、域名等,而连线则是网页、网站、域名之间的超链接。研究互联网结构的增长,则主要是研究这种网状结构中节点与连线互动式的增长。74图web的三维结构图Web结构图与链接的相关概念01链接的定义链接是指从一个网页指向另一个网页或同一网页不同位置的连接关系。所指向的目标可以是另一个网页,也可以是相同网页上的不同位置,还可以是图片、电子邮件、文件、甚至是应用程序。根据链接的箭头方向,链接可以分为:入链出链自链互链共入链共出链75图Web的二维结构图Web结构图与链接的相关概念01链接的功能链接可用于传达信息。不同学术信息交流类型的链接动机也不同,因此判断创建链接的动机可用于判断学术网络上信息交流的类型;搜索引擎与网站设计。链接分析算法用于对于检索结果排序可有效提高检索效率,而网站根据搜索引擎的工作原理和排序算法改进网络结构、提高网站内容质量以增加其可见度;网站健康度检查。通过分析网站中不同类型的链接数量等数据,可以评价网站的影响力和健康程度;知识挖掘。从链接分析算法与链接网络图中可以挖掘出网页、网站的潜在属性及潜在关联,以获得新的知识。76Web的相关理论02链接的幂律分布幂定律普遍存在于链接网络中,这一定律可用于解释网络拓扑结构的增长模式。Björneborn分析了英国学术网络中各站点入链数与出链数的分布特征,入链与出链的分布近似符合幂定律[1]。77图英国7669个站点的入链分布规律图英国7669个站点的出链分布规律[1]BjörnebornL.Small-worldlinkstructuresacrossanacademicwebspace:alibraryandinformationscienceapproach[D].Copenhagen:RoyalSchoolofLibraryandInformationScience,2004:11-27.Web的相关理论02
78[1]BarabasiA,AlbertR.Emergenceofscalinginrandomnetworks[J].Science,1999,286(11):509-512。图
大型网络中的幂律分布Web的相关理论02链接的幂律分布Web中的链接分布特征为:Web中的链接分布均服从幂定律;链接分布的对数散点图均呈扫帚形,即尾部较粗;Web中链接布幂定律中的幂指数呈稳定状态。79Web的相关理论02领结结构模型领结模型(Bow-tiemodel)是用于描述Web结构中的节点与连线分布的模型。AndreiBroder等[1]发现万维网包含一个超强连通分量SCC加上OUT、IN、TREDRILS、DISCONNECTED,显示出一种形象的结构80
[1]BroderAZ,KumarR,MaghoulF,etal.GraphStructureintheWeb[J].ComputerNetwork,2000,33(1-6):309-320.Web的相关理论02领结结构模型81图
领结结构模型Web的相关理论02领结结构模型M.Thelwall[1]根据上述的Web链接结构理论,以澳大利亚、新西
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国八合一读卡器数据监测研究报告
- 2025至2030年中国仪表显示盘数据监测研究报告
- 云南省红河州、文山州2024-2025学年高二上学期1月期末统一檢测物理试题(含答案)
- 安徽省安庆市潜山市北片中学2024-2025学年九年级下学期2月中考历史模拟试题(含答案)
- 2019-2025年军队文职人员招聘之军队文职管理学题库附答案(基础题)
- 2019-2025年军队文职人员招聘之军队文职管理学与服务强化训练试卷A卷附答案
- python考试试题及答案
- 2025年反腐倡廉知识竞赛试卷及答案
- 植物新品种知识培训课件
- 绿色物流园区建设项目合同
- Unit 1 Home 单元测试卷 重难点提优卷(含答案)译林版(2024)七年级英语下册
- 5.2 做自强不息的中国人 (课件)-2024-2025学年统编版道德与法治七年级下册
- 《材料科学与工程专业生产实习》课程教学大纲
- 陵园墓地代理居间
- 2025年宁夏警官职业学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 从入门到精通:2025年化妆基本步骤
- 移动传输汇聚机房施工项目
- 顶管选型及适应性评估方案
- 热性惊厥诊断治疗与管理专家共识(2017版)
- 防腐工安全操作规程范文(2篇)
- 2025年湖北日报传媒集团招聘笔试参考题库含答案解析
评论
0/150
提交评论