下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息内容的离散分布规律分析综述目录TOC\o"1-2"\h\u6487信息内容的离散分布规律分析综述 1327481.1布拉德福定律的概念 127541.2布拉德福定律在信息管理中的表现 170201.3齐夫定律的概念 2202501.4齐夫定律在信息管理中的表现 3224001.5马太效应的概念 41.1布拉德福定律的概念布拉德福定律(LawofBradford)也被称为文学散逸定律和文献分散定律,英国化学家和语言学家布拉德福德在上世纪五十年代提出的一个描述文献秩序结构的经验法则,适合于测量教育文学.它的内容简单来说就是:如果将某杂志按照发布某一学术领域的文献数目以逐渐减少的方式排列,就能够在全部文献里面找出载文率最高的主要部分和包含着与主要部分等数量论文的之后几区,这时核心区和后续各区中所含的杂志数成的关系(a>1).同一年,维克利通过分析对布拉德福定律作出了修改,而且把杂志分区的数目推广到了大于三个的更普遍的情形,提出了布氏定律的维克利修正式:(为常数,称为维氏分布系数,为前个区的杂志数量之和).1.2布拉德福定律在信息管理中的表现在布拉德福德定律在网络环境里面是否适用的问题上,上世纪九十年代,国外专家学者提出了网络计量学的概念,并进行了相应的研究.美国专家巴伊兰将论文及其发表信息的分布情况与各杂志及其论文进行了比较分析,确定了核心新闻组根据布拉德福定律,主题“疯牛”,发现布拉德福定律也存在于网络环境,但这个研究针对某一特定主题,它的数据有一定的局限性,通过对美国医学院校排名前二十多位的网站进行链接分析,发现网站链接存在集中、分散的现象,网站数量之比为78:452:1201,比较符合1:4:42,这说明医学院的网络链接是符合布拉德福德的法律的,但这一定律是否适用于所有网络环境,这一事实必须进一步审查.两位美国学者对MEDLINE数据库中关于RCT的文献作了文献计量分析,发现通过区域分析可知第四区的期刊数明显大于预测值,但是四个区的期刊数之比较接近于1:2.5:2.52(6.25):2.53(15.6)符合传统的布拉德福定律,但又有明显区别,文中对布拉德福定律的验证方法比较单调,不能从各个层面证明这种适用性.贝伦斯和卢克对无机晶体结构数据库中晶体学主题的文献进行分析,利用函数模型对数据样本进行分析研究,发现了晶体学题目的文献符合布拉德福定律的分布,这一研究主要针对数据库里面的数据并且只进行了单一方式的分析,并不具有非常显著的代表性.克里斯蒂娜·法巴·佩雷斯通过对我那个上空间链接状态的图像分析得出,有些图像并不符合标准的布拉德福分布且通过模块分析可知每个区域的比例数也都不符合的关系.1.3齐夫定律的概念齐夫定律是由美国哈佛大学的一位人类语言学家乔治·金斯利·齐夫于上世纪五十年代发表的实验定律.定律内容可以简单表述为:在人类自然语言的数据库里,某一个词出现的频率与它在频率分布表里的顺序形成反比例函数.因此,出现次数最高的这个词出现的次数大约是出现次数第二位的单词的两倍,而出现次数稍微减少的单词则是出现次数第四位的某个词的两倍.这个发现被用来做所有与幂定律概率分布相关联的数据的分析.举个例子,在英语数据库中,“the”是最经常出现单词,它在这个数据库中出现了大概百分之七(每一百万单词中出现大约七万次).正如齐夫定律中所说的一样,出现频率其次的单词“of”占了整个数据库中的百分之三点五(约四万次),第三位的是“and”(约三万次).仅仅一百三十多个单词就占了英语数据库的一半.齐夫定律是通过实践得来的定律,而不是一个理论.齐夫定律可以在很多地方中被观察到.齐夫分布的在现实中的起源一直没有具体的令人信服的说法.齐夫定律可以用图像来观察,坐标为(排名)和(频率).比如,“the”这个单词就可以描述为的点.如果所有的数据分布点几乎是一条直线,那么它就符合齐夫定律.最容易明白的的例子是“”.如果有一些齐夫分布的数据,以出现的频率多少来排列,那么排在第二位的频率会是第一位的一半,第三位则是第一位的三分之一,以此类推.然而,这并不非常精确,因为每一个项必须出现一个整数次数,一个单词不可能出现二点五次.但是,在一个较大区域内而且做出合适的约算,很多自然的现象都可以用齐夫定律描述.1.4齐夫定律在信息管理中的表现巴塞罗那自治大学数学研究中心的研究者最近使用数学和统计学的专业知识,对齐夫定律进行了严格的研究.该研究是对古登堡计划(一个将没有著作权的英文著作进行电子化的网络工程,里面有许多的资料可以无偿使用)的数据进行分析.这是一项非常大的试验工程,因为在早先的工作中一般只会使用一百篇以内的数据库.而实验结果显示,假如不统计那些出现频率非常低的词语,有百分之五十五的数据是符合的,如果全部统计在内,适用齐夫定律的数据也还有百分之四十.而且据这项实验的发言人所描述,假如把只出现了三次至五次的词语也不计算在内,那么符合定律的数据数量会更加庞大.在自然语言中通过齐夫定律我们可以发现,文章中词语出现的次数和其排序等级呈反比例关系,即是说这两个数的积是一个固定的数.对式子两边求自然对数可知:如果我们对于统计数据数据结果绘制一个与的关系曲线,即可得到截距和斜率.在我国也有很多专家展开了对齐夫定律还有齐夫定律相关应用的调研.就在前不久,江南大学的专家学者以诺贝尔文学奖得主莫言的作品《红高粱》,《蛙》还有《透明的红萝卜》来做了一个研究调查,他们研究了莫言的作品中字数出现次数和单词出现频率,得出了满足齐夫定律的结论.他们的研究发现包括西班牙语、法语、英语等在内的许多种类语言的成果是一样的.这个数据从统计学这一方面说明了莫言可以成为中国大陆第一位获诺奖文学奖的其中一个原因.在词语出现次数的研究中,主要采用了两种方法确定词语等级:1)随机法:齐夫第一定律在第一次被发现时,就是使用的随机法.随机法通俗来说就是在明确词语的等级的过程中,如果出现频率一样的词,那么就用统计文本中词语的自然词序或随机词序排列确定词语的等级,这样每个词的等级就是它的自然或随机词序.例如词序为第5-8的词是同频词,那么它们的词级随机排列则是5,6,7,8.2)并列法:并列法是指把遇到的同频词并列为一个词级,并延承上一个词级例如词序为第5-8的词是同频词,那么它们的词级就是5;若词序为第9-12的词也是同频词,那么这些词的词级则要延承上一个词级成为6.分词原则:(一)采用计算机来进行自动分词统计时,拿齐夫定律理论为根本,根据汉语自身的语言特点,参考《现代汉语词典》目录所给出的单词语言的词性,把保留词语意思的完整无缺作为前提条件.(二)地名、人名等这些专有名词要作为独立的词来进行划分.(三)统计时不计算标点或者不是汉字的符号.如果对一份报告里面出现的字词频率与序号以及等级的数据进行统计,就可以建立一个平面直角坐标系,那么横坐标久表示这个词的序号也就是等级,那么频次就是纵坐标,那么就会得到一条曲线,这就是齐夫分布曲线,它类似于双曲线的一半.然后我们再将等级序号与频次都求得对数坐标,那么我们所说的齐夫规律,也就是齐夫分布对数曲线.如果符合这种类型的分布,那么就可以说是是齐夫分布.齐夫定律已经在许多方面,例如语言、地理、经济、情报、信息科学、网络方面有了广泛的应用,而且有了很多有实际意义的成果.齐夫定律作为一种数学统计工具,在词语频率的规律描述上作用很大,但还是有很多的改进空间值得我么去探究.1.5马太效应的概念马太效应是在信息生产和分布中产生的一种规律,信息生产之后在时间和空间上传递时,可以形成优势与劣势两种情况.古时候的人将形成的这种优势与劣势称做信息分布里的马太效应.马太效应这一词语,来自于古代圣经中《新约·马太福音》这一篇文章中的“…谁如果有,就给他,并不断增加;而谁没有,就连已有的都要被夺走”.二十世纪六十年代,默顿--美国著名的社会学家,曾说:越有名的学者所发表的文章,越能人民所发现、所认识、所重视,越能聚焦更多的学术资源,越能更容易的把握热点、发表文章.这就是非常典型的一种马太效应.马太效应实际上是在描述一种优势与劣势的积累过程,一旦你处于比较优势的地位,这种优势便可以不断增强,变得更加优势;反之,如果你处于劣势地位,这种不利地位也会随意加深,达到更劣的程度.同时,马太效应也可以支配社会信息流,比如说,某些对象,它被选择的次数是不一样的,有的经常被人们或者其他事物所选择,有的却不经常被选择,而这些都是这个对象或者事物的特征的表现,同时这个特征又成为再次被选择的依据,从而就使信息分布与生产达到一种“富集”与“贫集”的情况.马太效应具有集中取向和核心趋势两个特点,集中取向是社会选择的结果,因为某些对象或事物具有某些特征,而被他人所接受,所利用.比如说一首音乐,它的点击率
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 信息技术课标的心得体会(8篇)
- 俄语专业生求职信
- 企业停电停水的应急预案范文(7篇)
- 中秋佳节致辞(8篇)
- 设计课件网站教学课件
- 谚语讲解课件教学课件
- 盲目从众课件教学课件
- 天桃实验学校八年级上学期语文1月月考试卷
- 环境应急预案的编写要点
- 自建房屋建筑施工合同(2篇)
- 3.9.1 增强安全意识-2024-2025学年初中道德与法治七年级上册上课课件
- 2024年“泰山杯”山东省网络安全职业技能竞赛理论试题库(含答案)
- 广东省2024年中考历史真题试卷【附真题答案】
- 2024至2030年中国大型铸锻件行业市场深度研究及投资规划建议报告
- 07J901-1实验室建筑设备(一)
- 异地就医备案的个人承诺书
- YDT 4470-2023电信网络的确定性IP网络 控制面技术要求
- 基于创客教育理念的幼儿机器人课程的开发与实践研究
- 工厂冷库储存应急预案方案及流程
- 2024年湖北省十堰市荆楚初中联盟八年级中考模拟预测生物试题
- 资源教室检查方案
评论
0/150
提交评论