信息计量学课件09-第5章_第1页
信息计量学课件09-第5章_第2页
信息计量学课件09-第5章_第3页
信息计量学课件09-第5章_第4页
信息计量学课件09-第5章_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息计量学

郑重——第五章齐普夫定律15.1齐普夫定律的形成(I)争论对象:词频,即某一个单词在文章或讲话中消失的次数。〔“相对次数”或“确定次数”〕“齐普夫定律”——“文献中的词频分布规律”1932年,哈佛大学的语言学专家齐普夫在争论英文单词消失的频率时,觉察假设把单词消失的频率按由大到小的挨次排列,则每个单词消失的频率与它的名次的常数次幂存在简洁的反比关系,这种分布就称为齐普夫定律。它说明在英语单词中,只有极少数的词被常常使用,而绝大多数词很少被使用。实际上,包括汉语在内的很多国家的语言都有这种特点。2乔治·齐普夫(GeorgeZipf)指出,使用最多的英语单词“the”占到了人们全部会话量的7%,排名其次的“of”的使用频率正好是“the”的一半,依此类推,第100个最常用单词的使用频率是“the”的百分之一。齐普夫定律示意,在任何序列中,后继者的价值会定量地削减。3早期争论:1898年,[德],编写了世界上第一部频率词典——《德语频率词典》;5.1齐普夫定律的形成(II)两个数量指标:“词的〔降序〕序号r”和“词频nr”1916年,[法]J.Estoup,觉察了在较长的文章中“词频nr”和“词序r”之间存在肯定的规律;r×nr=K〔K为常数〕1928年,[美]E.Condon,觉察了“词的相对频率fr”和“词序r”满足以下关系;fr=Cr-1〔fr=nr/N〕C为常数吗?4汤姆•索耶中的齐夫定律

〔Zipf’sLawinTomSawye〕

单词〔word〕频率〔Freq.(f)〕排名〔Rank(r)〕f∗r

the333213332

and297225944

a177535235

he877108770

but410208400

be294308820

there222408880

one172508600

about158609480

never124809920

Oh1169010440

55.1齐普夫定律的形成(III)齐普夫(GeorgeKingslyeZipf)的争论:1935年,出版《动态语言学导论》,对词频分布规律进展了系统争论,初步确立了“齐普夫定律”。1949年,出版《人类行为与最省力法则——人类生态学引论》,系统论述了“最省力法则”,奠定了“齐普夫定律”的理论根底,标志着该定律正式形成。争论样本:M.Hanley为《Ulysses》所编撰的频率词典。65.2齐普夫定律的根本内容5.2.1齐普夫第肯定律5.2.2朱斯的双参数公式75.2.1齐普夫第肯定律(I)文字表述:设有一篇文献包含N个词〔N≥5000〕,统计其中每个词消失的频次Fr,依据频次递减的挨次排列,并用自然数给这些词编上等级序号r〔L≥r≥1〕,则:

Fr×r=C〔齐普夫公式一〕或者

fr=c×r-1〔齐普夫公式二〕其中:fr=Fr/N,c=C/N参数c的性质:c等于“最高频词的相对频率”;一个与文献性质有关的参数,且0<C<0.1

。由可得:;85.2.1齐普夫第肯定律(II)图像:“齐普夫分布曲线”:负幂曲线〔双曲线〕“齐普夫分布对数曲线”:直线〔斜率为-1〕95.2.2朱斯的双参数公式1936年,[美]M.Joos,对“齐普夫公式”进展修正,提出了“双参数词频分布公式”:

〔b>0〕“齐普夫公式”是“朱斯公式”的一种特殊状况。〔b=1〕105.3齐普夫定律的机理分析(I)最省力法则〔thePrincipleofLeastEffort〕定义:一个人在解决面临的问题时,将尽量使自己付出的“力”最小。根本性质:“力”而是一种多种因素共同作用的总体代价,与问题的具体状况有关。“最省力”是带有主观涵义的,与决策主体有关。在各种人为选择中,人们都自觉或不自觉地共同遵循“最省力法则”。其他名称:最小功原则、最小努力原则、……11他认为,在语言沟通过程中,“省力法则”同时表达在说话人和听话人身上。说话人希望组成语言的词少,而且一词多义,以节省其精力。听话人认为最好是一词一义,使听到的词与其准确涵义简洁匹配,削减他理解的功夫。这2种节省精力的倾向最终平衡的结果,便是词频的双曲线型分布。125.3齐普夫定律的机理分析(II)“最省力法则”与“词频分布规律”“作者”“读者”“单一化的力”:只用一个词就可以表达全部概念为“最省力”;“多样化的力”:每个概念都用一个不同的词来表达为“最省力”;在“单一化的力”和“多样化的力”的共同作用下,文献中的词频分布满足“齐普夫分布规律”。135.4齐普夫定律的应用(I)信息治理领域:图书馆学、情报学、文献学、科技治理等。其他社会科学领域:语言学、科学学、经济学、社会学等。在文献标引和词表编制中的应用;在情报检索中的应用;在科学评价中的应用。145.4齐普夫定律的应用(II)在文献标引和词表编制中的应用词表编制依据齐普夫定律,可以使词表的编制有规律可循并建立在科学方法的根底之上,把词汇掌握在一个恰当的范围,从而提高词表的质量。自动标引定义:用计算机处理原文信息,将待处理的原文输入系统后,通过程序掌握对每个词的频率进展统计分析,筛选出适于标引的词进展标引;或者与一个特定的分类体系比较,进展分类处理。1958年,[美],提出了基于“词频统计”的自动标引方法:依据齐普夫定律,可以选用词频适当、功能较强、最能代表文献内容的词来进展标引。155.4齐普夫定律的应用(III)在情报检索中的应用倒排档〔invertedfile〕:把文献记录中一切可检字段或属性值抽出,依据某种挨次重新加以组织后所得到的一种文档。依据齐普夫定律,可以估算文献数据库所需的存储量,使得“倒排档”的建立有规律可循,从而更合理地组织情报检索文档。165.4齐普夫定律的应用(IV)在科学评价中的应用依据齐普夫定律,通过词频分析方法,来分析一个学科领域的争论现状和将来的进展方向。实例:1、加拿大蒙特利尔大学的纳米科技争论与进展报告

〔课本p152〕2、2023年国内外情报学进展动向分析

〔课本p154〕175齐普夫定律5.1齐普夫定律的形成5.2齐普夫定律的根本内容5.3齐普夫定律的机理分析5.4齐普夫定律的应用18案例争论Twitter是国外的一个社交网络及微博客效劳的网站,它利用无线网络,有线网络,通信技术,进展即时通讯,是微博客的典型应用。它允许用户将自己的最新动态和想法以短信息的形式发送给手机和共性化网站群,而不仅仅是发送给个人。2023年,博客技术先驱blogger创始人埃文·威廉姆斯(EvanWilliams)创立的新兴公司Obvious推出了大围脖效劳。在最初阶段,这项效劳只是用于向好友的手机发送文本信息。2023年底,Obvious对效劳进展了升级,用户无需输入自己的手机号码,而可以通过即时信息效劳和共性化Twitter网站接收和发送信息。19

梅特卡夫定律网络的有用性〔价值〕随着用户数量的平方数增加而增加。换句话说,某种网络,比方的价值随着使用用户数量的增加而增加。“150定律〔邓巴数字〕”该定律指出,人类智力将允许人类拥有稳定社交网络的人数是148人,四舍五入大约是150人。该定律由罗宾·邓巴〔RobinDunbar〕提出,罗

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论