




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第七章 齐普夫定律G. K. Zipf (1902-1950)美国哈夫大学著名语言学家和心理学家。1929年相对频率:语音变化的决定性因素1948年人类行为与最省力法则-人类生态学引论7/19/20221教学要求了解词频统计的产生和发展了解 Booth定律掌握Zipf定律的表述、数学模型及图像特征熟悉词频分布原理熟悉Zipf定律应用中的基本技术和方法 7/19/20222主要教学内容1 词频统计的产生和发展2 Zipf定律的表示3 Zipf第二定律4 词频分布原理5 Zipf定律的应用 7/19/20223第一节 词频统计的产生和发展 一、几个基本概念1、词频(nr ):自然语言中某一个单词在
2、文献中或讲话中出现的次数(频次)。不同的词汇在同一篇文献中出现频次的分布是不均匀的。 2、词汇数(N):文献中出现的不同词的数量。即:文献中作者使用了多少个不同的词。3、词次数(N):文献的长度,总词量,包括同一词重复出现的次数。7/19/20224二、字(词)典的收录和选择中国最早的词典尔雅(汉代),按词的性质和意义排列,词目91706条、134万多字。 第一部英语词典是R.考德莱编的字顺英语难词表。1928年成书的Oxford English Dictionary目前最新版本为20卷本第二版,收词超过50万条,引证例句250万条,几乎囊括了1150年以来见于文献的所有语词。7/19/202
3、25汉语大词典(上海辞书出版社,1986年)共12卷,收词37万以上。(一)文献中对词的利用汉语大字典(四川辞书出版社,1986年)全四卷,收录单字约56000多个。7/19/20226毛泽东选集(四卷合订本,1967年)总词量约66万,收录2775个汉字。(一)文献中对词的利用7/19/20227汉字中,目前人们使用的汉字约有15000个。(一)文献中对词的利用7/19/20228国家文字改革委员会(语言文字工作委员会)统计:掌握2851个汉字可以满足99%的阅读需要;掌握5018个汉字可以满足99.9%的阅读需要。(一)文献中对词的利用7/19/202291981年的通讯用汉字字符集(基本
4、集)及其交换码标准(GB2312-80)中确认“汉字基本字符”为6763个。其中,一级汉字3755个,二级汉字3008个。(一)文献中对词的利用7/19/202210(二)词频统计工具英国语言学家奥格登(Charles K.Ogden)于1930年编撰了Basic English: A General Introduction with Rules and GrammarIf one were to take the 25,000 word Oxford Pocket English Dictionary and take away the redundancies of our rich l
5、anguage and eliminate the words that can be made by putting together simpler words, we find that 90% of the concepts in that dictionary can be achieved with 850 words. 7/19/202211OGDENs BASIC ENGLISH Word ListOPERATIONS - 100 words(100个动作的词)come, get, give, go, keep, let, make, put, THINGS - 400 Gen
6、eral words(400 个普通名词)account, act, addition, adjustment, THINGS - 200 Picturable words ( 200 个可画图的名词)angle, ant, apple, arch, arm, army, QUALITIES - 100 General ( 100 个普通形容词)able, acid, angry, automatic, beautiful, black, QUALITIES - 50 Opposites ( 50 个有反义词的形容词)awake, bad, bent, bitter, blue, certai
7、n, cold,7/19/202212OGDENs BASIC ENGLISH优点:简化语法、精简词汇,受到美国总统罗斯福、英国首相丘吉尔的支持与提倡,在一定范围内使用,但并未得到推广。问题:欲简(用词简单)则繁(表达冗长)。I heard It came to my ears 7/19/202213频率词典(frequency dictionaries)按词出现频率的高低而编排的词典。 世界上第一部频率词典德国语言学家凯丁(F.W.Keading)德语频率词典 (1898年),110万个词的语言素材。美国教育学家E.L.桑代克(18741949)编写了教师两万词词书(1921)和教师三万词词
8、书(1944)。做了大量的英语词汇的频率统计工作。 (二)词频统计工具7/19/202214南京高等师范到南京大学教授,杰 出的现代儿童教育家 我国近代教育家陈鹤琴(18921982)第一部汉语频率字典语体文应用字汇(1928) ,从554478个汉字中析出4261个单字。江泽民为陈鹤琴先生雕像墓碑落成题词:“学习爱国老教育家陈鹤琴先生的献身精神和创业精神,深化教育改革,为培育四有新人,振兴中华的大业而奋斗!”(二)词频统计工具7/19/202215北京语言学院语言教学研究所采用人工与计算机相结合的办法,对近200万字的汉语语料进行词频统计,编制了现代汉语频率词典,收词31159条,这是中国正
9、式出版的第一部汉语频率词典。(二)词频统计工具7/19/2022167/19/202217nrr=k 或 nr=kr-1 一、齐普夫的前期研究工作J.Estoup(艾思杜)的研究(1916) 若将文献(文集)中出现的词汇(N)按其出现的频次(n)的高低做递减排序,并依次给予相应的等级序号(r),(r=1,2,3.,D),则等级序号(r)与相应的频次(nr)的乘积(nrr)大体上为一常数(k)。 第二节 齐普夫定律的表示 7/19/202218E.Condon(贡东)的研究(1928) 取等级序号的对数(lnr)以及每个词出现频次的对数(lnnr)做图,发现存在线性关系。直线与横轴的夹角约为/4
10、,即直线的斜率为-1。其数 学关系可表示为: lnnr=tg(-/4)lnr+lnk 一、齐普夫的前期研究工作7/19/202219(一)齐普夫定律的表述 设有一包含N个词(词汇数)的文献(N5000),统计其中每个词出现的频次(n),按频次递减的顺序等级降序排列,并用自然数给予相应的等级序号(r),则每个词的等级序号(r)与相应的频次(nr )之积为一常数。二、 G.K.Zipf的验证与Zipf定律7/19/202220词频统计表7/19/202221以Rondld E. Wyllys: Empirical and Theoretical Bases of Zipfs Law(齐普夫定律的经
11、验根据与理论基础)前两段作为词频分布的统计对象,该文如下:Introduction One of the most puzzling phenomena in bibliometrics and, more broadly, in quantitative linguistics is Zipfs law. As one commentator, the statistician Gustav Herdan, has put it:“Mathematicians believe in it (Zipfs law) because they think that linguists have e
12、stablished it to be a linguistic law, and linguists believe in it because they, on their part, think that mathematicians have established it to be a mathematical law.” Let us start by considering a basic form of Zipfs law. Suppose one has a natural language corpus, e.g., a book written in English. N
13、ext, suppose one makes a frequency count of the words in the corpus, i.e., counts the number of occurrences of the, and, of, etc. Finally, suppose one arranges the words in decreasing order of frequency so that the most frequent word has rank 1; the next most frequency, rank 2; and so on. 7/19/20222
14、2对75个单词的出现频次的统计7/19/2022237/19/202224高频词低语义词7/19/202225nrrlnnrlnrnr=k/r如果以等级序号 r 为横轴,词频 nr 为纵轴,其分布图形为一等轴双曲线。 如果以等级序号 r 的对数为横轴,词频 nr 的对数为纵轴,其分布图形为一直线。直线的斜率约为-1。齐普夫定律的图像描述7/19/202226 设 N 为总词次数,fr为等级为 r 的词出现的频率,则有如下关系 fr=nr/N 对于 fr=cr-1, (二) 参数 c 值的推论7/19/202227对于上式,当 D (最末一级词的等级序号)比较大时,当取 D 为一定数值时,计算其
15、对应的 c 值: D c 5000 0.11 10000 0.10 50000 0.09 100000 0.08可以认为 c0.1。但后经大量的研究证实,在词的中频区,c0.1(即等级序号为1的出现频词最高的词的词频)。 7/19/202228(三)对 Zipf 定律的几点讨论1. 高频词作用的局限性高频词区低频词区中频词区英语、拉丁语的词频分布7/19/2022292. 同频词的排序7/19/2022307/19/202231 在随机排序中,同频词的出现将随词频的降低而增多,产生“阶梯”状图形。试验证明:当15r1500时,大量的同频词出现。因同频词存在,低频词区呈阶梯状分布。而采用其他排序
16、方法则不存在阶梯状分布。词频相同(lnnr)序号递增(lnr)lnnrlnr7/19/202232第三节 齐普夫定律的修正和发展7/19/202233一、齐普夫定律的修正双参数模型1936年美国语言学家朱斯(M.Joos)提出的双参数模型“通用齐夫定律”(Generalized Zipfs Law) nr=k/rb 或 fr=c/rb 式中, b0, c0, r=1,2,3.,D)且满足 对上式取对数, 图像显示为一斜率为 -b 的直线。怀利斯(R.E.Wyllys)对8个不同样本的研究结果: -0.89b-1.04。 7/19/202234二、齐普夫定律的修正三参数模型1952年美籍法国数学
17、家曼代尔布罗特(B.Mandelbrot)提出三参数模型: 式中,0a0, c0 , r=1,2,3.,D 且满足 7/19/202235对于齐夫定律的表述, 许多工具书大都采用类似观点和说法 。如英国著名的语言学著作语言与语言词典中对词频分布定律的释义是: “指谈话者或写作者使用的词的分布和频次的总描述。fr=c,方程式中f=频次,r=序号,即频率表上的位置;c=常数。方程式表示词使用的总次数和词频表上的位置之间有一个固定比率。”但是齐普夫的表达仅适宜于中频词的情况,高频与低频词与该表述偏差较大。于是对词频分布规律又有许多补充和深化的研究。7/19/202236三、 齐夫第二定律 (一)A.
18、D.Booth对高序低频词的研究 Booth,A.D.:Information and Control, 1967(10):386-393设文献中同频词(出现频次为 n 的词)的个数为 In,则 In 与 I1 比值的大小仅仅取决于频次 n 的高低,,与文献的长度(总词次数N)以及常数值 c 无关, 即:7/19/202237美国西保留地凯西大学(Western Reserve University)文献交流中心和埃德基(Eldridge)对4篇英语文献词频分布的统计结果。7/19/202238In/ I1 的理论值与实测值的比较 0.04 0.00 0.00 0.003 0.003 0.00
19、1 0.000 0.007 0.0037/19/202239高频词(common)与低频词(rare words)出现的 “唯一性”将随着词的出现的频次的降低逐渐遭到破坏,即出现同频词的可能性逐渐加大,因此,我们可以把同频词是否出现作为判定高频词和低频词界限的“尺度”。(二)低频词临界值的确定7/19/202240即:在按词频等级降序排列中,所有出现频次小于 nT 的词均为低频词。高夫曼(W.Goffman)给出的 nT 转换值(transition value)公式:(二)低频词临界值的确定7/19/202241 即:某一等级序号所对应的低频词的数量与其在文献中出现频次的平方成反比。 (三)
20、低频词的数量与其在文献中出现的频次之间的关系7/19/202242第四节 词频分布原理一、“省力法则”假说 人类行为与最省力法则人类生态学引论(G. K. Zipf. Human Behaviour and the Principle of Least Effort: an Introduction to Human Ecology. Addison-Wesley,1949)7/19/202243A地Human Behaviour and the Principle of Least EffortB地7/19/202244双重力平衡的结果双曲线分布在语言交流过程中,“省力法则”同时体现在说话人
21、和听话人身上。多样化的力说话人希望组成语言的词少,而且一词多义,节省其精力。单一化的力听话人认为最好是一词一义,使听到的词与其确切涵义容易匹配,便于理解。多样化的力单一化的力7/19/202245the Principle of Least Effort一个词的长度的演变并非随机分布,而是与人们对其使用频次有密切的关系。“寡用冗长”“用尽废退”事多而寡用之,意多而约出之。7/19/202246 汉语中双音节词词长适度、经济灵活,成为最合理的构词方式,促使许多新产生的多音节词及专有名词等都回缩到双音节或三音节的模式中,向双音节、三音节形式靠拢。妇女联合会妇联邮政编码邮编肺原性心脏病肺心病超级市场
22、超市劳动改造劳改外商投资外资扶助贫困扶贫电影电视影视 国内需求内需农业户口转为非农业户口农转非7/19/202247UNESCOUnited Nations Educational, Scientific and Cultural OrganizationAPEC1. =Asia Pacific Economic Cooperation 亚太经济合作会议2. =All Purpose Electronic Computer 通用电子计算机MEDLINE MEDLARS ONLINEMedical Literature Analysis and Retrieval SystemPETSPubli
23、c English Test System 7/19/202248*ya you*whaddaya what do you, what are you*gonna going to*Whaddaya *wanna do?I *wanna eat out.*Whaddaya *gonna do?Im *gonna a movie.Whaddaya *gonna see?I *wanna see a comedy, but Im *gonna see a horror movie.*donno dont know*ta to*gotta got to7/19/202249the Principle
24、 of Least Effort对“最小省力原则”应辨证地看:自然语言中词的“短化”不是绝对的,而是有人的自然的惰性与语言熵相互矛盾作用的结果。“最小省力原则”的实现因人而异。常常是意欲省力,实则不然。语言的使用将遵循“适度省力”的原则,以“可懂度”为前提,否则将影响语言的交流和思想的表达。7/19/202250第四节 词频分布原理二、“成功产生成功”假说H.A.西蒙的概率模型:在文献中,一词使用的次数越多,则再次使用的可能性越大。该模型最后导出的分布与齐普夫分布相当接近。D.J.de S. 普赖斯后来建立了一个相类似的模型,又明确地提出了“成功产生成功”的假说。7/19/202251第五节
25、齐夫定律的应用一、汉语词频分布的研究(p.158-163)二、词表的编制检索词的选择三、自动标引实践有效词的选择四、文件档的组织数据库存储容量的判定五、英语单词的选择对语言学习的指导 7/19/202252自动标引原理:统计标引法、句法分析法、语义分析法统计标引法(statistical method of indexing)的理论根据:各种词出现在原始文献中的频率和其区分文献内容功能之间存在着某种数量上的关系。H.P.Luhn认为:文献中每一个词都有一定的“分辨能”(discrimination power),而这种能力与词出现的频次有着密切的关系。事实上,只有那些词频适中的词的区分能力较强
26、,它们被称为“有效词”(significant words)。M.L.Pao认为:所谓词频适中的词是由在词频有序分布组织中靠近某一区域的若干词组成的。齐夫定律在主题词表编制与标引理论和实践中的应用7/19/202253有效词的分辨力下限上限有效词7/19/202254齐普夫定律在信息管理工作中的应用最佳地理位置选择,使得使用者能以最省力的途径方便到达。设计图书馆、信息中心资料库的排架。7/19/202255北京大学7/19/202256香港中文大学7/19/202257滨州医学院图书馆7/19/202258齐普夫定律的应用英语单词的选择7/19/202259教师二万词词书词频法统计词汇的最重要
27、的一部文献美国教育学家桑戴克(E L. Thorndike) :Teachers Word Book of 20,000 Words选择出常用的词汇20,000个,依照每个词在这些文献中出现出现的频率分成20级,每级1000个词,用1,2,3.20来标记。6.25万字的儿童文学读物300万字左右的圣经和英国古典文学作品,30万字左右的小学课本,5万字左右的有关烹饪,缝纫,农艺,商业之类的著作9万字左右的新闻报纸5万字左右的书信,共41种不同的文献7/19/202260根据Ogden在1967年版的Encyclopaedia Britanica中对Basic English的定义,对于一个英语国
28、家的成年人,应认识20000个单词,除语言专家外,普通人遇到的单词量一般不超过60000个。问题:假定这60000个单词在文献中出现的频次服从Zipf定律,那么一个人如果认识上述20000个常用单词,即当m=20000时(1/3),对英文读物的词汇覆盖率有多大?7/19/202261齐夫定律的启示英语单词的选择由nr=k/r可知,排列在前m个等级词出现的总频次为:由调和级数求和公式(欧拉公式)可知:所以近似有:单词覆盖率:7/19/202262英语单词的选择问题设为覆盖率,则从理论上讲,只要熟练掌握1/3的高频词,就可以“读懂”含有6万个不同词(词组)的文献内容的90%。“四级”考试:4500
29、 77.63%“六级”考试:5500 79.36%PETS5需要 6000 80.12%TOEFL词汇8000 82.3%7/19/202263第六节布-齐-洛定律分布一致性 7/19/202264信息计量学的三大基本定律研究和发展的两个方面:一,对每一定律的内涵及经验公式的深入研究,从而获得更一般、更精确的定律表达式二,发现并深入研究三定律之间内在分布的一致性及其理论基础问题7/19/202265一、 三定律的形式及特点(一)布拉德福定律及其特点基本思想:将科学期刊按其刊载某学科论文数量多少,以渐减的次序进行排列,分为三个区,每一区中期刊所载相关论文数量基本相等的条件下,得出各区期刊数量比例
30、为1:a:a2(a 为比例系数)基本内容描述:文字表达与图象表达7/19/202266基本内容蕴涵三个基本特征:1,期刊是按刊载专业论文数量的多少进行等级排列2,期刊分三个区,核心区、相关和外围区(为了突出核心区而强调相关论文在期刊上的集中与分散)3,设定每一区中的相关论文数量基本相等,目的是通过同一标准来比较各区在期刊数量上呈现出的规律性等级排序是最基本的特征7/19/202267布拉德福定律数学表达式布鲁克斯(B.C.Brooks) R(n)=kln(n/s)莱姆库勒(F.F.Leimkuhler) R(r)=alog(1+br) F(x)=ln(1+bx)/ln(1+b) 相关论文累积数
31、等级排序的期刊级位X为全部期刊中载文率最高的部分期刊的比率X部分期刊中包含的相关论文对全部相关论文的比率7/19/202268(二)齐普夫定律及其特点基本思想:按一特定文本中词出现的次数(词频)的多少,以渐减的次序排列起来,那么,词的序号r(词级)与词频fr的乘积具有近似恒等的关系fr=c/r (r=1,2,3.)7/19/202269基本特点(是与其它定律比较的基础):1,词汇是按词出现的次数(词频)大小进行等级排列2,齐普夫定律的图象表达在利用对数变换处理后得到的是一条斜率为-1的直线7/19/202270推广齐普夫定律的有:朱斯(M.Joos)Pr=cr-b 或 Pr=c/rb (词频大
32、小由b决定)芒代尔布罗特(B.Mandelbrot)Pr=c/(r+a)b第r级词之频率级位r7/19/202271 (三)洛特卡定律及其特点基本思想:某一学科领域中,写若干篇论文的作者在整个学科著者群中占有一个固定的比例公式表达式: f(x)=c/x2反映科学论文在论文作者上集中与分散的分布现象7/19/202272基本特点:一,洛特卡采用频次排序的方法,即按某类作者出现的频次大小排位,而非按作者所写的论文多少来对作者进行等级排位二,论文在作者上的集中与分散程度只限于平方反比关系,即只给出了这种集中与分散程度的单一描述7/19/202273洛特卡定律的推广鲍(M.L.Pao)f(x)=c/x
33、a不同的a值能够反映出某学科领域中论文在作者集中与分散的确切程度,a 值越大,集中与分散程度越高7/19/202274四、其它的分布形式及特点 特征值 主体类别 作者(发现人)文献数 期刊 布拉德福论文数 作者 洛特卡词频 词汇 齐普夫检出频率 图书 巴克兰德财富 人 巴泽尔姓氏 人 福克斯得分 球员 戴维斯种 属 威利斯7/19/202275二、 布-齐-洛分布的一致性描述文献中情报现象分布的三个定律,它们共同的基本特征有:1,每个定律都是在一个简单的函数范围内一个变量与另一个变量相关联2,三个定律都是采取将观察值以及所涉及的主体进行特殊排列而得到一相关模型3,三个定律都可以归结为反映某种主
34、体与其所表现的特征之间的数量对应关系7/19/202276(一)布拉德福分布与齐普夫分布的一致性1、同时具有上述三个共同的基本特征,同时都采用了等级排列技术2、它们的排序对象性质相同,都是对研究主体的排序,布拉德福分布以刊载论文多少对期刊进行排位,齐普夫分布以词频高低对词汇进行排队7/19/202277但是它们有不同的结论表达形式,原因如下:(一)布拉德福分布对排序好的主体(期刊)位次r进行了取对数转换处理(二)布拉德福分布对排序好主体的特征值(论文数)取累积和R(r)布拉德福分布反映的是特征值(论文)在主体(期刊)上的累积分布,而齐普夫分布所反映的则是特征值(词频)在主体(词汇)上的密度分布
35、,他们之间的关系实际是一分布的积分表达形式和微分表达形式的转化7/19/202278数学过程表达 R(r)=frdr 将fr=c/r (r=1,2,3.)代入得R(r)= c/rdr=clnr 则上式与 R(r)=Kln(n/s)具有等价性Fr=R (r) 则有fr=(Klnr) =K/r其与fr=c/r等价所以布拉德福分布与齐普夫分布具有一致性7/19/202279(二)齐普夫分布与洛特卡分布的一致性齐普夫分布与洛特卡分布的表达形式不同,原因:1、排序对象性质不同,齐普夫分布以主体(词汇)为排序对象,而洛特卡分布以特征值(论文数)为排位对象2、排序的方法不同,齐普夫分布以主体(词汇)的特征值
36、(词频)由大至小对主体进行排列,而洛特卡分布则以特征值(论文数)数量由小到大加以排列7/19/202280主题级位r与主体频率f(x)关系的函数式表达如下:r= f(x)dx (r是f(x)的累积形式)将f(x)=c/x2 代入得R= c/x2 dx=c/xX= c/r 其与齐普夫分布等价同样,fr=c/r 可转化为r=c/fr ,求其微分得r =(c/fr)dfr=c /fr2则其与f(x)=c/x2等价所以齐普夫分布与洛特卡分布具有一致性7/19/202281(三)布拉德福分布与洛特卡分布的一致性布拉德福分布与洛特卡分布的一致性不明显其对研究主体及特征值的处理方法上存在很大差异: 布拉德福分布按主体(期刊)的特征值(论文)多少确定主体排列的级位,并对主题的级位作对数变换,对主体相应的特征值做累积和 R(n)=kln(k/s) 洛特卡分布按主体特征值(论文数)的自然数次序由小到大进行排列,并对主体进行频次统计得到 f(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度高端电子产品市场产品价格保密协议
- 2025版建筑行业专业工匠用工合作协议合同
- 二零二五年度网络直播平台第三方打赏担保协议
- 2025年户外遮阳窗帘安装及维护保养合同
- 二零二五年度温泉度假村洗浴区承包合同协议
- 二零二五年酒店集团厨师长人才引进合同
- 2025年度新品发布临时促销员服务合同
- 2025版智能监控设备销售与定制安装合同
- 二零二五年度白灰行业市场调研购销合同模板
- 二零二五版人工智能技术研发指导服务协议
- 艺术类高中课程走班方案
- 【排放清单】省市县行业温室气体排放清单报告模板
- 《篮球裁判法及规则》课件
- 中国普通食物营养成分表(修正版)
- 隧道工程施工劳务分包合同
- Excel常用函数公式及技巧
- 学校心理健康教育合作协议书
- 2024-2030年中国军用滑环行业市场发展趋势与前景展望战略分析报告
- 部编版高中语文必修上第六单元任务群教学设计
- 线上线下教学衔接北师大版数学三年级下册口算脱式计算、应用题复习、期中、期末检测试卷(含部分答案解析)
- (正式版)JTT 1497-2024 公路桥梁塔柱施工平台及通道安全技术要求
评论
0/150
提交评论