版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章词频分布规律(齐普夫定律)汉字总数:5-6万字常用汉字:<1万字(总数的20%-)1000个汉字:90%文献2400个汉字:99%文献3800个汉字:99.99%文献66万字的《毛泽东选集》四卷合订本:2775个汉字,<1/10一、基本概念1、词频:某一个单词在文章或讲话中出现的次数2、单词频率:某词出现的频次与文集中所有词出现的总次数之比3、词频字典:以词频多寡为序的词典,显示不同词汇被人们运用程度的差异(每个词有两个参数:频次和序号)中国第一部词频字典:
1934,近代教育学家陈鹤琴(统计来源:55个万个词汇的文集,分析出单字4261个,但对词频未进行统计)世界上第一部词频字典:
1889,德国学者凯丁《德语频率词典》(统计来源:总字数110万词汇的文集)1986,北京外国语学院《现代汉语频率词典》共1808114字词其中:4574个单字---991字频等级
31159单词---757词频等级4、最省力法则:在各种运动中,人们有意无意地总是选择一条最省力的途径行事。
--------1949年,美国哈佛大学教授齐夫《人类行为与最省力原则--人类生态学引论》二、齐夫定律的研究背景假设有一个文集含N个词汇,在N充分大的情形下,按照词汇在文集中出现的频次n递减排列,可得一词频表:词频n1n2n3n4n5…..nr…….nL词序12345……r……..nLnr*r=C1916年,德国速记专家艾思杜:1928年,美国电话公司物理学家贡东:logrlognrαnr*rtgα=Cnr*rβ=Cnr*r=Cnr=cr-1450nr/N=cr-1/N令:
fr=nr/Nc/N=K
fr=Kr-1K=0.102序号为1的单词出现频率1935年,齐夫验证fr=Kr-1Pr=fr(实验次数无限增加时)Pr=Kr-1P1=K=0.1(r=1)但是大多数语言等级序号为1的词,其出现的频率一般小于0.1,故K为参数而非常数。
0<K<0.1C值在0.03—0.11之间
4574字,991个字频等级,172/4574(3.76%)31159单词,755个词频等级,336/31159(1.08%)1、文字描述
如果将一篇较长的文章中的每个词按其出现频次递减排列,并用自然数给这些词编上等级序号,出现频次最高的词为1级,其次为2….这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有f.r=c三、齐夫定律的基本内容rfcrfc140040066639622004007584163133399850400410040094439658040010404002、图像描述:rflnrlnf3、数学描述:f*r=c
齐夫原始状态,也称单参数词频分布规律
(f*rβ=c而β=1)
β
为直线斜率,C为参数4、通用的齐夫定律:
f=cr-β
f:词在文章中出现的频次
r:词的等级序号
β和C:参数双参数词频分布规律朱斯修正等级序号r频次fr*f199.02-3,2.5717.54-5,4.562765307-8,7.54309-11,1033012-32,2224433-75,54154适于描述中频词分布规律5、编秩方法平均编秩法随机编秩法最大秩序法平均编秩法对于词频相同的词,采用序号平均数来定义它们共同秩序的方法。词A2411词B2411词C2411r=(10+11+12)/3=11随机编秩法具有相同词频的不同单词将被定义不同的秩序词A2411词B2412词C2413字母顺序汉语拼音笔划顺序Pb最大秩序法对于词频相同的词,按秩序最大词的秩给予其他同类词相同的秩序。词A2412词B2412词C24126、三参数词频分布规律50s,法国数学家孟戴尔布罗(r+m)B*f=c
f:词频
r:等级序号
B:与高频词的数量多少有关
C:与出现概率最多的词的概率大小有关
m:与文集的词汇总数N有关m=0fr*rB=c朱斯公式
B=1fr*r=c齐普夫定律7、布茨定律:齐夫第二定律1967年
In/I1=2/(n(n+1)(n=1,2,3,…)
In:出现n次的词的数量
I1:出现1次的词的数量
n:出现次数,词频出现n次的词的数量与出现1次的词的数量之比与文集的大小及C值无关,而只与频次有关I2/I1I3/I1I4/I1I5/I1I6/I1I7/I1I8/I10I9/I1I10/I1理论值0.330.170.100.0710.0480.0360.0280.0220.018实测值0.360.170.100.070.0510.035.0280.0290.015适于描述低频词四、齐夫定律的主要应用键盘设计码长设计编制词表自动标引分析学科或专题研究动向和,主,产,不,为,这行,让,间,澡,烟,军意,涡,肱,体,宏,宠编制词表思路一根据齐夫定律的频次分布方法,通过具体的标引试验,找出被标引文献中叙词使用频率的分布特征,最后决定合乎使用频率的词,编入叙词表
文献
集合标引叙词词频等级表确定词频入词表编制词表思路二完全根据对有关原始文献中出现的术语进行词频统计的结果,初步选词入表,再在实际标引过程中不断修改完善文献集合词频统计确定频率初步生成词表标引词表修订自动标引:1958年,美国情报学家卢恩1、概念
概念1:利用计算机对文章进行自动标引,自动加上标识符的过程。
2、基本形式词标引:用计算机根据文献中术语或词的有关频率分布规律进行自动标引3、基本思路
**词的分辨能力:识别文章主题的能力
(与词的出现频次有很大的关系,出现频次过高,语法作用的词,出现频次过低,分辨能力往往很低)**有效词:分辨能力较高,频次适中,可被用于自动标引的词**词频分布与分辨能力之间的关系nf横轴:单词按词频递减排列的等级序号纵轴:文集中单词出现的频次双曲线:词频分布曲线钟形曲线:词的分辨力曲线**临界值的确定帕欧(M.L.Pao):n±an=(√1+8I1-1)/2
例:I1=780n=3838±a临界值范围38±aa:与标引深度或标引要求有关关键词1关键词2关键词3文献1关键词1关键词2文献2关键词1关键词2关键词3关键词4文献3平均3个关键词38±a设标引深度为9?对于每篇文章,N,a可以自动测算对于大量文献,a值可通过选择一定的样本测算能代表总体水平的外延范围a值**标引词的确定
全部有效词都被选作标引词用类名作为标引词人工配合**生成文摘句思路:根据有效词或标引词在句子中的相对位置进行选择要点:1、计算每个句子中标引词所占的比例ri
ri=Pi2/qi
Pi:句子中选出的标引词的数量
qi:句子中的总字数
2、ri值最高的句子可视为该文章的代表句
3、ri值为一定值之上的句子,可选入文摘之中
概念2:利用计算机对给定的文献,根据其内容特征,经过内容分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年教师长期聘用合同
- 简易装修简单的合同范本2024年
- 医疗设备与器械技术研发合作投资合同三篇
- 股份转让登记合同三篇
- 有关学校食堂承包合同书2024年
- 新能源汽车充电桩招标合同三篇
- 品牌营销策划服务合同2024年
- 人力资源管理系统开发合同范本2024年
- 2024年房屋防水合同
- 商业代理合同2024年
- (12)益盟操盘手全套指标公式
- 苏教版七年级数学上册知识点(详细全面精华)
- 云计算系统的实现毕业设计
- 教师课程教学质量同行评价表(新)
- 变压器:变压器带电试运签证
- 手卫生依从性PDCA循环管理
- 工程招投标流程图
- 新人教版七年级英语下册:短文填词专练
- 光导照明系统的介绍
- 全季酒店施工方案
- 网球教学计划表
评论
0/150
提交评论