语料库常用统计方法_第1页
语料库常用统计方法_第2页
语料库常用统计方法_第3页
语料库常用统计方法_第4页
语料库常用统计方法_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、3.5语料库常用统计方法第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词 表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义, 常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。3.5.1语料库与统计方法介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1 节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的 抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需 要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某

2、个(些) 语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一 介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介 绍语料分析中的频数标准化(normalization).频数差异检验和搭配强度的计算方法。3.5.2频数标准化基本原理通常语料检索、词表生成结果中都会报告频数(frequency, freq或raw frequency)o那么 某词(如many)在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出 现频数为105次,是否可以说many

3、在第二个语料库中更常用呢?显然,不能因为105大于 100,就认定many在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未 必相同。按照通常的思维,我们可以算出many在两个语料库中的出现百分比,这样就可比 了。这种情况下,我们是将many在两个语料库中的出现频数归到一个共同基数100之上, 即每100词中出现多少个many。这里通过百分比得到的频率即是一种标准化频率。有些文 献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。实例及操作频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency) 除以总体频数(通常为文本或语料库的

4、总词数),这样得到每一个单词里会出现该检索项多 少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每 千(万、百万)词的出现频率。即:标准化频率(每千词)=观测频数标准化频率(每千词)=观测频数总体频数x 1000(注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。)例如,more在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个 语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出 251和475对应的标准化频率。另外,我们还可以利用Excel或SPSS等工具来计算标准化 频率。比如,可

5、以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1 单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more约为6.67次。要得到母语 者more使用的每千词频率,只需点击C1单元格,将光标移至单元格右下角直至光标变为 黑+时,按住鼠标左键,顺势下拉至C2格即可得到母语者每千词使用more的次数约为2.72 次。如有更多频数数据需要标准化处理,可依同样方法求得。图3.5.1频数标准化3.5.3频数差异检验上节,我们通过将频数归到一个共同的基数,从而可以对不同频数加以比较。然而,在 统计学中,常常需要对参与比较的数据之间的差异是否具有显著性加以综合检验。在语料

6、库 数据分析中,最常用的是卡方检验(chi-square或2)和对数似然比(log-likelihood ratio, 常简写为LL)。两种检验方法的作用和实际操作类似,以下我们重点讲解卡方检验。这两种 检验方法也可以用作搭配强度计算。基本原理与频数标准化不同,卡方检验除了考虑到某个检索项在两个不同语料库中的出现频数和 语料库大小外,还考虑到检索项在语料库不出现的情况。例如,在1000词的文本中the出 现50次,那么它不出现的情况就是余下的950次。类似的频数数据,我们用到的是2x2连 列表(contingency table)方法的卡方检验。在统计学上,综合该检索项在两个语料库中出 现和不

7、出现的情况,统计学家提出了该检索项理论上的预期频数,其算法是: 表3.5.1 2x2连列表某检索项出 现频数所有词出现 频数合计语料库Aaba +b语料库Bcdc + d合计a +cb + da +b + c + d其中:a =检索项X在语料库A中的实际频数b =检索项X在语料库A中的不出现的频数c =检索项X在语料库B中的实际频数d =检索项X在语料库B中的不出现的频数N = a + b +c + d =各项频数总和,即两个语料库累计大小预期频数=行频数之和*列频数之和 a + b + c + d而卡方检验的基本公式为:X 2=Z(观测频数-预期频数)2 预期频数卡方检验的具体计算公式为:X

8、 2 =Z(0 - E)2(ad - bc)2* NE(a + b)*(a + c)*(b + d)*(c + d)实例及操作研究问题:有两个语料库,一个为口语语料库,总词数为1,714,443,另一个为书面语 语料库,总词数2,593,452。其中填充停顿(filled pause)词er分别出现9,589次和9,307次。 那么9,589和9,307是否存在显著性差异呢?这里可以采用卡方检验的方法(参见图3.5.2)。在配套光盘中,找到名为X2的Excel 文件。在打开的工作表中,按界面提示,分别输入Corpus 1的总字数1,714,443和Corpus 2 的总字数2,593,452。

9、然后,在主体数据表框中Freq in Corpus 1和Freq in Corpus 2分别输入 er分别的次数9,589和9,307。这时,Chi-square列会自动出现相应的卡方值,这里是949.5474。 卡方值(自由度为1时)如果大于临界值3.83, 6.64和10.83,则表明该值在显著性水平0.05, 0.01和0.001的情况下是有意义的,即参与比较的两个数值(9,589和9,307)具有显著性差 异。为便于辨识和解读卡方值,我们将所得的卡方值对应的显著性水平的p值也同时提供, 并按所处的置信区间标定星号(*),在0.05, 0.01和0.001显著性水平下分别标为*、*和*。

10、 表格最后一列的+”表明er在Corpus 1中使用频数要多于其在Corpus 2中的频数,即我 们常说的频数过多使用(overuse);反之,-”号为使用不足(underuse)。回到我们的问题, er 一词在两个语料库中的使用频数具有显著性差异,且er明显在第一个口语语料库较多使 用,可理解为属于口语特征词。为方便批量实施卡方检验,判别词项在两个语料库中出现频数的差异。该卡方检验计算 器支持一次完成多个卡方检验运算。操作方法是,先输入Corpus 1的总字数和Corpus 2的 总字数,然后将某组词项在Corpus 1和Corpus 2中的出现频数分别拷贝到Freq in Corpus 1

11、 和Freq in Corpus 2列中,即可得到所有词项跨语料库差异的卡方值和显著性水平。Chi-Square CalculatorCorpus 1Corpus 2Ccxrpus SizeWordf-req in Corpiri 1Freq in Corpus 2Chi-SqmiareSiciiiticHiiicc (/?)er95 筋49.54740-000 1 +die4牯177I4.84U30.0W 十ycdi220502B48F 1m物sO.OM卜aye12118S291.90110-000 2+rigJit6 636945286.01580 a +hundred1488251.30

12、2O-JOO 一 +阳1360S1I728S235.D03S0.000 E +179072D5.115S0.000 3 +two43475022170.70B60-000 3 +Ull 取17532我1德财埸O.OtW 十a2SSL819531J54.D6790.000 +tbiir2160145.65210-000 2 +图3.5.2卡方检验计算器界面配套光盘中同时附有对数似然比计算工具(Log-likelihood Ratio Calculator ),文件名为 LL.xlso也是检验词项跨语料库差异显著性的常用方法。其操作步骤与卡方检验计算器相同, 数据的解读方法也一样。在此不赘述。3.

13、5.4搭配强度计算基本原理搭配分析的计算方法在实际应用中主要有两种处理方法:以Mike Scott的WordSmith 为代表的经典搭配计算法,以及以Stefan Evert提出的BNCweb的搭配计算方法。两种方法 的主要不同在于是否将跨距作为搭配的核心考查要素(WordSmith计算Z值时用到跨距, BNCweb的算法中多数都用到跨距)。计算搭配强度的主要算法包括:互信息(MI, mutual information 和 MI3)、Z 值(Z score)、T 值(T score)、Log-Log 值、卡方值(X)、对数似 然比(Log-likelihood)、Dice系数等。这些方法各有

14、优劣。需要略加说明的是,卡方和对数似然比既可用作检验单个词项跨语料库频数差异的显著 性。也可作为检验两个词在同一个语料库中,一定跨距内的共现强度。以下对不同搭配强度计算方法的适用性做一简介(这里以BFSU Collocator工具为例)。 更多相关介绍可参阅本章结尾处提供的相关参考文献和网络上有关collocation的讨论。以下是利用BFSU Collocator工具提取的but 一词的搭配情况。在下面的示例中,我们 选用的是光盘中NS_writtenraw文件夹下的TEXT001.txto Settings】中【Set Data Type选 的是【Raw】。点击【Collocate】选项卡

15、后,跨距设为左5右5。点击【Run】即可得结果。 图3.5.3显示的结果是以搭配词的实际出现频数排序的。双击搭配结果的每一行,界面窗口 下方即会显示含节点词和搭配词的索引行。本节所举实例使用的检索词(节点词)为buto 搭配强度值小于0的情况,在BFSU Collocator工具里都归为零。g bpan = lD f(ft) = 510 1057 hfcBFSU CQlkcdtor 1.DAiwaNO ICollMBte | 住】I We) I帕l而&口泥TWm LoWg| Lng-likelih血915.347021103764470.692310.30063of6g bpan = lD f

16、(ft) = 510 1057 hfcBFSU CQlkcdtor 1.DAiwaNO ICollMBte | 住】I We) I帕l而&口泥TWm LoWg| Lng-likelih血915.347021103764470.692310.30063of6引614113.95614and57008D11 71825to510511913 5959a505211913.6110749996.636612.74939.901011.2735018B4 11.35830.5B20 12.32733465 2M3 1994 1500 1409l10.4740tha I 朋 I 遍I0 16.15019

17、.05922247 I860 375.M60 145.7304 331 5453 333.33971213151619in as that forWH1243129911900 08170.993912 2581 9.0929 1D.4215 13.0927 10.0874 0.73310.3905D.B4913.00212.47822.8B942 33577.1412 244 3100 5.1695 144.562 白 151.1306 215.9037 2in.6OB363.44B4D.3247D.33D21D7.S465.70394.92B0.aO7l95.00

18、1903.1957Fl1 nT.CENTER-L P| 1 DcftoyALL |-| 1.to dam the Yangtze foresters and the ecologists And on the various pou?&cful not of the civer ,1 J:二一but but but butcore Mi cd ft -11 did not use the occasion the public , and hence unseen cortimittees that sit a grimy offshoot of the t :U1T图3.5.3按搭配词频数高

19、低排序的搭配结果从图3.5.3可以看出BFSU Collocator工具运行后可以一次同时得到MI、MI3、Z值、T 值、Log-log值和对数似然比。如果我们需要得到按互信息值排序的搭配词时,只需点击 MI (或MI3列的标题行即可,如果点击第一次所列结果为升序排列,再点击一次,则可获 得降序排列的结果)。图3.5.3中的结果显示的是以第3列f(c),即搭配词(collocates)的频 数降序排列的,界面下方窗口显示的是含but和最高频搭配词the的索引行。互信息(MI, mutual information 和 MI3)=BFSU CQllQCjirQI 1,5-EXSettysAimJ

20、tHle 5 5pan = ID f(ft) = 5101057 hfe$DetaiA - BOTH _S Kione-NO Collocatei(c) | f(n,c) _Ml |MI31 Z-Score T-Score Log-log| Log-likelihoodcannon2 I 2 I 5.22517.2291 I 0.1051 1.97651 2.9B6B 12dicrt225.22917.22910.1051.37852.38663piltd225.23917.22919.1051.3755 2.3066Asubstitu.225 22017 229101051 37B5 230

21、665162:t15.22915 22915.95200.973382*t115.22915 22915.9520D.97337?i)5-oagE)15.52915 22915.96230.9733S3-3)15.22915 22915.95290.97339utwould also t)ecome the125*)一1图3.5.8按log-log值高低排序的搭配结果对数似然比-BFSU CQlldcaror- - r x队0 以 )1 s* tpan= 10 f(ti) = 510 1057 hitsDeTaLlHI SQIti 回 回 .5 卜 None NOMl 惆百 石Se舶 T-SE

22、teLog-likelihood0.692310.300610.7400.0582012247.16B9I12131516IStoin net wivand that alsowere thiwith1206666W5052510512433465NOMl 惆百 石Se舶 T-SEteLog-likelihood0.692310.300610.7400.0582012247.16B9I12131516IStoin net wivand that alsowere thiwith1206666W5052510512433465&3614991494150057001B94223BOS&47710

23、12766 19 9B 4 112 11166865359巽48&05025333232胡0.933916.150113.9561 13G110 13 5959 13.0B27 12.74931.2497 12.705SQ.5620 12.3273住.* 置 12.2581018B4 11.35835.70394 CM如6.9824.21863.00212 47822.36942.30570.3905D.&!)ai1 B4201K718211 27352.04011I.3W7E7.06233.7343477691.025011.1144.16D72.922801800.8915 10.0915

24、2.6076Q .757510.75752.9S422.3106Q.0B171D.42150.32470.3302915.347S375.5460333.039733t5493200.307124.31002417403215.9097210.6083151.1306145.7364144 5820140.91139.7567129 0425123.367110L844BIIOC&tfER-L P| Dcftaym ri1.剥agonize about the world,butmiddle of this century/butinto a collcti-ve farmtmanvnals

25、, were investigatedrbutl to change it .their songs and rhymes the local peasantry frc in general these wet?e i - , n371&g.图3.5.9按对数似然比高低排序的搭配结果对数似然比是被认为比较好的一种搭配发现方法。然而,一般认为各种搭配统计方法, 很难说哪种方法是最合理或最正确。我们建议一方面可根据研究实际选择搭配统计方法;另 一方面,还可以兼顾不同的统计方法,关注不同统计方法中都排在前面的一些词。3.5.5小结不同工具(WordSmith、AntConc、BNCweb、Co-occurrence Collocate、BFSU Collocator 等)得出的MI值、Z值、T值、值、对数似然比值常常有差别。这些差别一种情况是由 公式不同引起的,即我们上面提到的以Mike Scott的WordSmith为代表的经典搭配计算法和 以Stefan Evert提出的BNCweb的搭配计算方法。在相同计算公式下,如果出现数值差别, 可能有如下原因:各软件对形符或单词的定义不一致,比如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论