




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、词语搭配抽取的统计方法及计算机实现邓耀臣王同顺(上海交通大学 外国语学院,上海200240)摘要:计算机语料库的发展为词语搭配研究提供了新的方法。然而,也同样受到资源 共享困难和语料分析工具不足的困惑。本文在简要介绍词语搭配抽取中常用的三种统计方法 的基础上,重点提出一种将免费检索软件Wconcord和语言研究者较为熟悉的Visual Foxpro (VFP)编程技术相结合,计算词语搭配统计量,实现词语搭配自动抽取的方法并对这种方 法的可行性和结果的可靠性进行了评估。关键词:词语搭配;统计方法;计算机实现Statistics in Collocation Extraction and Comp
2、uter ImplementationDENG Yaochen, WANG Tongshun(College of Foreign Studies, Shanghai Jiao Tong University, Shanghai 200240, China)Abstract: The development of computer corpora provides a new approach for collocation study. However, the corpus-based collocation study is restricted by difficulties in r
3、esource share and inefficiency of current analysis tools. This paper, on the basis of the introduction to three commonly-used statistics in collocation extraction, proposes a method to calculate the collocation measures and to extract collocations automatically by combining a free concordance softwa
4、re and Visual Foxpro. An evaluation test confirms its practicability and reliability.Key words: collocation, statistics, computer implementation语料库语言学的发展为语言研究开辟了一个新的领域,词语搭配以其在语言产生、语言 理解和语言学习中的重要作用无疑处于该领域的中心地位。然而,基于语料库的词语搭配研 究也同样受到资源共享困难和语料分析工具不足的困惑。目前词语搭配研究中较为权威可靠 的工具要么属于商业性软件,如WordSmith,Sara等,价格昂贵,
5、不是一般的研究人员所能 拥有;要么功能不全,如TACT仅提供Z-值并且对语料库的大小有严格限制,WordSmith 仅提供MI-值,只能抽取出显著性最高的10个搭配词。由此可见,现有工具远不能满足语 料库深入研究的需要。本文在简要介绍词语搭配抽取中常用的三种统计方法的基础上,重点 提出一种将免费检索软件Wconcord和语言研究者较为熟悉的Visual Foxpro(VFP)编程技 术相结合,计算词语搭配统计量,实现词语搭配自动抽取的方法。通过与TACT和WordSmith 抽取结果的对比,对这种方法的可行性和结果的可靠性进行了评估。1词语搭配抽取的统计方法词语搭配指的是词与词的结伴使用这种语
6、言现象,是词语间的典型共现行为(Firth作者简介:邓耀臣(1967),男,汉,博士研究生。研究方向:语料库语言学与二语习得。王同顺(1955),男,汉,教授,博士生导师。研究方向:二语习得,大纲设计。1957:12)。词语搭配的典型性取决于搭配的概率属性,因为任何搭配都是可能的,只不过一 些比另一些更为恰当(Sinclair 1966:411)。因此,抽取“更为恰当”的、典型的搭配成为词语 搭配研究的一个重要方面。在基于语料库的词语搭配研究中,运用概率信息自动抽取典型词 语搭配的方法主要有三种:1)统计搭配词与节点词的共现频数2)统计测量共现词项间的 MI-值 3)统计测量共现词项间的T-值
7、(或Z-值)。1.1搭配词与节点词共现频数的统计该方法首先利用检索工具对节点词作带有语境的检索(KWIC),然后提取一定跨距内 与节点词共现的所有词项,并统计这些共现词项的频数。所谓节点词就是研究者要在语料库 中观察和研究其搭配行为的关键词。跨距指的是节点词的左右语境,以词形为单位计算。跨 距的确定直接关系到搭配词提取的结果。以往研究结果表明就英语而言,将跨距界定为-4/+4 或-5/+5是较为合适的。但是跨距的界定也受所研究文本的语体、文体和语域等因素的影响, 因此也要视文本的具体性质和特点而定(卫乃兴2002: 42)。通常情况下,只有在语料库中 与节点词共现频数达到3次以上的词项才可被认
8、为是节点词的搭配词,只出现一次或两次的 搭配序列可能是语言使用中的偶然行为。当然,这也与研究所用语料库的大小有关,如果使 用的语料库较小,也可将最低共现频数设为2。搭配词的共现频数可使研究者清楚看出哪一些词与节点词经常在一起搭配使用。但是, 该方法也存在严重的不足。由于界定跨距忽略句子界限,并且一些共现词与节点词本来没有 语法限制关系,对节点词也没有任何预见作用,只是由于他们是英语中的高频词汇而有可能 被当作某一节点词的搭配词。另外,仅根据共现频数的高低,研究者也无法确定每一个搭配 词是否为显著搭配词。要确定某一搭配词的显著性,就必须运用统计测量的手段检验每一 个搭配词与节点词之间的相互预见和
9、相互吸引程度判断它们的共现行为在多大程度上体现 了词语组合的典型性。常用的测量方法是计算共现词项间的T-值和MI-值。1.2 T-值和MI-值的计算计算T-值和MI-值都是通过比较搭配词的观察频数和期望频数的差异来确定某一词语搭 配在语料库中出现概率的显著程度(Hunston 2002:70)。MI-值(Mutual Information Score,互信息值)表示的是互相共现的两个词中,一个词对 另一个词的影响程度或者说一个词在语料库中出现的频数所能提供的关于另一个词出现的 概率信息。MI值越大,说明节点词对其词汇环境影响越大,对其搭配词吸引力越强。因此, MI值表示的是词语间的搭配强度。
10、MI-值的计算公式为:mi = log ( = log(x, y)(x;y)2 p X P2 F X F公式中x ,y代表两个相互共现的词项,P,P(y)分别表示词项x,y在语料库中出现的概率, F分别表示词项x, y在语料库中出现的频率:F(xy)表示词项x, y在语料库中的共现频数, 表示语料库的总词次数(t oken)。如果工和】之间存在真正的连结关系,那么观察概率将远大于期望概率,结果为I (xy)0。 如果两个词相关程度不高,那么观察概率接近期望概率,结果为I(x,y产0。如果I(x,y)=3 to collocate2.dbf&拷贝共现频数大于或等于3的搭配词到collocate2
11、.dbf中用replace命令代入公式计算MI-值和T-值。use collocate2.dbf in 4&在第四个工作区打开 collocate2.dbf 表replace all miscore with log10(fxy*N/fx*fy)/ log10(2)&带入公式计算 MI-值replace all tscore with (fxy*N-fxfy*2S)/ SQRT(fxfy*2S*(N-fy) &带入公式计算 T-值 将符合条件的搭配词(T-值大于或等于2; MI-值大于或等于3)拷入到新表collocate3.dbf。Copy to collocate3.dbf all for
12、 tscore=2 and miscore=3用sort命令按tscore字段或按miscore字段排序,生成最后带有T-值和MI-值的搭配词表。use collocate3.dbf in 5&在第五个工作区打开 collocate3.dbf 表sort on tscore/d to tscore.dbf 或&按 T-值呈降序排列生成 tscore.dbfsort on miscore/d to miscore.dbf&按 MI-值呈降序排列生成 miscore.dbf将以上语句存盘后就可生成可运行的VFP程序,命名为collocation.prg。3测试与评估为了检验本文提出的词语搭配抽取方
13、法的可行性和结果的可靠性,现以自动抽取动词 make在LOB语料库的两个子库 LOBb和LOBc中的显著搭配为例,将运行程序 collocation.prg的抽取结果和运用TACT和WordSmith的抽取结果进行比较。表3.1显示的 是显著性最高的10个搭配词。LOBb和LOBc的总词次数为107330,在这两个子库中make 的观察频数为85。表3.1 TACT,WordSmith,Collocation.prg词语搭配抽取结果对比TACTWordSmithCollocation.prg搭配词搭配词搭配词共现频数T-值MI-值profitprofitprofit212.219.72cont
14、ributioncontactcontribution412.058.72contactprovisioncontact210.549.30provisionstrongestprovision310.549.30该方法完全可以用于词语搭配研究,其可靠性不低于权威工具。另外,和其他工具相比这种 方法有以下两方面的优势:第一,易操作,效率高。该方法的准备工作简单,它既不需要像 TACT那样先将整个语料库做成数据库(make database)也不需像WordSmith那样将语料库 中的每一个词都做成索引文件(indexing),仅需两个词频表。TACT和WordSmith的准备工 作常常要花很长
15、时间且占用磁盘的大量空间。第二,信息量大。该方法能同时提供三种统计 量,并能显示符合条件的所有显著搭配词。到目前为止,该方法已用于三项词语搭配研究(邓 耀臣2003,2005,Deng 2003),均取得满意结果。4.结语针对语料库分析工具共享困难、功能不足这一现状,本文提出一种将免费检索软件和 Visual Foxpro编程相结合的词语搭配自动抽取方法,并通过实验证明了该方法的可行性和结 果的可靠性。这一尝试也同时表明热衷于语料库研究的广大外语教师完全可以消除技术恐 惧症,通过学习简单的编程语言(如本研究使用的Visual Foxpro),完全有能力开发出适合 自己研究目的的语料库分析工具。
16、只由这样,才能提高语言研究的效率,扩大研究问题选择 的空间。参考文献Church, K. and Hanks, P. Word association norms, mutual information and lexicography, JComputational Linguistics,1990, 16: 22-29.Deng, Yaochen. Collocations Patterns of Delexical Verbs in Chinese EFL Learners Writing. In Yang Huizhong and Wei Naixing. Proceedings from 2003 International Conference on Corpus Linguistics. Shanghai. 2003Firth, J, R. Papers in Linguistics 1934-1951. M London: Oxford University Press, 1957.Hunston, S. Corpora in Applied Linguistics. M Cambridge: Cambridge University Press,2002.Si
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 劝退赔付协议书范本
- 机车出售转让协议书范本
- 心理健康课件结语大全
- 2025年度建筑劳务分包合同
- 2025年度文化旅游项目简易工程劳务分包协议
- 二零二五版驾校学员实习基地合作协议
- 2025年生物科技产品定向采购协议书促进生命科学进步
- 二零二五年水电梯级电站运营维护承包协议
- 二零二五年度智能仓储物流服务合作协议
- 2025版高端住宅抹灰工程施工劳务分包合同
- 中小学教师如何做课题研究教学教研行业讲座培训
- 学堂在线 管理沟通的艺术 期末考试答案
- J-STD-020D(中英文对照版)
- 人身保险公司保单质押贷款管理办法
- 教学设备采购合同参考
- 连续波多普勒无线电引信论文
- 西餐烹调技术教学大纲doc
- 人力资源六大模块
- 公职人员违规经商办企业自查报告汇总表
- 小学英语作业设计论文5篇
- 互联网背景下大学生网络诉求表达机制探究
评论
0/150
提交评论