计算机辅助翻译技术Review_第1页
计算机辅助翻译技术Review_第2页
计算机辅助翻译技术Review_第3页
计算机辅助翻译技术Review_第4页
计算机辅助翻译技术Review_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、计算机辅助翻译技术概论押题:1、 隐马尔科夫模型 2、机器翻译的方法 3、文本电子化OCR 4、双语对齐处理 5、汉语切分的方法和关键问题5-20考试计算机辅助翻译技术考试题型:填空、判断、问答7-8个考查内容:基本概念梳理,理解分析能力,考题思路,课件!1、概论1.1概况为什么要研究翻译技术? 何谓翻译技术(translation technology)?能够用来进行语言翻译或辅助进行语言翻译的信息技术。 解决或缓解语言障碍(language barrier)问题,提高翻译从业人员的生产率。 翻译技术的研究始于机器翻译关于机器翻译 机器翻译(Machine Translation)定义:利用

2、计算机及其软件把一种语言(自动)翻译成为另外一种语言的技术。 机器翻译研究的目标是研制具有翻译能力的计算机软件系统。 机器翻译的研究始于20世纪40年代末期。 机器翻译结论很困难。翻译技术的分流 机器翻译(MT):机器翻译的主体是机器。目前比较困难。(目标是寻找彻底的解决方案) 计算机辅助翻译(CAT):计算机辅助翻译的主体是人。相对比较容易,但却很实用。 计算机辅助翻译立足为翻译人员提供(软件)工具。协助翻译人员提高效率(生产率)。名词辨析CAT - Computer-aided TranslationMAT - Machine-aided(-assisted) TranslationMAH

3、T - Machine-assisted Human TranslationHAMT - Human-assisted Machine TranslationMT - Machine TranslationFAHQMT - Fully Automatic High Quality MT关于翻译技术的理解 狭义的理解,翻译技术指计算机辅助翻译技术和机器翻译技术。 广义的理解,翻译技术指的是对翻译人员工作有益的任何信息技术。n 文字处理工具(MS Word) (不可或缺)n 国际互联网及其应用(WWW、Email.)n 各种电子资源(百科全书光盘.) 本课程的定位:n 主要是狭义的翻译技术。n 配

4、合翻译技术的一些通用技术(数据获取技术、文本处理技术)关于本地化何谓本地化(localization)?The term “localization” refers to the process of customizing or adapting a product for a targetlanguage and culture.全球化没有带来其他语言的消亡,带来了本地化。本地化的特点:量大、 时间紧迫、 技术(应用)性强simshipAn abbreviation of “simultaneous shipment”, which refers to the practice of re

5、leasing multiple language versions of a product at the same time (or at least as close to the same time as is possible).翻译技术概观翻译技术体现为一组翻译工具,是若干软件工具的集合。翻译工具可以涵盖翻译的不同阶段、面向不同的需要。n 资料的收集n 原文的理解n 术语的处理1.2工具语言材料的电子化工具 Data-capture tools 使用翻译技术的前提:待翻译的文本需要是电子化的,是计算机可以处理的。 翻译过程中所需要的各种资源需要是电子化的。 何为机器可读(Machi

6、ne readable)? 文字变成编码形式 常见的电子化手段:手工键盘输入(keyboarding)、 Scanning + Optical Character Recognition、 Voice Recognition 文件格式转换工具 编码转换工具 多语种处理能力语料库分析工具 Corpus:a large collection of electronic texts that have been gathered according to specific criteria. Type of corpus:n monolingual corpus:orpus which consis

7、ts of texts in one language.n parallel corpus:corpus containing source texts aligned with their translations.语料电子化工具、语料处理工具 Corpus-analysis toolsSoftware that allow users to access and display the information contained within a corpus in a variety of useful ways. Most corpus-analysis tools typically

8、 contain a number of useful features that allow users to generate and manipulate word frequency lists, concordances, and collocations.(频率表、关键词、搭配) Frequency list Concordance (bilingual or monolingual) Collocation Corpus-analysis tools allow users to have access to frequency data and to see terms in

9、a variety of contexts simultaneously features that dictionaries can not easily provide. Keyword in context (KWIC): a method of displaying concordance lines in which all occurrences of the search word are centered on the screen surrounded by the immediate context 直观认识语料处理工具汉语切词(segmentation)词性标注(POS

10、tagging)屈折语形态还原(lemmatization)句法分析(parsing)双语对齐 (alignment)既是 语料处理工具 通常也是机器翻译或机器辅助翻译系统的组成部分术语管理工具翻译中的术语一致性问题:term bank, term baseTerminology-management System (TMS): A software application that allows users to create, store, and retrieve term records.Active terminology recognitionTerminology pre-tra

11、nslationTerm extraction (identification)Monolingual or BilingualQuality of term extraction翻译记忆工具Translation Memory: a type of linguistic database that is used to store and retrieve source texts and their translations.Translation reusePre-translationMatches: Exact match n Fuzzy matchn No matchTM tool

12、s and localizationTM CreationTM tool是CAT的核心工具机器翻译用作辅助翻译工具Pre-editing + Machine TranslationMachine Translation + Post-editing其他策略n Sublanguagen controlled language集成翻译工具 Translators workbench (workstation):an integrated system for the use of professional translators, which combines multilingual word-

13、processing, terminology management, translation memory, and automatic translation. Workflow management1.3 翻译技术与计算语言学 计算语言学是通过建立形式化的计算模型来分析、理解和处理自然语言的学科。是一门文理交叉的学科。(源于翻译技术的需求) 翻译技术建立在计算语言学的基础之上,翻译技术的突破有待于计算语言学的发展。 自然语言n2、P2-翻译技术的数学基础2.1概率统计的基本概念2.1.1随机事件随机事件:在一定条件下,可能发生也可能不发生的事件称为随机事件,简称事件。一般用大写拉丁字母A

14、,B,C,表示事件。随机事件的两个特殊情况必然事件:每次试验都必定发生的事件(W )。不可能事件:每次试验都一定不发生的事件(F)。2.1.2频率和概率频率:如果在相同条件下进行了n次重复试验,事件A出现了v次,那么事件A在n次实验中出现的频率为是 v/n。当n无限增大时,频率呈现稳定性。这一统计规律性表明事件发生的可能性大小是事件本身所固有的、不以人们主观意志而改变的一种客观属性。概率:概率:事件A发生的可能性大小称为事件的概率,记作P(A)。当试验的次数n足够大,可以用事件的频率近似地表示该事件的概率,即概率的基本性质条件概率条件概率 在事件B发生的条件下,事件A发生的概率称为事件A在事件

15、B已发生的条件下的条件概率,记作P(A|B)。当P(B)0时,规定: 当P(B)=0时,规定P(A|B)=0。乘法公式2.1.3独立性和贝叶斯公式 若事件A和B,满足条件P(AB)=P(A)P(B)则称事件A和B相互独立。贝叶斯公式:根据乘法公式,可以得到下面的重要公式2.1.4随机变量随机变量: 每次试验的结果可以用一个实值变量X的取值来表示,这个变量称为随机变量。它是随机现象的数量化。离散型随机变量 如果随机变量X只能取有限个(或可列个 )数值x1,x2,xn,就称X为离散型随机变量。在语言的统计处理中,一般仅用到离散型随机变量。2.1.5概率质量函数(pmf)设X是一个离散型随机变量,它

16、所有可能取的值为x1, x2, , xn, ,PX =xk=pk (k = 1, 2, , n, ),则可以用下面的表格来表达X统计的规律:其中,1pk0且pk=1 ,称表格所表示的函数为离散型随机变量的分布质量函数,记作p(x)。2.1.6 随机变量的数字特征期望 方差 标准差数学期望: 随机变量X的数学期望E(X)是该变量取值的概率加权平均。数学期望简称期望,描述了随机变量的平均值。若X为离散型随机变量,则:E(X) = X1*p(X1) + X2*p(X2) + + Xn*p(Xn)随机变量(X E(X)2的数学期望称为随机变量X 的方差,记作D(X)或Var(X)。方差描述了随机变量的

17、取值距离其平均值(即期望值)的分散程度。即标准差 随机变量X的标准差定义为随机变量X的方差的算术平方根,记作s (X ) 。即:2.1.7总体、样本总体 研究对象的所有可能的观察结果称为总体 。样本 从总体中抽取一部分样品,称为总体的一个样本。数理统计方法是通过研究样本来了解和判断总体的统计特性的科学方法。2.2信息论的基本概念2.2.1最优编码变长编码:给小概率信息赋以较长的编码,而给大概率消息赋以较短的编码。随机变量 X 服从概率分布 P,如果消息 x 的分布密度为 p(x),则给其分配一个长度为个二进制位的编码。消息的编码长度大,可理解为消息所含信息量大。消息的编码长度小,则消息所含信息

18、量小。平均信息量即为发送一个消息的平均编码长度 。信息论中用熵描述随机变量平均信息量。2.2.2熵(entropy)熵描述了随机变量的不确定性。2.2.3 互信息(mutual information)2.2.4噪音信道模型在利用噪声信道处理语言问题时,人们并不关心编码问题,而更多关心的是,在有噪声存在的情况下,如何解码将输出还原为信道输入。2.3统计语言模型简介语言建模(Language Modeling)对于一个服从某个未知概率分布P的语言L,根据给定的语言样本估计P的过程被称作语言建模。3、P3-语言材料电子化工具-文本电子化:手段编码及格式3.1 关于文本电子化 定义:文本电子化就是指

19、将文本转换为机器可读形式进行存储。 使用翻译技术的前提:A 待译文本需要是电子化的。 B、翻译过程中使用的语言资源需要电子化:语料库:翻译记忆库(TM):术语资源、词典资源 文本的机器可读形式:计算机及其软件可以读写以及处理。如文字编辑。对于文本而言,字符以适当的编码形式存储。如:ASCII码、GB2312码、UNICODE码等。非机器可读形式的文本:手写文稿、打印文稿n 传真文稿n 文稿的数字照片3.2 关于文字编码和编码转换 文字在计算机中是以编码形式表示的 编码的标准化:英文字符编码标准 ASCII码西文字符编码标准 ISO8859汉字编码标准 GB18030、BIG-5统一码 UNIC

20、ODE 文字的输入和输出文字编码的处理过程:n 输入码机内码字形码除输入和输出外,计算机内的任何文字处理都是以机内码形式进行的,如编辑、统计 关于编码的转换从机器可读到软件可读编码与软件对编码的支持软件可能不支持所有编码,若软件不支持某文本采用的编码,会出现处理错误或得不到预期的处理结果。不兼容的编码之间可以转换: GB BIG-5n GB UNICODE3.3 文本的电子化手段KeyboardingScanning+optical CharacterRecognitionVoice Recognition 扫描(scanning)n 将硬拷贝文稿经扫描仪扫描转换为图像格式存储,如:*.bmp

21、、*.jpg、*.tif等。图像存储格式的特点:点阵存储w 基本单位是像素(pixel) 光学字符识别(OCR):将印刷体或手写体图像中的文字辨认出来,转换为规定的编码格式存储,如:ASCII、GB2312、UNICODE等 OCR的基本过程n 图像处理: 缩放、旋转、去除污痕,目标是提高识别率n 版面划分: 区分文字、表格板块以及非文字板块,判别识别顺序,便于按序分别处理n 文字识别: 根据特定模型及文字识别特征,逐行逐字进行识别n 文字编辑: 对识别结果进行编辑,纠正错误3.4 关于文件格式和格式转换 常见的文件格式有:n 纯文本文件(txt文件)n Web页面文件(html文件)n Wo

22、rd文档(doc文件)n Portable Document Format (PDF文档)n Rich Text Format (RTF文件)n .纯文本文件中只能有文字信息,不能有格式信息、图表信息辅助翻译软件未必支持所有文件格式。许多语料处理工具仅仅支持纯文本文件。要注意文档格式转换常常会损失信息。例如图表、格式信息会丢失或不能很好保持。4、语料处理工具工作原理P4-现代汉语词语切分技术 什么是汉语自动切分?通过计算机把组成汉语文本的字串自动转换为词串的过程被称为自动切分segmentation)。英语中的切分问题英语中不是完全没有切分问题,不能仅仅凭借空格和标点符号解决切分问题。英语中的

23、切分通常被叫做Tokenization。同汉语相比,英语切分问题较为容易。 为什么要进行汉语的切分研究应用的要求:语音合成和信息检索 汉语自动切分的方法基于词表的方法最大匹配法(MM)(特点:长词优先,算法非常简单)1. 正向最大匹配法(MM):从左向右匹配词典2. 逆向最大匹配法(RMM):从右向左匹配词典全切分+路径选择序列标注方法:把切分问题看作给句子中每个字加标记的过程。四个标记:(1) B 词首 (2) M 词中(3) E 词尾 (4)单独成词 S例如:提/B 高/E 人/B 民/E 的/S 生/B 活/E 水/B 平/E 自动切分的评价准确率(P)切分结果中正确分词数/切分结果中所

24、有分词数*100%召回率(R)切分结果中正确分词数/标准答案中所有分词数*100%F-评价(F-measure 综合准确率和召回率的评价指标)F-指标2PR/(P+R) 汉语切分的关键问题s 切分歧义(消解)n 一个字串有不止一种切分结果交集型歧义:从小学组合型歧义:中将混合型歧义:人才能歧义的分类真歧义:歧义字段在不同的语境中确实有多种切分形式。伪歧义:歧义字段单独拿出来看有歧义,但在真实语境中仅有一种切分形式可接受。歧义的发现歧义消解的前提是发现歧义。切分算法应该有能力检测到输入文本中何时出现了歧义切分现象。1双向最大匹配(MM+RMM): 同时采用MM法和RMM法。如果MM法和RMM法给

25、出同样的结果,则认为没有歧义,若不同,则认为发生了歧义。双向最大匹配法不能发现所有的歧义,存在盲点最大匹配法不能发现组合型歧义(长词优先)在一定条件下(链长为偶数),双向最大匹配法也不能发现交集型歧义2MM+逆向最小匹配法3全切分算法歧义消解基于统计的歧义消解:在词图上寻找统计意义上的最佳路径s 未登录词识别n 专有名词新词 未登录词识别困难n 未登录词没有明确边界n 许多未登录词的构成单元本身都可以独立成词通常,每一类未登录词都要构造专门的识别算法:在序列标注法中,未登录词无需单独处理。识别依据内部构成规律(用字规律)外部环境(上下文)P5-词类的自动标注什么是词?是由语素构成的、能够独立运

26、用的最小的语言单位。 隐马尔可夫模型(HMM)简介简介:Hidden Markov Model, HMM)是对马尔科夫模型的一种扩充。隐马尔科夫模型的基本理论成形于上世纪60年代末期和70年代初期。(L.E.Baum)70年代,CMU的J.K.Baker以及IBM 的F.Jelinek 等把隐马尔科夫模型用于语音识别研究。隐马尔科夫模型在语言信息处理领域中有着广泛的应用。例如隐马尔科夫模型在词类自动标注中的应用。马尔科夫:一阶马尔科夫模型可以描述为一个二元组( S, A ) ,S是状态的集合,而A是所有状态转移概率组成的一个n行n列的矩阵,其中每一个元素aij表示从状态i转移到状态j的概率 。

27、在马尔科夫模型中,给定了观察序列,同时也就确定了状态转换序列。隐马尔科夫:如果给定一个观察序列(不同颜色的小球序列),不能直接确定状态转换序列(坛子的序列),因为状态转移过程被隐藏起来了。所以这类随机过程被称为隐马尔科夫过程。隐马尔可夫过程是一个双重随机过程,其中一重随机过程不能直接观察到-通过状态转移概率表示。另一重随机过程输出可以观察到的观察符号,这由输出概率来定义。隐马尔科夫模型的三个问题:给定HMM l = ( A, B, p )给定观察序列 O = ( o1 o2 o3 oT )如何有效地计算出观察序列的概率,即P(O|l )?(估算问题)给定HMM l = ( A, B, p )给

28、定观察序列O = ( o1 o2 o3 oT )如何寻找一个状态转换序列 q = (q1 q2 q3 qT ),使得该状态转换序列最有可能产生上述观察序列?(解码问题)在模型参数未知或不准确的情况下,如何根据观察序列O = ( o1 o2 o3 oT )求得模型参数或调整模型参数(学习问题 或 训练问题)估算观察序列概率对隐马尔可夫模型而言,状态转换序列是隐藏的,一个观察序列可能由任何一种状态转换序列产生。因此要计算一个观察序列的概率值,就必须考虑所有可能的状态转换序列。求解最佳状态转换序列隐马尔可夫模型的第二个问题是计算出一个能最好解释观察序列的状态转换序列 。理论上,可以通过枚举所有的状态

29、转换序列,并对每一个状态转换序列q计算P(O, q |l),能使P(O, q |l)取最大值的状态转换序列q*就是能最好解释观察序列的状态转换序列,参数学习隐马尔科夫模型的前两个问题均假设模型参数已知,第三个问题是模型参数未知,求最佳模型的问题,是三个问题中最为困难的问题。在模型(l)未知的情况下,如果给定观察序列的同时,也给定了状态转换序列,此时可以通过有指导的学习方法学习模型参数。例如给定下面的训练数据,可以通过最大似然估计法估计模型参数。 词类标注的语言学基础1词的分类依据形态标准Words that function similarly with respect to the affi

30、xes they take (their morphological properties) are grouped into classes.分布标准Words that function similarly with respect to what can occur nearby (their “syntactic distributional properties”) are grouped into classes.意义标准()While word classes do have tendencies toward semantic coherence (nouns do in fa

31、ct often describe “people, places or things”, and adjectives often describe properties), this is not necessarily the case, and in general we dont use the semantic coherence as a definition criterion for part-of-speech.2英语中词的分类封闭词类和开放词类功能词类和内容词类3汉语中词的分类主要依据:词的分布特征或者说语法功能(主要指词在句法结构里所能占据的语法位置。)实词和虚词:从功

32、能上看,实词可以充当主语、谓语和宾语。虚词则不可以。从意义上看,实词有实在的意义,表示事物、动作、行为、变化、性质、状态、处所、时间等。虚词基本只起语法作用,本身多无实在意义。从数量上看,实词多为开放类,虚词多为封闭类。体词和谓词:实词可分成体词和谓词。体词可以做主语和宾语。谓词主要做谓语。4兼类问题如果同一个词具有不同词类的语法功能,则认为这个词兼属不同的词类,简称兼类。5英语词类标记集Brown corpus tagsetPenn treebank tagset UCRELs C5 tagset6汉语词类标记集北京大学人民日报语料库词类标记集国家语委语用所词类标记集 词类标注的基本方法1词

33、类自动标注判定自然语言句子中的每个词的词类并给每个词赋以词类标记。对于兼类词,词类标注程序应根据上下文确定兼类词在句子中最合适的词类标记。(难点所在)词类自动标注是深层语言分析的基础。词类标注程序判定依据:要标注的词的不同词类的分布,上下文中其它词的词类信息2基本方法(基于规则的、基于统计的、统计规则相结合的)n 基于规则的词类标注早期均为基于规则方法基于规则的词类标注程序工作过程1. 查词典,给句中各词标记所有可能的词类标记。2. 应用规则,逐步删除错误的标记,最终只留下正确的标记。基于隐马尔科夫模型的词类标注基于转换的词类标注特点(兼具规则和统计两个方面的特性)n 应用规则进行标注,规则称

34、为转换。规则不是人工总结,而是应用机器学习的办法学习得到。使用的机器学方法通常称作基于转换的学习(Transformation-Based Learning or TBL)。什么是一个转换(transformation)?n 激发环境(triggering environment):描述了应用该转换需要满足的条件n 重写规则(rewriting rule): 描述了应用规则所要进行的动作转换规则可以视为一种纠错规则w在转换规则使用前,待标注的句子已经进行过初步标注,转换规则负责改正其中的错误标注激发环境:当前词前面一个词的词类是副形词(ad)重写规则:把当前词的词类从名词(n)改作动词(v)未

35、登录词视作兼类词,可能是任何一个词类,均匀分布n 依照出现一次的词(hapax legomenon)的规律处理w 更可能是名词 不大可能是限定词等w 将出现一次的词的分布平均作为未登录词的分布n 对于英文等语言可以利用形态特性(词缀)、拼写特性判定(首字母大小写)P6-屈折语的形态分析 什么是形态学(Morphology)?形态学研究屈折语中词的构成规则词通常由语素(morpheme)组成。语素是语言中最小的意义单位(minimal meaning bearing unit)。总的来说,语素可以分成两大类1词根(root): 提供词的主要意义n 2词缀(affix): 提供词的各种附加意义(修

36、改词根义或改变词的语法功能)1) 前缀(prefix): 出现在词根的前面2) 后缀(suffix): 出现在词根的后面 语素如何构成词?1. 派生(derivation):词根+词缀形成的词通常与原词根不属一类,词义通常与原词根有联系(有时难以预料),词根与词缀派生的结果也称作词干(stem)。n computerize+ation (verbnoun)2. 屈折变化(inflection):词干+词缀形成的词通常与原词干同属一类,常用来使词具备数、时态等功能n cat+s walk+ed walk+ing 英语中的屈折变化不规则变化的词数量有限,但多是常用词大部分词的变化属规则变化 英语中

37、的派生词英语中派生现象较为复杂,仅看几个例子n 动词、形容词的名词化(nominalization):w computerize (V) computerizationw n 从名词、动词派生出形容词ww clue (N) clueless派生规则规律性不如屈折变化规则、不能随意派生 什么是形态分析?形态分析研究如何利用计算机把屈折语中的词分解成语素.为什么要进行形态分析?应用的要求:信息检索、TM中的应用、深层英语分析的基础 形态分析的技术基础n 有限状态自动机n 有限状态转换机形式语言有限状态自动机和语言构建形态分析器所需要的资源1. 词典(lexicon):词干(词根)和词缀;词干(词根

38、)和词缀的基本信息2. 形态知识(morphotactics):语素间的顺序关系哪一类语素可以和哪一类语素组合(例如:名词后面可以加一个复数语素)3. 正字规则(orthographic rule or spelling rule):两个语素组合时应进行怎样的变化(如:把y改写为i加es)P8-平行文本的自动对齐 什么是平行文本(parallel text)?双语语料库是涉及两种语言的语料库,由双语平行文本组成。多语平行文本由多个单语文本组成,这些文本之间具有翻译关系。双语平行文本由两个单语文本组成,这两个单语文本互为译文。多语平行语料库又称作翻译语料库(translation corpora

39、)。多语平行语料库包含原文及其译文,是机器(辅助)翻译等多语信息处理的重要资源。 双语对齐处理(Bilingual Alignment)所谓双语对齐处理就是在不同语言文本的不同语言单位之间建立对应关系,也就是确定源语言文本中哪个(些)语言单位和目标语言文本中哪个(些)语言单位互为翻译关系。所谓自动双语对齐处理指的是通过一定的算法,由计算机在双语文本间建立对齐关系。对齐可以在各种语言单位间进行,例如:文本级、段落级、句子级、短语级、词汇级句子级对齐是最基本的对齐(段落对齐可视为一种特殊的句子的对齐)。关键问题:n 机器不能在理解的基础上进行对齐、n并非严格的一一对应、 译文可能涉及语序的调整、可

40、能出现省略不译的现象、反之译文中也可能增加原文中没有的内容n 从句子层级看,语序不会剧烈调整n 大部分情况是一一对应 句子对齐的方法句子对齐的基本方法n 基于长度的对齐方法w 基于单词的对齐方法两种方法对齐准确率都较高,对一般文本,都在90%以上。基于长度的对齐方法效率优于基于单词的对齐方法。基于单词的对齐方法:利用单词的对应关系,来决定句子的对齐关系。基于长度的对齐方法依据:互为翻译的两个句子在长度上高度相关。基于长度的对齐方法只利用了文本中句子的长度信息待对齐的两个文本不过是两个数字(长度)序列长度对齐的基本原理:基于长度对齐的基本过程可以概括为(1) 枚举文本间所有可能的对齐(2) 评价

41、每种对齐模式的合理性(3) 选择最佳对齐词汇信息的引入可利用词汇对应信息改善基于长度对齐的效果锚点:双语文本中有明显对应关系的词汇(数字、日期、人名、地名)5、翻译技术及其原理语料分析(词频、搭配和检索)P7-术语管理和提取(搭配和术语自动提取)什么是搭配?定义:A COLLOCATION is an expression consisting of two or more words that correspond to some conventional way of saying things.Within the area of corpus linguistics, COLLOCAT

42、ION is defined as a pair of words (the node and the collocate) which co-occur more often than would be expected by chance.搭配构成的一般原则广义搭配:语法上合法的词语序列狭义搭配:固定搭配和半固定搭配什么是术语?terminology is the specialized vocabulary of a field. These terms have specific definitions within the field, which is not necessaril

43、y the same as their meaning in common use.常用的搭配提取方法统计方法 与 规则方法常用的统计方法n 基于频率的方法(frequency-based approach)通过统计两个词(bigram)的共现频率的方法来发现并提取搭配。通常最高频的词语组合是虚词的组合。可通过词类组合模式进行过滤,剔除高频的虚词组合。词语及其搭配词未必比邻出现,前述频率法不能直接应用,此时可以通过定义搭配窗口的方法进行解决,统计词语和窗口范围内的其他所有词的共现频率。大小为-5,+5的搭配窗口n 基于方差的方法(variance-based approach)n 若w1和w2

44、出现的位置相对固定,则二者有可能构成一个搭配。计算w1和w2两个词在语料库中位置偏移的均值 m。计算位置偏移的方差 s2均值和方差刻画了两个词之间距离的分布情况。如果两个词的距离的方差较小,则有可能二者构成一个搭配。较小的方差意味着两个词之间的距离相对固定。假设检验法(hypothesis testing)采用假设检验的方法n 首先假设w1w2是在语料库中是机会共现(co-occur by chance),该假设通常称为原假设(null hypothesis)。基于原假设,利用样本数据进行检验,若不能推翻原假设,则w1w2不构成搭配,若推翻原假设,则w1w2构成搭配,即认为备择假设成立。若w1

45、w2为机会共现,则w1、w2相互独立,即p(w1w2) = p(w1) p(w2)t-检验法(基本原则是假定样本数据来自均值为 m的分布,然后通过对比样本均值和预期的均值m之间的差异,判断样本是否来自于所假设的分布,从而推断出原假设是否成立。t-检验和其他检验常用来给搭配排序,即t-值越大,w1w2越可能是一个搭配。)x2检验法(主要思想是对比预期频率以及观察频率,若二者差别较大,则拒绝原假设。) 互信息法 (mutual information)一个事件中所蕴含的关于另外一个事件的信息量两个事件之间的关联度w 若两个事件独立,则有I(x,y)=0w 若两个事件高度依赖,一个出现必然意味着另外

46、一个事件出现。互信息对于两个事件是否独立可以给出较好的判别。互信息值接近0两个事件相互独立.但对于两个事件互相依赖,仅依靠互信息值有缺陷。n 互信息值与事件的频率有关n 低频率事件有可能获得较高的互信息值,因而对于稀疏数据,互信息结果未必可靠领域性处理停用词(stop list) 领域无关词汇在任何领域都以相同的规律出现翻译记忆技术P9-机器翻译的原理和方法 什么是机器翻译及其研究目标研制出能把一种自然语言(源语言)的文本翻译为另外一种自然语言(目标语言)的文本的计算机软件系统。全自动高质量的机器翻译系统(FAHQMT)仍将是人类一个遥远的梦。 机器翻译的基本方法n 1基于规则的机器翻译方法(

47、传统的机器翻译方法)w 直接翻译法(逐词进行翻译,无需对源语言文本进行分析,对翻译过程的认识过于简化)w 中间语言法一种中间表达,通常是一种句法-语义表达,中间语言独立于任何具体的自然语言。源文本经过深层分析得到源语言的中间语言表示。 再由该中间表示生成目标语文本。 翻译过程为两个阶段。中间语言法在理论上非常经济,可有效减少翻译模块的数量。可把n(n-1)个直接翻译模块减少为2n个翻译模块。(目前没有特别成功的基于中间语言的机器翻译系统。)w 转换法分析源语言文本,得到其源语言内部表达n 将源语言内部表达转换成目标语内部表达n 根据目标语内部表达生成目标语文本n翻译过程分成三个阶段(商业上最为成功的方法,目前绝大部分商品化机器翻译系统采用转换式机器翻译方法。)规则系统中的知识表示开发一个基于规则的机器翻译系统,首先要设计一个知识表示系统,将翻译过程中所有需要的知识以计算机可以操作的形式表述出来。一般而言,翻译过程往往需要下述一些知识的支撑:(1) 源语言知识。系统利用源语言知识分析源语言句子,得到源语言句子的结构和意义。(2) 目标语言知识。系统利用目标语言知识,产生可以接受的目标语言句子。(3) 源语言到目标语言的对译知识。在基于转换的系统中,系统需要根据各种级别的对应关系来完成源语言到目标语言的转换。最基本的是词之间的对译

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论