




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、人工智能翻译 付文青 14S101053 HIT 目录 机器翻译概述 1 机器翻译的原理及方法 2 理解语言,机器翻译的根本瓶颈 3 机器翻译 机器翻译的定义 机器翻译(Machine Translation),是使用电子计算机把一 种自然语言(源语言,Source Language)翻译成另外一种 自然语言(目标语言,Target Language)的一种学科。 这门新学科同时也是一门新技术,它涉及到语言学,计算机科 学,数学等许多部门,是非常典型的多边缘交叉学科。 在语言学中,机器翻译是计算语言学的研究领域 在计算机科学中,机器翻译是人工智能的研究领域 在数学中,机器翻译是数理逻辑和形式化
2、方法的研究领 域 机器翻译的方法 按转换层面划分 直接翻译方法 句法转换方法 语义转换方法 中间语言方法 按知识表示形式划分 基于规则的方法 基于实例的方法 统计的方法 基于句法的统计机器翻译方法 基于统计的翻译方法是IBM的学者提出,可以归纳为三个重要 部分,分别为语言模型的建模、翻译模型的建模以及解码三个 子部分。 语言模型的建模问题是统计估计中的一个经典问题,即根据当 前词预测下一个词。它是语音识别或光学字符识别的基础,同 时也被用来进行拼写纠错、手写体识别以及统计机器翻译。 基于句法的统计机器翻译方法 基于短语的统计翻译方法的问题 泛化能力差 中国大使馆、美国大使馆 月球大使馆? 产生
3、的句子不符合语法 短语的简单组合,没有句法结构 无法表示不连续的短语搭配的翻译 召开了一次关于的会议 hold a meeting on 无法进行长距离的语序调整 解决办法:引入句法结构! 基于句法的统计机器翻译方法 形式上基于句法的模型 不使用任何语言学知识 所有句法结构直接从未标注的语料库中自动学习得到 语言学上基于句法的模型 使用语言学知识 语言通常要从句法树库训练得到 树到串模型:只在源语言端使用语言知识 串到树模型:只在目标语言端使用语言知识 树到树模型:在源语言端和目标语言端都使用语言知识 基于句法的统计机器翻译方法 基于树到串对齐模板的翻译模型 基于树到串对齐模板(简称 TAT
4、)的统计翻译模型是一种 在源语言进行句法分析的基于语言学句法结构的统计翻译模型 树到串对齐模板既可以生成终结符也可以生成非终结符既 可以执行局部重排序也可以执行全局重排序 从经过词语对齐和源语言句法分析的双语语料库上自底向 上自动抽取 TAT 基于句法的统计机器翻译方法 解码 解码问题最重要的是如何设计合适的搜索策略来获得 最佳翻译效果,以及如何解决空间爆炸问题,为尽可 能在有限的时间内找到最优解,必须采用启发式算法。 最常用的有柱搜索算法、A*算法以及堆栈搜索算法。 基于句法的统计机器翻译方法 解码 自底向上 柱搜索( Beam Search ) 对于每一棵子树,找到所有与其根节点匹配的 T
5、AT ,计算其 候选译文( Candidate ) 候选译文( Candidate )的数据结构: TAT 序列 部分翻译结果 累积的特征值 累积的概率值 基于句法的统计机器翻译方法 柱搜索算法 采用宽度优先的方式构建搜索树,在搜索树的每层采用启发式 函数对扩展的状态进行评分,通过剪枝选取N个最优的状态进 行扩展 基于句法的统计机器翻译方法 剪枝策略 *假设合并 汉语词位置相同 最后两个英语词相同 上一次翻译的汉语短语的最后一个词的位置相同 *柱状图剪枝 若假设栈中假设的数目超过设定的最大值,将假设栈中评分 低的剪去 *阈值剪枝 设置栈中假设的最低概率值,当新假设小于阈值的时候进行 剪枝 基于
6、句法的统计机器翻译方法 机器翻译的瓶颈 之前进行的机器翻译的有益的探索中,凡是取得了结果的研究, 大都努力避开理解语言这一过程。因为这一过程本身涉及到了 AI的终极目标,机器的智能化。然而,这又是一个无法回避的 问题,不能理解语言就不可能进行真正意义上的翻译。 机器翻译的瓶颈 burning Passion is sweet Love makes weak You said you cherished freedom so You refuse to let it go 原文译文: 强烈的感情是甜蜜的 而爱使我们脆弱 你说你珍惜你的自由 所以你拒绝丢失它 机器译文: 激情是甜的 爱使弱 你说你
7、珍惜的自由,以便 你不让它去 机器翻译的瓶颈 上文已经进行过论述过,要实现真正的机器翻译,必须依赖于 机器智能的实现,而这在短期内是不可能实现的,那么如何能 在可以预见的未来实现初步的机器翻译呢? 机器翻译分为四个层次:“词汇,语法,语义,语用。”前三 个阶段现在都已经各有发展,但是语用的机器实现却一直停滞 不前,因为语用知识包罗万象,在不同的语言,不同的背景中, 不同的文章中语用知识千差万别,在不同的对话中上下文背景 可能截然不同,面对这样的现状,我们唯有面向翻译对象本身, 才可能获得有效的信息,我认为有一种可能的途径解决语用问 题: 机器翻译的瓶颈 对语句结构进行明确的分类,形成一系列“句型公式”,直到 每一类中都可以只通过变换相同类型的单词就可以实现句意的 转化,通过分类,将每个句子的翻译都递归变化到单词的翻译。 并同时对词语进行分类,先按照词义进行种类分类,得到每 个词语的具体分类库,这个过程类似于自然界对生物的分类, 界-门-纲-目-科-属-种,再根据词汇可充当的句子成分,(依 赖于句型公式的需要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江省宁波市鄞州区2023-2024学年八年级下学期英语期中考试(含答案)
- 创业计划书:猫咪咖啡店
- 视觉传播设计与制作所需试题及答案
- 考试形式下的2025年小学一年级语文试题及答案
- 2024年食品质检员考试的影响力与说服技巧试题及答案
- 识别不良宠物食品品牌考题及答案
- 2024年计算机基础学习资源评估与使用及试题和答案
- 2024年汽车维修工考试应试技巧试题及答案
- 2025年小学语文新教材试题及答案
- 选择美容师考试资料的误区及试题及答案
- 工业互联网平台的商业模式与盈利策略
- 2024年09月2024渤海银行上海分行校园招聘笔试历年参考题库附带答案详解
- 2025年辽宁省辽渔集团招聘笔试参考题库含答案解析
- 戏剧课程设计方案
- 《员工招聘与选拔》课件
- 物料提升机安全技术操作规程(4篇)
- 图书室管理领导小组及职责
- 南昌起义模板
- 【MOOC】智慧的秘密-重庆大学 中国大学慕课MOOC答案
- 【MOOC】体育舞蹈与文化-大连理工大学 中国大学慕课MOOC答案
- 【MOOC】金融工程-厦门大学 中国大学慕课MOOC答案
评论
0/150
提交评论