下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国经营报:谷歌翻译的中国基因
不久前,Google翻译发布了iPhone和Android版本,让用户能够随时使用翻译服务,更加轻松便捷地跨越语言障碍。该手机应用可以识别15种语言的语音输入,朗读或全屏显示23种语言的翻译结果。对于非拉丁字母语言,例如中文和日文,应用将标注拼音或罗马字读音,便于非母语用户读出。与Google翻译的桌面应用相同,移动翻译也能够翻译58种语言书写的字词和短语。移动翻译设置了一些常用内容的翻译收藏,即便在没有互联网连接的情况下也可读取,实时翻译则需通过WiFi或移动网络连入Google云端获取结果。这款产品对于很多用户来说非常方便,如果身在国外,不知道某句话用外语该怎么说,只需打开程序,把想说的话念给手机,然后点击“翻译”,手机就可以把译文朗读出来。基于统计的机器翻译Google翻译产品在全球只有两个团队,一个是在Google总部,另一个就在中国上海。“Google翻译在上海成立,主要因为当初有两个人喜欢做翻译,其中一个就是尹俊(Google翻译产品研发领导,作者注),他可谓是Google上海翻译团队的创始人。通过美国翻译团队开展合作,上海的翻译队伍越来越大,现在已经达到十几人的规模。目前美国总部的翻译团队主要负责后台的平行语料数据,上海翻译团队负责手机、桌面电脑翻译应用的开发。Google的创新模式常常是自下而上的,工程师可以在工作中发挥个人兴趣,如果做出成绩,就有可能凝聚逐渐扩大成一个团队。”在陈雍昇看来,上海团队的建立要归功于Google的创新模式。现今大部分的商业翻译系统都是属于规则法机器翻译,需要做大量词汇与语法的工作。Google翻译则采取基于统计的机器翻译,这是IBM科学家在1993年提出的理念,具有划时代的意义。Google现在支持58种语言的互译,翻译团队的成员们掌握的语言远少于这个数字,这也是统计翻译的魅力所在。统计翻译的具体原理是,先往计算机里输入大量的文字文本,搭建涵盖源语言和目标语言的平行语料库,构建统计翻译模型。这些模型可以帮助Google在源语言与目标语言中寻找各种相互关系,得出某些特定单词、短语或文件的最佳翻译结果。针对某种特定语言,Google翻译分析的翻译文档越多,译文的质量就越高。据陈雍昇介绍,Google翻译主要有四个步骤:首先,系统需要将源语言句子切分为短语,这是一门复杂的学问。英文单词之间有空格,中文句子则不然。由于统计翻译系统本身并不具备理解自然语言的能力,在面对“汽水不如果汁好喝”这个句子,“不如”和“如果”都是一种划分可能;其次,不同语系的组织形式有很大差别,研发人员必须通过对平行语料的分析来处理词汇的排序问题。分析平行语料是建模过程,翻译则是利用模型的过程,前者的算法往往比后者复杂;然后,系统需要分辨同一个词的不同形态,例如过去式和现在分词,这是一个判断的过程;最后,将构成目标语言的词汇合理联结起来。Google目前能够翻译58种语言,如果按排列组合来算,理论上需对应近3000种平行语料,事实上Google翻译的语料库远没这么多,所以很多语言之间的翻译是经过“桥接”的,这在机器翻译中是一种常见技巧。打个形象点的比方吧,目前法英互译的质量肯定比法汉互译要好,如果遇到法译汉的需要,翻译系统可能采取迂回战术,先将法语翻译成英语,再从英语到汉语。比如Google翻译中关于泰文和希伯来文的平行语料较少,但却能够提供这两种语言的翻译,据陈雍昇透露,“这种偏僻语系的互译十之八九是经过桥接的”。“提高翻译质量是一个多管齐下的技术。翻译的质量最主要的还是需要收集平行语料,此外,如果在建模方面可以找到更好的匹配算法或拆分算法,双管齐下效果更好。”陈雍昇打了个巧妙的比方,“平行语料好比食材,只有材料够好,厨师的手艺也够好,而且也有一些调味料的情况下,才能做出美味的菜肴。”移动翻译——“20%项目”的产物Google有个20%项目,允许员工拿出20%的工作时间,用来从事本职工作以外的项目,这样就能开发出更多种类的产品,移动翻译可以算作Google“20%项目”的产物。“最初移动这方面有几个因素,第一个就是因为大家都说移动是未来,这我相信。第二,发生了一个小故事——有个同事做出了手机网页版的移动翻译,并且发布出去,结果那段时间我们的流量呈几何倍数的疯涨。”这使陈雍昇意识到移动搜索的市场需求之大。他开始在上海研发中心游说,问谁愿意做这个项目的义工。朱文章(Google翻译iPhone主导工程师,作者注)对手机应用很感兴趣,就在正活之外进行iPhone版Google翻译的研发,只用两天时间就做出了产品雏形。“我们第一个手机翻译产品的就是这样诞生的,”谈起移动翻译,陈雍昇的自豪之情溢于言表。上海团队、美国团队对于产品雏形都很满意,并且为朱文章加拨了人力支持。大概两三个季度后,由朱文章领导开发的iPhone版Google翻译正式发布。在超过一周的时间里,它一直是全球排名第一的免费软件。理论上来讲,Google能在电脑端能够多少语种的互译,也能在手机端提供那么多。而在实际情况中,移动翻译提供多少语种的语音翻译,取决于其支持多少语种的语音识别。语音识别需要庞大的数据来源,才能建立很好的分辨模型,对此Google早有准备。2007年,Google开始提供GOOG-411)处理语音搜索。虽然GOOG-411并非Google的重要收入来源,但它为研发人员收集了海量数据,使之能够不断完善语音识别算法。一年后Google推出的语音搜索,足以比肩其他公司历时数年才搭建起来的类似系统。据Google称,这款语音搜索服务为GoogleAndroid和苹果iPhone等智能手机平台上“更多富有野心的服务提供了基础”。例如,装有Froyo软件的Android用户可通过语音控制手机的绝大部分功能,而Google推出的iPhone应用也内置了语音识别功能。Google2010年10月关闭了这项服务,并在声明中表示,计划将相关资源投入到“使下一代Google产品和服务支持多语种语音的技术”中,我们现在看到的语音翻译即是成果之一。可以预见,语音识别未来将成为Google更多服务的特性。虽然移动翻译接收的源语言多数具有口语化的特点,在陈雍昇看来,这对翻译质量并不会造成太大影响。首先,用户使用语音翻译时,对自己要讲的内容一般都有明确的认识,所以语句的流畅程度跟桌面翻译的差异不大。其次,人们使用语音翻译时的说话方式不同于演讲,多数情况下语句简短,对于语音翻译来说不难应对。“二者最大的差异在于用户体验方面。电脑键盘使用很方便,而手机键盘很小,我们必须想办法方便用户输入源语言。此外,语音翻译的使用环境可能跟办公室有较大区别,相对于口语中偶尔出现的停顿和重复现象,外界杂音对翻译质量的影响更大,所以我们得过滤不必要的讯息。”过滤杂音的任务多由翻译程序完成,研发人员可以设定一个音量阈值,将低于此值的杂音筛掉。此外,如果语言出现停顿,将其作为句子结束还是“正在考虑、尚未说完”来处理,也是翻译程序可以决定和控制的。再者,“如果用户说错了一两个字该怎么处理?让其重说一遍还是直接修改那一两个字,这些用户体验方面的问题,都可以通过完善翻译程序来提升。”陈雍昇表示,“除了之前的语音搜索,Google
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 体育培训住宿指南
- 2019版广西师范版 高中体育与健康 必修 10~12年级中篇 运动实践《第一章 球类运动》大单元整体教学设计2020课标
- 《呼吸球囊》课件
- 产品质量回顾分析培训
- 大学生涯规划
- 小组工作的原则小组工作的基本概念
- 国庆假前安全培训
- 社会保险的功能与内涵
- 《江春水向东流》课件
- 大班语言活动快乐的纽扣
- 积极应对媒体正确舆情引导培训讲义课件
- 人教版六年级英语上册(PEP)课件【全册】
- 运维开发人员KPI绩效考核方案
- 起重机日常维护保养方案
- 民法典讲座-继承篇
- 超级优等生:优等生最高效的学习方法
- 糖尿病健康知识宣教课件
- 教科版六年级英语上册(广州版)课件【全册】
- 大学生健康教育大学生性教育教学课件
- 医学-心脏骤停急救培训-心脏骤停急救教学课件
- 企业员工预防职务犯罪讲座课件
评论
0/150
提交评论