国际语音合成大赛“九连冠”是怎样炼成的_第1页
国际语音合成大赛“九连冠”是怎样炼成的_第2页
国际语音合成大赛“九连冠”是怎样炼成的_第3页
国际语音合成大赛“九连冠”是怎样炼成的_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、国际语音合成大赛 九连冠”是怎样炼成的2014-08-07科大讯飞畅言服务亲斤朋友请点击“科夭讯飞畅言服务“关注我吧让世界聆听我们的声音| .Let the world listen toBlizzard Challenge是由美国和日本联合发起的国际上规模最大、最具影响力的 语音合成大赛,自2005年起,历届大赛吸引了美国卡耐基-梅隆大学、英国爱丁 堡大学、日本名古屋工业大学、IBM研究院、微软亚洲研究院等语音技术领域的 世界一流科研机构参加。而在这样高手云集的国际顶级赛事上,连续9年在多项指标中获得冠军的却是 支来自中国的队伍一一科大讯飞研发团队。1999 年以前,中文语音产业基本上控制在

2、国外 IT 巨头手中。微软、 IBM 、Intel 等纷纷在在中国设立语音研究基地,国内语音专业优秀毕业生基本上全部外流, 中文语音产业被国外掐住了 “咽喉 ”。怀抱着 “中文语音技术应当由中国人做到全球最好,中文语音产业应当掌握在中 国人自己手中 ”的信念, 1999 年,以刘庆峰为首的 18 名在校大学生创立了科大 讯飞,并不断通过产学研合作的创新机制有效整合语音技术源头资源, 将中文语 音技术做到了全球最高水平。2004 年,科大讯飞在国家 863 中文语音合成评测中囊括所有指标第一。在此之 后,我们开始将目光投向国际赛场。 2005 年,在了解到第一届 Blizzard Challen

3、ge 的情况之后,讯飞首席科学家王仁华教授提出, “现在,我们已经把中文语音合 成做到了世界领先,明年我们是不是去国际比赛中试一试? ”团队成员们也都跃跃欲试, 希望得到向世界一流科研机构与高校学习的机会, “那 时没有想过参赛能获得什么名次,只是期待能到国际舞台上 ,亮剑 ?,衡量我们真 实水平,大家当时都卯足了一股劲。 ”当时的团队成员江源回忆道。2006 年,科大讯飞代表大中华区参加 Blizzard Challenge 。参赛前, 时任中国科 学院院长的路甬祥恰好来公司进行视察, 了解到科大讯飞要参加国际比赛的事情, “这是你们第一次参加世界性大赛,如果能获得前三名就已经很不错了。 ”

4、当年的比赛规则要求在规定时间内搭建出基于 1000 句和 5000 句两个不同规模 音库的英文合成系统, 主办方从可懂度和自然度两个方面分别测试各个团队的语 音合成效果。一般来说,从零开始搭建一个基于 5000 句规模音库的高质量语音 合成系统需要至少半年以上的时间。 而留给参赛者的时间只有一个月, 按时完成 的难度非常大。讯飞研发团队克服了音库规模大和时间紧的压力, 采用当时国际上最先进的基于 统计声学建模的参数语音合成方法完成了两个参数系统的构建,并在模型训练、 参数生成等方面进行了创新性的改进, 系统优化的工作一直持续到了规定提交的 最后时刻!结果,讯飞提交的参赛系统一举获得了小库可懂度

5、和自然度两个指标双料第一, 大库可懂度第一、自然度第二的优异成绩!成为当年大赛最大的 “黑马 ”,震惊了国际语音学界。因为,中国人不仅将中文语音技术做到了全球最好,而且可以将非母语的英文语音技术做到了全球最好!世界知名语音研究机构纷纷主动与讯飞建立联系。大赛组织者,国际知名语音学家、IEEE院士德田惠一教授还特地不远万里的来到到讯飞参观、交流。科大讯 飞成功地在世界舞台上发出了自己的声音。此后,从2006年至今连续9年的时间里,科大讯飞一路高歌猛进,在BlizzardChallenge中连续夺冠。这意味着中国人在语音合成技术上牢牢树立了国际领先 的地位!回顾9年征程,这是科大讯飞核心技术的卫冕

6、之路,更是超越之路,创新之路! 讯飞的研发团队通过比赛不断开拓研究方向、提升国际化视野,有力地推动了我国乃至国际智能语音技术与产业持续的向前发展。下面就让我们一起回顾科大讯飞语音合成研发团队在历届Blizzard Challenge中的精彩表现吧!2006 年,首次参加Blizzard Challenge,科大讯飞即获得可懂度和自然度两个指 标双料第一。2007年,测试音库规模相较2006年扩大了一倍,并新增相似度测试。科大讯 飞的系统包揽自然度、相似度、可懂度全部第一。其中讯飞原创的基于统计声学 模型的单元挑选语音合成算法更是得到了语音合成研究领域的广泛关注。2008年,参赛成员增加到20家

7、,包括爱丁堡大学、卡内基梅隆大学、IBM、东 芝等国际一流高校和机构,面对强有力的竞争对手的挑战,科大讯飞一举包揽了 英文大库、小库自然度和相似度的第一。这是业界首次在自然度测试中获得超出 普通人说话水平的4.1分。2009年,比赛增加了三个可选项目:音色转换合成、复杂信道合成、人机对话 合成。这意味着对合成的效果提出了更高的要求。这一年,科大讯飞继续获得大库相似度、自然度、可懂度测试指标的第一名,在小库和三个可选项目上也都取 得了各项测试指标前两名的优异成绩。2010 年,除了传统合成项目持续领先,科大讯飞在新增的可选项目中继续取得 好成绩。 极小规模音库合成获得自然度第一、 相似度可懂度第

8、二, 加噪语音合成 获得可懂度第三,高采样率语音合成获得自然度相似度第一。2011 年,比赛首次增加小说类型测试文本, 参赛系统需要利用 10 小时的女声美 式英语数据,做出能够自然、流畅朗读小说的合成系统。面对更高的比赛要求, 科大讯飞继续保持领先地位,一举获得相似度、自然度双料第一。2012 年,测试小说类文本合成效果成为了比赛的重点。 组织方提供了 50 小时英 文小说朗读数据但并无标准文本,需要依靠参赛方利用机器学习方法自动处理。 最终,科大讯飞在相似度、自然度、错误率、段落感觉测试中全部取得第一,进 一步扩大了我国在处理大规模语音数据以及合成小说类型文本领域的国际领先 优势。2013 年,比赛难度攀升,首次开展了印地语合成测试项目。科大讯飞在传统项 目上继续保持了国际领先地位, 并开创性的获得了印地语、 孟加拉语, 泰米尔语 三个语种的自然度第二名,展现了我国在语音合成技术方面的强大综合优势。2014 年,比赛首次将主要测试语种从英语语种全面转换到非英语语种,要求提 交的语音合成系统包括印地语、 阿萨姆语等六种印度语种, 并增加了这

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论