语音识别技术的奇妙应用

上传人：f*** IP属地：山东上传时间：2025-02-18 格式：DOCX 页数：8 大小：42.86KB 积分：15 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

语音识别技术的奇妙应用倪俊杰

浙江省桐乡市凤鸣高级中学刘宗凡

广东省四会市四会中学邱元阳

河南省安阳县职业中专金

琦

浙江师范大学附属中学杨

磊

天津市第五中学黄钶涵

浙江省诸暨市开放双语学校语音识别中的难题倪俊杰：作为人工智能发展的一个分支，语音识别技术在智能设备上的使用已经非常普遍。例如，小爱同学月活用户已经突破1亿，在很多场景下，语音识别技术给我们带来了非常好的体验，但实际上，在人工智能的赛道上，语音识别技术基本还处于婴儿阶段，在很多方面还不够成熟，那么，都有哪些难题需要解决呢？刘宗凡：我认为，首先，在语义理解的准确性上，还需要加强。我们经常能见到这样一个场景：在和语音识别工具交互的过程中，语音识别答非所问，令人啼笑皆非的对话层出不穷等。目前，人工智能最流行的研究方向是深度学习，基于深度学习模型学到的知识和人类的知识有很大的区别，人工智能只能“理解”一些词和词的关系，语音识别系统的对话，本质上是基于识别出来的关键词的互联网搜索，是程序员对这句话的理解。语义的理解是人工智能领域的难题，至少目前还看不到突破的希望。其次，在语音识别过程中“背景噪音的影响”很难消除。信噪比直接影响数据收集模型，我们在训练语音识别的时候，都是将噪音从中去除，尽量保持干净的语音环境，从而提高语音识别的效果。目前业内普遍宣称的97%识别准确率，更多的是人工测评结果，只在安静室内的进场识别中才能实现。在嘈杂环境中必须有特殊的抗噪技术处理才能正常地使用语音识别，否则识别率很低，效果很差。但在实际生活中背景噪音无处不在，语音识别要能在复杂的环境下很好地应用，就要在各种情况下收集足够多的数据样本进行学习、分析。邱元阳：语音识别技术在“上下文联系”方面也做得不够。语音的自动识别与人类对语音的解释之间的主要区别之一在于上下文的使用。人类在相互交谈时会依赖很多上下文信息。此上下文包括对话主题、过去所说的内容、噪音背景以及唇部运动和面部表情等视觉线索。语音识别通常是孤立的，不能与历史联系在一起，不能进行情感分析，不能和现实联系起来。例如，我们在导航时，说出一个地点，地图软件只能机械地进行搜索。如果能根据我们所在位置和出行轨迹，猜测出行目的地，则可以大大提高识别准确度。当引入这些辅助信号时，语音识别水平无疑会提高。但是，这是一个相当庞大的知识体系问题，如何选择有用的上下文类型并有效使用它们需要进一步深入研究。杨磊：还有就是“词义消歧”。机器在切词、标注词性并识别完后，需要对各个词语进行理解。由于语言中往往一词多义，人在理解时会基于已有知识储备和上下文环境，但机器很难做到。虽然系统会对句子做句法分析，可以在一定程度上帮助机器理解词义和语义，但实际情况并不理想。目前，机器对句子的理解还只能做到语义角色标注层面，即标出句中的句子成分和主被动关系等，它属于比较成熟的浅层语义分析技术。未来要让机器更好地理解人类语言，并实现自然交互，还是需要依赖深度学习技术，通过大规模的数据训练，让机器不断学习。当然，在实际应用领域中，也可以通过产品设计来减少较为模糊的问答内容，以提升用户体验。再有就是口音、方言的兼容性问题。很多人的发音同标准发音有很大的差距，这就需要进行口音和方言的处理。即使同一个人说的话，如果处在不同的环境中，或者在不一样的语境中，意思也可能不同。这些同样需要改进语音模型，让语音识别适应大多数人的声音特征。语音识别的前沿研究方向倪俊杰：既然语音识别技术还存在这么多难题，那么如何突破呢？最新的前沿研究方向有哪些？金琦：目前语音识别的技术研究，已经从小词汇量阅读式识别转向难度较大的自由对话场景的语音识别，自然环境中的识别率逐渐提高，但是还无法达到无障碍地人机交流的程度。如果不限制对话环境，不在意语音标准化程度，在噪音和多人对话以及日常口语化的情形下，语音识别技术可能难以发挥正常的作用，甚至根本没有用武之地。因此语音识别的技术研究也开始面向非限定的环境，面向真实应用场景。在真实的语言交流活动中，不但没有人去戴着麦克风，而且会有多人同时说话，从专业角度来讲，研究的前沿方向就是从近场麦克风转向远场麦克风，从无注意力机制转向带注意力机制。邱元阳：腾讯AILab西雅图研究室负责人、浙江大学兼职教授俞栋曾给出语音识别技术的四个前沿研究方向。前沿研究方向一：语音序列到文字序列的直接转换模型例如，CTC（ConnectionistTemporalClassification）模型，這种时序分类算法可以在系统确定“听”到了某个字词时产生一个尖峰状态，相比传统的深度神经网络与混合模型来说大大减小了建模单元，但模型的训练难度较大。而Attention模型（Sequence-to-SequenceTransformationwithAttention）则是带有注意力机制的序列到序列转换模型，其做法是首先把输入的语音信号序列转换成一个中间层序列表达，然后基于中间层序列表达提供足够的信息给一个基于递归神经网络的生成模型，每次生成一个字、一个词或者一个音符，这个方法在机器翻译中已经成为主流方案。前沿研究方向二：非监督学习到有监督学习的转换在非常嘈杂或者多人同时说话的环境中，我们是能够把注意力集中在某一个人的声音上的，即有效屏蔽掉其他人声和噪音的干扰，听清所关注的人的声音。但机器和语音识别系统却很难做到这一点。在远场情况下，信噪比下降得更厉害，这个问题就更突出也更难以解决，一般途径是从之前的非监督学习盲分类问题，转换到人为定制的监督信息的有监督学习问题。有监督学习在多人说话时会遇到标签排列问题（LabelPermutationProblem），可以通过深度聚类（DeepClustering）或PIT（PermutationInvariantTraining，置换不变性训练）方案解决。前沿研究方向三：持续预测与适应的模型CTC等模型虽然能够较快地做适应（Prediction）、持续地做预测（Adaptation），但是性能不足并且很难训练。现在需要模型能够非常快地做适应，发现一致的规律性并将其变为长远记忆，使得下一次识别时会变成稳定的状态，其他状态则变成需要适应的状态，当遇到新的声音样本时可以很快地适应。前沿研究方向四：前端与后端联合优化出于远场识别的需要，处理前端信号使用的是信号处理技术，一般只用到当前状态下的语音信号信息，而机器学习方法则用到很多训练器里的信息，并很少用到当前帧的信息，也不会对它进行数据建模。如何把这两种方法融合在一起，并且减少前端信号处理有可能出现的信息丢失，也是很多研究组织正在努力的一个方向。语音识别的应用领域金琦：在人工智能的加持下，目前语音识别虽然还有不少需要克服的困难，但是也已经取得了非常大的进步，在近场自由对话的情形下，机器已经能够达到甚至超過人的识别水准。在这样的水平下，语音识别的应用就可以扩展到非常多的场景和领域。1.文字输入文字录入是语音识别最基本的应用，一般通过语音输入法进行。这方面做得较好的有IBM、微软、科大讯飞等，很多输入法都用的是讯飞的语音识别引擎。如果发音标准，在高达95%的识别率下，对于大量文字的录入，效率还是比较高的，甚至对于一些OCR难度较大的材料，也可以采用人工语音输入来解决。2.语音转换把语音转换成文字，看起来似乎跟语音输入一样，在QQ和微信中，也可以把聊天中发送的语音直接转换成文字。但是在以前，如果想把一首MP3的朗诵文件转换成文本，还是要大费周章的。现在这个问题就很简单了，在语音识别引擎的支持下，很多软件都能实现语音文件转换。例如，利用搜狗输入法的MP3转文字功能，就可以把单田芳的评书MP3识别转换成文本文件。3.会场速记会议速记是对录入速度的极大考验，因为正常说话的速度是每分钟200多字，一般人的文字录入速度不太容易达到。但是如果会议发言的语音较标准，环境噪声小，就完全可以由机器对讲话进行语音识别记录，自动转换成文字。例如，在一些法庭的庭审现场，也会通过语音识别来分担书记员的工作。4.录音整理很多时候，记者在采访和访谈时都会录音，以便回去后复听，避免遗漏和错误。在整理这些录音时，就可以采用语音识别的方法快速地得到文字版的采访过程记录，提高工作效率。5.语音检索图书馆在查找资料时，常常会与检索打交道。检索方式从最初的卡片式检索变为后来的电子检索，很大程度地方便了借阅。但是如果支持语音检索的话，会更进一步地提高检索效率。6.字幕转换在手机上的视频剪辑软件中，有一个功能很受欢迎，就是语音转字幕。只要发音不是太难懂，视频中的语音都可以很方便地转换成字幕，并且保持与画面同步，如快影、剪映等都有这个功能，不仅实用，而且极大地节省了制作时间。但是在计算机上的传统视频编辑软件中，却很少具备这种智能化操作功能。7.聊天机器人机器人能够跟人聊天的前提，当然也是需要具备语音识别功能，能够“听”出人在说什么，并且还需要具备语义识别功能，即能够听“懂”人在说什么。微软的小冰、IBM的沃森助理等，都具有较高的智能化水平。当然，它们不仅仅需要语音识别，更重要的是要基于人工智能、自然语言处理和大数据，才能实现像人一样聊天。8.智能音箱智能音箱本质上也是一个聊天机器人，不过它从计算机和手机软件中独立出来，不再依赖于计算机和手机，适应性更好。常见的天猫精灵、小爱同学、百度小度等，都是具有一定智能和应用特色的产品。9.智能声控用语音发命令，让机器和设备去执行，这早已不是科幻场景，在智能家居、车载设备上都已充分应用。其前提也是先运用语音识别。10.人机交互如果说简单的声控是单向响应的话，那么人机语音交互则是双向沟通。最常见的车辆导航，可以接受驾驶人的语音指令，根据目的地启用地图和导航，然后再根据车辆定位的反馈向驾驶人发出指示。以上仅仅是语音识别众多应用场景的一部分，相信随着语音识别技术的进步，还会出现更多的应用方向。人工智能语音识别API应用倪俊杰：既然语音识别技术已经相对成熟，那么我们能够利用该技术做一些什么事情呢？百度AI平台（https：///）是面向全球的AI开放平台，为用户提供了各类涉及推理预测、文字识别、图像识别、语音识别、人脸识别等领域的API。我们不妨用百度AI平台来做一些实验。黄钶涵：是的，百度API能够实现语音识别、文本翻译等，要使用百度AI平台，首先要注册“百度”账号。语音识别API的示例代码如下页图1所示，其中AipSpeech为使用语音识别的开发人员提供了一系列的交互方法。语音识别API对原始音频的格式有着严格的限制：原始PCM的录音参数必须符合16k、8k采样率，16bit位深，单声道，支持的格式有pcm（不压缩）、wav（不压缩，pcm编码）、amr（压缩格式）。因此，在编写程序时需要对音频进行重新采样。scipy.io库提供了多种功能来解决不同格式的文件的输入和输出，定义compressMusic函数将原始音频的采样率改为16K，并在文件夹中创建一个名为“重采样”的新文件，如图2、图3所示。第1步：读取文件（如图4）。第2步：重新采样并输出识别结果（如图5、图6）。在文本翻译方面，百度AI提供了一个专业的翻译开放平台（http：///），向开发者提供了更多丰富的能力。当登录平台后，在上方导航栏中选择“产品服务”—“在线翻译”—“通用翻译API”，在填入相关信息开通服务后，可在“开发者信息”中查看对应

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音识别技术的奇妙应用

文档简介

温馨提示

最新文档

评论

语音识别技术的奇妙应用

文档简介

温馨提示

最新文档

评论

相关文档