深度解读智能音箱技术：360度解剖智能音箱的耳朵

上传人：靓*** IP属地：河北上传时间：2021-12-31 格式：DOCX 页数：14 大小：134.11KB 积分：12 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、深度解读智能音箱技术：360度解剖智能音箱的“耳朵”智能音箱产业系列报道导读：最近数月，智能行业第一媒体智东西已深入智能音箱产业链，围绕智能语音交互入口之争和智能音箱之热，连发数篇深度报道，该系列还将覆盖业内数十家关键公司、核心操盘手和热点话题，本文为系列报道之一。如果没有“它”，所有的人工智能设备都是“聋子”，所有的智能音箱都是智障音箱；如果没有它，背后的人工智能技术牛 X到大都没用！它是智能设备的“耳朵”一一麦克风阵列。“Alexa，当你对着亚马逊Echo呼唤时，它用顶部的蓝色光环应声相应，“今天天气怎么样”，它就会“听懂”你的意图，用柔和的声音告诉你天气状况。而“听懂”或者“听清”

2、的第一步在于准确的获取用户的声音（即拾音），否则无论云端的虚拟助手多么智能，也是无头苍蝇。麦克风阵列是语音交互的第一步，在智能音箱落地中有关键作用，不仅传统的芯片公司，语音技术巨头和有深厚技术背景的初创公司纷纷加入这一领域。同时，随着智能音箱的火热以及语音交互的盛行，麦克风阵列技术开始走向前台，“XX产品用的是谁家的麦克风阵列”也成为行业中热议的话题；这时我们很有必要看清“麦克风阵列”产品技术的过去现在和产业链现状，也是本文作为智东西智能音箱产业系列报道的主要目的。那么我们经常提及的麦克风阵列究竟是什么？它有哪些类别及作用？哪些玩家参与其中？市场上各家智能音箱使用的麦克风阵列又有什么

3、不同？一、麦克风阵列：拾音简单来讲，麦克风阵列是由2个及以上麦克风按一定规则排列组成，在特定空间对声音进行获取和处理的录音系统，它是远讲语音（超过 1米以上）设备的一个关键部分。（注：本文所讨论的为远讲语音设备中的消费级麦克风阵列）麦克风阵列的功能就是拾音。在远讲语音设备中，麦克风阵列通过声源定位、波束形成、噪声抑制、回声消除等远讲算法，有效拾取声音，从而保证具体场景中语音的识别率。具体来讲，以智能音箱为例，在家庭场景中会存在各种噪声等，麦克风阵列的作用就是“众里寻他千百度”，在众多干扰噪声中寻找到你，但只是找到还不够，还需要抑制噪声、消除自身发出声音的影响，并增强你的声音，从而确

4、保在云端进行有效识别，并满足你的任务指令。而拾音又分为远场拾音（1米外）和近场拾音（20cm内）。比如，以Siri为代表的智能手机就是近场拾音，采用的是单麦克风，可在近距离、低噪声的情况下拾取符合语音识别需求的声音。但是一旦将智能手机放在有噪声的较远的距离，Siri的识别率就会直线下降，单麦克风的局限就凸显了出来。而这正是远场拾音和近场拾音的区别，也凸显了麦克风阵列的重要性。不仅如此，由于噪声、混响等因素的存在，远场拾音还要与远讲语音识别算法相匹配，才能真正做到“听清”。二、麦克风阵列中的关键技术在远场拾音中，麦克风阵列可以提供前端信号处理，拾取有效的语音信号输送到云端进行识别。这

5、其中就几项关键的技术：声源定位、波束形成、噪声抑制、回声消除、语音增强。1、声源定位声源定位的任务就是在具体场景中，甚至从噪音中找到发出声音的“你”，以便后续的波束形成。它是基于麦克风阵列对目标信号（声源）的位置探测，确定在特定空间中说话者的位置关系。尤其是在移动场景中，实时的声源定位就显得重要。2、波束形成波束形成是对麦克风阵列中各个麦克风输出的声音进行信号处理，从而形成空间指向性。这种方法会抑制目标声音以外的声音干扰，不仅抑制噪声也包括其他方向的人声。以叮咚音箱的AIUI模式为例，开启了一定时间的多伦对话后，它会优先默认第一个说话者作为它拾音的主方向，从而抑制其他方向的声音，来

6、保证和一个对话者的交互。这也意味着，当前技术下，智能音箱不可能同时和多人进行交互。3、噪声抑制你在卧室中开着电视，是很难唤醒在你床上睡觉的iPhone中的Siri的，这就是它不具备噪声抑制的能力。但你可以唤醒理你较远的智能音箱，这正是噪声抑制的作用。简单来讲，噪声抑制就是在目标信号和干扰噪声中，保留目标声音，削弱周围的噪声，从而保证获取的目标声音信号相对清晰，再结合云端相匹配的语音识别算法，实现有效识别理解。4、抗混响混响就是声源发出后，在空间中经过多次物体（墙壁）的反射和吸收，若干声波混合在一起所形成的现象，它会影响语音信号的处理，声源定位的精度以及语音识别效果。通过远讲算法消除混响

7、是远讲语音设备在拾音环节的关键一3 o5、回声抵消回声抵消简单来讲，就是不让语音设备自己发出的声音干扰到拾音过程。比如在智能音箱播放音乐时，你唤醒设备并下达命令，这时麦克风阵列同时采集你发出的声音和正在播放的音乐的声音，而回声抵消就是要去掉其中音乐的声音并保留人的声音，以供云端进行语音识别。6、语音增强在家居环境中，存在着背景噪音、回声、混响等噪音干扰，这些噪音相互叠加严重影响语音识别效果。除了降低各种噪声外，还可以从语音增强进行改善。远距离拾音的另一个问题就是获取的语音信号较弱，需要通过麦克风阵列进行噪声分离，提取目标信号，并增强语音信号的能量，从而提升语音识别效果。三、消费级麦克

8、风阵列的里程碑事件早在20世纪七八十年代，麦克风阵列已经被应用到语音信号处理中，进入 90 年代以来，基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。近年来随着语音交互成为趋势，麦克风阵列逐渐进入消费市场领域，日趋火热。在麦克风阵列领域拥有丰富经验的先声互联创始人付强曾谈到，麦克风阵列在消费级领域出现有几个里程碑事件：第一个里程碑事件是微软在 2010年6月份正式推出的Kinect ,它是Xbox 360游戏主机的体感周边设备，内置了红外线摄像头、传感器、麦克风阵列，可通过对用户身体动作的变化和发出指令来操作游戏。Kinect曾累计销量2900万部，但近几年逐渐推出了人们的视野。

9、第二个是三星在2012年推出的全球首款具有远讲语音能力的智能电视，该电视使用麦克风阵列，科胜讯的语音芯片，支持语音操控，并带动了国内的智能电视潮。第三个里程碑事件就是亚马逊 Echo智能音箱在2014年底的推出，具采用6+1麦克风阵列，支持5米远讲语音操控。Echo不但是第一款真正意义上的智能音箱设备，还是消费级麦克风阵列应用的里程碑事件，并带火了当下国内这波智能音箱浪潮。其中，三星的第一款智能电视和亚马逊的 Echo智能音箱都用了 4年时间去打磨，才有了今天的技术成熟。而反观国内的智能音箱浪潮，我们还缺少这种对技术的长线投入和对产品的耐心打磨。四、麦克风阵列的代表性玩家随着国内智

10、能音箱以及语音交互的火热，在麦克风阵列以及远讲算法领域诞生了一波方案提供商，其中能够提供麦克风阵列的硬件方案，又能够提供前端算法的厂商并不太多,智东西选出了具有代表性的几家方案厂商。麦克风阵列主要提供商公司科大讯飞科胜讯先声互联思必驰声智科技云知声代表方案负费人2麦、4麦，6麦、7+1麦2麦、4麦2麦、4麦、6麦单麦、2麦、4麦、6麦2麦、4麦、6麦双麦克风阵列胡郁Salel Awsare付强高始兴陈孝良黄伟I物般刖时空1-科大讯飞一一国内语音龙头科大讯飞是国内一家老牌智能语音公司，具有一个专门的团队在研究麦克风阵列技术。目前在讯飞开放平台上，提供二麦线性阵列、四麦线性阵列和六麦环形阵

11、列。中兴、海康威视、美的、高德、优必选、狗尾草等都是其客户。叮咚音箱就是由京东和科大讯飞联合成立的灵隆科技推出的，其中科大讯飞提供语音语义等技术支持。叮咚音箱 A1是国内第一款真正意义上的智能音箱，于2015年8月正式推出，它采用7+1麦克风阵列，豪恩声学提供的 ECM麦克风，并采用科胜讯CX20810-11Z音频芯片。在结构上不同于其他智能音箱置于顶部，而是位于主控电路板下面，并采用中空结构，麦克风向外侧倾斜拾音，颇具创意。（叮咚音箱A1的7+1环形麦克风阵列，黑色为麦克风）2-科胜讯一一国际语音方案巨头科胜讯成立于1999年，曾是全球最大的独立通讯芯片提供商，后来几经波折被新思科技收购。在

12、语音交互领域，官丰耍提供语音芯片和麦克风阵列技术，其方案最大优势在于降噪和语音增强算法，技术打磨也更加成熟。难怪科胜讯总裁Saleel Awsare 会说，其双麦克风就可以实现友商 5-8麦克风的解决方案的效果。亚马逊、百度、阿里巴巴、腾讯、哈曼、科大讯飞、出门问问、云知声等都是其客户或合作伙伴。据了解科胜讯为 Alexa Voice Service (AVS)量身定做了AudioSmart 语音处理开发套件出货量已超过 3000万套，涵盖智能音箱、智能家居、智能电视、机器人等多个品类。出门问问刚刚发布的智能音箱也采用科胜讯的方案，止匕外，苹果 HomePod也可能采用了科胜讯 Audio

13、Smart开发套件。3-先声互联一一阵列研究先行者先声互联是一家成立于2016年的创业公司，主要提供麦克风阵列以及前端信号处理技术。其创始人付强曾在中科院声学所有10余年的声学研究，在语音信号处理领域有20余年的积淀。先声互联目前主要提供两麦、四麦、六麦等解决方案，在抗混响、回声消除、语音增强等方面表现不俗。先声互联是百度的合作伙伴，其多麦克风硬件开发套件也应用在百度DuerOS平台中。目前，物灵的luka阅读养成机器人、极米科技的 Lightank W100 、数字家圆的亲见H2等产品都采用了先声互联的远讲算法以及麦克风拾音模组。止匕外，先声互联也正在和腾讯、联想、小米等公司就某些智能硬件

14、产品展开合作。4-思必驰一一成熟方案输出商思必驰成立于2007年，是一家面向B端客户的语音语义技术提供商。其副总裁雷国雄告诉智东西，思必驰从 2012年就开始研究麦克风阵列技术，并配备一个专门的团队研究语音信号处理，结合思必驰的语音进行优化。目前思必驰提供单麦、两麦、四麦、六麦等解决方案，经过 5、6年时间的积累，在性能和稳定性上均表现不错。近期阿里推出的天猫精灵 X1就是采用思必驰的环形6麦克风阵列，模拟麦克风则来自敏芯微电子，天猫精灵在降噪、回声消除等拾音方面均有不错表现。此外，联想、小米、美的、360、DOSS等都是其客户。5-声智科技一一新起之秀声智科技也成立于2016年，提供麦克风

15、阵列以及远讲算法，目前其推出了单麦、两麦、四麦、六麦、八麦的阵列解决方案，也有不错的表现。有趣的是其创始人陈孝良也来自中科院声学所。近期刚刚发布的小米AI音箱，就采用了声智科技的环形 6麦克风阵列和唤醒技术方案。声智科技也是百度的合作伙伴，推出了基于 DuerOS的语音解决方案。此外，腾讯、阿里巴巴、奇虎 360、华为、海尔等都是其客户。五、麦克风阵列：两路分化目前智能音箱中的麦克风阵列呈现两路分化，主要包括环形和线性。亚马逊Echo、叮咚音箱、天猫精灵、小米 AI音箱等技术路线相似，都使用 6(+1)、7(+1)个麦克风的环形阵列，而 Google Home 、出门问问的问问音箱则采用了 2

16、麦克风的线性阵列。（亚马逊Echo的6+1环形麦克风阵列，金色为麦克风）为何各家使用的麦克风数目不一，真的是数目越多越好吗？先声互联付强曾从技术的角度谈到，事实并非如此。目前麦克风阵列语音增强大致可分为两种技术路线：一种是以亚马逊Echo为代表的经典波束形成路线，它对麦克风的数目以及阵列拓扑结构（排列位置）依赖较大，通过使用较多的麦克风以及特定结构，从而使得波束的空间区分性更强，保证声源定位和拾音效果。另外一种就是以科胜讯为代表的路线，该路线更加依赖语音增强算法，而对麦克风阵列数量和阵列拓扑结构依赖较小，通过通过自适应降噪、降低混响、语音分离等技术，从而靠少量麦克风获得良好的拾音效果。有

17、趣的是，刚刚在8月24日发布的出门问问的智能音箱采用的就是科胜讯的2麦克风阵列，从其测试结果来看，远场拾音唤醒能力并不输于竞品。（黄色方框为 Google Home 2 麦线性阵列）关于阵列麦克风数目的选择，思必驰副总裁雷雄国则从产品层面谈到：首先从性能上考虑，思必驰从单麦、6麦、8麦、12麦都有尝试，思必驰最终选择 6麦作为主要的阵列方案，是成本和性能的一个综合考虑。6麦以上尽管性能也会提升，但提升的效果和成本不成正比，但 6麦一下数目的减少，成本会降低，性能也会相对降低。其次，产品形态会影响阵列的选择，比如电视上的Soundbar等设备是长条形，就适合线性阵列；而 Echo、叮咚是椭圆，它

18、就可以选择环形阵列。此外，麦克风数目的选择还和产品定位有关。定位高端产品，对体验有更高要求，则可以选择6麦阵列，而中低端的产品可选择 2麦或4麦。六、麦克风阵列在远场交互中存在的问题尽管智能音箱经过一段时间的打磨，在拾音、唤醒、识别方面都能够欧达到一个不错的效果，但在远场交互中麦克风阵列仍存在一些亟待解决的问题。第一，误唤醒是一个问题。雷雄国也谈到，表面看这个是唤醒的问题，但实际跟阵列有较强的关系，唤醒拿到的是阵列拾音的信号，阵列对信号噪声处理效果的好坏直接影响到误唤醒。这个问题也可以从产品的思路进行解决，如唤醒之后只是亮灯而不“说话”，这样会好很多。第二，声源定位需要提升。在声学环境中，尤其是在反射较强、回声较强、噪音环境下，声源定位需要较大的提升空间。第三，动态环境中对用户位置的跟踪也需要提升。在家庭场景中，人会处于一种移动的状态，唤醒和指令可能不在同一个方位，在下一次人机交互中会重点处理刚刚那个方向的信号，如果房间存在多个音源，就可能无法执行指令。第四，麦克风阵列无法同时进行多人声的识别和处理，当下的波束形成和

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

深度解读智能音箱技术：360度解剖智能音箱的耳朵

文档简介

温馨提示

最新文档

评论

深度解读智能音箱技术：360度解剖智能音箱的耳朵

文档简介

温馨提示

最新文档

评论

相关文档