人工智能技术应用导论第5章 语音处理_第1页
人工智能技术应用导论第5章 语音处理_第2页
人工智能技术应用导论第5章 语音处理_第3页
人工智能技术应用导论第5章 语音处理_第4页
人工智能技术应用导论第5章 语音处理_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章语音处理CONTENTS目录语音处理概述及应用场景01基本原理及技术发展现状02案例体验03语音处理概述及应用场景5.1语音处理概述01语音处理应用场景02语音处理概述01会学习机器学习、深度学习会看计算机视觉会听、会说语音处理语音处理概述01微信语音转文字手机助手Siri智能音箱语音处理概述百度百科定义:语音处理是用以研究语音发声过程、语音信号的统计特性、语音自动识别、语音机器合成以及语音感知等各种处理技术的总称。语音信号处理是一门多学科的综合技术:它以生理、心理、语言以及声学等为基础,以信息论、控制论、系统论作为指导,通过应用信号处理、统计分析、模式识别等现代技术手段,发展成为一门新的学科。01语音处理概述01语音输入语音识别语言理解语音合成语言生成对话管理texttextcontextaction语音交互系统架构图语音输出任务执行voicevoiceaction语音处理概述01视频来源:http://发展史语音处理概述01技术发展史1980年以前,基于模板匹配的技术思路。1980年到2009年,基于统计模型的技术思路,高斯混合模型/隐马尔可夫模型(GMM-HMM)统治时期。2010年后,深度学习技术应用,框架升级DNN-HMM,2015年,“端到端”技术兴起,2017年微软在Swichboard上达到词错误率5.1%,语音识别的准确性首次超越了人类(限定条件下)。语音处理应用场景02语音输入法普通人打字速度是每分钟60字左右,讲话每分钟一般是150字左右。科大讯飞的语音输入,最高速度能够达到1分钟400字,不仅支持中文录入、中文转英文等功能,还支持粤语、四川话、东北话、上海话、闽南语等多种方言输入。讯飞搜狗百度语音处理应用场景02智能助理语音处理应用场景02智能音箱小米小爱天猫精灵华为小艺HomePod语音处理应用场景02智能家居智能家居领域,语音控制已经广泛应用于智能音箱、语控APP等产品。视频来源:/v?pd=wisenatural&vid=1864190843981970694语音处理应用场景02智能车载助手中国的智能驾驶舱市场规模有望在2025年达到1196亿元。智能车载助手是智能驾驶舱的核心应用,由于驾驶环境的要求,车载系统以语音交互为主。主要应用场景:1)多媒体娱乐方面:播放音乐、电台或视频的能力,是智能语音助理最常见的用例;

2)车辆控制功能方面:包括调节车内空调温度,调整车窗,调整后视镜,甚至可以切换驾驶模式;

3)智能导航方面:系统会理解驾驶员的语音指令,并提供有效的导航服务; 4)驾驶行为监控提醒方面:如果发现驾驶者的驾驶时间过长,或是频繁出现压线行驶和紧急刹车等情况,汽车也会及时的给予驾驶者语音反馈,使其保持清醒;

5)车况监控提醒方面:实时的监控可以帮助驾驶者发现汽车的问题,并及时的提醒驾驶员,避免意外的发生。语音处理应用场景02智能客服智能客服整合语音识别、语音合成、声纹识别、自然语言处理等能力,智能引导用户并响应用户需求。成功应用于电信、金融、电力、交通和教育等行业,如移动、联通、电信、工商银行、中国银行等。语音处理应用场景02声纹识别声纹识别技术能够提取每个人独一无二的语音特征,实现“听音辨人”,在涉及说话人身份识别的场景中具有重要应用价值。在公安司法领域,可以用声纹识别技术处理电话骚扰、绑架、诈骗、勒索等声音信息;在门禁和考勤系统中,可以通过提取语音中的声纹特征进行登记和签到;在金融行业,可以采用声纹识别技术对电话银行或远程证券交易中的客户进行身份确认;在刑侦领域,可以通过声纹识别技术判断监听电话中是否有嫌疑人出现。语音处理应用场景02在公检法领域应用智能语音主要功能是用语音提供公共安全服务,如语音识别电信诈骗、语音筛选犯罪人、语音提取接警信息等。另一个功能则是记录,包括但不限于一切需要文书的领域,如庭审笔录生成等、公安笔录生成等。语音处理应用场景02智能服务机器人智能翻译机智慧医疗……语音处理应用场景02正在步入万物互联、万物智能的时代语音交互架起人与物联网、互联网服务间的桥梁——任何时间、任何地方、任何设备基本原理及技术发展现状5.2关键技术01语音识别02语音合成03关键技术01语音交互系统流程语音输入语音识别语言理解语音合成语言生成对话管理texttextcontextaction语音输出任务执行voicevoiceaction关键技术01语音识别

-(深度学习)算法复杂度与实时率的平衡

-拥有的真实数据规模和覆盖面

-模型训练效率(迭代效率)

-对各种场景的快速适应,如唤醒词

-语音分离——鸡尾酒会问题语音合成

-技术比较成熟

-生产力在于根据业务需求快速定制新的声音理解与对话——自然语言处理语音信息抽取、数据挖掘语音识别02基本定义:语音识别技术(AutomaticSpeechRecognition,ASR)就是让机器通过识别和理解把语音信号转变为相应的文本或命令的技术。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。

语音识别02度量标准:词错误率(CharacterErrorRate,WordErrorRate),假设我们有一个原始的文本以及长度为N个词的识别文本。I是插入词(insertedwords)的数量,D是删除词(deletedwords),S表示替换词(substitutedwords),则词错误率可以通过下式计算:WER=(I+D+S)/N准确率(Accuracy),和词错误率类似,但是不考虑插入错误的情况:Accuracy=(N−D−S)/N语音识别02应用限制与影响因素:环境影响:噪音、场地、麦克风、信道说话人影响:口音、方言、音量说话内容影响:中英混读、专业术语

无法达到一般场景100%准确率语音识别02语音识别应用技术路线:面向一般场景的语音识别服务针对常见环境因素、说话人因素以及常见说话内容针对特定应用场景、产品的优化针对特定环境-手机、音箱、演讲场馆、车载针对特定说话人因素-带口音的普通话、地方方言针对说话内容-领域常见文本:法院、客服等

语音识别02基本原理举例:孤立词识别模板比较法-计算距离:,-距离小者为识别结果直接比较波形好吗?语音识别02"人不能两次踏进同一条河流"——古希腊哲学家赫拉克利特人也不能两次说出同一段话基本原理语音识别02特征提取语音特征是描述语音的核心信息,在语音模型构建中起重要作用。好的语音特征:包含区分音素的有效信息:良好的时域分辨率和频域分辨率;分离基频F0以及它的谐波成分;对不同说话人具有鲁棒性;对噪音或信道失真具有鲁棒性;有着良好的模式识别特性:低维特征,特征独立。基本原理语音识别02最常用的语音特征提取技术就是梅尔倒谱系数(Mel-FrequencyCepstralCoefficients,简称MFCC)。MFCC提取过程:语音信号数字化语音信号预处理:预加重、分帧、加窗快速傅里叶变换通过三角带通滤波器得到Mel频谱倒谱分析:取对数(log),离散余弦变换(DCT)得到MFCC基本原理语音识别02语音信号的数字化一般包括滤波、音频自动增益(ACG)、采样A/D转换、编码等步骤。基本原理语音信号滤波器音频自动增益模/数转换(A/D)编码存储/传输语音识别02预处理预加重:高频信号更容易衰减,预加重是个一阶高通滤波器,可以提高信号高频部分的能量。分帧:一帧信号,通常20-50ms,取25ms微观足够长:至少包含2-3个周期宏观足够短:在一个音素之内加窗:减少语音帧的截断效应,常用汉明窗。基本原理矩形窗结果汉明窗汉明窗结果语音识别02快速傅里叶变换FFT,将每个窗口内的数据从时域信号转为频域信号。三角带通滤波(梅尔滤波器组),模仿人类对不同频率语音有不同的感知能力。倒谱分析,取对数(log),再离散余弦变换(DCT)得到MFCC。傅里叶变换FFT加梅尔滤波器组得到40维的(FilterBank)特征logDCT13维MFCC基本原理语音识别02语音识别系统基本架构声学模型:给定语言学单元(如音素),计算输入语音匹配的可能性,即特征=>音素。词典:声学模型分析出的语音单元转为单词,即音素=>词语言模型:计算各种不同文本序列搭配的可能性,即词=>句子。解码器:根据不同的可能性来得到最有可能的文本序列,即识别结果。识别结果词典解码器特征提取语音信号声学模型语言模型基本原理语音识别02识别结果词典解码器特征提取语音信号声学模型语言模型声音ao/b/a/m/a凹嗷袄奥熬...

八爸吧把靶拔...吗妈嘛骂马麻...奥巴马熬爸妈袄把嘛……音素字/词句子基本原理语音识别02基本原理基于GMM-HMM语音识别系统语音信号帧frame提取特征(MFCC)。对每个帧frame的特征跑GMM,得到每个frame属于每个状态的概率state。根据每个单词的HMM状态转移概率a计算每个状态sequence生成该frame的概率;哪个词的HMM序列跑出来概率最大,就判断这段语音属于该词。语音识别02基本原理DNN-HMM深度神经网络-隐马尔科夫模型:利用DNN的强大的特征学习能力和HMM的序列化建模能力进行语音识别任务的处理,其性能远优于传统的GMM-HMM混合模型。

DNN部分:特征的学习能力估计观察特征的概率预测状态的后验概率识别结果词典解码器特征提取语音信号声学模型语音模型MFCC->DNN识别结果词典解码器语音信号声学模型语音模型GMM+HMM->DNN+HMM

HMM部分:描述语音信号的序列变化预测后面的序列语音识别02基本原理输入为三角滤波器组输出。DNN在大数据上有非常优异的表现:GMM模型,2000小时出现性能饱和DNN模型,1万小时以上还有性能提升DNN模型对环境噪声有更强的鲁棒性。语音识别02基本原理DNN给出输入的一串特征所对应的状态概率。由于语音信号是连续的,不仅各个音素、音节以及词之间没有明显的边界,各个发音单位还会受到上下文的影响。虽然拼帧可以增加上下文信息,但对于语音来说还是不够。前馈神经网络语音识别02基本原理RNN-HMM循环神经网络-隐马尔科夫模型:保存上下文的状态,甚至能够在任意长的上下文窗口中存储、学习、表达相关信息。RNN广泛应用在和序列有关的场景,如一帧帧图像组成的视频,一个个片段组成的音频,和一个个词汇组成的句子。语音识别02基本原理双向循环神经网络(bidirectionalRNN),增加反向序列。问题:梯度消失与爆炸,导致RNN记忆力有限。语音识别02基本原理LSTM长短期记忆网络LSTM,是一种时间递归神经网络,能在一定程度上缓解RNN的梯度消散和梯度爆炸问题,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。一个信息进入LSTM的网络当中,可以根据规则来判断是否有用。只有符合算法认证的信息才会留下,不符的信息被遗忘。LSTM是解决长序依赖问题的有效技术,且普适性非常高。各研究者根据LSTM纷纷提出了自己的变量版本,这就让LSTM可以处理千变万化的垂直问题。LSTM已经在科技领域有了多种应用。基于LSTM的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别、图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务。语音识别02基本原理端到端(EndtoEnd)模型:利用神经网络强大的建模能力,简化结构,所有模块统一成神经网络模型,使语音识别朝着更简单、更高效、更准确的方向发展。例如对于中文,输出不再需要细分为状态、音素或者声韵母,而是直接将汉字作为输出即可;对于英文,考虑到英文单词的数量庞大,可以使用字母作为输出标签。输入使用更简单的特征比如FFT点,甚至语音采样点。识别结果端到端模型语音信号语音识别02基本原理输出模式统计输入模式统计语音识别02基本原理Transducer从原理上最适合语音识别,但不能完爆其它模型。CTC实时解码效果好Attention注意力在编码器采样率低时鲁棒性更好有把多种模型相结合的尝试。CTCTransducerAttention输出语言模型无有有对齐单调单调不单调硬硬软解码所需步数输入长度输入长度+输出长度输出长度语音识别02语音识别现状模型简洁,容易训练和使用在限定情况下的性能可以超过人视频来源:/#/courseDetail?id=14711语音识别02语音识别现状模型简洁,容易训练和使用在限定情况下的性能可以超过人在恶劣条件下不堪一击噪声远场口音专业术语视频来源:/v?vid=9230593969312998451&pd=bjh&fr=bjhauthor&type=video语音识别02语音识别的未来有针对性地应对恶劣条件除噪、语音增强麦克风阵列收集大数据,让神经网络“长见识”有助于理解口音相关领域的突破人类的各种知识进行有效的特征提取和形式化的知识表达,大规模知识图谱语音合成03语音合成,又称文语转换(Text-To-Speech)技术,就是将任意文字信息转化为相应语音朗读出来。语音合成涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是语音处理领域的一项前沿技术。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这也涉及到自然语言理解的问题。语音合成03语音合成系统一个完整的语音合成过程是先将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形。系统框图如下:文本分析韵律处理声学处理合成语音输出韵律处理文本分析输入文本声学处理语音合成03文本分析对输入的文本进行分析,输出尽可能多的语言学信息(如拼音、节奏等);为后端的语言合成器提供必要的信息;文本分析实际上是一个人工智能系统,属于自然语言处理的范畴。流程如下:文本预处理:删除无效符号、断句等;文本规范化:将文本中的特殊字符识别出来,并转化为一种规范化的表达;自动分词:将待合成的整句以词为单位划为单元序列,以便后续考虑词性标注、韵律边界标注等;字音转换:将待合成的文字序列转换为对应的拼音序列,即告诉后端合成器应该读什么音。由于汉语中存在多音字问题,所以字音转换的一个关键问题就是处理多音字的消歧问题。字音转换多音字消歧自动分词文本规范化文本预处理词性标注语音合成03韵律处理是文本分析模块的目的所在。节奏、时长的预测都是基于文本分析的结果。韵律即是实际语言交流中的抑扬顿挫和轻重缓急。对韵律的研究涉及语音学、语言学、声学、心理学、物理学等多个领域;作为语音合成系统中承上启下的模块,也是整个系统的核心部分,极大地影响最终合成的语音的自然度。语音合成03声学处理模块根据前面的文本分析模块和韵律处理模块提供的信息来生成自然的语音波形。合成方法:基于时域波形的拼接合成方法:根据韵律处理模块提供的基频、时长、能量和节奏等信息并在大规模语料库中挑选最合适的语音单元,然后通过拼接算法生成自然语音波形;基于语音参数的合成方法:根据韵律和文本信息的指导来得到语音参数,然后通过语音参数合成器来生成自然语音波形。语音合成03基于拼接的语音合成基本原理:根据文本分析的结果,从预先录制并标注好的语音库中挑选合适基元(语音拼接时的基本单元,可以是音节或者音素等)进行适度调整,最终得到合成语音波形。早期拼接语音合成:基元库小,以及拼接算法本身性能的一些限制,导致这些合成的语音不连续,自然度较低。当代拼接语音合成:基于大数据语料库的基元拼接合成系统,语料库具有较高的上下文覆盖率,因此我们能够挑选出的基元几乎不需要经过任何调整就可以用于拼接合成。缺点:稳定性仍然不够,拼接点不连续的情况时有发生。很难改变发音的特征,只能合成该基元库说话人的语音。语音合成03基于参数的语音合成方法基本原理:基于统计建模和机器学习的方法,根据一定的语音数据进行训练并快速构建合成系统。可以在不需要人工干预的情况下,自动快速地构建合成系统。对于不同的发音人、发音风格、语种等依赖性都很小。基于隐马尔科夫模型的参数合成系统。语音合成03基于深度学习的语音合成方法随着深度学习的研究进展,深度神经网络也被引入统计参数语音合成方法中,用以代替基于隐马尔科夫参数合成系统中的隐马尔科夫模型。它可直接通过一个深层神经网络来预测声学参数,克服了隐马尔科夫模型训练中决策树聚类环节中规则离散的缺陷,进一步增强了合成语音的质量。案例体验5.3案例1-语音信号预处理01案例2-语音识别02案例1-语音信号预处理01实验目的:基于Python3.6和框架HTKFeat和HTK进行简单的语音数据的预处理操作演练;经过实验之后,掌握对音频数据的处理操作。主要内容是对进行语音数据加载、移除均值、分帧、预加重、加窗等操作,以及快速傅里叶变换、三角带通滤波等实验。预备知识:有语音预处理的理论基础有相应Python语言基础案例1-语音信号预处理01特征提取方法一般有:线性预测系数(LPC)LPC倒谱系数(LPCC)线谱对参数(LSP)共振峰率(前三个共振峰)短时谱Mel频率倒谱系数(MFCC)感知线性预测(PLP)案例1-语音信号预处理01MFCC提取过程:语音信号预处理(预加重、分帧、加窗);快速傅里叶变换;三角带通滤波器(梅尔滤波器组)得到Mel频谱;倒谱分析,取对数(log)得到fbank,离散余弦变换(DCT)得到MFCC。傅里叶变换FFT加梅尔滤波器组得到40维的(FilterBank)特征logDCTMFCCwaveformspetrogramFilterBank案例1-语音信号预处理01案例1-语音信号预处理01一、预处理——预加重其目的是为了对语音的高频部分进行加重,增加语音的高频分辨率。语音信号平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB/oct(倍频程)衰减,频率越高相应的成分越小。措施:将语音信号通过一个高通滤波器,公式y(t)=x(t)-αx(t-1),一般α取值0.95/0.97。案例1-语音信号预处理01二、预处理——分帧贯穿于语音分析全过程的是“短时分析技术”。语音信号具有时变特性,但是在一个短时间范围内(一般认为在10~30ms的短时间内),其特性基本保持不变即相对稳定,即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”,将语音信号分段来分析其特征参数,其中每一段称为一“帧”,帧长一般取为10~30ms。取一帧25毫秒的语音:帧长:0.025*16KHZ=400帧移:160案例1-语音信号预处理01分帧示意图帧长:200帧移:100案例1-语音信号预处理01三、预处理——加窗加窗的目的是对每一帧中心附近的语音波形加以强调而对波形的其余部分加以减弱。加窗即是将每帧语音信号与一个窗函数相乘,常用汉明窗,使全局更加连续,避免出现吉布斯效应。矩形窗结果汉明窗汉明窗结果案例1-语音信号预处理01四、快速傅里叶变换(FFT)语音信号的频域分析就是分析和提取语音信号的频域参数。最常用的频域分析方法为傅里叶分析法。语音信号是一个非平稳过程,因此需要用短时傅里叶变换对语音信号进行频谱分析。通过频谱可以观察它们的共振峰特性、基音频率和谐波频率。傅里叶的两个论点:1、周期信号都可以表示成谐波关系的正弦信号的加权和;2、非周期信号都可以用正弦信号的加权积分来表示。傅里叶变换FFT案例1-语音信号预处理01五、三角带通滤波器(梅尔滤波器组)由于人耳对不同频率的敏感程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论