智能机器人原理与应用 课件 第6章 智能机器人的语音合成与识别_第1页
智能机器人原理与应用 课件 第6章 智能机器人的语音合成与识别_第2页
智能机器人原理与应用 课件 第6章 智能机器人的语音合成与识别_第3页
智能机器人原理与应用 课件 第6章 智能机器人的语音合成与识别_第4页
智能机器人原理与应用 课件 第6章 智能机器人的语音合成与识别_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京信息科技大学自动化学院智能机器人原理与应用“智能检测技术与模式识别”研究所第6章

智能机器人的语音合成与识别语言是人类最重要的交流工具,自然方便,准确高效。让机器与人之间进行自然语言交流是智能机器人领域的一个重要研究方向。语音合成与识别技术涉及语音声学、数字信号处理、人工智能、微机原理、模式识别、语言学和认知科学等众多前沿科学,是一个涉及面很广的综合性科学,其研究成果对人类的应用领域和学术领域都具有重要价值。近年来,语音合成与识别取得显著进步,逐渐从实验室走向市场,应用于工业、消费电子产品、医疗、家庭服务、机器人等各个领域。6.1语音合成的基础理论语音合成是指由人工通过一定的机器设备产生出语音。具体方法是利用计算机将任意组合的文本转化为声音文件,并通过声卡等多媒体设备将声音输出。简单地说,就是让机器把文本资料读出来。由图6.1可知,语音合成系统完成文本到语音数据的转化过程中可以简单分为两个步骤。图6.1

语音合成技术原理示意图(1)文本经过前端的语法分析,通过词典和规则的处理得到格式规范,携带语法层次的信息,传送到后端。(2)后端在前端分析的结果基础上,经过韵律方面的分析处理得到语音的时长、音高等韵律信息,再根据这些信息在音库中挑选最合适的语音单元,语音单元再经过调整和拼接就能得到最终的语音数据。6.1.1语音合成分类6.1语音合成的基础理论1.波形合成法波形合成法是一种相对简单的语音合成技术,它把人发音的语音数据直接存储或进行波形编码后存储,根据需要进行编辑组合输出。2.参数合成法参数合成法也称为分析合成法,只在谱特性的基础上来模拟声道的输出语音,而不考虑内部发音器官是如何运动的。3.规则合成法规则合成法通过语音学规则产生语音,可以合成无限词汇的语句。合成的词汇表不是事先确定,系统中存储的是最小的语音单位的声学参数,以及由音素组成音节、由音节组成词、由词组成句子和控制音调、轻重音等韵律的各种规则。6.1语音合成的基础理论6.1.2常用语音合成技术1.共振峰合成法习惯上,声道传输频率响应上的极点称为共振峰。语音的共振峰频率(极点频率)的分布特性决定着语音的音色。共振峰合成涉及共振峰的频率、带宽、幅度参数和基音周期等相关参数。要产生可理解的语音信号,至少要有3个共振峰;要产生高质量合成语音信号,至少要有5个共振峰。基于共振峰合成法主要有以下3种实用模型。1)级联型共振峰模型2)并联型共振峰模型3)混合型共振峰模型6.1语音合成的基础理论2.

LPC(线性预测)参数合成LPC合成技术本质上是一种时间波形的编码技术,目的是为了降低时间域信号的传输速率。LPC合成技术的优点是简单直观,其合成过程实质上只是一种简单的译码和拼接过程。另外,由于波形拼接技术的合成基元是语音的波形资料,保存了语音的全部信息,因而对于单个合成基元来说,能够获得较高的自然度。3.

PSOLA算法合成语音早期的波形编辑技术只能回放音库中保存的东西。然而,任何一个语言单元在实际语流中都会随着语言环境的变化而变化。20世纪80年代末,丹尼斯•德•维特和贝阿特•多瓦尔等提出了基音同步叠加技术(PSOLA)。PSOLA算法和早期波形编辑有原则性的差别,它既能保持原始语音的主要音段特征,又能在音节拼接时灵活调整其基音、能量和音长等韵律特征,因而很适合汉语语音的规则合成。由于韵律修改针对的侧面不同,PSOLA算法的实现目前有以下3种方式。(1)时域基音同步叠加TD-PSOLA。(2)线性预测基音同步叠加LPC-PSOLA。(3)频域基音同步叠加FD-PSOLA。6.1语音合成的基础理论概括起来,用PSOLA算法实现语音合成时主要有以下3个步骤。1)基音同步分析2)基音同步修改3)基音同步合成6.2语音识别的基本原理6.2.1语音识别的基本原理语音识别系统本质上是一个模式识别系统,其原理如图6.5所示。外界的模拟语音信号经由麦克风输入计算机,计算机平台利用其A/D转换器将模拟信号转换成计算机能处理的语音信号,然后将该语音信号送入语音识别系统前端进行预处理。预处理会过滤语音信息中不重要的信息与背景噪声等,以方便后期的特征提取与训练识别。预处理主要包括语音信号的预加重,分帧加窗和端点检测等工作。特征提取主要是为了提取语音信号中反映语音特征的声学参数,除掉相对无用的信息。语音识别中常用的特征参数有短时平均能量或幅度、短时自相关函数、短时平均过零率、线性预测系数(LPC)、线性预测倒谱系数(LPCC)等。图6.5语音识别结构图6.2语音识别的基本原理1.语音训练语音训练是在语音识别之前进行的,用户多次从系统前端输入训练语音,系统的前端语音处理部分会对训练语音进行预处理和特征提取,之后利用特征提取得到的特征参数可以组建起一个训练语音的参考模型库,或者是对此模型库中己经存在的参考模型作适当的修改。2.语音识别语音识别是指将待识别语音经过特征提取后的特征参数与参考模型库中的各个模式一一进行比较,将相似度最高的模式作为识别的结果输出,完成模式的匹配过程。模式匹配是整个语音识别系统的核心。6.2语音识别的基本原理6.2.2语音识别的预处理语音信号预处理包括采样量化、分帧加窗和端点检测等。1.采样量化采样就是在时间域上等间隔地抽取模拟信号,得到序列模拟音频后,将其转化成数字音频的。实际上就是将模拟音频的电信号转换成二进制码0和1。0和1便构成了数字音频文件。采样频率越大,音质越有保证。如图6.6所示,采样过程可表达如下:

(6.18)其中n为整数,T为采样周期,

为采样频率。图6.6语音信号采样示意图6.2语音识别的基本原理2.分帧加窗语音信号本身是一种非平稳的信号。但研究发现,在一个很短的时间内(10~30ms),信号很平稳。所以可以对连续的语音信号进行10~30ms分帧操作。假定每帧内的信号是短时平稳的,我们可以对每帧进行短时分析,包括提取短时能量、短时自相关函数、短时过零率、短时频谱等。同时,为了保证特征参数变化比较平滑,帧之间会有部分重叠,重叠的部分可以是1/2帧或1/3帧,此部分称为帧移。对信号作适当的加窗处理,可以减小语音帧之间的截断效果,使上一帧结束处和下一帧起始处的信号更加连续。加窗函数常用的有矩阵窗和汉明窗等(其中N均为帧长)。矩阵窗为

(6.22)汉明窗为

(6.23)6.2语音识别的基本原理3.端点检测端点检测就是通过准确地判断输入语音段的起点和终点来减少运算量、数据量以及时间,进而得到真正的语音数据。比较常用的端点检测方法有两种:多门限端点检测法和双门限端点检测法。在语音信号检测过程中,多门限检测算法有较长的时间延时,不利于进行语音过程实时控制,所以大多采用双门限端点检测方法。双门限端点检测方法是通过利用语音信号的短时能量和平均过零率的性质来进行端点检测,其步骤如下。(1)设定阈值。(2)寻找语音信号端点检测的起点。(3)寻找语音信号端点检测的终点。(4)语音端点结果检测。6.2语音识别的基本原理6.2.3语音识别的特征参数提取对语音信号完成端点检测和分帧处理后,下一步就是特征参数的提取。语音信号数据量巨大,为了减小数据量,必须进行特征提取。语音特征参数可以是共振峰值、基本频率、能量等语音参数。目前,在语音识别中比较有效的特征参数为线性预测倒谱系数(LPCC)与Mel倒谱系数(MFCC)。1.线性预测系数线性预测(linearprediction,LP)普遍地应用于语音信号处理的各个方面。线性预测是基于全极点模型的假设,采用时域均方误差最小准则来估计模型参数。线性预测的计算效率很高,而且还能与声管发音模型相联系。线性预测分析的基本思想是每个语音信号采样值都可以用它过去取样值的加权和来表示,各加权系数应使实际语音采样值与线性预测采样值之间误差的平方和达到最小,即进行最小均方误差的逼近。线性预测是将被分析信号用一个模型来表示,即将语音信号看作是某一模型的输出。因此,它可以用简单的模型参数来描述。如图6.7所示。图6.7信号模型图2.线性预测倒谱系数(LPCC)6.2语音识别的基本原理线性预测倒谱系数(LPCC)是线性预测系数在倒谱中的表示。该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数。LPCC参数的优点是计算量小,易于实现,对元音有较好的描述能力,缺点是对辅音的描述能力较差,抗噪声性能较差。倒谱系数是利用同态处理方法,对语音信号求离散傅里叶变换DFT后取对数,再求反变量IDFT就可以得到。基于LPC分析的倒谱在获得线性预测系数后,可以用一个递推公式计算得出L。

(6.31)公式中:——倒谱系数;——预测系数;n——倒谱系数的阶数(n=1,2,…,p)p——预测系数的阶数。6.2语音识别的基本原理3.Mel倒谱系数(MFCC)基于语音信号产生模型的特征参数强烈地依赖模型的精度,模型假设的语音信号的平稳性并不能随时满足。现在常用的另一个语音特征参数为基于人的听觉模型的特征参数。Mel倒谱系数MFCC是受人的听觉系统研究成果推动而导出的声学特征,采用Mel频率倒谱参数(Melfrequencycepstrumcoefficients,MFCC)运算特征提取方法,己经在语音识别中得到广泛应用。人耳听到的声音的高低与声音的频率并不成线形正比关系,与普通实际频率倒谱分析不同,MFCC的分析着眼于人耳的听觉特性。MFCC的具体步骤如下。运用式(6.32)将实际频率尺度转化为Mel频率尺度:

(6.32)在Mel频率轴上配置L个通道的三角形滤波器组,每个三角形滤波器的中心频率c(l)在Mel频率轴上等间隔分配。设

,和

分别是第1个三角形滤波器的上限、中心和下限并满足:(6.33)6.2语音识别的基本原理根据语音信号幅度谱,求每个三角形滤波器的输出公式如下。

(6.34)式(6.34)中,(6.35)对所有滤波器输出进行对数运算,再进一步做离散余弦变换(DCT),即可得到MFCC:

(6.36)6.2语音识别的基本原理6.2.4模型训练和模式匹配语音识别核心部分的作用是实现参数化的语音特征矢量到语音文字符号的映射,一般包括模型训练和模式匹配技术。模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。近几十年比较成功的识别方法有隐马尔可夫模型(HMM)、动态时间规整(DTW)技术、人工神经网络(ANN)等。1.隐马尔可夫模型隐马尔可夫模型是20世纪70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术。目前,大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。可见,HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。1)HMM语音模型2)HMM语音识别过程3)几种不同的HMM模型

6.2语音识别的基本原理2.动态时间规整动态时间规整(DTW)是语音识别中较为经典的一种算法,它将待识别语音信号的时间轴进行不均匀的弯曲,使其特征与模板特征对齐,并在两者之间不断地进行两个矢量距离最小的匹配路径计算,从而获得这两个矢量匹配时累积距离最小的规整函数。设测试语音参数共有N帧矢量,而参考模板共有M帧矢量,且N不等于M。要找时间规整函数j=w(i),使测试矢量的时间轴i非线性地映射到模板的时间轴j上,并满足(6.37)式中:

表示第i帧测试矢量T(i)和第j帧模板矢量R(j)之间的距离测度;D为在最优情况下的两矢量之间的匹配路径。3.矢量量化6.2语音识别的基本原理传统的量化方法是标量量化。标量量化中的整个动态范围被分成若干个小区间,每个小区间有一个代表值,对于一个输入标量信号,量化时落入小区间的值就要用这个代表值代替。随着对数据压缩的要求越来越高,矢量量化迅速发展起来。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。在实际的应用过程中,人们还研究了多种降低复杂度的方法,这些方法大致可以分为以下两类。(1)无记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。(2)有记忆的矢量量化。6.2语音识别的基本原理6.2.5视听语音分离模型视听语音分离模型(audio-visualspeechseparationmodel)的独特之处在于,通过结合分析输入视频的音、视频信号来识别分离所需的单一音轨。直观来说,例如特定人物对象的音频与其发声时的嘴部动作相关联,这也就帮助模型系统区分哪一部分音频(轨)对应着哪一个特定对象。对视频中的视觉信号进行分析,不仅能够在多种音频混合的场景下显著提升语音识别分离质量(相较于只借助音频来进行特定对象语音分离),更加重要的还在于它能将分离后的纯净单一音轨与视频中的可视对象联系起来,如图6.8所示。图6.8视听分离模型的输入输出6.3智能机器人的语音定向与导航与视觉一样,听觉是也是智能机器人的重要标志之一,是实现人机交互、与环境交互的重要手段。由于声音具有绕过障碍物的特性,在机器人多信息采集系统中,听觉可以与机器人视觉相配合,弥补其视觉有限性及不能穿过非透光障碍物的局限性。机器人听觉定位跟踪声源的研究主要分为基于麦克风阵列和基于人耳听觉机理的声源定位系统研究。基于麦克风阵列的声源定位系统具有算法多样、技术成熟、历史悠久、定位准确、抗干扰能力强等优点。但是,该方法也具有计算量大、实时性差等不足,尤其是当麦克风数量很大时,不足显得更加突出。随着DSP硬件的发展,这些问题会逐渐解决。基于人耳听觉机理的声源定位系统研究是当前国际前沿研究课题。它从人的听觉生理和心理特性出发,研究人在声音识别过程中的规律,寻找人听觉表达的各种线索,建立数学模型,用计算机来实现它,即计算听觉场景分析所要研究的内容。该方法符合人的听觉机理,是智能科学研究的成果。由于人耳听觉机理尚未完全被人类认识,所以该系统研究还处在低级阶段。6.3智能机器人的语音定向与导航麦克风阵列声源定位是指用麦克风阵列采集声音信号,通过对多道声音信号进行分析和处理,在空间中定出一个或多个声源的平面或空间坐标,得到声源的位置。现有声源定位技术可分为以下3类。(1)基于最大输出功率的可控波束形成技术。(2)基于高分辨率谱估计技术。(3)基于声达时间差的定位技术。6.3.2基于人耳听觉机理的声源定位系统6.3.1基于麦克风阵列的声源定位系统人耳听觉系统能够同时定位和分离多个声源,这种特性经常被称作鸡尾酒会效应。通过这一效应,一个人在嘈杂声音的环境中能集中在一个特定的声音或语音。一般认为,声音的空间定位主要依靠声源的时相差和强度差确定。从人类听觉生理和心理特性出发,研究人在声音或语音识别过程中的规律被称为听觉场景分析,而用计算机模仿人类听觉生理和心理机制建立听觉模型的研究范畴称为计算听觉场景析。6.4智能机器人的语音系统实例6.4.1InterPhonic6.5语音合成系统InterPhonic语音合成系统是由我国自主研发的中英文语音合成系统,以先进的大语料和TrainableTTS这两种语音合成技术为基础,提供可比拟真人发音的高自然度、高流畅性、面向任意文本篇章的连续合成语音合成系统。InterPhonic6.5语音合成系统致力于建立和改善人—机语音界面,为大容量语音服务提供高效稳定的语音合成功能,并提供从电信级、企业级到桌面级的全套应用解决方案,是新概念声讯服务、语音网站、多媒体办公教学的核心动力。1.主要功能InterPhonic语音合成系统具有的主要功能如下。(1)高质量语音。(2)多语种服务。(3)多音色服务。(4)高精度文本分析技术。(5)多字符集支持。(6)多种数据输出格式。(7)提供预录音合成模板。(8)灵活的接口。(9)语音调整功能。(10)配置和管理工具。(11)效果优化。(12)一致的访问方式。(13)背景音和预录音。6.4智能机器人的语音系统实例2.产品特点(1)独创的语料信息统计模型。(2)前后端一致性的语料库设计方法、和语料库的自动构建方法。(3)在听感量化思想指导下,以变长韵律模板为基础的高精度韵律模型。(4)高鲁棒性的智能化文本分析处理技术。(5)基于听感损失最小的语料库裁减技术。(6)特定语种知识和系统建模方法分离的多语种语音合成系统框架。(7)面向特定领域应用的定制语音合成技术。(8)

Hmm-based波形拼接技术。3.产品应用6.4智能机器人的语音系统实例语音合成技术是一种能够在任何时间、任何地点、向任何人提供语音信息服务的高效便捷手段,非常符合信息时代海量数据、动态更新和个性化查询的需求。InterPhonic6.5语音合成系统提供高效、灵活的服务,可以在多种领域内使用,如PC语音互动式娱乐和教学;电信级、企业级呼叫中心平台(unitedmessageservice,UMS)和VoicePortal等新兴语音服务系统。6.4.2Translatotron26.4智能机器人的语音系统实例1.

Translatotron的起源2019年,谷歌公司推出了Translatotron,这是有史以来第一个能够直接在两种语言之间翻译语音的模型。这种直接的S2ST模型能够有效地进行端到端的训练,还具有在翻译语音中保留源说话者的声音(非语言信息)的独特能力。然而,尽管它能够以高保真度生成听起来自然的翻译语音,但与强大的基线级联S2ST系统(如由直接语音到文本翻译模型[1,2]和Tacotron2组成)相比,它的表现仍然不佳。在translatotron2:稳定、简洁的语音到语音翻译中,谷歌描述了Translatotron的改进版本,该版本显著提高了性能,还应用了一种将源说话者的声音转换为翻译语音的新方法。即使输入语音包含多个说话者轮流说话,修改后的语音转移方法也是成功的,它减少了误用的可能性,并更好地符合谷歌的AI原则。在3个不同语料库上的实验一致表明,Translatotron2在翻译质量、语音自然度和语音鲁棒性方面大大优于原始的Translatotron。6.4智能机器人的语音系统实例2.

Translatotron2简介Translatotron2由4个主要组件组成:语音编码器、目标音素解码器、目标语音合成器和将它们连接在一起的注意力模块。编码器、注意力模块和解码器的组合类似典型的直接语音到文本翻译模型。合成器以解码器和注意力的输出为条件。3.Translatotron2的性能Translatotron2在各个方面都大大优于原始的Translatotron:更高的翻译质量(由BLEU衡量,越高越好);语音自然度(由MOS衡量,越高越好)和语音鲁棒性(由UDR衡量,越低越好)。它在更难的Fisher语料库中表现尤为出色。Translatotron2在翻译质量和语音质量方面的性能接近强基线级联系统的性能,并且在语音鲁棒性方面优于级联基线。6.4智能机器人的语音系统实例4.多语言语音到语音翻译除了西班牙语到英语S2ST,谷歌还评估了Translatotron2在多语言设置上的性能,其中模型从4种不同语言输入语音,并将它们翻译成英语。没有提供输入语音的语言,迫使模型自行检测语言。在这项任务上,Translatotron2再次大幅超越了原来的Translatotron。虽然S2ST和ST之间的结果不能直接比较,但接近的数字表明Translatotron2的翻译质量与基线语音到文本翻译模型相当,这表明Translatotron2在多语言S2ST上也非常有效。6.4.3百度深度语音识别系统6.4智能机器人的语音系统实例1.主要功能1)技术领先,识别准确2)多语种识别3)智能语言处理4)多种调用方式5)毫秒级实时识别音频流6)文字识别结果支持时间戳2.应用场景1)实时语音输入2)视频直播字幕3)演讲字幕同屏4)实时会议记录5)课堂音频识别3.产品优势1)识别效果领先2)支持多设备终端3)服务稳定高效4)模型自助优化6.5自然语言处理6.5.1定义自然语言处理(naturallanguageprocessing,

NLP)是计算机科学与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。6.5.2发展历程1948年,香农把马尔可夫过程模型应用于建模自然语言,并提出把热力学中“熵”的概念扩展到自然语言建模领域。此时尚未有NLP,但由于熵也是NLP的基石之一,在此也算作是NLP的发展历程。1.NLP规则时代2.NLP统计时代3.NLP深度时代6.5自然语言处理6.5.3NLP的分类NLP的细分领域和技术实在太多,根据NLP的终极目标,大致可以分为自然语言理解(NLU)和自然语言生成(NLG)两种。大致来说,NLP可以分为以下几个领域。(1)文本检索。(2)机器翻译。(3)文本分类/情感分析。(4)信息抽取。(5)序列标注。(6)文本摘要。(7)问答系统。(8)对话系统。(9)知识图谱。(10)文本聚类。6.5自然语言处理6.5.4基本技术(1)分词:基本算是所有NLP任务中最底层的技术。不论解决什么问题,分词永远是第一步。(2)词性标注:判断文本中的词的词性(名词、动词、形容词等),一般作为额外特征使用。(3)句法分析:分为句法结构分析和依存句法分析两种。(4)词干提取:从单词各种前缀后缀变化、时态变化等变化中还原词干,常见于英文文本处理。(5)命名实体识别:识别并抽取文本中的实体,一般采用BIO形式。(6)指代消歧:文本中的代词,如“他”“这个”等,还原成其所指实体。(7)关键词抽取:提取文本中的关键词,用以表征文本或下游应用。(8)词向量与词嵌入:把单词映射到低维空间中,并保持单词间相互关系不变。是NLP深度学习技术的基础。(9)文本生成:给定特定的文本输入,生成所需要的文本,主要应用于文本摘要、对话系统、机器翻译、问答系统等领域。6.5自然语言处理6.5.5常用算法举例TF-IDF:TF-IDF(termfrequency-inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(termfrequency),IDF是逆文本频率指数(inversedocumentfrequency)。LSI:隐性语义索引(latentsemanticidexing,LSI),也叫LatentSemanticAnalysis(LSA),是信息检索领域一类非常重要的技术思想。它通过对词项—文档矩阵的奇异值分解,在理论上成功地解决了潜在语义(或叫隐性语义)的检索问题。Glove:Glove算法是一种基于全局词频统计的回归算法。它不是基于神经网络,而是基于最小二乘原理的回归方法。LSTM:长短期记忆网络(longshort-termMemory,LSTM)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。CNN:卷积神经网络(convolutionalneuralnetworks,CNN)是深度学习中非常常见的算法(模型),在图像处理中应用广泛,基于CNN的专利申请近些年也增长迅速。6.5自然语言处理6.5.6终极目标从计算机诞生,NLP这个概念被提出伊始,人们便希望计算机能够理解人类的语言,于是便有了图灵测试。6.5.7研究难点仍有很多制约NLP发展的因素,这些因素构成了NLP的难点。而且要命的是,大多数难点是基础技术的难点。研究的难点主要如下。(1)词义消歧。(2)二义性。(3)

OOV问题。(4)文本相似度计算。(5)文本生成的评价指标。6.5.8社会影响NLP发展迅速,对社会的影响越来越大。从语言翻译到语音识别,从聊天机器人到识别情感,NLP正在提供有价值的见解,使我们的生活更高效。6.5自然语言处理6.6人机对话6.6.1概述人机对话是计算机的一种工作方式,即计算机操作员或用户与计算机之间通过控制台或终端显示屏幕,以对话方式进行工作。操作员可用命令或命令过程告诉计算机执行某一任务。计算机将计算、处理和控制的情况及时显示出来,供人观察与了解;而人通过一些输入设备把各种数据与指令输入机器,进行操纵和控制,即人与机器对话,如图6.11所示。通过人机对话交互,用户可以查询信息,例如查询天气信息和高校的基本信息等。人机对话是人工智能领域的重要挑战。近几年,随着人工智能的兴起,人机对话的研究也越来越火热。图6.12是NLP顶级会议ACL和EMNLP自2010年以来相关论文的数量,可以看出从2016年开始,对话类论文的数量增长迅猛,2018年相比于2010年,论文数量有数倍的增长。对话相关技术的逐步成熟也引发

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论