智能语音技术及应用开发 课件 单元二任务2:了解语音语料库_第1页
智能语音技术及应用开发 课件 单元二任务2:了解语音语料库_第2页
智能语音技术及应用开发 课件 单元二任务2:了解语音语料库_第3页
智能语音技术及应用开发 课件 单元二任务2:了解语音语料库_第4页
智能语音技术及应用开发 课件 单元二任务2:了解语音语料库_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

智能语音相关技术2023年2月单元二了解语音语料库单元二:任务2语料库构建的关键在应用,目的是支持本领域信息的处理。用于语音识别的语音库和用于语音合成等目的的语音库是不同的。用于语音识别的语音数据库,是为声学层提供训练数据,它不仅涉及语言学,同时又要从语音学、声学的角度出发,要全面反映出语音的声学特性,为建立语音模型提供完备的数据。以语音合成为目的的语音数据库,目的是实现文语转换。文本设计时,应该从语言学、语音学的角度出发,主要体现语音数据中基频、语音单元的长度、话音的停顿、能量等韵律信息,以便建立适当的语音韵律模型。项目导入目录CONTENTS1了解语音语料库的应用2了解情感语音语料库3建立情感语音语料库知识目标了解语音语料库对于智能语音系统的重要性理解不同应用领域语音语料库建立的差异了解语音语料库的建立与运维能力目标能够描述每个步骤的功能能够描述每个步骤的具体目标能够理解流程中涉及到的专业术语思政目标感悟脚踏实地、勤恳敬业、精益求精的大国工匠精神学习爱岗敬业的社会主义核心价值观PART01了解语音语料库的应用了解语音语料库的应用语音语料库是什么?了解语音语料库的应用语音语料库,也称语音数据集,是指存储在计算机存储器的原始数据或经过处理后代有标注信息的语料文本。语料库研究涉及原始数据的采集、存储、加工和统计分析,目的是凭借大规模语料库提供客观全面的数据,支持语音处理系统的开发。了解语音语料库的应用语音语料库在语音识别和合成、语音分析等言语科学研究及技术应用中,是一种有效且不可或缺的研究手段,具有不可替代的作用。构建一个语音库的框架首先要考虑它的使用目的,用于语音识别的语音库和用于语音合成等目的的语音库是不同的。基于语料库的语音合成或识别系统中语音语料库扮演者重要的角色,直接影响到语音合成或识别的质量与效率。了解语音语料库的应用(1)语音合成中的语料库基于大语音语料库的语音合成技术己成为当前的主流。语音语料库就相当于合成单元的"仓库",为各种合成模型提供数据,以语音合成为目的的语音数据库,是为了文语转换,对其文本进行设计时,应该从语言学、语音学的角度出发,主要体现语音数据中基频、语音单元的长度、话音的停顿、能量等韵律信息,以便建立适当的语音韵律模型。了解语音语料库的应用(2)语音识别中的语料库语音识别领域中,语音模型以及语言模型的训练,其中关键的一歩工作就是选择适合的语料对其进行训练,用于语音识别的语音数据库,是为声学层提供训练数据,对语料的要求就是要尽可能地覆盖所有的语音语言现象,且数据不能太稀疏;同时又要从语音学、声学的角度出发,要全面反映出语音的声学特性,为建立语音模型提供完备的数据。了解语音语料库的应用(3)情感语音数据库情感语音数据库是研究语音情感信息的基础,能够为情感语音的分析和建模提供大量的分析、训练和测试用语料数据。对语音情感相关特征的探讨,进行语音情感识别和合成的研究都必须以高质量的语音数据库为基础展开。真实可靠的情感数据对情感建模具有重要意义,被研究学者普遍认可的理想情感数据库建立原则主要有四条:了解语音语料库的应用(3)情感语音数据库a) 真实性:数据库中的样本必须是人们所经历过的真实的情感体验。b) 交互性:为了更接近于人机语音情感交互的研究目的,数据库中的情感素材必须是人与人之间交互过程中产生的。c) 连续性:情感素材必须在连续的情感场景中产生的,存在着多种情感状态的转移。d) 丰富性:数据库中的情感素材必须包含多媒体信息,如声音,表情等。满足以上原则的大量情感语音数据的采集是一项很困难的工作,因为带有情感的语音数据不能像话者正常情况下的语音数据可以随时获得,很难满足研究过程中对于说话人、文本和情感类别等的要求。目前语音情感研究领域的情感数据库只是尽量的满足而不是恪守以上原则。了解语音语料库的应用(4)数据库管理系统为了实现语料库的建立与运维,需要设计数据库管理系统,将整个系统合理地划分为各个功能模块。通常采用C/S系统架构,包括四个功能模块:用户管理模块、录音模块、数据库运维模块和语料下载模块。了解语音语料库的应用(4)数据库管理系统用户管理模块完成两方面的功能,一是登记注册和维护用户的个人信息,二是确保注册后的用户和管理员以合法的身份登录,获取自己的相应权限;录音模块完成录音设备初始,提示用户选择相应的文本开始录音,并存储文件至服务器;语料库运维模块实现对用户、语料文本、语音文件和标注文件等的管理;下载模块为用户提供接口,可以选择满足条件的数据进行下载。PART02了解情感语音语料库了解情感语音语料库(1)情感的描述建立情感语音数据库,首先必须确立情感的类别,以及分类方法。人类的情感是一种极其复杂的现象,要对其进行准确的定义,精确的分类并不是很容易。情感分类问题的研究是有趣而复杂的,已有许多学者就该问题进行了深入的探讨,尽管目前为止还没有达成统一,但是主要观点间是相互融合和交叉的,这也正表现了情感本身的多样性和复杂性。心理学中情感测量理论有两种观点,维度型和范畴型,而目前在语音情感信息处理领域最活跃的情感理论模型是与之对应的两种模型:空间情感模型、离散情感模型。了解情感语音语料库(1)情感的描述空间情感模型是在连续的空间中描述情感,对应于维度型。该模型认为情感具有基本纬度,这些维度组成的空间包括人类所有的情感,任何一种情感都可以在此纬度空间中找到其特定的位置,不同情感间的相似性和差异性可依据彼此在维度空间中的距离来表示,情感间的转变是逐渐的、平滑的。不同研究者所采用的维度也是不同的,其中最广为接受的纬度模式是Activation-Evaluation二维空间。激活度(Activation),指与情感状态相联系的机体能量激活程度;评估度(Evaluation),指正负情感的分离激活,反映了对某一事物正面的活负面的评价,如舒适的或不舒适的,赞同的或不赞同的。了解情感语音语料库(1)情感的描述Activation-Evaluation情感空间了解情感语音语料库(1)情感的描述在大多数的研究方法中,研究者都是用日常语言标签来标识和分类情感,这样就将情感分类描述为离散模型。在离散情感模型中,每种情感都是一个离散的实体。根据情感的纯度和原始度,可以将其分为两大类:基本情感和派生情感。对于基本情感的界定存在很多不同的看法,但是有四种基本情感得到最普遍认可,分别是恐惧、愤怒、悲伤和高兴,其次被认可的是厌恶和惊奇。中国传统上涉及的基本情感类型可以归纳为七类:好(爱,敬)、恶、喜(乐)、怒、哀、惧、欲。汉语情感语音数据库中使用较多的是离散情感模型,选择的情感为:惊奇、害怕、高兴、悲伤、厌恶和生气等六种。了解情感语音语料库(2)情感语料库的设计规范对语音语料库的研究首先要规定语音语料库的规范,这样才能保证以后的语音语料的质量。一般从发音人规范、数据采集规范、数据存储规范、语料筛选规范、语料标注规范、法律声明等方面对语料库进行规范。了解情感语音语料库(2)情感语料库的设计规范语音中混合了说话内容、说话人个体特征和情感状态等信息。与情感状态相关的语音信号特征,如语音中某些韵律特征,往往也受到说话人个体特征和说话内容的影响,研究语音情感信息的难度也随着这些干扰的增多而越来越大,所以对语音情感信息的研究是从限制说话人,说话内容逐步扩展到与说话人、说话内容无关的。情感语料库依据这一思路,通过不断丰富不同说话人、说话内容(即文本信息)的样本来建立并完善,所以在建立过程中需要对说话人,说话内容和情感状态进行定制。了解情感语音语料库(2)情感语料库的设计规范BHU情感语料库的定制要求如下:说话人:年龄在20~30岁之间,文化程度在大学以上,男女不限。情感:愤怒、喜悦、悲伤、厌恶、惊奇、恐惧。说话内容:20句没有情感状态倾向的中性语句,长度在3~12字之间。了解情感语音语料库(2)情感语料库的设计规范了解情感语音语料库(3)情感状态激发情感语音数据按照自然度的高低分为:自然型、引导型和表演型。自然型情感语音是说话人表达真实情感的自然语音,要求在说话人没有察觉被录音的理想情况下获得,这样获得的样本是完全放松和自然的情感语音。考虑达到理想状态的难度,录制工作是极其耗时耗工的,且容易涉及到法律和版权的问题。了解情感语音语料库(3)情感状态激发现有语音情感研究绝大部分不是自然型的,而是引导型或表演型,即情感语音采用让说话人模仿不同的情感朗读指定的句子来获得。二者区别在于:前者是通过设置好的场景让说话人在语音表达之前达到与期望一致的情感状态,后者不设置场景由说话人凭着自己的经验来表达情感语句。由于情感的产生不可避免地受到说话人经历、经验的影响,所以所采集到的语音很难区分是引导型的,还是表演型的。PART03建立情感语音语料库建立情感语音语料库针对不同应用需求,语料库的设计有很大的差异。本节以情感识别应用为目标,来设计和制作语料库。具体完成:(1)需求调研与确定语料库建立整体思路;(2)设计语料库文本;(3)准备录音环境;(4)利用数据库管理系统实现语料存储和运维。建立情感语音语料库(1)语料库的建立首先向用户展示录音文本供用户选择;其次就是初始化本机的录音设备,并开始录音;最后将用户信息、录音文件、文本信息作为参数传递回服务器并保存。

在录音过程中,保证测试环境的绝对安静。测试时被试者不能随便移动,周围不能发出声响。被试者以尽量真实的情感表达出不同的区分度较高的情感状态,不需要过分夸张的成分,可以通过设置不同的场景来引导说话人达到与期望一致的情感状态,但是并不是每个说话人都必须通过设置的场景来产生特定的情感,说话人也可以通过加入自己的经验来表达某一情感状态。建立情感语音语料库(1)语料库的建立情感语音数据录制实验的干扰因素很多,在录制实验进行之前对可能遇到的干扰要尽量避免,不能消除的也要作为实验数据进行保存。为建立高质量的情感语音数据库,对录制工作制定了规范:建立情感语音语料库(1)语料库的建立a) 天气:天气会对人的心情产生影响,容易影响对说话人情感状态的诱导。可以选择在温度和湿度分别在26度和50%左右的室内环境中进行录制实验,保证天气条件的连续性,并记录温湿度数据,为日后的研究提供参考。b) 录音环境:录音实验在一个安静的房间进行,避免干扰。c) 录音设备:录音设备可以采用配备声卡的笔记本电脑。实验表明,放置式录音设备不利于说话人情感状态的自然表达,因此正式实验采用的均为头戴式麦克风。d) 录音软件:可采用GOLDWAVE完成录音工作,此外,它还可用于音频文件的剪辑。e) 录音格式:采样率为11025Hz,双通道、16Bit量化,格式为PCM。建立情感语音语料库(1)语料库的建立录制语音时,要求说话人用特定的语句(20句不带有情感倾向的语句)表达特定的情感状态(6种基本情感和无情感倾向的中性状态),情感状态的产生可以通过设置场景诱发,也可以借助自己的经验表演。录制完成后,采用说话人自判断的形式肯定样本,即每个样本录制后,均通过说话人听判实验,由说话人肯定样本表现了所要求的情感状态,才确认收集该样本。建立情感语音语料库(2)情感语音数据库的管理随着情感语音数据的丰富,标准化的管理是必须的。服务于语音情感信息研究的语音情感数据,需要的不仅仅是语音数据本身,发音人信息、文本信息都将为研究的逐步深入提供资料。为此,需要制定语音情感数据管理规范,按照规范保存相关信息,以保证能为研究的深入和扩展提供真实可靠的资料。建立情感语音语料库(2)情感语音数据库的管理建立情感语音语料库(3)情感语音评价人类能够通过语音判断说话人的情感状态,即进行语音情感识别,但是,这种判断并不是可以完全信赖的。经过说话人本人判断肯定的情感样本,也不一定能被其他听音者准确判断出情感状态。研究表明,人类通过语音对陌生人进行情感状态判断的正确率只有60%[19],情感状态的表达和判断都受到人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论