版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4讲:数字音频技术及应用数字媒体技术概论第4章:数字音频技术及应用1数字音频基础知识2心理学模型3数字语音技术4语音识别5语音合成一、数字音频基本概念§4.1数字音频基础知识“数字音频”是指使用脉冲编码调制、数字信号等技术来处理模拟信号,并将其进行录制和回放的一种方法。模拟数字转换器:将传过来的模拟音频信号转换为数字音频信号,再经过编码记录在存储载体里面,实现了录音功能。数字模拟转换器:将存储载体里面的数字音频信号转换为模拟音频信号,从而实现数字音频回放的功能。数字音频主要分为录制、编辑、压缩、传输和播放五个环节1.数字音频二、数字音频的发展历史§4.1数字音频基础知识PCM技术的出现贝尔实验室在20世纪40年代开发的贝尔实验室开发的一种基于PCM技术的加密传输系统——SIGSALY代表了语音的第一次数字量化和语音的第一次PCM信号传输数字音频的飞跃发展起源于20世纪50年代末60年代初晶体管数码计算机的出现贝尔实验室的工程师使用录音系统进行录音模拟录音时代二、数字音频的发展历史§4.1数字音频基础知识NHK有了一个可以工作的双通道立体声录音机。集成电路的出现加快了音质的提高。日本广播协会(NHK)开发了单声道PCM录音机。20世纪60年代1967年1969-1971年天龙租赁了一台NHK立体声PCM录音机。1969年英国广播公司研究部开发了一种双通道PCM记录器。天龙与NHK共同研发成功了世界第一台PCM录音机——天龙DN-023R。公共广播系统和数字通信公司开发了电视数字音频系统。1972年1973年1977年底3M公司推出了其数字母盘制作系统。20世纪70年代初二、数字音频的发展历史§4.1数字音频基础知识世界第一台实用化PCM录音机天龙DN-023R天龙DN-023R是一种8通道系统,具有13位分辨率和47.25kHz的采样率。现如今所有数字音乐格式的共同祖先。人类自此开始摆脱模拟录音时代的种种不便。二、数字音频的发展历史§4.1数字音频基础知识光盘(CompactDisc,CD)超过了唱片。索尼公司发布世界上第一款随身听产品:TPS-L2,标志着便携式音乐理念的诞生。飞利浦和索尼推出了数字光盘。1979年7月20世纪80年代初20世纪90年代中期CD几乎成了北美、欧洲和日本唯一的音乐大众媒介。20世纪80年代末80年代初期索尼、松下以及东京电声公司联合制定了数字音频固定磁头(DigitalAudioStationaryHead,DASH)格式。二、数字音频的发展历史§4.1数字音频基础知识索尼
PCM数码录音机除了DASH格式录音机外,数字录音带(DigitalAudioTape,DAT)也是数码录音发展史上一个重要的名字.由索尼公司主导开发取代模拟磁带录像机和PCM处理器所组成的录音系统(如右图)采用体积更小的盒式数码录音带面向录音室和唱片公司二、数字音频的发展历史§4.1数字音频基础知识世界第一台VCD韩国世韩公司推出了世界上第一台的MP3播放器——MPManF10。开发了世界上第一台视频高密光盘(VCD)影碟机——“万燕”。飞利浦与索尼合作,推出了一项创新产品数字多功能光盘DVD。1993年9月1997年2002年9月全球首款支持视窗媒体音频编码功能的MP3诞生——LGMF-PE520。1998年三、数字音频基本知识§4.1数字音频基础知识响度是人耳对声音强弱的主观感受。响度的单位是宋(sone)。国际上规定,频率为1kHz、声压级为40分贝(dB)时的响度为1宋。大量统计表明,声压级每增加10dB,响度增加一倍,响度与声压级有如下关系:其中,N为响度宋,为声压级。响度不仅正比于声音响度的对数值,而且与声音的频率和波形有关。1.响度三、数字音频基本知识§4.1数字音频基础知识音调又称音高,是指人耳对声音刺激频率的主观感受。音调主要是由基波频率决定,基频越高,音调越高,同时还与声音的强度有关。音调的单位是美(Mel)。频率为1kHz、声压级为40dB的纯音产生的音调定义为1美。音调大体上与频率的对数成正比。2.声调§4.1数字音频基础知识三、数字音频基本知识音色是指人耳对不同特性声音的主观感觉。音色主要由声音的频谱结构决定,还与声音的响度、持续时间、建立过程及衰变过程等有关。3.音色采样频率是将模拟声音波形转换为数字时,每秒钟所抽取声波幅度样本的次数。采样定理(奈奎斯特采样定理):其中,采样信号频率为fs,输入模拟信号的最高频率分量的频率为fmax4.采样频率量化位数是对模拟信号的幅度轴进行数字化,表示每个采样点用多少二进制位表示数据范围。量化位数越多,音质越好,数据量也越大。量化位数决定了数据的动态范围。5.量化位数§4.1数字音频基础知识三、数字音频基本知识声道数是指一次采样所记录的产生声音波形的个数。它是衡量音响设备的重要指标之一。立体声比单声道的表现力丰富,但数据量翻倍。单声道:记录声音时,每次生成一个声波数据。双声道:记录声音时,每次生成两个声波数据。立体声:声音在录制过程中被分配到两个独立的声道。准立体声:在录制声音的时候采用单声道,而放音有时是立体声,有时是单声道。四声道环绕:规定了4个发音点:前左、前右,后左、后右,听众则被包围在这中间,可以获得身临各种不同环境的听觉感受。6.声道数§4.1数字音频基础知识三、数字音频基本知识数据量=采样频率×量化位数×声道数/8(字节/秒)不同采样频率、量化位数和声道数对应的数据量如下表所示:7.数字音频的大小计算采样频率(kHz)量化位数(比特)数据量(KB/s)单声道立体声11.025810.7721.531621.5343.0722.05821.5343.071643.0786.1344.1843.0786.131686.13172.27比特率是指每秒传送的比特(bit)数。比特率的单位为比特每秒(bitpersecond,bps)。8.比特率压缩率一般是指文件压缩前和压缩后大小的比值,表示数字声音的压缩效率。9.压缩率第4章:数字音频技术及应用1数字音频基础知识2心理学模型3数字语音技术4语音识别5语音合成一、声学基本物理量§4.2心理学模型声强是单位时间内垂直于声波传播方向的单位面积上通过的平均声能量它是表示声场中声能流大小和方向的物理量,通常用I表示,单位是瓦/平方米取决于发音体振动幅度的大小,振幅越大,声强越强,反之,声强越弱刚刚能使人听到的声音的声强——基准声强:使人耳产生疼痛感觉的声音的声强——极限声强:1.声强一、声学基本物理量§4.2心理学模型声强级是把相对于基准声强的比值依对数划分的等级人对声音强弱的感觉并不与声强成正比,而是与其对数成正比声强级通常用表示,单位是dB。声强级的计算公式:2.声强级声压是在大气压强上叠加一个声波扰动而引起的交变压强一般用p表示,它的单位是帕(Pa)声压计算公式:声强单位为:W/m2;密度单位为:kg/m2;声速单位为:m/s3.声压一、声学基本物理量§4.2心理学模型常用声压的相对大小(称声压级)来表示声压的强弱声压级是描述接收者感受的量,通常用符号表示,它的单位是dB。声压级的计算公式为:4.声压级不同声压级的主观感觉声功率定义为声源在单位时间内向外辐射的声能,单位是瓦(W),是声源的物理属性。声功率级用表示,单位是dB。声功率级的计算公式W为测量的声功率;Wo=10-12W为基准声功率5.声功率级§4.2心理学模型二、人耳相关发声及听觉特性心理声学模型是根据外围听觉系统的耳部结构和一些心理声学现象建模形成的。外围听觉系统主要分为三个部分:外耳、中耳和内耳。外耳:收集声能,并将其通过耳道传输至鼓膜。内耳靠近大脑,可以缩短动作电位的传播时间。1.外围听觉系统外围听觉系统§4.2心理学模型二、人耳相关发声及听觉特性在安静环境中能被人耳听到的纯音最小值称为绝对闻阈,所有低于这个值的声音都会被掩蔽。计算绝对阈值的经验公式:其中,f表示频率,单位为kHz;表示绝对阈值,单位为dB。人的听觉系统对于声音频率信号的感知范围在20Hz~20kHz。2.声音的掩蔽效应绝对掩蔽一种声音的存在使人感觉不到另一种声音,称为掩蔽效应。掩蔽效应又分为:绝对掩蔽、时域掩蔽和频域掩蔽。绝对阈值的实验测量§4.2心理学模型二、人耳相关发声及听觉特性时域掩蔽时域掩蔽是指能量较强的音频信号,可掩蔽同时、其前或其后出现的能量较弱的音频信号。时域掩蔽又分为超前掩蔽和滞后掩蔽。超前掩蔽仅在非常短的时间内有效,即20毫秒。滞后掩蔽:当掩蔽声音已经消失时,仍然会产生掩蔽作用。2.声音的掩蔽效应时域掩蔽§4.2心理学模型二、人耳相关发声及听觉特性频域掩蔽当掩蔽声音和被掩蔽声音同时存在时,就会发生同时掩蔽。哈斯效应又称优先效应,听觉系统会基于先听到的声音判断声音方向,这种先入为主的听觉特性称为哈斯效应。利用哈斯效应可以合理优化场馆或现场的扬声器延迟,可以有效增强听众的听感,提高音效感染力。2.声音的掩蔽效应以频率为250Hz、声强为60dB的纯音为掩蔽音,测得纯音的听阈随频率变化的特性如图所示。第4章:数字音频技术及应用1数字音频基础知识2心理学模型3数字语音技术4语音识别5语音合成§4.3数字语音技术一、语音基本概念音素是按照音质的不同划分出的最小语音单位,任何语言都有元音和辅音两种音素。音素是组成音节的最小单位。音素是从音色的角度划分的,与音高、音长和音强没有关系。音节是语音结构的基本单位。音节是说话时自然发出、听话时自然感到的最小语音片段。汉语中的一个汉字就代表一个音节。1.音节、音素§4.3数字语音技术一、语音基本概念元音,又叫母音,是指气流振动声带,在口腔咽腔形成的音。元音是音节的主干,不同的元音是由发声时口腔的不同形状所决定的。辅音,又叫子音,是指发音时气流受到阻碍形成的音。辅音可以根据发音部位和发音方法加以描述。辅音只出现在音节的前后两端。根据声带的震动与否分为清辅音和浊辅音。2.元音、辅音§4.3数字语音技术一、语音基本概念声母指音节开头的辅音,如果音节开头没有辅音,则称为零声母。韵母是指音节中声母后面的音素,主要成分是元音。声调指音节的高低升降变化。声调的变化附着于整个音节。3.声母、韵母、声调§4.3数字语音技术二、语音基本特性语音具有物理方面的性质,也叫语音的自然属性。语音产生于发音体的振动,通过媒介来传播,传播声音最重要的介质就是空气。语音有噪声和乐声之分。语音是音高、音强、音长、音色的统一体。物理属性语音是由人的发声器官发出来的。语音单位的差别是由于发声器官不同。发声器官可以分为三个部分:提供发声原动力的肺和支气管;作为发声体的喉咙和声带;作为共鸣器的口腔、鼻腔和咽腔。生理属性语音具有社会性质。社会属性是语音的本质属性。语音的社会属性有多方面表现。语音的社会属性是语音区别于自然界其他声音的最根本的性质。社会属性§4.3数字语音技术三、数字语音通信一个基本的数字语音通信系统是由发送端、接收端和信道构成。发送端:获取输入的语音消息并预处理,对处理过的信号信源编码、加密、信道编码和数字调制。接收端:传输的语音信号在通过信道后进行相应的逆处理变换——数字解调、信道译码、解密、信源译码。信道:是信号的传输媒质。发送的信号波形会在通信过程中经历多次噪声、干扰和衰落的影响。§4.3数字语音技术三、数字语音通信将信源的模拟信号转换成数字信号。提高通信的有效性。信源编码人为加入冗余,提高数据在传输过程中的抗干扰能力。实现系统的差错可控。信道编码提高信号在信道上传输的效率。达到信号远距离传输的目的。信源编码数字语音通信系统基本结构§4.3数字语音技术三、数字语音通信数字语音通信的主要研究方向数字语音可以转换成文字、语种、说话人情感等等,也可以进行反方向变换。数字语音通信的研究方向主要分成6大类,分别是文字、说话人、语种、情感、唱歌节奏和其他每大类又细分为不同的研究方向数字语音通信的研究和应用方向第4章:数字音频技术及应用1数字音频基础知识2心理学模型3数字语音技术4语音识别5语音合成§4.4语音识别一、语音识别语音识别是一门实现人和机器交流的交叉学科。包含了声学、心理学、语言学、生理学、信号处理、模式识别、人工智能、概率论和信息论等。语音识别技术的三个发展阶段:基于高斯混合模型和隐马尔可夫模型的GMM-HMM时代基于深度神经网络和隐马尔可夫模型的DNN-HMM时代基于深度学习的端到端时代语音识别的概念§4.4语音识别一、语音识别1952年贝尔实验室开发的Audrey语音识别系统动态规划和线性预测分析技术对语音识别的发展产生了深远影响。“RadioRex”玩具狗利用了跟踪语音的共振峰原理。贝尔实验室开发了Audrey语音识别系统。20世纪20年代1952年现在语音识别目前已经应用在生活中的各个场景中,如智能语音产品。20世纪60年代§4.4语音识别一、语音识别语音识别是将语音信号转换成相应的文本信息语音识别系统主要包括:预处理和特征提取、声学模型、语言模型和解码搜索预处理:对声音信号进行滤波和分帧等预处理特征提取:将声音信号从时域转换到频域,去除冗余信息声学模型:根据声学特性计算出语音片段属于相应声学符号的概率语言模型:计算声音信号对应可能词组序列的概率解码搜索:将得分最高词组序列作为识别出的文本序列语音识别的基本原理§4.4语音识别一、语音识别语音识别系统基本结构框架1、除去冗余信息2、提取关键信息和特征信息3、用最小单元识别字词4、依照先后次序识别字词5、语义分析和识别6、调整句子构成7、对当前正在处理的语句进行适当修正语音识别系统的工作流程§4.4语音识别一、语音识别科大讯飞语音识别语音识别技术早期的应用是语音听写后来发展成语音转写随着AI的发展,语音识别开始作为智能交互应用中的一环举例:讯飞输入法语音病例系统,机器能够将医生说的话自动识别出来,生成病例。语音识别的典型应用§4.4语音识别二、说话人识别说话人识别,又称声纹识别,是指利用人的声音来检测说话人身份的一种生物识别技术。说话人识别技术的优点:成本低廉、采集方便、易于存储、交互友好可以视为人类的第二张身份证,同时也可以通过电话或网络等方式进行远程操作说话人识别的概念信息领域银行和证券公安司法军队、边防证件防伪应用§4.4语音识别二、说话人识别说话人识别技术的发展历史法医鉴定和法院等领域都应用了声纹识别技术。贝尔实验室完成语谱图匹配,并首次提出了“声纹”的概念。第一次介绍了采用此方法进行说话人识别的可能性。1945年1962年近年来说话人识别逐步由单纯的人耳听辨转向基于计算机的自动识别。1967年§4.4语音识别二、说话人识别声纹识别流程图训练部分:首先对语音进行特征提取再将其进行模型训练将其结果送至声纹模型库识别部分:对目标说话人进行特征提取结合声纹模型库进行声纹匹配打分根据打分最高识别出说话人语音识别的基本原理第4章:数字音频技术及应用1数字音频基础知识2心理学模型3数字语音技术4语音识别5语音合成§4.5语音合成一、语音编码根据语音信号波形导出相应的数字编码形式,在时间轴上对模拟语音信号按一定的速率抽样,将幅度样本分层量化,并用代码表示。使重构语音波形尽可能地与原始语音信号的波形形状保持一致编码速率高,编码效率低方法简单、易于实现、适应能力强和语音质量好波形编码语音编码就是通过编码将模拟信号转换成数字信号。语音编码方法主要分为波形编码、参量编码和混合编码。§4.5语音合成一、语音编码建立语音信号的产生模型,提取代表语音信号特征的参数来编码,使重建语音信号有高的可懂度缺点:参数编码速率低,失真较大,自然度较低,对噪声敏感优点:保密性好,合成语音稳定,被应用在军事上典型的参数编码方法为线性预测编码(LinearPredictiveCoding,LPC)参量编码是波形编码和参量编码的结合优点:突破了波形编码和参数编码的界限,提高音质缺点:编码速率相应上升混合编码§4.5语音合成编码技术算法编码标准码率(kbps)质量应用领域波形编码脉冲编码调制G.711644.3公共交换电话网综合业务数字网自适应差分-脉冲编码调制G.721324.1-子带-自适应差分-脉冲编码调制G.72264/56/484.5-参数编码线性预测编码-2.42.5保密语音混合编码码激励线性-预测编码-4.83.2-矢量和激励-线性预测编码GIA83.8移动通信语音
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年规范化设备采购协议范例
- 2024年设备维护保养服务协议
- 2024年基站场地租赁协议模板
- 店铺出租协议文本 2024 年
- 2024泵车租赁协议定制集锦
- 2024年商业街店铺租赁协议
- 2024年专业委托信用担保服务协议
- 2024年规范化小型物流服务协议
- 2024年定制反担保保障协议
- 2024年度房产指标交易协议模板
- 水泥市场调研报告模板
- 《可靠性管理》课件
- 2024精美体育主题班会
- 《营养卫生》-《烹饪中减少营养素损失的措施》
- 火锅店盈利模式分析报告
- 微生物发酵过程优化方案
- 基药政策及市场课件
- 安监人员考核细则范本
- 节日景观布置投标方案(技术方案)
- 国家中小学智慧教育平台培训专题讲座
- 仓库用电安全自查报告
评论
0/150
提交评论