学习presented by大二下多媒体技术04fine

上传人：我*** IP属地：北京上传时间：2023-05-18 格式：DOCX 页数：105 大小：7.74MB 积分：12 举报 版权申诉

已阅读5页，还剩100页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第2 技2.2听技术3章数据压3.34章硬件环4.2第5章软件基听声音分贝数140120大型喷气式飞机附110100交响

6050 10

———

由于响度与频率等响线描述了响从图中可看出，掩蔽

声音的响度不仅取决于自身的强度与频率，而且也依同纯音对纯音的掩蔽效果（采自Fletcher

在频率的某一临界区里，各种声音是相互作用的，合成相位的确定对于多声道声音系统的设计非常重要，其可以应用在回声的消除、会议系统设计上。研究表明，音调的频谱分量随时间改变。在稳定状态区，时变现象用于数字系统中，说明声音中的某些错误是不太人耳可听到来自各方向声音是时间函数，通过变换可做出其频谱图。人敏感的。例如：快进的，音调会发生变化。通过人工真实的方法，可以对视觉空间的景物进行再造声音信号可由一系列数字来表示，称为数字音频。数字数字声音是一个数据序列。它是由外界声音经过采样、对声音进行采样用实际的采样过程中，为了达到好的效果，就采用图 (采样频率×每点采样位数×声道数)/8字节/秒

波形声音可以把音乐、语音都进行数据化并且表示出来，对于声音的符号化（也可以称为抽象化）表示包括两种类MIDIMIDI

对语音的符号化实际上就是对语音的识别，将语音转变指用一定设备人为地产生出来的具有空间位置信息空间。三维听觉的使用明显地依赖于用户对听觉空间中各种信②在卷积运卷积运卷积运卷积运

自适应变换编码

线性预测性预测测MP-LPC预测CELP (waveform(source(hybrid

如果采用相等的量化量化后的样本值Y和对输入信号进行量化音的音源编叫做在话音生成模型中，声道被等效成一个时变滤波器(time- 话音的音节周期，并且每隔10～20ms更新一次。这种声的数据率在2.4kbps左右，产生的语音虽然可线性预测编码LPC(LinearPredictiveCoding是一在接收端使用LPC分析得到的参数，通过话音合成器重构分析话音波形时，主要是当作预测器使用，合成话音时当pxpre(n)[a1x(n1)a2x(n2)apx(npaix(nppe(n)x(n)xpre(n)aix(n 由Atal和Remde在1982年提出，并命名为多脉冲激励MPE(Multi-PulseExcited)编译 (Regular-PulseExcited)编译、码激励线性预测CELP(CodeExcitedLinearPredictive)编译 LinearPrediction)等编译

低频声音(Infra-人类听觉频率范高频

宽带音响

后样本精度为8bit，数据率为64kbps。G.711PCM标准及基于SB-ADPCM的G.722标准。规话音带宽。带2位，低子带6 应用快 MP3、CDACD-DA音频)、WMA、RARealAudio)、(RealMedia，RealAudioG2)、RMX(RealAudioSecured)、

处理音频信号的PC插卡是音频卡（AudioCard），又称声 MIDI文-指声卡在和声音文件时所使用数字声音信号的二准16位声卡实质上是指8位加8表现与真16声卡型号中“32”、“64” MIDIOUTMIDIOUTMIDIIN

MIDI LINE MICROPHONE

LINEOUT

A/DA/D44左左4右CD-

MIDI（MusicalInstrumentDigitalInterface）是指乐器数字 MIDIIn（ MIDIOut（输出口MIDIThru（转发口

图图文章~

o 成·*音 ·*音解·

· 解

Speech

自然语言理解语言学

利 TTS Fp1,Fp2,Fp3,……处。语音的峰峰

Gq p p

G技术：(PitchSynchronousOverLapAddPSOLA)80年代末由EMoulines和F.Charpentier提出，属于时域波形修改的声学所的KX-PSOLA(1993)，联想佳音(1995)；的TH_SPEECH(1993)；中国科

↑基于失失 Speech

析技术(LP,LinearPrediction)，60年代末，孤立词识别70年代，动态时间规整技术(DTW,DynamicTimeWar )、矢量量化(VQ,Vector HiddenMarkovModels)理论。实现了基于线性预测倒谱和80年代，HMM模型和人工神经元网络(ANN,ArtificialNeuralNetworks)，性能相当。80年代末，在大学(CarnegieMellon(< 说话人识别（声纹识别个人因素社会因素想说阶段、说出阶段、传送语言学语音学发音语音学(Articulatory音，以确定发者部位和发音方法。声学语音学(Acoustic 听觉语音学(Auditory怎样听音的，大脑是怎样理解这些语音的，语言信息在大脑中的部

浊音段的功率普密度举清音段的功率谱密度举 Spectrogram:time,frequency,同而构成细化声母，这样虽增加了模型数目，但提高了易音节的区

系统的适应性：高噪声环境下识别，因为此时人的发音变化很大，像声音变高，语速变慢，音调及峰变化等等，这就是所谓Lombard效应，必系统的实用性：从自适应训练，基于最大互信息准则（MMI）和最小区别信息准则（MDI）的模糊性：同一语音的多义性。如拼音“yi”，对应的中文单词有：亿义、议、…，由于说话人发音的差异，很难判定“yiwan”到底是“一万”还是“亿万”。在差别中找出相似的成分：最大似然的

早期的语音识别系统大多是按照简单的模板匹配的原理在训练阶段，用户将词汇表中的每一个词依次地说一遍，在识别阶段，将输入语音的特征矢量序列依次与模板库

1975年，将动态规划(DP,Dynamic动态时间规整(DTW,DynamicTimeWar “non-linearlywarpsthetwotrajectoriesinsuchawaythatsimilareventsarealignedandaminimumdistancebetweenthemis

语音信号可看成一种信号过程，时间段足够短的信号特隐马尔可夫模型HMMHiddenMarkovModels)用概率参数对似然函数进行估计与，从而得到识别结果。模

将语音识别专家“区别性特征”与来自构词、句

HMMHMM/语义单元是词，构词法复杂，词边界不定，动词无明显时从年开始执行国家计划后，国家863智能计研究单位为电子工程系与自动化研究所模式识别国家。DragonSystem公司的Naturally 通过其他外部途径（如CD，电视等波形声音处理，CoolEditMIDI软件，MIDI集编辑转换：WAVOGG,VOC,IFFAIF,AFC,AU,SND,MP3,MATDWD,SMPVOX,SDSAVI,MOVAPE等CoolEditPro→Adobe成，是个人音修复工具）：放大、降低噪音、压缩、扩展、回声、失真、延迟等；可同时处理多个文件，在文件间剪切、粘贴、合并、24bit/192kHz及更高的精度*含有CDCD烧录。 AdobeAudition前CoolEdit AdobeSystems公司(前SyntrilliumSoftwareCorporation)开发的一款功能强制作软件。不少人把CoolEdit形容为音频

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

学习presented by大二下多媒体技术04fine

文档简介

温馨提示

最新文档

评论

学习presented by大二下多媒体技术04fine

文档简介

温馨提示

最新文档

评论

相关文档