版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多媒体技术及应用第1页本章内容数字音频基础音频卡工作原理音频编码音频信息处理(核心章节)视觉媒体信息的处理(核心章节)
第2页2.1数字音频基础数字音频的采样与量化音频数字化:模拟音频信号有限个数字表示的离散序列音频的采样:按一定的时间间隔(T)取值,得到x(nT).T称为采样周期,1/T称为采样频率。称x(nT)为离散信号。
常用的采样频率:8kHz,11.025kHz,22.050kHz,44.1kHz,8kHz,16kHz,48kHz.第3页数字音频的采样与量化音频的量化:先将整个幅度划分为有限个小幅度(量化阶距)的集合,把落入某个阶距内的样本值归为一类,并赋予相同的量化值。如果量化值是均匀分布的,称为均匀量化。
设Δ为量化阶距,Xmax为量化器最大范围,则:对于样值s,如果,则其量化值均为。2.1数字音频基础第4页2.1数字音频基础音频信息的采集(录制)用MicrosoftWindows——录音机进行录音,形成.wav格式文件。第5页2.1数字音频基础音频信息的采集(录制)用CoolEditPro的录音功能进行录音第6页2.1数字音频基础音频信息的采集(录制)用Matlab语言实现录音,存储,播放(DEMO)%用单声道录音,存储,播放Fs=11025;y=wavrecord(5*Fs,Fs,'double');wavplay(y,Fs);wavwrite(y,Fs,'testlininrecord.wav')%用双声道录音,存储,播放Fs=11025;y=wavrecord(5*Fs,Fs,2,'double');wavplay(y,Fs);wavwrite(y,Fs,'testlininrecord2.wav')探究式学习audiorecorder();audioplayer;pause();resume();play();stop();第7页2.1数字音频基础音频信息的显示与理解声音是由于空气振动产生的,其表现形式就是声波。声波的振幅决定音量的大小声波的频率决定音调第8页wav文件格式wav文件:Microsoft公司的音频文件格式。记录声音波形。利用该格式记录的声音文件能够和原声基本一致,质量非常高,但这样做的代价就是文件太大。wav文件所需存储空间(byte/sec)采样频率(Hz)×量化位数(bit)×声道数/82.1数字音频基础常用音频文件格式第9页2.1数字音频基础mp3数字音频的文件格式
MPEG-1,Layer-3,扩展名MP3:现在最流行的声音文件格式,因其压缩率大,在网络可视电话通信方面应用广泛,但和CD唱片相比,音质不能令人非常满意。RealAudio数字音频的文件格式RealAudio,扩展名rm:压缩比大,失真小。与MP3相同,它也是为了解决网络传输带宽资源而设计的,因此主要目标是压缩比和容错性,其次才是音质。常用音频文件格式第10页2.1数字音频基础音频信号的分类语音信号,有复杂的语义和语法信息(<4kHz)非语音信号,分为乐音和杂音(频带比较宽20Hz~20kHz)音频信号处理的特点:时序性要求高,若有25ms延迟,人就会感到断续。由于人接受声音有两个通道,理想的合成声音应是立体声。第11页2.2音频卡工作原理音频卡的功能和分类音频录制和播放编辑和合成MIDI和音乐合成文语转换和语音识别游戏杆接口音频卡第12页2.2音频卡工作原理音频录制和播放使用音频卡录制和播放声音的过程常用音频录放采用:
数字化音频采样频率范围:8k~44.1kHz,8000,11025,22050,44100
量化器:8位/16位/24位通道数:立体声/单声道基本编码方法:PCM(脉冲编码调制)
压缩编码方法:ADPCM,CCITT(国际电话电报咨询委员会)A律,
CCITT律录音声源:麦克风、立体声线路输入、CD
输出功放:直接驱动扬声器,且输出音量可调
第13页2.2音频卡工作原理文语转换和语音识别文语转换(texttospeech)语音识别软件(IBM—Viavoice,MicrosoftSoundSystem—VoicePilot,SoundBlaster—VoiceAssist)游戏棒接口可接一至两个游戏棒。MIDI(MusicalInstrumentDigitalInterface)接口与音乐合成声音的编辑与合成第14页2.2音频卡工作原理音频卡的工作原理声音的合成与处理混合信号处理器及功放计算机总线接口及控制器第15页2.2音频卡工作原理音频卡的工作原理声音的合成与处理(核心),完成声波信号的A/D,D/A转换,利用调频技术控制声音的音调、音色和幅度数字声音处理器FM音乐合成器MIDI控制器混合信号处理器及功放,内置D/A混音器,声源可以是MIDI信号,线入,CD音频,MIC,扬声器等。可选择一或多声源混合录音。计算机接口与控制器,总线接口与控制器由数据总线双向控制器、总线接口控制逻辑、总线中断逻辑及DMA控制逻辑构成。第16页2.2音频卡工作原理音频卡的接口第17页时域信息的冗余度语音幅度的非均匀分布(小幅度样本出现概率高)样本间的相关性(邻近样本之间样本存在相关性)例:采样频率为8kHz时,相邻取样值之间相关系数大于0.852.3音频编码音频编码基础FFT变换结果小幅度样本出现概率高DEMOFreq_main.m第18页时域信息的冗余度静止系数(话音间隔是一种冗余)周期之间的相关性(某一声音在特定瞬间内,往往只是该频带内的少数频率成分起作用,且周期之间,存在相关性)2.3音频编码音频编码基础第19页2.3音频编码音频编码基础时域信息的冗余度基音之间的相关性(男声基音周期5~20ms,女声基音周期2.5~10ms)♥浊音:由声带振动产生,激励声道的各股气流之间的间隔称为音调间隔或基音周期。浊音具有周期性(2~20ms)
♥清音:分为摩擦音和爆破音两种。比浊音更具随机性。浊音段波形清音段波形8ms第20页2.3音频编码音频编码基础人的听觉感知机理人的听觉具有掩蔽效应,可分为:
♥同时掩蔽:强声弱声同时存在,强声使弱声难以听见的现象
♥异时掩蔽:声音在不同时间先后发生,强声使其周围的弱声难以听见的现象。人耳对于不同频段的声音的敏感程度不同人耳对低频端较之高频端敏感人耳对语音信号的相位变化不敏感对于人耳听不到或感知极不灵敏的声音分量可以视为冗余第21页2.3音频编码音频编码标准由国际电报电话咨询委员会(CCITT)和国际标准化组织(ISO)提出音频编码建议G.711(1972)G.721(1984,1986修订)G.722G.728(1992)MPEG(MovingPictureExpertGroup)DOLBYAC-3第22页2.3音频编码几种重要的音频编码——PCM脉冲编码调制PCM(pulsecodemodulation)概念最简单,理论上最完善,应用最广泛的编码系统数据量最大PCM编码原理♥防失真滤波器滤除声音频带以外的信号(20Hz~20kHz);♥波形编码器可理解为“采样器”♥量化器可理解为“量化间隔”生成器或“量化阶大小”生成器
第23页2.3音频编码量化的基本方法分为:均匀量化和非均匀量化均匀量化是指采用相等的量化间隔对采样得到的信号作量化的方法,也称为线性量化。非均匀量化是指采用不等的量化间隔对采样得到的信号作量化的方法,也称为非线性量化。
几种重要的音频编码——PCM第24页量化箱等宽,量化误差大2.3音频编码几种重要的音频编码——PCM♥均匀量化第25页♥非均匀量化(非线性量化)
量化箱不等宽,可以在满足精度要求的条件下,得到较高的压缩率!2.3音频编码几种重要的音频编码——PCM第26页♥量化特征曲线2.3音频编码几种重要的音频编码——PCM非均匀量化特征曲线示意图均匀量化特征曲线示意图X(输入)y(输出)000001010011000001010011非均匀量化间隔第27页♥对于均匀量化而言量化级数越多,量化误差越小,而压缩率也小;量化级数越少,量化误差越大,而压缩率越大。矛盾2.3音频编码几种重要的音频编码——PCM♥采用相同量化级数,均匀量化与非均匀量化比较而言均匀量化——量化误差大,但易于硬件实现;非均匀量化——量化误差小,但难于硬件实现。第28页2.3音频编码几种重要的音频编码——PCM脉冲编码调制PCM(pulsecodemodulation)律(
-law)压扩(非均匀量化,对数PCM)(G.711)主要用在北美和日本等地区的数字电话通信中,量化输入和输出之间的关系式中:x为输入信号幅度,规格化成
为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,取第29页2.3音频编码几种重要的音频编码——PCM脉冲编码调制PCM(pulsecodemodulation)
A律(A-law)压扩(另一种非均匀量化方法)(G.711)主要用在欧洲和中国等地区的数字电话通信中,量化输入和输出之间的关系式中:x为输入信号幅度,规格化成A律压扩前一部分是线性的,其余部分与律压扩相同。A=87.56第30页2.3音频编码几种重要的音频编码——PCM脉冲编码调制PCM(pulsecodemodulation)对于采样频率为8kHz,样本精度为13bit,14bit,16bit的输入信号,使用律压扩编码,经过PCM编码器之后,每个样本的精度为8bit,输出的数据率为64kb/s.
此数据即为CCITT推荐的G.711标准——
话音频率脉冲编码调制(PCMofVoiceFrequencies)第31页2.3音频编码几种重要的音频编码——PCMPCM在通信中的应用频分多路复用(Frequency-divisionMultiplexing,FDM)
把传输信道的频带分成几个窄带,每个窄带传送一路信号。♥间隔240Hz,保证信道之间不相互干扰;♥每对用户仅占用一个信道;♥模拟载波通信的主要手段。第32页2.3音频编码几种重要的音频编码——PCMPCM在通信中的应用时分多路复用(Time-divisionMultiplexing,TDM)
把传输信道按时间分割,每个用户指定一个时间间隔,每个间隔里传输信号的一部分。是数字通信的主要手段。举例:若采样频率f=8000Hz,它的采样周期=125,称为1帧,一帧可容纳的话路数有两种规格:24路制和30路制。第33页2.3音频编码几种重要的音频编码——PCMPCM在通信中的应用24路制的重要参数每秒传送8000帧,每帧125每帧24个信道和1个同步位每个信道每次传送8bit代码,一帧共有8×24+1=193bit数据传输率:R=8k×193=1544kb/s每一个电话(每个信道)的数据传输率:R=8k×8=64kb/s30路制的重要参数每秒传送8000帧,每帧12516帧组成1个复帧(用于同步)每帧由32个时间片(信道)组成每个信道每次传送8bit代码数据传输率:R=8k×32×8=2048kb/s每一个电话(每个信道)的数据传输率:R=8k×8=64kb/s第34页2.3音频编码几种重要的音频编码——PCMTDM技术已在数字电话网中广泛应用,反映PCM信号复用的复杂程度的指标是“群(group)”一次群(基群):30路(24路)(2048kb/s或1544kb/s)二次群:120路(96路)(8448kb/s或6312kb/s)三次群:480路(384路)(……)二次复用示意图第35页2.3音频编码几种重要的音频编码——APCMAPCM(AdaptivePCM,自适应脉冲编码调制)
根据输入信号幅度大小来改变量化阶大小的波形编码技术。分为:前向自适应(ForwardAdaptation)和后向自适应(BackwardAdaptation)♥前向自适应是根据未量化的样本值的均方根值来估算输入信号的电平,并以此确定量化阶大小。并作为边信息传送到接收端。♥后向自适应是从刚输出的过去样本中提取量化阶信息。由于收发两段可以自动生成量化阶,不需传送边信息S(k)为发送端编码器的输入信号,Sr(K)为输出端译码器的输出信号。第36页2.3音频编码几种重要的音频编码——DPCMDPCM(DifferentialPCM,差分脉冲编码调制)
利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。根据过去的样本去估算下一个样本信号的幅度的大小(预测值),然后对实际信号值与预测值之差进行量化编码。♥
Se(k-1)是对S(k)的预测值,而不是过去样本的实际值。对差值d(k)进行量化编码,用来补偿过去编码中产生的量化误差。♥
DPCM是一个负反馈系统,可以避免量化误差的积累。♥
发送端和接收端使用相同的逆量化器和预测器。重构信号可以从Sr(k)获得。第37页2.3音频编码几种重要的音频编码——ADPCMADPCM(自适应差分脉冲编码调制)
综合了APCM的自适应特性和DPCM系统的差分特性。自适应改变量化阶的大小,小的量化阶编码小的差值,大的量化阶编码大的差值。使用过去的样本值估算下一个输入的预测值,使实际样本值与预测值之间差值最小。第38页2.3音频编码几种重要的音频编码——GSM编译码器GSM(GlobalSystemforMobileCommunications,全球数字移动通信系统)1992年柏林技术大学根据GSM协议开发的。
GSM的输入是帧(Frame)数据每帧20ms,由160个带符号样本组成采样频率8KHz每个样本为13bit或16bit的线性PCM码GSM编码器把一帧(160×16bit)的数据压缩成260bit的GSM帧,数据率为260×(1000/20)=13kb/s由于260位不是8位的整数倍,因此,编码器输出的GSM帧为264位的线性PCM码。压缩率的计算:未压缩数据率为:8k×16位=128Kb/sGSM压缩后264×(1000/20)=13.2kb/s压缩比近似10:1}第39页2.4音频信息的处理过去:硬件实现,设备昂贵,功能不灵活。现在:软件实现,数字信号处理,功能灵活。倒播(demo:wav_back.m)音量放大缩小(demo:musiclower.m)增加回音(demo:wav_echo.m)滤波(demo:voicefilter.m)声音合成(demo:musicmerge.m)淡入和淡出(demo:wav_fade_in.m,wav_fade_out.m)交换声道(demo:wav_exchange.m)第40页2.4音频信息的处理倒播(demo:wav_back.m)原声声音试听倒播声音试听第41页2.4音频信息的处理音量的放大/缩小♥用Matlab语言实现音量的缩小(musiclower.m)figure(1)origin=wavread('linein.wav');plot(origin)wavplay(origin,22050);figure(2)lower=origin/4;plot(lower)wavplay(lower,22050);
wavwrite(lower,22050,'lineinlower.wav');♥音量的大小是和声音信号幅值的大小有关的,对于相同的声音信号(频率相同),幅值越大,音量越大,幅值越小,音量越低。试听原始声音信息音量缩小后结果试听第42页2.4音频信息的处理音量缩小后声音波形的比较原始声音波形音量缩小后声音波形第43页2.4音频信息的处理声音的滤波处理♥用Matlab语言实现简单的声音滤波(d:\chapter2\filter\voicefilter_mainf.m)♥DEMO无噪声有噪声IIR带通滤波器滤波后Note:ellip(…),8阶椭圆低通数组滤波器,通带(passband)允许起伏0.05db,阻带(stopband)衰减最小值80dbIIR:无限冲激响应;FIR有限冲激响应第44页2.4音频信息的处理声音的滤波处理♥用Matlab语言实现简单的声音滤波(voicefilter_mainf.m)v=wavread('hello2');o=voicefilter(v);wavplay(v,22050);wavplay(o,22050);wavwrite(o,22050,'hello_filtered');subplot(3,1,2);plot(v);xlabel('Time');ylabel('Mag.');subplot(3,1,3);sf=filter(b,a,v);plot(sf);xlabel('Time');ylabel('Mag.');out=sf;♥voicefilter.mfunctionout=voicefilter(v)Fs=22050;[b,a]=ellip(8,0.05,80,[1504000]*2/Fs);subplot(3,1,1);[H,w]=freqz(b,a,512);(数字滤波频率响应函数)plot(w*Fs/(2*pi),abs(H));xlabel('Frequency(Hz)');ylabel('Mag.offrequencyresponse');第45页2.4音频信息的处理声音的滤波处理滤波器频带特性原始声音信号滤波后声音信号第46页2.4音频信息的处理声音的合成♥用Matlab语言实现简单的声音合成(musicmerge.m)a=wavread('linein.wav');a=a/4;b=wavread('microphone.wav');a1=a(1:120000);b1=b(1:120000);c=a1+b1;wavplay(c,22050);wavwrite(c,22050,'merge.wav');♥DEMO声音1合成结果+声音2第47页2.4音频信息的处理音频卡的合成功能——混合信号处理器实验课后实验:LineinMP3+WAV第48页2.4音频信息的处理增加回音(demo:wav_echo.m)v=wavread('linein.wav');w1=[v;zeros(10000,1)];w2=[zeros(10000,1);v];w3=w1+w2/2;wavplay(w3,22050);第49页2.4音频信息的处理声音的淡入(demo:wav_fade_in.m)v=wavread('linein.wav');len=length(v);w=v;fori=1:(len/2)%淡入过程
w(i)=v(i)*i/(len/2);%线性渐强end%到一半处达到原始音量subplot(2,1,1);plot(v);subplot(2,1,2);plot(w);wavplay(w,22050);wavwrite(w,22050,'linein_grad_in.wav');第50页2.4音频信息的处理声音的淡出(demo:wav_fade_out.m)v=wavread('linein.wav');len=length(v);w=v;fori=1:(len/2)%淡出过程
w(len-i)=v(len-i)*i/(len/2);end%从一半处开始线性衰减subplot(2,1,1);plot(v);subplot(2,1,2);plot(w);wavplay(w,22050);wavwrite(w,22050,'linein_grad_out.wav');
第51页2.4音频信息的处理交换声道(demo:wav_exchange.m)v=wavread('lq.wav');len=length(v);w=v;fori=1:len%交换声道
w(i,1)=v(i,2);%又不破坏原声w(i,2)=v(i,1);endsubplot(2,2,1);plot(v(:,1),'r');subplot(2,2,2);plot(v(:,2));subplot(2,2,3)plot(w(:,1));subplot(2,2,4)plot(w(:,2),'r');wavplay(v,2*22050);wavplay(w,2*22050);wavwrite(w,2*22050,'lq_tc.wav');第52页2.4音频信息的处理交换声道(demo:wav_exchange.m)变换之前:左声道:渴望着血脉相通无限个千万弟兄….(周杰伦《龙拳》)右声道:渴望着血脉相通无限个千万弟兄….
第53页人机交互手段的变革2.4音频信息的处理语音识别语音显示器交互计算机系统音响键盘、鼠标显示器交互计算机系统第54页人机交互计算机语言学(Computerphonetics)语音编码(speechcoding)语音合成(speechsynthesis)语音识别(speechrecognition)语种识别(languageidentification)说话人识别(speakerrecognition)说话人确认(speakerverification)2.4音频信息的处理语音识别第55页语音识别的发展和分类发展1952年,美国Davis等,世界第一套,识别10个英文数字发音试验系统50年代后期,我国第一套,识别汉语10个元音1960年,Denes等,第一个计算机语音识别系统70年代后期,小词汇量、特定人、孤立词识别研究取得成果,算法上主要有预测分析技术(LPC)、动态时间规划(DTW)、矢量化技术(VQ)2.4音频信息的处理语音识别第56页语音识别的发展和分类(Cont.)发展80年代开始,沿三个方向开始研究:特定人->非特定人,孤立词->连续词、小词汇量->大词汇量算法:聚类、基于动态规则的匹配80年代中期,隐马尔可夫模型(HMM)为基础的各种系统,美国CMU的Sphinx系统IBM的Tangora20和VoiceType3.0系统DRAGON公司的DragonDictate系统现在:关键时期,新模型、新方法及实用化系统研究2.4音频信息的处理语音识别第57页语音识别的发展和分类(Cont.)分类按识别词汇量大小分小词表语音识别(识别词汇<100)中词表语音识别(100<识别词汇<1000)大词表语音识别(识别词汇>1000)按语音的输入方式分孤立词:以单音节或短语为条目,条目内音节连续,条目间有明显停顿,如:0~9数字,人名、地名、控制命令、英语单词、汉语音节、短语连接词:多条目,需拆分连续语音:自然语言2.4音频信息的处理语音识别第58页语音识别的发展和分类(Cont.)分类按发音人特定人:用特定人声音训练后使用限定人:多个特定人训练非特定人:不需要训练按实现技术分基于模板匹配的基于概率统计模型2.4音频信息的处理语音识别第59页音节性很强:每个字都是以单音节为单位,共有400多音节,加上四声共1340个,识别基元少音节构成,简单规整:声母+韵母、韵母有调语言:音节发音时间长,有稳定的有调段音节偕同发音与音变少优势难点2.4音频信息的处理语音识别汉语语音识别汉语特点(相对于英语)同音字多内涵语言,语义与上下文、语气均关连,语法简单、变化灵活凭据-评剧-萍聚意义-异议-意译中国队大胜(大败)美国队第60页汉语语音识别汉语语音识别系统工作原理数据采集波形自动切分预处理与特征参数提取声学模型时间对准组句分析识别结果整句输出声学基元模型库语言模型库统计信息与规则分帧后的语言特征矢量集合声学音节候选语句候选语音流切分参数提取模板识别2.4音频信息的处理语音识别第61页汉语语音识别(Cont.)汉语语音识别系统工作原理连续语音流预处理:模拟语音数字化信号处理,包括带通滤波、变换等波形切分:找出语音信号中的各种识别基元(音素、音节、半音节、声韵母、单词、意群)的起点和终点位置,将连续语音处理变为对各个语言单元的处理特征参数提取:表达语音特征又能彼此区别的参数,是语音识别基础如:线性预测参数、倒频谱系数、………(Ref..\..\Chapter2\语音识别\倒频谱系数.doc)参数模板库识别判决2.4音频信息的处理语音识别第62页汉语语音识别(Cont.)语音识别系统的最终目的不限制说话人,即非特定人不限制词汇量,即基于大词汇表不限制发音方式,即识别连续自然发音高识别率,应达到人对自然语言的识别能力2.4音频信息的处理语音识别第63页汉语语音识别(Cont.)语音识别系统的困难使用者的差别大,排除差异、保留共性难(口音、年龄、性别、发音速度、发音强度、发音习惯)识别的词汇量大,将导致系统的识别性能急剧下降而失去可用性,原因是:1)需要的时间和空间开销多;2)词与词之间的差异细微;基元的识别有一定的局限性,而连续音识别又不能实现实用的系统要求高可靠性,因此参数的鲁棒性、抗噪声能力,环境适应性等要求高,太复杂2.4音频信息的处理语音识别第64页汉语语音识别(Cont.)语音识别技术的应用
作为人机交互的手段,语音识别是为了实现听写和命令控制办公自动化:在多种场合方便文件起草和编辑电话商业服务:电话和计算机语音识别的结合,将为语音识别开辟一个很大的应用领域。2.4音频信息的处理语音识别30/downloads/big/2005/01/02/0000033406.html4/pub/software/office/IBM的语音认证系统第65页汉语语音识别(Cont.)演示(Vista;WindowsPhone7Tellme;iPhone4sSiri)2.4音频信息的处理语音识别/v_show/id_XMjk1NTcxODA=.html/v_show/id_XMjE0MDcwODQw.html/v_show/id_XMzEzMTk0Mjcy.html第66页2.4音频信息的处理说话人识别与语音识别的区别说话人识别(SpeakerRecognition,SR):从相同的一段语言中,识别出是谁在讲话。语音识别:关注说话的内容,把其转换成对应的文字,主要用于语音信息录入。而不关注是谁在讲。第67页2.4音频信息的处理说话人识别技术说话人识别(SpeakerRecognition,SR):以语音对说话人进行区分,从而进行身份鉴别与认证的技术。SR基本问题:(1)如何选取能够唯一表征人的有效而可靠的参量,如何对它进行处理(2)如何规定相似性的测度,使相似性的计算既简单又可靠;(3)考虑到人的状况在不断变化,为使系统能够可靠工作,如何使它的参考量不断更新以适应使用者。第68页2.4音频信息的处理说话人识别技术说话人识别常用技术(1)模板匹配法(2)概率模型法(如:HMM)(3)矢量量化法(VQ)第69页2.5视觉媒体信息的采集视频信息的采集计算机常用图像及其获取手段一张用扫描仪扫描的图像2400dpi(dotperinch)图形静态图像动态图像计算机软件扫描仪视频数字化设备数码相机第70页2.5视觉媒体信息的采集视频信息的采集计算机常用图像及其获取手段第71页2.5视觉媒体信息的采集视频采集卡的分类和特点按输入信号类型分为:数字视频输入卡模拟视频输入卡数字视频卡USB接口:当前最流行,低接口成本,传输速度(USB2.0为480Mbps,USB1.1为12Mbps
)1394接口:低接口成本(100-300元),传输速度(30-40Mbps)CameraLink接口:接口成本(1万元),传输速度(>600Mbps)视频信息的采集——视频采集卡1394第72页视频采集卡的分类和特点(Cont.)模拟视频卡黑白/彩色Video(包括:P制、N制和多制)分量输入(包括:YUV(亮度和色差),电视台常用;RBG,医学上常用)S-Video输入:亮度和色度分离压缩卡、非压缩卡2.5视觉媒体信息的采集视频信息的采集——视频采集卡第73页视频采集卡的供应商及特点国外最大厂商:加拿大Matrox其次:比利时Euresys特点:价格高出国内或合资一个数量级,信噪比高,多用于非批量及专业图像处理2.5视觉媒体信息的采集视频信息的采集——视频采集卡第74页视频采集卡的供应商及特点(Cont.)国内最大厂商:大恒图像
特点:支持多操作系统,各特殊需求或行业的技术支持强,适合中批量的产品开发合资企业:德加拉、图码
特点:低价格,不重视个性服务(或者说技术来源于国外其他企业,技术服务成本高),大量产品(硬盘录像机)用台湾:Liseview
特点:分工明确,研发、生产、销售由不同的企业完成,OEM(OriginalEquipmentManufacturer)造成多品牌,单家企业生产,批量很大成本很低,适合家庭使用2.5视觉媒体信息的采集视频信息的采集——视频采集卡第75页视频采集卡的工作原理2.5视觉媒体信息的采集视频信息的采集——视频采集卡第76页2.5视觉媒体信息的采集视频采集卡的硬件安装与VGA卡连接视频信息的采集——视频采集卡第77页2.5视觉媒体信息的采集视频采集卡的硬件安装与VGA显示器连接视频信息的采集——视频采集卡第78页2.5视觉媒体信息的采集视频采集卡的硬件安装与视频信号源的连接
视频信息的采集——视频采集卡视频线(同轴电缆)第79页2.5视觉媒体信息的处理图像类型真彩色图像(24bit)又称RGB图像,用R、G、B三个颜色分量表示一个像素的颜色,通过三基色可以合成出任意颜色。对一个尺寸为m×n的彩色图像来说,在MATLAB中存储为一个m×n×3的多维数组。图像a中任意一点(x,y)处的像素值a(x,y,1:3);真彩色图像可用“double”型存储,亮度值的范围[0,1],(0,0,0)代表黑色,(1,1,1)代表白色真彩色图像也可用“uint”型存储,亮度值范围[0,255]第80页2.5视觉媒体信息的处理图像类型索引色图像不同颜色对应不同序号,各像素存储的是颜色的序号,而不是颜色本身。索引色图像包含两个结构:调色板和图像数据矩阵。最多64K。调色板是一个m×3的色彩映射矩阵,矩阵的每一行代表一种色彩,通过三基色颜色强度的双精度数,形成一种特定的颜色。用Matlab的hot(m)产生一个m×3的调色板。颜色从黑经过红、橘红、黄到白。第81页2.5视觉媒体信息的处理图像类型索引色图像(Demo)Demo:每个竖线代表一个颜色索引但是具体显示颜色由colormap决定imagesc(1:63);colormap(bone);colormap(pink);colormap(hot);Colormap有:Autumn,bone,colorcube,cool,copper,flag,gray,hotHsv,jet,lines,pink,prism,summer,white,winter第82页2.5视觉媒体信息的处理图像类型Demo:RGB—索引色m1=imread('cyx.JPG');imagesc(dither(m1,bone));imagesc(dither(m1,hot));imagesc(dither(m1,cool));imagesc(dither(m1,pink));imagesc(dither(m1,bone));colormap(bone);DITHERConvertimageusingdithering.X=DITHER(RGB,MAP)createsanindexedimageapproximationoftheRGBimageinthearrayRGBbyditheringthecolorsincolormapMAP.MAPcannothavemorethan65536colors.Demo:RGB—索引色RGB=imread('cyx.jpg');[X,map]=rgb2ind(RGB,16);imshow(X,map);IMAGESCScaledataanddisplayasimage.IMAGESC(...)isthesameasIMAGE(...)exceptthedataisscaledtousethefullcolormap.第83页2.5视觉媒体信息的处理图像类型灰度图像灰度图像只有强度信息,而没有颜色信息。存储灰度图像只需要一个数据矩阵,每个元素表示对应位置的像素的灰度值。灰度图像的数据类型可以是double型,也可以是uint型。二值图像只有黑白两种值的图像。每个像素只取0或者1两个数。第84页2.5视觉媒体信息的处理彩色空间(review)RGBHSV(HSI):面向用户的一种符合主观感觉的色彩模型,比RGB更接近人们对颜色的感知。H(Hue)色度,表示颜色的种类;由0变到1,HSV颜色由红变为黄,绿、青(cyan)、洋红(magenta)、然后变回红色。S(Saturation)饱和度;由0变到1,颜色由不饱和变为饱和。V(Value)亮度;由0变到1,颜色越来越亮。第85页2.5视觉媒体信息的处理彩色空间的理解DEMO:用PHOTOSHOP体会HSV和RGB彩色空间第86页2.5视觉媒体信息的处理RGB图像空间的理解DEMO:D:\Chapter2\imrender.m第87页2.5视觉媒体信息的处理RGB图像空间的理解如何绘制二次色图呢?第88页2.5视觉媒体信息的处理RGB图像空间的理解RGB第89页2.5视觉媒体信息的处理静态图像的文件格式图形变换格式(graphicsinterchangeformat,GIF)由Compu-Serve公司于1987年为制定彩色图像传输协议而开发的,它支持64000像素的图像,256到16M色的调色板
支持一个文件包含多个子图像(也称子文件subfiles)图像文件格式及其转换GIF格式文件第90页2.5视觉媒体信息的处理静态图像的文件格式图形变换格式(graphicsinterchangeformat,GIF)
图像文件格式及其转换DEMO:用FLASH制作含多个子图像的GIF格式文件制作步骤:(1)插入文本(2)右键,转换为图形元件(3)20帧处插入关键帧(4)用变形工具将文字变形(5)插入补间动画(6)发布设置,选中GIF(7)在GIF选项卡中将“动画”选中(8)导出成GIF格式动画第92页2.5视觉媒体信息的处理静态图像的文件格式标记图像文件格式(tagimagefileformat,TIFF),也支持一个文件包含多个子图像图像文件格式及其转换TIFF格式文件第93页2.5视觉媒体信息的处理静态图像的文件格式目标图像格式(targetimageformat,TGA)
TIPS软件使用的文件格式。由描述图像属性的文件头(header)和描述各点像素值的文件体(body)组成图像文件格式及其转换TGA图像文件结构原理图第94页2.5视觉媒体信息的处理静态图像的文件格式位图(bitmap,BMP)与设备无关
Windows推荐使用位映射的存储形式图像文件格式及其转换BMP图像文件结构原理图第95页2.5视觉媒体信息的处理动态图像的文件格式AVI格式文件转换为MPEG格式DEMO(AimOne)DEMO(WinMPG)图像文件格式及其转换Drive.aviDrive.mpg第96页2.5视觉媒体信息的处理动态图像的文件格式AVI格式文件转换为.GIF格式图像DEMO(AniMake):用WindowsMovieMaker录像,用AniMake进行文件格式转换,保存为序列GIF图,改变播放速度,改变播放顺序,改变图片方向,在某(些)帧增加说明性文字。用Photoshop处理,然后返回保存图像文件格式及其转换Drive.aviDrive.gif第97页用Matlab实现图像的读写和显示命令1:imread
Imread函数,用于读入各种图像文件举例:img1=imread(‘huangguoshu.jpg’);命令2:imwriteImwrite函数,用于读入各种图像文件举例:img1=imwrite(‘huangguoshu.jpg’);命令3:imageImage函数,用于显示图像文件举例image(img1);2.5视觉媒体信息的处理视频信息的处理——读写和显示图像文件第98页用Matlab实现图像的叠加效果(DEMO)m1=imread('koala.JPG');m2=imread('penguins.JPG');axes('position',[0011]);image((double(m1)/2+double(m2)/2)/256);colorbar;2.5视觉媒体信息的处理视频信息的处理——图像的叠加、二值化、边缘提取用Matlab实现图像的二值化m1=imread('koala.JPG');im2bw(m1);第99页2.5视觉媒体信息的处理图像信息的处理——边缘提取与图像切割用Matlab实现边缘提取(方法一)m1=imread('cyx.JPG');imshow(bwperim(im2bw(m1)));用Matlab实现边缘提取(方法二)m1=imread('cyx.JPG');imshow(edge(rgb2gray(m1),'canny'));用Matlab实现图像切割m1=imread('huangguoshu.JPG');subplot(1,2,1);axisequal;image(m1);subplot(1,2,2);axisequal;image(m1(300:1300,200:1200,:));试验另一种算子:‘prewitt’第100页用Matlab实现移动目标提取(帧差法)functionimgdiffimg1=imread('i1.bmp');img2=imread('i2.bmp');h=figure(1);set(h,'Position',[1040300*3200]);sub1=subplot(1,3,1);set(sub1,'Position',[001/31]);image(img1);axisoff;sub2=subplot(1,3,2);set(sub2,'Position',[1/301/31]);image(img2);axisoff;sub3=subplot(1,3,3);set(sub3,'Position',[2/301/31]);image(uint8(abs(double(img2)-double(img1))));axisoff;return;2.5视觉媒体信息的处理视频信息的处理——移动目标提取第101页2.5视觉媒体信息的处理Demo(D:\Chapter2\imageprocessing\imgdiff.m)视频信息的处理——移动目标提取背景图一帧图像帧差法处理后图像第102页2.5视觉媒体信息的处理基于文字本质特征的方法视频信息的处理——文字提取文字有线段构成每个线段宽度基本相同每个线段长宽比例适中第103页2.5视觉媒体信息的处理Demo视频信息的处理——文字提取原始视频信息文字提取结果第104页2.5视觉媒体信息的处理视频信息的处理——文字提取系统构成第105页2.5视觉媒体信息的处理视频信息的处理——文字提取系统工作原理OCR(OpticalCharacterRecognition,光学字符识别)中国OCR信息网
第106页2.5视觉媒体信息的处理视频信息的处理——文字提取OCR在线识别DEMO原文件。A.ImageCuttingandRotationAfterdetectingthecharacters,weshouldintegratesomesinglecharactersintoone
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 潮州温泉管网施工方案
- 仲恺农业工程学院《设计创意生活》2023-2024学年第一学期期末试卷
- 测试领域课题研究报告
- 测绘安全培训方案
- 测井小区改造方案
- 槽钢生产销售方案
- 常州市固化地坪施工方案
- 安徽防护射线铅板施工方案
- 安徽合肥固化地坪施工方案
- 安庆户外球场护栏施工方案
- 中医生活起居护理-疏仁丽
- 2024年甘肃省普通高中信息技术会考试题(含24套)
- 外贸公司管理制度
- 庄园推广策划方案
- 子路曾皙冉有公西华侍坐教案
- 《冬季鸡舍通风》课件
- 人教版小学三年级语文课外阅读理解精练试题全册
- AI智能客服应用实践
- 《止吐药临床应用》课件
- 早期人防工程调查评估服务投标方案(技术标)
- 广播电视编导专业大学生职业生涯规划书
评论
0/150
提交评论