




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章多媒体信息及其通信网络概述第一节多媒体信息与通信的基本概念第二节信息处理系统的形式与变迁第三节多媒体通信网络的发展第四节多媒体通信及其应用领域第五节多媒体信息处理及通信的发展趋势【学习目标】
(1)掌握媒体、多媒体的基本概念。
(2)掌握多媒体通信及其基本特征。
(3)了解智能信息处理及多媒体通信网络的发展。
(4)了解多媒体通信的应用。
(5)了解多媒体信息与通信的发展趋势。
第一节多媒体信息与通信的基本概念
1.1.1媒体按照传统的说法,媒体指的是信息的载体。在计算机领域中,媒体有以下两种含义:(1)信息的存储实体,如磁盘、光盘、磁带、半导体存储器等。(2)传递信息的基本元素,如文字、声音、图形、动画和图像等。1.媒体的形式常见的媒体形式有以下几种:(1)文本(Text):包含字母、数字、字、词语等基本元素。(2)图形(Graph):多媒体中的静态可视元素之一,一般是以采用算法语言或某些应用软件生成的矢量图(VectorDrawing)的形式来表达的。(3)图像(Image):多媒体的一种静态可视元素,其基本形式为位图(Bitmap)。(4)视频(Video):多媒体技术中的一类重要媒体,属于动态可视元素。图像与视频是两个既有联系又有区别的概念。(5)音频(Audio):频率大约为15Hz~20kHz的声音。(6)动画(Animation):采用计算机动画软件创作并生成的一系列可供实时演播的连续画面,属于一种动态可视媒体元素。2.媒体的分类媒体通常可以分为以下五种:(1)感知媒体(PerceptionMedium):人类的感官能直接感知的一类媒体。这类媒体有声音、乐音、动画、运动图像、图形和噪音等。(2)表示媒体(RepresentationMedium):为了更有效地加工、处理和传输感知媒体而人为研究和构造出来的一种媒体。它包括上述感知媒体的各种编码,诸如语言编码、静止和活动图像编码,以及文本编码等。(3)呈现媒体(PresentationMedium):将媒体信息的内容呈现出来,在转换中用于信息输入和输出的媒体。因此,呈现媒体可分为输入呈现媒体和输出呈现媒体两种。其中,输出呈现媒体有显示器、打印机、喇叭等;输入呈现媒体有键盘、鼠标、麦克风、扫描仪、触摸屏等。(4)存储媒体(StorageMedium):用于存储表示媒体的物理介质,如磁盘、光盘、磁带、半导体存储器等。(5)传输媒体(TransmissionMedium):用来表示媒体从一处传递到另一处的物理传输介质,如同轴电缆、双绞线、光纤及其他通信信道。1.1.2多媒体多媒体由Multiple(多)和Media(媒体)复合而成。多媒体不仅指多种媒体信息本身,而且包含处理和应用多媒体信息的相应技术,因此“多媒体”常被当作“多媒体技术”的同义词。在谈到多媒体技术中的媒体时,往往指的不是媒体本身,而是处理和应用它的一套技术。与多媒体相对应的是单媒体,以往的信息处理是以单媒体的方式进行的,但人们在获取、处理和交流信息时,往往表现为视觉、听觉、嗅觉等感觉器官的并用。由此可见,单媒体方式难以满足人们对信息交流和处理的要求,而多媒体方式能和人们的自然交流和处理信息的方式达到最好的匹配。多媒体技术就是利用计算机技术把文本、图像、图形、动画、音频及视频等多种媒体有机地集成起来,使人们能以更加自然的方式使用信息,并与计算机进行交互,且使表现的信息图文声并茂。在很大程度上多媒体信息是现有的多个领域的信息技术进行重组、优化和革新的结果。1.1.3多媒体信息在现代信息技术中,目前能够用比特(bit)表示的媒体信息基本上包括以下几类信息:(1)文本信息。(2)图信息。(3)动态信息。(4)音频信息。(5)触觉信息。(6)其他信息。(7)多媒体信息。1.1.4多媒体通信及其特征1.多媒体通信的概念及技术多媒体通信(MultimediaCommunication)技术是多媒体技术与通信技术的有机结合,突破了计算机、通信、电视等传统产业间相对独立发展的界限,是计算机、通信和电视领域的一次革命。简单来说,多媒体通信技术就是在计算机的控制下,对多媒体信息的采集、处理、表示、存储和传输。2.多媒体通信的特征1)多媒体信息的特点多媒体信息的主要特点包括以下几个方面:(1)信息的多样性和数据的海量性。(2)信息的同步性。(3)多媒体信息的应用特性。2)多媒体通信的特征根据多媒体信息的特点,一个多媒体通信系统应该具备以下三个方面的特征:(1)集成性。(2)交互性。(3)同步性。
第二节信息处理系统的形式与变迁
智能信息处理的发展目标是要制造出具有学习、理解和判断能力的人工智能系统。它的本质就是要研究一些算法来提取出信号中的有用信息,从而实现系统的智能控制。智能信息处理的一个非常重要的目标,就是要制造出能看会说、有感情有思维的机器人。这使该领域的研究工作主要集中于语音处理、图像处理、计算机视觉等几个方面。语音处理的目的是对人们发出语音的规律及特点进行研究,以便让计算机能够“说话”和听懂人的语言。这也就是我们通常所说的语音信号的合成与识别。语音合成技术发展最快,已基本达到实用化水平。不过利用现有技术合成的语音在自然度方面与人的发音仍有很大差距,这也是语音合成技术今后研究的目标。为了适应通信技术的发展,人们还对语音信号的编码方法进行了深入的研究,以便把语音信号压缩在一个更窄的频带内传输。图像处理技术研究的目的是让计算机具备视觉功能。目前人们在图像分割和识别方面的研究已经取得了重大进展,并已成功地将图像处理技术应用于机器人视觉中,并在工厂的自动生产线上发挥了重要的作用。图像处理技术中关于图像压缩编码方法的研究,由于其广泛的应用前景及诱人的经济效益,越来越受到人们的重视。“人工神经网络”是一种新型的智能信息处理系统。它可以模仿人类大脑进行学习、记忆,并具有自适应和自组织能力,特别是能够处理不完善、不准确、甚至非常模糊的信息。另外通过联想记忆,它还能从部分信息中获得全部信息。可以说未来以“人工神经网络”为基础的计算机,将会代替现在的数字计算机来完成智能信息处理中的许多重要工作。。
第三节多媒体通信网络的发展
“三网合一”是指将计算机网、电视网和电信网在传输、接收和处理等方面合而为一,并全面实现数字化。但“三网合一”并不是简单的三网相加,必须同时在传输、交换和接入等各层具备宽带化、较好的QoS(QualityofService,服务质量)以及统一的信息表示方式,才能构筑其赖以生存的技术前提。数字化、综合化、宽带化已成为今后网络建设的潮流,基于光纤的宽带IP网代表着网络发展的方向。IP技术是未来数据网络中的核心技术,是承载各种应用业务的平台,而在IP网上实现多媒体通信更是世界各国的主要目标。随着这样的趋势继续发展下去,人们更加期待着能够在一个统一的网络上开展各种业务、传输各种信息以保障高效率地利用网络资源和更好地开展业务。因此三大网络的融合是势在必行的,且这种融合不仅是业务上的融合,更是网络上的融合。而IP就是能够实现这种融合最好的统一的协议,所以无论未来的基础网络会采用什么样的结构,宽带多媒体业务都必将会统一到IP网上。在通信领域中,只有拥有了充足的带宽,才能够快速传输音频、视频和数据等多种媒体信息。因此,带宽引起了各层次人们的关注,投资商纷纷追加投资,运营商大举进攻,各企业家也跃跃欲试,而用户和媒体更是望穿秋水、翘首以盼。快速发展的光通信技术为未来的宽带多媒体应用描绘了美好的前景,光纤通信的速率每10年可增长100倍,而这种增长速度还可以持续10年左右。宽带速率的持续增长更是为宽带多媒体技术的发展奠定了坚实的基础。手机自问世以来,历经了1G、2G、3G和4G的发展过程。其中第一代移动通信系统采用的是模拟技术,只能进行语音通话。第二代移动通信系统相对第一代增加了接收数据的功能,如接收电子邮件或网页。第三代移动通信技术则定位于实时视频,高速多媒体和移动Internet访问业务,是将无线通信与国际互联网等多媒体通信结合的新一代移动通信系统。众多专家均认为未来多媒体通信的主要特征就是可移动的多媒体通信业务,而利用先进的空中接口技术、核心包分组技术以及对频谱的高效利用,是完全可以实现的。
第四节多媒体通信及其应用领域
随着网络计算机技术的快速发展,多媒体通信技术已经取得了长足发展,并在多个领域得到了广泛应用。1.多媒体通信技术在教育行业中的应用多媒体通信技术在教育行业中的应用主要表现在以下几个方面:(1)多媒体通信技术在教育行业的认知教学中得到了重要应用。(2)网络多媒体通信技术在教育行业的知识获取和保持中得到了重要应用。(3)网络多媒体通信技术在教育行业的教学组织管理中得到了重要应用。(4)多媒体通信技术在教育行业的学习环境构建中得到了重要应用。2.多媒体通信技术在高速公路中的应用多媒体通信技术的发展,使之能在高速公路的运营上建立起一套指挥调度及信息综合处理的智能化管理系统,可在集成视频、语音、数据的基础上对高速公路运输管理系统进行更加便捷、直接、清晰的调控,为智能交通系统以及高速公路系统的指挥调度带来很大的便利,并能建立实时、准确、高效的综合运输和管理调控,大幅度提升高速公路交通运输效率和高速公路交通服务水平。目前,多媒体通信技术运用在高速公路的多媒体调度和管理方面有较好的表现,主要体现在以下几个方面:(1)可进行视频会议。(2)可建立视频联动,实时监控现场。3.无线多媒体通信技术的应用前景目前在我国,任何通信系统提供多媒体服务都具有十分广阔的应用前景,由于无线多媒体通信技术具有较高的技术含量和多样化的功能,将给人们带来更多的便利,因此更受公众的青睐,具有无限的发展空间。到目前为止,我国各大城市的数字无线通信系统在各个地区已经开放使用,数字无线通信系统的开发空间越来越广泛,宽带与卫星移动通信系统的技术目前也有课题研究,这不但为我国在本世纪的通信和信息电子产业的发展奠定了基础,同时也为无线多媒体通信研究创造了若干的条件。但是,我们面临的诸多现实问题却是不容乐观的。大部分移动通信设备主要还是进口的,一些国外公司给我国通信现代化和移动通信市场的发展带来契机,但是并没有推动我国有关行业的创新开发潜力,相反给许多大中型国有企业的生存发展带来了巨大的影响,甚至使之到了濒临破产的危机。我国通信产业的生产链还很薄弱,有很多好的资源没有得到充分利用。
第五节多媒体通信及其应用领域
随着信息技术的发展,传统的信息处理方式和表现手段已经难以适应社会的需要。作为现代科技发展的最新成就,多媒体信息与通信技术为媒体的集成和信息的传播提供了丰富的手段。1.信息处理技术的发展趋势信息处理技术的发展将影响人们的生活,其发展趋势有以下几个方面:(1)人工神经网络。人工神经网络是一种应用类似于大脑神经突触连接的结构进行信息处理的数学模型。(2)人工智能。人工智能(ArtificialIntelligence)是相对人的自然智能语言,即用人工的方法和技巧模仿、延伸和扩展人的智能,实现某些“机器思维”。(3)进化计算。进化计算是基于自然选择和自然遗传等生物进化机制的一种搜索算法。(4)模糊进化神经网络。模糊进化神经网络融合模糊逻辑、进化计算和神经网络理论与技术,是符号智能和计算智能的有机融合。2.多媒体通信技术的发展趋势多媒体通信技术在未来将会朝着以下几个方向发展:(1)多媒体移动通信将成为通信领域的重要技术之一。(2)多媒体移动通信技术将有效促进通信行业的快速发展。(3)多媒体移动通信技术将实现与网络技术的融合,实现技术升级。多媒体通信技术仍然在不断地发展,其发展方向的特点有以下几点:①高质量(分辨率):在不增加网络负担的前提下提高视频和音频质量。②高速度:寻找更简单高效的处理方法及采用更新的硬件处理设备,缩短处理时间。③简单化:便于操作,适应各种用户的需求。④高维化:图像信息采用三维、四维的处理技术。⑤智能化:提高信息识别能力,利用语音和图像识别技术丰富多媒体通信业务的应用。⑥标准化:便于信息的交换和资源共享,保证多媒体通信的广泛应用和合理竞争。(4)多媒体通信与卫星技术结合。卫星技术已进入到数字化发展的阶段,它可以直接对用户提供高带宽,轻易地将宽频信号传送给用户而无需中间节点。随着社会的发展、技术的进步、全球计算机拥有量的增加、多媒体通信网覆盖面的不断扩大,将会有更多的计算机用户成为多媒体通信网的用户。目前通信网正向着宽带化、无线化以及统一的网演进,以软交换设备为核心,能够提供丰富的个性化业务成为研究下一代网络的热点。第二章多媒体信息的处理任务2.1音频信号噪声检测及噪声去除任务2.2颜色空间模型及转换任务2.3车牌图像的预处理任务2.4雾霾图像的增强处理
任务2.1音频信号噪声检测及噪声去除
【学习目标】
(1)了解噪声的分类及产生方法。
(2)掌握音频信号中噪声的检测方法及其原理图。
(3)掌握MATLAB语言中音频数据与信息的读取、处理方法。
(4)掌握信号频谱的绘制。
(5)结合具体应用,掌握音频信号噪声去除的典型方法及其特点。
【任务分析】
(1)理解噪声产生的原理。
(2)分析并掌握噪声检测的系统框图、硬件结构设计及软件结构设计。
(3)绘制出原始音频信号一个声道的时域图和频谱图;绘制出加噪声后混合信号同一声道的时域图和频谱图;绘制出滤波后音频信号同一声道的时域图和频谱图。
(4)掌握音频信号噪声去除的方法,并了解每一种方法的工作原理及实现思路。
(5)能够画出每种去噪方法的实现流程图。2.1.1噪声的分类方式噪声的物理学概念是指无规律的不具周期性特征的声响,卫生学概念泛指干扰睡眠休息和交谈思考,给人以烦恼的感受,造成听觉危害的一切声响。因此可按噪声源的物理特性、时间特性以及频率成分分布等方式进行分类。2.1.2语音信号的时域与频域分析1.信号的特点(1)在频域内。语音信号的频谱分量主要集中在300~3400Hz的范围内。利用这个特点,可以用一个防混迭的带通滤波器将此范围内的语音信号频率分量取出,然后按一定的采样率对语音信号进行采样,就可以得到离散的语音信号。(2)在时域内。语音信号具有“短时性”的特点,即在总体上,语音信号的特征是随着时间的变化而变化的,但在一段较短的时间间隔内会保持平稳。语音信号在浊音段表现出周期信号的特征,在清音段表现出随机噪声的特征。2.语音信号的时域分析1)窗口的选择在5~50ms的范围内,语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取10~30ms。采用一个长度有限的窗函数来截取语音信号形成分析帧,通常会采用矩形窗和汉明窗。在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常使用矩形窗。2)短时能量由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。因此对语音的短时能量进行分析,可以描述语音的这种特征变化情况。定义短时能量为短时能量函数可用于区分清音段与浊音段,En值大对应于浊音段,En值小对应于清音段;还可用于区分浊音变为清音或清音变为浊音的时间;对高信噪比的语音信号,也可以用来区分有无语音。无信号时,En值很小,有语音信号时,能量显著增大。过零率可以反映信号的频谱特性。当离散时间信号相邻两个样点的正负号相异时,称之为“过零”,即此时信号的时间波形穿过了零电平的横轴。统计单位时间内样点值改变符号的次数就可以得到平均过零率。自相关函数用于衡量信号自身时间波形的相似性。清音和浊音的发声机理不同,因而在波形上也存在着较大的差异。浊音的时间波形呈现出一定的周期性,波形之间相似性较好;清音的时间波形呈现出随机噪声的特性,样点间的相似性较差。因此,一般用短时自相关函数来测定语音的相似特性。短时自相关函数定义为令m=n+m,并且ω(-m)=ω(m),可得3)时域分析方法的应用(1)可用于基音频率的估计。首先可利用时域分析(短时能量、短时过零率、短时自相关)方法的某一个特征或某几个特征的结合,判定某一语音有效的清音和浊音段;其次,针对浊音段,可直接利用短时自相关函数估计基音频率,其方法是:先估算浊音段第一最大峰的位置,再利用抽样率计算基音频率。(2)可用于语音端点的检测与估计。可利用时域分析方法的某一个特征或某几个特征的结合,判定某一语音信号的端点,尤其在有噪声干扰时,如何准确检测语音信号的端点,在语音处理中是富有挑战性的一个课题。3.语音信号的频域分析1)短时傅里叶变换由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅里叶变换的定义为式中,令n-m=k′,则得到于是可以得到短时傅里叶变换有两个变量:n和ω,所以它既是时序n的离散函数,又是角频率ω的连续函数。与离散傅里叶变换逼近傅里叶变换一样,如令ω=2πk/N,则得离散的短时傅里叶变换如下:2)语谱图语谱图的水平方向是时间轴,垂直方向是频率轴,图上的灰度条纹代表各个时刻的语音短时谱。语谱图反映了语音信号的动态频率特性,在语音分析中具有重要的实用价值,被视为可视语言。语谱图的时间分辨率和频率分辨率是由窗函数的特性决定的。时间辨率高,可以看出时间波形的每个周期及共振峰随时间的变化,但频率分辨率低,不足以分辨由于激励所形成的细微结构,称为宽带语谱图;而窄带语谱图正好与之相反。宽带语谱图可以获得较高的时间分辨率,清晰地显示共振峰结构和语谱包络,反映频谱的快速时变过程;窄带语谱图可以清晰地显示谐波的结构,反映基频的时变过程,反映频谱的精细结构。两者相结合,可以提供与语音信号相关的特性。语谱图上因其不同的灰度,形成不同的纹路,称之为“声纹”。声纹因人而异,因此在司法安全等场合得到应用。3)复倒谱和倒谱复倒谱是x(n)的Z变换取对数后的逆Z变换,其表达式如下:倒谱c(n)定义为:对x(n)取Z变换后的幅度求对数,再取逆Z变换,即在时域上,语音产生模型实际上是一个激励信号与声道冲激响应的卷积。对于浊音,激励信号可以由周期脉冲序列表示;对于清音,激励信号可以由随机噪声序列表示。声道系统相当于参数缓慢变化的零极点线性滤波器。这样经过同态处理后,语音信号的复倒谱、激励信号的复倒谱、声道系统的复倒谱之间满足下面的关系:由于倒谱对应于复倒谱的偶部,因此倒谱与复倒谱具有同样的特点,由复倒谱很容易知道语音信号的倒谱,激励信号的倒谱以及声道系统的倒谱之间满足下面的关系:4)基因周期估计浊音信号的倒谱中存在峰值,它的出现位置等于该语音段的基音周期,而清音的倒谱中则不存在峰值。利用倒谱的这个特点,可以进行语音的清浊音判决,并且可以估计浊音的基音周期。首先计算语音的倒谱,然后在可能出现的基因周期附近寻找峰值。如果倒谱峰值超过了预先设置的门限,则输入语音判断为浊音,其峰值位置就是基因周期的估计值;反之,如果没有超出门限的峰值,则输入语音为清音。5)共振峰估计对倒谱进行滤波,取出低时间部分进行逆特征系统处理,可以得到一个平滑的对数谱函数,这个对数谱函数显示了输入语音段的共振峰结构,同时谱的峰值对应于共振峰频率。通过此对数谱进行峰值检测,从而可以估计出前几个共振峰的频率和强度。对于浊音的声道特性,可以采用前三个共振峰来描述;清音不具备共振峰特点。2.1.3噪声检测系统的设计根据对噪声检测系统的分析,确定噪声硬件系统主要可由传声器、功率放大电路、交直流转换电路、V/F变换电路、单片机和液晶显示系统构成。传声器俗称“麦克风”,是声电转换器件,在此硬件系统中占重要地位。其原理主要是:传感器的振动膜受到声波作用而振动,进而转换为电信号。此次设计使用咪头作为传声器,咪头主要利用膜片一面来感受声压,完成声音信号的采集并转换成信号。其他各电路或系统的设计详细介绍如下。进行功率放大以满足设计要求。1.功率放大电路的设计功率放大电路主要由LM386构成,其作用是对声音信号进行功率放大以满足设计要求。2.交直流转换电路的设计交直流转换电路主要由AD536A构成,其作用是完成电信号由交流到直流的转换。AD536A可直接计算任何复杂输入波形的均方值,并且测量误差大小。当输入电压为正时,CMIN输出高电平,RS触发器置位,输出驱动管导通,FOUT输出逻辑低电平。同时,当C16两端电压大于VCC的2/3时,定时比较器输出一高电平,使RS复位,输出驱动管截止,FOUT输出逻辑高电平。同时,C16放电,C10对电阻R8放电,当C10所放电压与输入电压相等时,CMIN输出高电平。如此就构成了电压频率转换电路。4.单片机的设计单片机集成了CPU、存储器、定时/计数器等功能,所以一直被广泛应用。本次噪声检测使用的是AT89C51单片机,其原理简单,功能易实现,是整个系统的核心,其外部引脚与对应电路相连,把各个部分的电路连接起来成为一个完整的系统,内部程序则完成相应功能。该单片机内部所带可编程的FLASH存储器为4KB,同时还带有16位的定时/计数器各一个,程序可擦写达几万次。这里主要利用单片机的定时计数功能,在内部装载软件程序,根据在限定时间内电压/频率传送来的电平上升沿的计数值对应出分贝值。5.液晶显示系统的设计液晶显示系统由LCD1602构成。LCD1602是字符型液晶,1602是指显示两行内容,每行16个字符。与常用的发光管和LED数码管相比,LCD液晶显示器画质高且不会闪烁,当有信号时,每一个液晶屏上的点都恒定发光;LCD1602是数字式接口,便于与单片机连接,操作方便;芯片本身体积小、重量轻、功耗低。LCD1602用来显示噪声的分贝值,通常接+5V的电源,工作电流为2mA。LCD1602分为14脚或16脚,在实际应用中两者并没差别,其引脚D0~D7是数据接口,与单片机外部P0.0~P0.7引脚对应连接。液晶显示系统通过编程完成显示分贝值的功能,主要步骤为LCD经初始化后延时,根据规定时间内电平上升沿的统计次数来对应噪声的分贝值,设置第一行显示位置,显示第一行内容,其形式为Noise:dB;设置第二行显示位置,显示第二行内容,其形式为Limit:dB。PROTUES仿真时,会具体显示数字大小。硬件电路设计完成后,在焊接前需要在PROTUES软件上进行仿真,仿真成功则说明可以进行实际电路的焊接。仿真时首先通过电路连接线把各个部分的电路进行连接,在检查连接无误后,把噪声检测的程序装入单片机,噪声信号由信号发生器代替。2.1.4噪声检测系统的软件设计噪声检测系统的软件设计总体框图如图。由图可见,开始后首先设置SP,8155相当于单片机的扩展,然后完成定时器和计数器的初始化,此时把中断服务系统打开,在此期间,读取计数器的值。再调用显示子系统,对噪声的分贝取一个大致的值。最后分贝值的大小决定了蜂鸣器报警声音的变大或变小。2.1.5系统的调试步骤及可能的故障分析硬件系统在焊接完成后要进行检测和调试,只有这样才能给软件调试提供一个正确的环境,去除一些硬件错误的干扰。硬件调试和软件调试是不可分离的,只有硬件与软件完美结合才算是完成了一个系统。系统的调试分为以下几个步骤:(1)用电压法检查电路中器件的引脚是否焊接正确。(2)用数字万用表检测器件的各引脚是否连接正常。用两只表笔分别接触器件的引脚,若万用表发出声音则连接正常。(3)使用KEIL编写程序,调试运行没有错误后,在硬件仿真时将程序下载到单片机。(4)连接好各硬件电路,观察连线和接口是否正确,显示系统是否正常。通电进行观察,看检测系统是否正常工作,测量结果是否与实际相符。在噪声检测系统的设计与实现中可能会出现以下故障:(1)电源电压错误。起初给所有电路提供+5V的电源,但是电压/频率转换器输出端没有信号输出,而LM331的工作电压是+15V,改正后电路可以正常工作,有信号输出。(2)硬件电路焊接错误。在实际焊接中,元器件较小,线路较多,所以容易焊错。其中可能出现时钟电路没有接地,经改正后,晶振才可以正常启动,单片机也才可以正常工作;LCD显示结构的显示完全反了,位选线连接错误,改正后会显示正常。(3)软件程序编写错误。这会使显示系统dB显示错误,该故障可能是由于地址分配的问题引起的,可以重新分配地址,使显示结果正常显示。2.1.6去噪算法设计1.谱减法增强语音和减小噪声是处理带噪语音的两种方法,谱减法是一种增强语音的方法。在假设噪声是统计平稳且与语音不相关的前提下,利用短时傅里叶变换在频域将带噪语音的功率谱减去估计噪声的功率谱,得到语音功率谱估计。由于人耳对相位的感觉不是很灵敏,所以可以将原带噪语音的相位作为处理后信号的相位,只需在得到的幅度估计中插入带噪语音的相位,再进行快速傅里叶逆变换,就可以在时域上得到增强后的语音信号。在降噪算法研究中,噪声以高斯白噪声为主要对象,这种噪声一般符合以下条件:噪声是加性的;噪声是平稳的;噪声与语音统计独立。2.滤波法要进行数字信号处理通常需要先将接收到的模拟信号经过A/D(数模转换器)进行转换,将模拟信号经过采样转换为数字信号;接着需要保留有用的数字信号,滤除掉无关紧要的信号,这就需要用到滤波器,经过滤波器的处理后得到一系列数字序列,然后经过(D/A)转换,将数字序列转换为人们所能接收的模拟信号。3.最小均方算法LMSLMS以最小均方值为准则,采用迭代计算得到最优解。该算法采用的是梯度下降方法,因此不需要计算相关函数,所以所需程序简单,且对信道特性变化不敏感,简单便捷,效果良好,在语音降噪领域应用广泛。出信号在时域幅值有所减小,而从频域角度看,带噪语音信号的幅值分布的频率范围较大。但带噪语音经过FIR低通滤波器处理后,频谱主要分布在1500Hz之内,FIR低通滤波器滤除带噪语音信号的高频部分,留下自然的低频部分,而人发出的声音处于低频段,因此我们可以听见较为清晰的原声。但由于高频部分的语音信号被滤除,使得语音信号听起来有点低沉、沉闷。利用LMS算法设计的FIR低通滤波器会根据输入信号的统计特性自动调整自身的参数以达到最佳滤波效果。经LMS算法处理后的带噪语音信号的频谱与原始语音信号的频谱极为接近,与经FIR数字低通滤波器处理后的语音信号相比,保留了原始语音信号的高频部分,听觉上不沉闷,比较悦耳。5.三种降噪算法仿真数据分析本次对三种降噪算法的评价主要从主观和客观出发。主观方法是指通过人的听觉对语音质量有一个大致判断,即根据人们的听觉对处理后语音信号的优劣进行判断统计,将降噪处理后的语音信号划分优、良、差三个等级。质量优表示处理前后的语音听起来没有什么差异;质量良表示带噪信号在处理后有明显改善;质量差表示降噪后的信号听起来有明显噪声。客观方法是指用实际测量的数据进行评判,即信噪比SNR和对数谱失真度LSD。SNR越大、LSD越小则表明降噪效果越好。带噪语音信号经过处理后,信噪比都有明显的改善,对数谱失真度数值都较小,说明算法达到了降噪的目的。三种算法从主观和客观两方面来看,LMS算法在降噪方面性能最好,即处理后的语音信号和纯净语音信号有极小的差别,几乎分辨不出;FIR低通滤波器降噪效果较好,但由于滤除了带噪语音信号的高频部分而使声音变得低沉;谱减法基本上实现了语音信号的增强,但是效果并不明显,因为除去高斯白噪声时带来了音乐噪声,听起来会使人疲惫,所以降噪效果一般。2.1.7任务实施框图软件部分主要是C语言程序的设计,主要分为四个模块。主程序是软件系统的核心,处于循环工作状态,主要完成定时/计数器和中断系统的初始化,并循环调用查表和显示子程序。查表子程序中的内容主要是计数值与噪声分贝值的对应,显示子程序主要是根据定时内电平上升沿的计数值来确定分贝值并显示。另外,在硬件部分加防风防雨保护措施后可以用于室外的测量。2.1.8其他常用语音信号去噪方法简介1.小波去噪原理在自动化系统中,小波是一个常用的用于语音处理的工具,像语音分析、基音检测和语音识别等。小波分析是一种窗口大小固定但其形状可改变,时间窗和频率窗都可以改变的时频局部化分析方法。语音通信过程不可避免地会受到各种噪声的干扰,噪声降低了语音的信噪比和可懂度。语音去噪有各种小波变换的方法,小波变换具有多尺度的特性,可以由粗及细地逐步观察信号。首先对带噪语音信号进行小波变换,得到各尺度的小波系数,然后对得到的小波系数进行噪声估计。进行噪声估计的方法比较多,可以针对每一层分解得到的小波系数进行噪声估计,也可以只是对近似部分的系数进行估计,还可以针对所有得到的系数进行估计。因为小波变换具有和人耳相似的频率特性,所以利用小波变换进行去噪可以达到比较理想的效果。使用小波变换进行去噪的关键在于阈值的选取,阈值的选取方法可以是“硬阈值”,也可以是“软阈值”。如果阈值选得过高,会使信号丢失过多的细节,使信号失真;如果阈值选得过低,则不能达到去噪的目的。对待去噪的信号可假定其噪声接近高斯分布,通过使用一个多分辨率的小波滤波器组计算系数,滤波器的选择取决于噪声级和其他参数。然后再通过估算一个正确的门限电平来得到一个好的去噪效果,小波函数和分解层数对去噪信号的质量也起了重要作用。2.遗传算法去噪遗传算法(GeneticAlgorithm)是一类借鉴生物界的进化规律(适者生存、优胜劣汰遗传机制)演化而来的随机化搜索方法。其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐蔽性和更好的全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则。遗传算法的基本运算过程如下:(1)初始化过程:设置进化代数计数器t=0,设置最大进化代数T,随机生成M个个体作为初始群体P(0)。(2)个体评价过程:计算群体P(t)中各个个体的适应度。(3)选择运算过程:将选择算子作用于群体。选择的目的是把优化的个体直接遗传到下一代,或通过配对交叉产生新的个体再遗传到下一代。选择操作是建立在群体中个体的适应度评估基础上的。(4)交叉运算过程:将交叉算子作用于群体。所谓交叉,是指把两个父代个体的部分结构加以替换重组而生成新个体的操作。遗传算法中起核心作用的就是交叉算子。(5)变异运算过程:将变异算子作用于群体。即对群体中个体串的某些基因座上的基因值作变动。群体P(t)经过选择、交叉、变异运算之后得到下一代群体P(t1)。(6)终止条件判断过程:若t>T,则以进化过程中所得到的具有最大适应度的个体作为最优解输出,终止计算。
任务2.2颜色空间模型及转换
学习目标(1)理解颜色空间的表示及转换。(2)结合具体应用,掌握颜色空间转换的原因、方法及应用场合。任务分析(1)在多媒体系统中经常涉及用几种不同的颜色空间表示图形和图像的颜色。常见的颜色空间模型有:RGB、YUV、HIS、CMYK、YCbCr、YIQ、HSV、CIELAB,它们是如何定义和表示的?(2)从一种颜色空间模型转换到另一种颜色空间模型的流程是什么?(3)颜色空间转换的意义是什么?(4)由于RGB颜色空间多用于显示器等发光设备中,其他硬件设备大都与其之间有数据和图像的传输,就不可避免地要与基于设备工艺的颜色空间进行转换。而与设备无关的基于感知的颜色空间用于图像分析时也多依赖于显示器,故与RGB颜色空间有关系的转换在众多转换中占据着重要的地位。(5)实现下列颜色空间模型的转换:RGB→CMY空间;RGB→YUV空间;RGB→YCbCr空间;RGB→HSI空间;RGB→CIELAB空间。2.2.1颜色的基本概念颜色是通过眼、脑和人们的生活经验所产生的一种对光的视觉效应。人对颜色的感觉不仅仅由光的物理性质所决定,比如人类对颜色的感觉还往往受到周围颜色的影响。有时人们也将物质产生不同颜色的物理特性直接称为颜色。光是一种电磁波。电磁辐射的波长范围很宽,按波长从长到短的顺序排列,依次是无线电波、红外线、可见光、紫外线、X射线和宇宙射线等。波长在380~780nm范围内的电磁波能够使人眼产生颜色感觉,称为可见光。可见光在整个电磁波谱中只占极小的一段。2.2.2彩色三要素描述一种色彩需要用亮度、色调和色饱和度三个基本参量,这三个参量称为彩色三要素。1.亮度亮度反映光的明亮程度。彩色光辐射的功率越大,亮度越高,反之亮度越低;不发光物体的亮度取决于它反射光功率的大小。若照射物体的光强度不变,则物体的反射性能越好,物体越明亮,反之越暗;对于一定的物体,照射光越强,物体越明亮,反之越暗。2.色调色调反映彩色的类别,例如红、橙、黄、绿、青、蓝、紫等不同颜色。发光物体的色调由光的波长决定,不同波长的光呈现不同的色调;不发光物体的色调由照明光源和该物体的吸收、反射或透射特性共同决定。3.色饱和度色饱和度反映彩色光(色调)深浅的程度。同一色调的彩色光会给人以深浅不同的感觉。深红、粉红是两种不同饱和度的红色,深红色饱和度高,粉红色饱和度低。2.2.3三基色原理1.三基色原理根据人眼的视觉特性,在电视机中重现图像时并不要求完全重现原景物反射或透射光的光谱成分,而应获得与原景物相同的彩色感觉。仿效人眼三种锥状细胞,可以选择三种基色,将它们按不同比例进行组合,就可得到自然界中绝大多数的彩色。同样绝大多数单色光也可以分解成红、绿、蓝三种色光。这是色度学的最基本原理,即三基色原理。这三种基色必须是独立的,任何一种基色都不能由其他两种颜色合成。自然界中绝大多数的彩色可以分解为三基色。在彩色电视中,选用了红、绿、蓝作为三基色,分别用R、G、B来表示。2.相加混色原理在一般的彩色电视中,通常使用以下两种相加混色法:(1)空间混色法:它将三种色光投射到同一表面上彼此相距很近的三个点上,由于人眼的分辨力有限,故产生一种基色光混合的色彩感觉。(2)时间混合法:它把三种基色光轮流投射到同一表面上,只要轮流速度足够快,就能达到相加混色的效果(人的视觉惰性)。3.相减混色原理在白光照射下,青色颜料吸收红色而反射青色,黄色颜料吸收蓝色而反射黄色,品红颜料吸收绿色而反射品红。2.2.4RGB与CMY颜色空间模型1.RGB颜色空间模型在多媒体计算机中,使用最多的是RGB颜色空间模型。计算机和电视机的彩色显示器的输入需要RGB的彩色分量,通过3个分量的不同比例,在显示器屏幕上合成所需要的任一颜色,所以此模型是相加性的。不管其中采用什么形式的颜色空间表示,多媒体系统的最终输出一定要转换为RGB表示。在RGB颜色空间模型中,对任意彩色光F,其配色方程可写为F=r[R]+g[G]+b[B]2.CMY颜色空间模型彩色印刷或彩色打印的纸张是不能发射光线的,因而印刷机或彩色打印机就只能使用一些能够吸收特定的光波而反射其他光波的油墨或颜料。CMY模型将青色(C)、品红(M)、黄色(Y)三种不同比例的彩色墨放到印版上来展现出种类繁多的色彩。该模型根据色彩的减法来得到其他彩色,这种方法称为减色合成法。3.两者的关系因为CMY通过减色合成法得到,RGB通过加色混合法得到,故两者是互补的。2.2.5RGB与YUV颜色空间模型1.YUV颜色空间模型YUV是PAL(PhaseAlternatingLine,逐行倒相)制彩色电视系统所采用的一种颜色空间模型,其中Y表示亮度,U表示蓝色色差(即B-Y),V表示红色色差(即R-Y)。亮度信号Y和色度信号U、V是分离的,完成了彩色和黑白电视的对接,使带颜色的图像能在所有电视机上显示;U、V为色差并且能完全显示所有彩色。它被欧洲的电视系统广泛采用。另外,可以利用人眼对彩色的敏感度低于对亮度的敏感度的视觉特性,用较窄的频带传送U、V信号,优化彩色电视信号的传输。即用亮度信号Y传送细节,用色差信号U、V进行大面积涂色。因此,彩色信号的清晰度由亮度信号的带宽保证,而把色差信号的带宽变窄。2.RGB与YUV的关系RGB与YUV的转换公式为3.与YUV相似的YIQ颜色空间模型YIQ模型中Y也为所有电视提供亮度信号,I和Q表示色度,即图像的色调及饱和度,该模型被北美的电视系统广泛采用。YIQ颜色空间是由YUV推导而来,是NTSC制彩色电视系统所采用的一种颜色空间模型;I代表“同相”,Q代表“正交”,它们指的是用于发射颜色信息的调制方法;I、Q是通过将U、V轴逆时针旋转33°获得的。由人眼彩色视觉的特性表明,人眼分辨红、黄之间颜色变化的能力最强,而分辨蓝、紫之间颜色变化的能力最弱。通过一定的变化,I对应于人眼最敏感的色度,而Q对应于人眼最不敏感的色度。这样,传送Q信号时可以用较窄的频带,而传送分辨率较强的I信号时,可以用较宽的频带。4.RGB与YIQ的关系RGB与YIQ的转换公式为
反转换为2.2.6RGB与YCbCr颜色空间模型1.YCbCr颜色空间模型YCbCr是由YUV颜色空间派生出的一种颜色空间模型,主要用于数字电视系统。其中Y是亮度,可以完整地表示除了色度之外的所有图像信息。色度信息完全存储在Cb和Cr中,Cb代表蓝色信息,Cr则代表红色信息。基本上,YCbCr和YUV代表相同的颜色空间,但YCbCr中的各成分是YUV颜色空间中各成分比例的补偿数值。2.两者的关系RGB与YCbCr的转换公式为2.2.7RGB与HSI颜色空间模型1.HIS颜色空间模型HSI用色调(Hue)、色饱和度(Saturation)、亮度(Intensity)描述色彩信息,它可以用一个圆锥空间模型来描述。色调表示某颜色与纯净颜色的差距,饱和度表示纯净颜色中混入白色的多少,亮度代表眼睛受到光照射的强度。HSV与HSI近似相同,属于同一类别,只有第三个分量不一样,V代表明度(Value),HSV相比HSI在色彩的感知方面更好。2.2.8RGB与CIELAB颜色空间模型1.CIELAB颜色空间模型LAB是一种不常用的色彩空间。它是在1931年国际照明委员会(CIE)制定的颜色度量国际标准的基础上建立起来的。1976年,经修改后被正式命名为CIELAB。它是一种与设备无关的颜色系统,也是一种基于生理特性的颜色系统。它用数字化的方法来描述人的视觉感应。L分量用于表示像素的亮度,取值范围是[0,100],表示从纯黑到纯白;A表示从红色到绿色的范围,取值范围是[127,-128];B表示从黄色到蓝色的范围,取值范围是[127,-128]。LAB颜色空间比计算机显示器、打印机甚至比人类视觉的色域都要大,在获得同样的精度时,LAB位图比RGB或CMYK位图需要的像素数要多。2.两者的关系RGB无法直接转换成LAB,需要先转换成XYZ再转换成LAB,即RGB-XYZ-LAB。
任务2.3车牌图像的预处理
学习目标(1)理解并掌握位图图像的基本概念、性能指标。(2)理解并掌握图像的灰度化处理、常用边缘检测算子、常用图像增强方法、数学形态学处理等常用图像预处理方法。(3)结合具体应用,能够选择合适的图像预处理方法加以应用。(4)会用MATLAB编程实现常用预处理方法。任务分析(1)针对获取的车牌图像,采用怎样的处理流程实现车牌的提取?(2)在每个流程中,可以采用哪些处理方法,为什么选择这种方法?(3)这些方法如何实现?(4)应用图像预处理方法的效果怎样?还能再改进哪些地方?2.3.1认识位图图像在对图像进行预处理前,应先了解有关图像处理的基础知识,这有助于对图像进行分析和处理方法的选择。1.图像与位图图像图像(Image)是指由输入设备捕捉的实际场景画面,或以数字化形式存储的任意画面。静止的图像可用一个矩阵来表示,矩阵列中的各个元素用来描述构成图像的各个点(称为像素Pixel)的强度和颜色等信息。这种图像也称为位图(Bitmap)。2.位图图像的技术指标1)分辨率(1)显示分辨率:确定屏幕上显示图像区域的大小,即构成全屏显示的像素点个数,以每行拥有的像素点个数×屏幕显示行数来表示。(2)图像分辨率:确立组成一幅图像的像素数目,即该图像在水平和垂直方向上的像素个数,用dpi(每英寸多少点)表示。不同分辨率的图如图2-3-2所示,图像分辨率与清晰度的关系如图2-3-3所示。(3)打印分辨率:打印机输出图像时采用的分辨率。不同打印机最高分辨率不同,而同一台打印机也可以使用不同分辨率进行打印。2)像素深度像素深度描述图像中每个像素数据所占的二进制位数,它决定了彩色图像中可出现的最多颜色数,或灰度图像中最大灰度等级数。3)真彩色、伪彩色与直接色(1)真彩色:图像中的每个像素值都分成R、G、B三个基色分量,每个基色分量直接决定其基色的强度,这样产生的颜色称为真彩色。(2)伪彩色:图像中每个像素值是一个索引或代码值,作为颜色查找表中某项入口地址,查找出包含实际R、G、B的强度值,这样产生的颜色称伪彩色。(3)直接色:通过每个像素点R、G、B分量分别作为索引值进行变换,经相应颜色变换表找出各自基色强度,用变换后的R、G、B强度值产生的颜色称为直接色。4)调色板在生成一幅位图图像时,图像处理软件要对图像中不同的色调进行采样,产生包含在此幅图像中各种颜色的颜色表,即一组(R,G,B)组合值,这个颜色表就称作调色板。5)显示深度显示深度表示显示缓存中记录屏幕上一个点的二进制位数,即显示器可显示的颜色数。显示深度大于像素深度时,屏幕上的颜色能够比较真实地反映图像文件的颜色效果;显示深度小于像素深度时,屏幕上的颜色不能真实地反映图像文件的颜色效果,即发生失真;显示深度等于像素深度时,若真彩色显示模式显示真彩色图像,或显示调色板与图像调色板一致,则屏幕上颜色能较真实地反映图像色彩效果,不一致则显示颜色会出现失真。6)位图图像的数据量位图图像的数据量的估算方法为3.位图的特点(1)表达图像逼真:位图与图像复杂程度无关,表现力强,适合表现细节和层次。(2)对硬件要求高:当处理高质量彩色图像时,对计算机硬件平台要求较高。(3)文件数据量大:位图由大量不同的亮度和颜色像素点组成,因此文件数据量大。(4)缺乏灵活性能:当位图图像被放大时,图像的清晰度会降低并出现锯齿。4.位图文件的结构位图文件的结构主要包含文件头、文件体、文件尾三部分。2.3.2矢量图与位图的区别1.矢量图的定义矢量图是一种抽象化的图像。它用一组计算机指令集合描述图形内容,这些指令描述构成该图形所有直线、圆、圆弧、矩形、曲线等图元的位置、维数和形状等。在计算机屏幕上显示矢量图形有专门的软件,如AutoCAD、CorelDraw、Adobe、Illustrator等。2.矢量图的原理矢量图的原理在于它用数学方式来描述一幅图形。当在计算机上显示一幅图时,先要使用专门软件读取并解释这些指令,再将它们转成屏幕上显示的形状和颜色,最后通过使用实心的或有等级深浅的单色或色彩填充一些区域而形成图形。3.矢量图的特点(1)压缩后不变形:尺寸可以任意变化而不损失图像质量,压缩后不会变形。(2)局部可处理性:各部件相对独立,无论放大、缩小或旋转等都不会失真。(3)文件数据量小:对图像进行抽象化,它使用图形指令集合取代原始图像。(4)不易描述复杂图:对复杂图,计算机要花费很长的时间去执行绘图指令。4.矢量图与位图的对比2.3.3彩色图像的灰度化处理灰度图像只有亮度,不含其他颜色,它的值在0~255之间,且数值越大越亮,数值越小越暗,最亮为白色,最暗为黑色。灰度图像的处理速度快、操作简单、储存空间小,更有利于车牌定位处理。每个像素等于三个基色的加权平均值,根据人眼对三个基色的敏感性强弱,可给予三个基色不同的权值。2.3.4图像的增强处理图像增强处理的目的:一是改善图像的视觉效果,二是将图像转换成一种更适合让人或机器进行分析和处理的形式。根据所处理的空间不同,可以有两大类处理方法:基于空间域的方法:直接在图像所在的空间进行处理。基于频率域的方法:在图像变换域间接进行处理。2.3.5图像的二值化处理图像二值化就是将图像上像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果。将256个亮度等级的灰度图像通过适当的阈值选取,即可获得仍然可以反映图像整体和局部特征的二值化图像。所有灰度大于或等于阈值的像素被判定为属于特定物体,其灰度值为255,否则这些像素点被排除在物体区域以外,灰度值为0,表示背景或者例外的物体区域。常用的图像二值化阈值的选取方法有双峰法、P参数法、最大类间方差法(Otsu)、最大熵阈值法、迭代法等。该任务中采用最大类间方差法实现图像的二值化处理。最大类间方差法是由Otsu于1979年提出的,它是基于整幅图像的统计特性实现阈值的自动选取的,是全局二值化最杰出的代表。Otsu算法的基本思想是用某一假定的灰度值t将图像的灰度分成两组,当两组的类间方差最大时,此灰度值t就是图像二值化的最佳阈值。设图像有L个灰度值,取值范围在0~L-1,在此范围内选取灰度值T,将图像分成两组,即G0和G1,G0的灰度值在0~T范围内,G1的灰度值在T+1~L-1范围内,用N表示图像像素总数,ni表示灰度值为i的像素的个数。2.3.6图像的边缘检测边缘是图像上灰度变化最明显的地方,传统边缘检测利用此特点,对图像各像素点进行求微分或二阶微分来定位边缘像素点。由灰度变化特点,可将边缘类型分为阶梯状、脉冲状和屋顶状三种。对于阶梯状边缘,图像边缘点对应一阶微分图像的峰值和二阶微分图像的零交叉处;对于脉冲状和屋顶状边缘,边缘点对应一阶导数的零交叉和二阶导数的峰值。根据数字图像的特点,处理图像时常采用差分代替导数运算。对于图像的简单一阶导数运算,由于其具有固定的方向性,只能检测特定方向的边缘,所以不具有普遍性。为了克服一阶导数的缺点,我们定义图像的梯度为梯度算子,它是图像处理中最常用的一阶微分算法。图像梯度最重要的性质是梯度的方向在图像灰度最大变化率上,恰好可以反映出图像边缘上的灰度变化。边缘检测算子是利用图像边缘的突变性质来检测边缘的。它主要分为两种类型:一种是以一阶导数为基础的边缘检测算子,通过计算图像的梯度值来检测图像边缘;另一种是以二阶导数为基础的边缘检测算子,通过寻求二阶导数中的过零点来检测边缘。2.3.7数学形态学处理数学形态学的基本思想是运用具有一定形态结构的元素去度量和提取图像中的对应形状,以达到对图像分析和识别的目的,它能有效地消除噪声。在进行边缘检测之后,车牌的特征已经很明显得到了加强,为了进一步确定车牌的位置,还要对它进行数学形态学处理。在形态学算法中,结构元素是很重要的,它的形状、大小的选择以及运算的性质对于图像的提取和识别起着关键作用。结构元素过大会使候选区域增多,还可能会使车牌区域与背景区域连接起来,给车牌的定位带来困难。结构元素选取过小,则很可能会使车牌区域无法真正地连接在一起,就无法确定出车牌的候选区域。数学形态学的基本运算有:腐蚀运算、膨胀运算、开运算和闭运算四种运算。1.腐蚀运算腐蚀是一种消除边界点的过程,目的是使目标缩小,空洞增大,以有效地消除孤立噪声点。腐蚀可以把小于结构元素的物体去除。2.膨胀运算膨胀是将与目标体接触的所有背景点合并到物体中的过程,目的是使目标增大,空洞减小,以填补目标物体中的空洞。3.开运算和闭运算虽然腐蚀运算可以将粘连的目标物体分离,膨胀运算可以将断开的物体连接起来,但是这两种运算都存在一个问题:经过腐蚀运算后,目标物体的面积小于原有面积;而经过膨胀运算后,目标物体的面积大于原有面积。开运算和闭运算就是基于这个问题被提出的。开运算的过程:先对图像进行腐蚀,然后再对图像进行膨胀,最后得到结果。开运算通常用于去掉小对象物体,以及去掉目标外的孤立点。开运算在平滑目标物体边界的同时并不明显改变其面积。闭运算的过程:先对图像进行膨胀,然后再对图像进行腐蚀,最后得到结果。闭运算主要用来填充物体内的细小空洞,可以去掉目标内的孔。闭运算在连接邻近物体、平滑其边界的同时并不明显改变其面积。
任务2.4雾霾图像的增强处理
学习目标(1)掌握常用的图像处理方法。(2)结合雾霾天气下获取的图像,能够分析图像特征,采用合适的方法进行图像增强处理。(3)能够举一反三,对于恶劣天气条件下获取的图像,能够采用合适的方法,对图像进行有效增强处理。任务分析(1)通常采用的雾霾图像增强方法有哪些?各自是如何实现的?(2)不同增强方法在增强效果上有什么不同?传统的方法是否存在弊端,能否改进?怎样改进?(3)每种方法实现的流程是怎样的?2.4.1直方图均衡化算法直方图是一种能反映图像灰度分布情况的图表。图像的不同灰度值出现的概率和像素数量的多少,反映了图像的信息内容。直方图均衡化就是经过某种变换之后能使图像灰度的概率变得更均匀化,使其信息熵能够达到最大值。要寻找一种算法,实现经过该算法变换后,图像的所有像素分布的概率密度为1。设图像的原像素灰度值为r(0≤r≤1),概率密度为Pr(r);经过一系列变换之后,像素灰度值为s,概率密度为Ps(s);T(r)为变换过程函数,则得出以下等式:以上等式所要满足的条件有:①T(r)必须是单值单调递增函数,从而保证灰度是单值映射的同时且灰度值不会出现反转;②0≤T(r)≤1,确保原图像的灰度动态范围在经过变换后不会被缩小,假设令则有2.4.2改进的直方图均衡化算法直方图均衡化理论主要是针对于连续函数,然而对具有离散灰度值的数字图像进行处理时,就需要在函数变换过程中,灰度值经历从连续到离散的近似。因而在直方图均衡化中存在的问题有以下几点:(1)量化误差,损失了原图中的某些灰度信息。(2)由于原图像中的低灰度层像素过多,概率密度极其不均匀,从而导致整个图像的灰度动态范围未能有效改善,在进行直方图均衡化过程中,图像高低灰度的转变导致图像信息转化不均衡,导致一些信息被覆盖。为了解决这个问题,人们对常规的直方图变换进行改进。改进算法的基本思想是:通过变换函数对原图像的直方图进行灰度拉伸,使其生成具有“平坦”概率分布的直方图,再用新的均衡化后的直方图去校正图像。1.具体改进方法(1)减少原图像的低灰度层在生成图像中的概率,进而减少其对生成图像的影响,使生成图像的灰度分布范围更广。(2)由于原来图像的低灰度层范围的像素较密,分布不均匀,从整体观察,相近的区域亮度相差较大,不利于对中间细节信息的观察,为此需要对生成图像作适当的调整,对亮度参数进行修正。以下列出调整函数变换:在对原图像进行常规的直方图均衡变换的基础上,把生成的图像划分成L个灰度阶,灰度范围为k=0,1,2,3,…,L-1,并对划分后的图像的各灰度层进行映射。2.实现直方图均衡算法的主要函数(1)Newmap=rgb2gray(map)。(2)imwrite(rgb2gray(PS),′PicSampleGray.bmp′):表示将彩色图片灰度化并保存。(3)PS=rgb2gray(PS):表示将灰度化后的数据存入数组。(4)size函数:获取矩阵的行数和列数。(5)zeros函数:功能是返回一个m×n×p×…的零矩阵。注意:m,n,p,…必须是非负整数,负整数将被当作0看待。3.直方图均衡算法程序流程图4.仿真结果均衡化处理前后的图像及其直方图如图所示。2.4.3基于Retinex理论的图像增强1.传统Retinex图像增强算法及存在的缺陷传统的Retinex图像增强算法的数学表达式如下:F(x,y)为所用的环绕函数,其表达式如下:参数K的取值应满足下面等式:2.改进多尺度Retinex(MSR)算法算法思想:Retinex理论认为所有图像的来源都可以看成其介质的入射分量和反射分量的合成,Retinex算法的目的就是计算其反射分量,因此就需要寻找一种合适的途径得出反射分量,通过改变反射分量的参数实现对图像的增强。Retinex算法认为影响物体表色的因素是物体表面材质的反射性质,而与入射光无关,因此去除入射分量并计算出反射分量,求出最终的增强图像,其色彩保真度明显较好。3.实现Retinex算法的主要函数(1)mat2gray函数:用于将图像矩阵归一化。(2)Im2double函数:又称为归一化函数。(3)Imfilter函数:对数组或图像进行滤波。其用法有B=imfilter(A,H),B=imfilter(A,H,option1,option2)或g=imfilterg=imfilter(f,w,filtering_mode,boundry_options,size_options).(4)Cat函数:在matlab中用来连接数组。其用法为C=cat(dim,A,B)表示按dim来连接数组A和B。C=cat(dim,A1,A2,A3...)表示按dim连接所有数组。4.Retinex算法的程序流程图5.仿真结果经Retinex算法处理前后的图像对比举例如图2.4.4基于小波变换域增强算法小波变换是对图像进行时间和频率变换,可以实现有效提取信息,所以可用于对图像信息的提取和增强,通过伸缩、平移、分解、重构,加噪、去噪等对信号进行多尺度细化分析,解决了很多其他方法难以解决的问题。小波变换应用在图像增强领域时,其具体实施过程为:首先对待增强图像进行分解,得到一系列系数,称为小波系数。再对这些系数进行压缩存储,设置图像尺寸,对小波系数进行阈值处理,最后进行重构。由于在图像分解重构过程中难免会出现噪声,从而影响图像信息内容和可视化。针对这种不可避免的外界因素的影响,本任务为了突出小波变换对图像的增强效果,在对图像增强前先进行人为噪声加入,之后再对加噪之后的图像分解,设置尺度,进行小波阈值处理,最后重构得到新的图像,即对加噪图像的增强。1.Haar小波算法的实现Haar小波是一种相对较早且比较基础的小波。定义Haar函数φ(x)为基于Haar小波的信号分解与重构算法的基本步骤为:(1)信号采样。(2)信号分解。(3)信号处理。(4)信号重构。2.实现小波变换算法的主要函数使用小波变换的方法对图像进行处理时,可以人为控制小波系数使其按照人们自己的兴趣和想法进行图像信息的处理;同时,通过对低频信息的低通滤波处理,可以达到去噪和增强的双重目的,在增强和去噪方面有其独特的优势。小波变换域的图像增强算法的一般流程是:①对待增强的图像进行二维小波分解;②通过空间频域变换对信号进行处理,分解出的低频部分体现在图像的轮廓上,高频部分体现在细节和噪声上,因此通过提高低频部分的分解系数,减小高频部分的分解系数,最后再进行小波重构。3.小波变换算法的程序流程图4.仿真结果经小波变换处理前后的图像对比如图第三章多媒体信息的压缩编码技术及标准任务3.1基于预测方法的音频信号压缩任务3.2基于DCT的音频信号压缩任务3.3图像/视频信息的霍夫曼编码任务3.4多媒体信息的游程编码
任务3.1基于预测方法的音频信号压缩
学习目标(1)掌握音频信号的定义和分类。(2)理解音频信号数字化实现过程以及压缩的必要性和依据。(3)了解常用的音频信号格式以及压缩标准。(4)掌握基于预测方法的音频压缩的算法流程,并能利用MATLAB进行仿真,及利用Rice编码实现音频信号的压缩。任务分析多媒体信号的压缩是当前许多学者研究的热点。音频信号作为多媒体的重要组成部分,其压缩问题备受研究人员的关注。如何尽可能地在保证信号质量的前提下提高信号压缩比,降低信号的比特率,以节省存储空间,提高信号的传输速率,是信号压缩的主要任务。对于音频信号压缩,需要清楚以下几个问题:(1)“预测”是针对哪些物理量进行的?(2)压缩中采用何种编码方法?(3)如何评价压缩的质量?3.1.1音频信号的定义和分类音频信号作为多媒体的一种表现形式,是自然界声音中的部分体现,可以通过音频采集设备得到。声音是通过空气传播的一种连续的波,在传输过程中引起耳膜的振动,由人耳所感知。对声音的质量评价主要体现在音调、音强和音色三个方面:音调(Pitch)指声音的频率,频率高则音调高,频率低则音调低。同时,声音质量的高低还与频率范围紧密相关。一般来说,频率范围越宽,声音的质量越高。音强(Volume)即音量,与声波的振动幅度有关,反映了声音的大小和强弱。振幅越大,音量越高。音色体现了声音提起来的优美程度。自然界中的声音大多是由不同频率和不同振幅的声波组合形成的复音。复音中的最低频率称为基音(或基频),其他频率成分称为泛音(或谐音)。基音和泛音决定了特色声音的音色或音质。对于次声波(频率低于20Hz的声波)和超声波(频率高于20kHz的声波),人类是不能感知的,但对于频率分布在20Hz~20kHz之间的声波信号,则可以感知到,这部分信号即为“音频信号(Audio)”。人类发音器官发出的声音频率约在80~3400Hz之间,说话的信号频率通常在300~3400Hz之间,这种信号称为“语音信号(SpeechVoice)”。3.1.2音频信号的数字化为了更好地存储和处理音频信号,需要将采集到的自然界的模拟信号转化为数字信号。在模数转化的过程中,需要遵循奈奎斯特抽样定理,才能保证采样之后的数字信号完整地保留原始信号中的信息。音频信号频率分布范围与人的听觉范围相一致(20Hz~20kHz),因此对模拟音频采样的频率应该不小于40kHz。在CD中采用了44.1kHz的采样频率。根据模数转换的过程,对模拟音频信号进行采样以后,还要对离散采样值在幅度上进行量化。在CD中,采样样值的幅度用16位的二进制数来表示,亦即在幅度上把模拟音频信号分为216=65536个区间,依次记录为0~65535。对照每一个采样值的大小,四舍五入后查看当前值属于哪一个量化区间,将区间号划分给当前的采样值。最后得到一系列的“0”“1”字符串。这种直接对模拟音频信号进行数字化的方法称作PCM(PulseCodeModulation,脉冲编码调制)编码。3.1.3音频信号压缩的必要性及依据采用PCM编码时,数字音频的存储量计算公式为为了保证多媒体系统的正常工作与普及,针对数字音频压缩的技术研究显得尤为重要。而音频信号在时间和频域上存在的冗余性,以及人耳的听觉特性使得音频信号的压缩变得可行。音频信号的时间冗余主要表现为幅度分布的非均匀性、样值间的相关性、周期之间的相关性以及静止系数。幅度分布的非均匀性是指音频信号幅度较小的样值分布概率高于大幅度样值分布概率;样值间的相关性随着采样频率的提高呈现上升趋势;周期之间的相关性是指音频信号在特定一段时间内可以由少数频率成分作用,也就会存在周期与周期之间的相关性;静止系数是语音信号的一种停顿,是可以去除的冗余时间段。音频信号的频域冗余主要是指长时功率谱密度的非均匀性和语音特有的短时功率谱密度。音频信号的最终用户是人,因此,应充分利用人类听觉的生理-心理感知特性的影响,对音频信号进行压缩。人耳对信号幅度、频率的分辨能力是有限的,凡是人耳感觉不到的成分,都称为与听觉无关的“不相关”部分,都可视为是冗余的,可以将其压缩掉。3.1.4音频压缩技术的分类一般来讲,根据压缩后的音频能否完全重构出原始声音可以将音频压缩技术分为无损压缩及有损压缩两大类。对于不同的压缩编码方法,其算法的评定可以从以下四方面进行:(1)算法复杂度:包括运算复杂度和内存要求。运算复杂度用MIPS衡量,内存用B或KB来衡量。(2)重构音频信号的质量:信噪比。(3)编码效率:压缩比。(4)编解码时延。1.无损压缩使用无损压缩方案可以在解压缩后逐位恢复原始数据信息。它通过预测过去样本中的值,消除存在于音频信号中的统计冗余。无损压缩可以实现小压缩比,最好可使压缩比达到大约为2:1,具体取决于原始音频信号的复杂性。时域预测编码技术使无损压缩成为可行。2.有损压缩有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不会使人对原始信号表达的信息造成误解;有损压缩适用于重构信号与原始信号无需完全相同的场合。有损压缩的压缩比具体取决于编码/解码过程的复杂性和音频质量要求。有损压缩又有以下几种编码方法。1)波形编码波形编码是指直接对音频信号的时域波形采样值或其频域变换系数进行编码,主要利用音频样值的幅度分布规律和相邻样值间的相关性进行压缩,编码系统源于信号原始样值,波形与原始声音波形尽可能地一致,保留了信号的细节变化和各种过渡特征。差分编码调制(DPCM)源于PCM,它根据声音信号相邻采样值之间呈现明显的相关性,利用前一个采样样本估算下一个样本信号的幅度大小,形成预测值,对预测的样本值与原始的样本值之差进行量化。子带编码(SBC)属于依据感知特性的频域编码。该方法将音频信号进行时间足够短的分段,通过将分段块由时间域转变为频率域,利用带通滤波器(BPF)组把原始信号的频带分割为若干子频带。自适应变换编码(ATC)是先对信号进行某种函数变换,从一种信号(空间)变换到另一种(空间),然后再对信号进行编码。变换编码与子带变换都是根据人对声音信号的感知模型(心理声学模型),通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其他参数选择的,因此又可称为感知型压缩编码。2)参数编码参数编码首先根据不同的信号源,如语言信号、自然声音等形式建立特征模型,通过提取特征参数和编码处理,使重建的声音信号尽可能高地保持原声音的语意,但重建信号的波形同原声音信号的波形可能会有相当大的差别。3)混合编码混合编码是将波形编码和参数编码组合起来的编码形式,克服了原有波形编码和参数编码的弱点,力图保持波形编码的高质量和参数编码的低速率,在4~16kb/s速率上能够得到高质量的合成声音信号。3.1.5音频压缩技术的标准1.MPEG系列MPEG是世界著名的数字视频和音频压缩的标准化组织。该组织自1988年以来,制定了一系列国际标准,其中MPEG-1、MPEG-2已为人们所熟知,这两个标准为VCD、DVD及数字电视等产业的发展奠定了基础。1997年,MPEG制定了新的音频标准AAC。从1999年开始,他们陆续又制定了新的MPEG标准:MPEG-4、MPEG-7和MPEG-21,这些标准对音频技术的发展产生了深远的影响。2.杜比系列杜比数码又称作杜比环绕影音,是由美国杜比实验室开发的性能卓越的数字音频编码系统,其中,AC-1用于卫星通信和数码有线广播,AC-2用于专业音频的传输和存储,AC-3是杜比最闻名的数字技术。AC-3采用第三代ATC技术,被称为感觉编码系统,它将特殊的心理音响知识、人耳效应的最新研究成果与先进的数码信号处理技术很好地结合起来,形成了“数字多声道音频处理技术”。该技术可以传输和存储多达5个全频带声道,以及一个低频效果声道(LFE),而所占用的存储空间比CD上一路线性PCM编码的声道所占用的空间还要少。3.未来音频压缩技术的发展和标准化其他优秀的音频编码技术,如索尼的ATARC、贝尔实验室的PAC和微软的WMA等,也都获得了相当广泛的应用。3.1.6常用音频文件格式常用音频文件可分为声音文件和MIDI文件。声音文件直接记录了真实声音的二进制采样数据,通常较大。WAV是微软和IBM共同开发的PC标准声音格式,文件后缀名.wav是一种通用的音频数据文件。通常使用WAV格式来保存一些没有压缩的音频,也就是经过PCM编码后的音频,因此也称为波形文件,它依照声音的波形进行存储,因此要占用较大的存储空间。MPEG中的MP3格式是一种音频压缩技术,它被设计用来大幅度地降低音频数据量,MP3这种格式将音乐以1∶10甚至1∶12的压缩率,压缩成容量较小的文件,而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降,适用于移动设备的存储和使用。WMA(WindowsMediaAudio)是微软公司推出的与MP3格式齐名的一种新的音频格式。WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(RealAudio),即使在较低的采样频率下,WMA也能产生较好的音质。RA(RealAudio)采用的是有损压缩技术,由于它的压缩比相当高,因此音质相对较差,但是文件也是最小的,因此在高压缩比条件下表现好,但若在中、低压缩比条件下时,表现却反而不及其他同类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025秋部编版四年级上册语文课程安排
- 旅游行业员工工资发放的效率提升措施
- 国际私法在企业合规中的实践体会范文
- 2025年科技教育合作计划
- 电子商务公司岗位职责与流程
- 语文一年级上册教材分析计划
- 职业教育新课程标准推广计划
- 旅游业抬价行为的应对措施
- 湘教版五年级上册心理健康教育计划
- 2025年度环保行业诚信建设方案
- 养老机构护理服务及管理
- 危险化学品生产单位从业人员安全培训考核试卷
- 妊娠合并子宫颈癌诊治中国专家共识(2024年版)解读课 件
- 四年级语文国测复习试题有答案
- 天燃气工程管道施工组织设计及方案2
- 2024-2030年中国甜菜收获机行业市场发展趋势与前景展望战略分析报告
- DL∕T 1393-2014 火电发电厂锅炉汽包水位测量系统技术规程
- 大学生劳动教育概论智慧树知到期末考试答案章节答案2024年南昌大学
- 《德意志意识形态》讲解课件
- CRRT的精细化护理
- 新媒体在教育领域的应用与影响
评论
0/150
提交评论