版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于dsp56f827的声控收音机摘要: 本文首先介绍了语音识别和软件无线电的基本原理。设计了一种基于语音识别和软件无线电的新型声控收音机。该收音机是以motorola的dsp56f827为核心,应用hmm模型和超外差式接收原理,本设计具有新颖和便携的特性。文中还简单介绍了motorola的dsp56f827的特性以及与tms320c54的区别。关键字:dsp;语音识别;软件无线电;声控收音机voice control radio based on dsp56827abstract: at first, the methods of speech recognition and radio s
2、oftware are summarized in this paper. then a hardware structure of voice control radio, which adopts dsp56f827 as its main cpu, is introduced. this design is very novel and small in size. in the paper, the features of dsp56f827 that are different from tms320c54 are also introduced. finally we also g
3、ive the software flow chart in the end. keywords: dsp; speech recognition; radio software引言语言是人们交流的最直接的方式 ,语音交流的自然与舒适使得人们宁愿用语音界面与计算机交互,而不是通过键盘等低级的方式。尤其是对于中文等双字节表示的语言,输入成了相当一部分人的使用计算机的瓶颈。语音界面能支持很多应用。比如,电话簿查询,数据库语音查询,办公听写系统,甚至机器语音翻译系统等等。这些应用背景促进了五十年代以来自动语音识别的研究。近四十年间,应用一系列的工程方法模板匹配,知识工程,统计模型等,语音识别研究取得
4、了很大进展。软件无线电是最近几年在无线通信领域提出的一种新的通信系统体系结构,它的基本思想是以开放性,可扩展性,结构最简的硬件为通用平台,把尽可能多的通信功能用可升级,可替换的软件来实现。而软件的加载或更新可以通过空中接口实现,所以使用起来更加快捷方便。声控收音机就是用这些原理,在dsp平台上开发的新型的,方便的收音机。其中,dsp是整个设计的核心,主要完成语音识别算法和解调算法。1. 声控收音机的原理1.1语音识别的基本原理语音识别就是研究如何使机器能准确地听出人的语音及其内容,以便控制其它设备来满足人类的各种需要。语音识别的基本方法是预先分析出语音特征,按照要求送给机器储存起来,这个语音参
5、数库称为“模板库”,而这个过程称为“训练”。接着,待识别的语音经过与训练相同的分析,得到语音参数,将它与模板库中的模板一一进行比较,失真最小的那个模板所代表的内容,就是识别结果,这个过程就称为“识别”。一个孤立词识别系统的识别原理可以由图1来表示。图1孤立词识别系统原理框图为了描述一个给定信号的性质,一般可以选择不同的信号模型。信号模型粗略的可以分为确定模型和统计模型两大类。确定模型通常要利用信号的某些已知的特定性质,而统计模型要描述信号的统计性质。统计模型的基本假设是:信号可以用一个参数随机过程来很好的加以描述,而且这个随机过程的参数可以用精确的很容易定义的方法加以确定或估计。考虑到语音信号
6、的种种特点,相比较而言,采用统计模型会较为合适,目前发展最快,使用最广的统计模型就是隐式马尔可夫模型(hmm)。当采用统计模型来描述语音时,设a为待识别语音的声学信号,w为识别基元组成的句子(即基元序列),则语音识别的最终目的可以表示为是求解(1-1)其中是从众多的侯选中找到的识别结果。利用bayes公式改写上式,有 (1-2) (1-3)因为是在a确定的情况下选w,所以p(a)与w无关。p(w)是语言模型的匹配结果,p(a/w)则是声学模型匹配得来的结果。因此,总体来讲,语音识别的关键技术包括自适应滤波,断点检测,语音建模等。1.2hmm算法在本系统中的应用1.2.1噪声环境中基于短时分形的
7、语音信号端点检测和滤波方法在噪声语音信号的处理中,噪声语音信号中的语音和非语音段的判定,即噪声语音信号的语音端点检测,是语音处理系统中非常重要的工作,也是极其关键的一步工作。因为,在语音分析、语音滤波和增强中,语音信号的模型参数和噪声模型参数以及自适应滤波器中的适应参数都得依赖对应的信号段 (语音段或噪声段 )来计算确定。因此,只有准确地判定语音信号的端点,才能正确地进行语音处理。为了提高起止点检测的准确性,这里提出了一种非线性处理方法,即信号的短时分形维维数(short-time fractal dimension)来进行噪声语音信号的端点检测。二维空间的时间信号图形的分形维数的物理含义是:
8、在平面空间中,设有复杂曲线l(如语音信号波形),以长度为r的直线段去测量l,设需要的线段数为n ,则使得测量值不依赖于r的大小而取有限值的实数d,则称d为平面图形l的分形维维数。即:(c为常数 ) (1-4)亦即: (1-5)由于直接应用(15)式求时间序列信号的分形维维数d是很困难的。因此,一般都将上述平面图形l的分形过程改用盒分形或网格分形。由于网格分形是一种简单实用的图形分形方式,特别适合于计算机进行数字处理,在数字图像和语音处理中也有人进行了研究和应用。将语音信号x(t)数字化为x(i),并将其按一定时间长度进行分帧处理。考虑到语音的特点,在20ms内信号近似平稳。同时又兼顾计算量和信
9、号x(i)的时变性,帧长一般控制在128点左右(分形的理论要求是长度k要长,k),即 ,组成第k帧信号。令 (1-6) (1-7)以及 (1-8) (1-9),分别表示用宽度为及的正方形网格覆盖第k帧信号图形所需要的网格格子数。则x(i)第k帧的短时分形维维数为: (1-10)(1-10)式是用于动态计算x(i)的分形维维数的近似平均算法。设x(i)是数字化的噪声语音信号的时间序列,s(i)和n(i)分别表示语音信号和加性噪声的时间序列:x(i )=s(i)+n(i) (1-11)实际噪声语音处理过程中,(1-11)式的x(i)是唯一能得到的数据信号,s(i)和n(i)是不可分离的。语音端点的
10、检测就是要在可测量和可获得的数据x(i)中判定语音s(i)的起止点(端点)。由于噪声语音信号x(i)在语音段,特别是语音中韵母声音信号期的图形较高频噪声信号(如白噪声)的图形具有较大的周期性和规则性,也就是说语音信号的分形维维数较白噪声的分形维维数要小。所以,信号的短时分形维维数具备噪声语音信号的端点检测能力。白噪声段的分形维维数要比语音段信号的分形维数大,噪声段的分形维维数大约为:df=1。201578左右,而语音段的分形维维数大约在df=1。0658911。173043之间。因此,时序信号的短时分形维维数是时域中用于提取信号特征的一种有效方法。一个1阶自回归平滑滤波器的数学表达式为: (1
11、-12)式中,x(i)为噪声语音信号,y(i)是滤波后的输出信号,为平滑滤波的控制参数。在噪声语音的滤波中,参数应根据输入的信号是语音还是噪声进行大小自动调整,即应具有自适应能力,要能根据输入信号的特征动态地调整值。假设参数是x(i)信号的短时分形维维数df的函数,即。自适应滤波的应随输入信号x(i)的不同帧而不同,即。当滤波器输入信号为噪声时,较大,取值应小,而输入信号处于语音段时,较小,则取值要大。为了使算法应用于dsp,取与的函数关系为分段线性关系,如图2所示。图2中 =1。17作为判定输入信号语音段和噪声段的门限值参数。图2 与的关系1.2.2采用vq/hmm的自学习语音识别系统隐马尔
12、可夫模型是一个双重随机过程的统计模型,其基本随机过程是隐藏起来观测不到的,另一个随机过程则产生观测序列。设:为观测序列;为状态序列;t为语音长度(以帧为单位);为第i个状态,n为状态数;为第k个码矢,m为量化器阶数;又hmm模型,其中,状态转移概率矩阵,;观测序列分布概率矩阵,。定义:前向概率;后向概率对于语音识别系统,观测序列o就是矢量量化后的结果序列,模型就是有训练语音得到的模板。语音的训练过程就是产生模板的过程,而语音的识别过程就是求出在模板下待识别语音的结果序列o的条件概率。由和的定义可直接得到:。而语音的训练算法则较复杂,目前都采用迭代的方法得到a和b的近似解。迭代公式: (1-13
13、) (1-14)在实际应用中,仅对词条的少数次发音进行训练的语音识别系统,不可能对各种复杂语境下的不同发音都有较高的识别率。某些较陈旧的识别算法如动态时间弯曲法,只能把单词的多次训练发音形成多个模板,造成模板数量成倍增加,影响系统的实时性。而hmm能够对一个词的多个训练序列进行有效的融合而形成一个模板。当训练发音的数量增多时,只会造成训练过程的计算量增大,而不会使识别过程的计算量有丝毫的增加,这对系统的实时性是相当有利的。设k个训练序列:式中是第k个训练序列,计算a和b的迭代公式只要修改如下: (1-15) (1-16)式中作为归一化系数。利用hmm对多训练序列的迭代公式,我们设计一套算法式系
14、统具有自学习的功能。该算法的基本思想是,当发生误识时,系统对误识的模板进行调整,使之更适应使用者的发音习惯,以避免类似的误识再度发生。发生误识时必然牵涉到两个模板,一个是与待识别发音相同的词却被判为不相同的模板;另一个是与待识别发音不相同的词却被判为相同的模板。当发生误识并由用户确认后,系统对两个模板分别进行修正,对于前者的处理较简单,只需将被误识的发音加入到原训练发音群中,再用迭代公式求出新的模板即可;对于后者的处理则较复杂,它的出现必然是因为形成该模板的训练发音群中有一部分与被误识的发音相近,所以修正该模板的主要任务就是删除这部分训练发音。为此先把被误识的发音制成模板,再用该模板与原先模板
15、的各训练发音分别匹配,把匹配程度较好的训练发音删除掉,对剩下的训练发音使用迭代公式形成新的模板即可。1.3软件无线电的基本原理软件无线电的基本思想是;宽带a/d,d/a变换尽可能早地将接收到的模拟信号数字化,最大程度地通过软件来实现电台的各种功能。软件无线电的特点是其完全可编程性。接收时,信号经过处理和变换,由宽带ad数字化,通过可编程dsp模块实现各种所需信号处理,并将处理后的数据送至多功能用户终端。发射时,和上述情况类似。典型的软件 (定义)无线电框图如图3所示。图3采用dsp技术的软件无线电接收机的硬件结构框图1.4 软件无线电实现的关键技术 一个典型可实现的软件定义的数字无线电系统,可
16、以引用数字移动通信中的移动台和基站来进一步分析和说明其实现的关键技术。不论是移动台还是基站,它们都含有宽带天线、多波段射频转换器、宽带a/d/转换器以及通用可编程处理器、存储器、电源以及总线结构等。实现的关键技术可以归纳为宽带射频段、高速中频段、可编程的基带段以及总线控制四大部分1.4.1宽带射频段(1)频段应具有接入多个波段甚至覆盖全波段功能。它具有频率高、带宽宽的两大特点,比如对于gsm,应工作900mhz的高频段,占有带宽25mhz。显然在这样高频率和如此宽的带宽下直接进行数字化处理,目前器件还不具备条件。 (2)目前,只能靠采用传统的高频模拟器件的硬件设备来完成射频段的主要功能。但也不
17、排除能用软件程序控制的方法对功能及参数进行设置。 (3 )射频段主要包含有:组合式多波段天线及智能化天线技术;模块化,通用化收、发双工技术;多倍频程宽带低噪声接收放大器技术;线性高功率放大器技术;宽带上 /下变频器技术。1.4.2高速、高精度中频数字化处理(1)在射频段直接取样进行数字化处理,目前条件不可行。所以一般是将射频信号进行一次或两次混频搬至几十兆赫的中频段,再进行a/d变换进行数字化处理。本设计就是利用超外差式技术完成射频段的主要功能。(2 )在中频段的处理主要包括:高速a/d变换部分和数字式上 /下变频部分。 (3)对高速a/d变换要求是很高的,它的主要性能为:取样速率、取样动态范
18、围和取样精度。其中,取样率一般取最高频率的2。5倍,取样信号动态范围取80db,这时取样精度一般不低于12位。(4)高速a/d变换,其中,抗混叠滤波器的目的是将进入a/d变换器的模拟信号变为带限信号。 (5)数字上 /下变频部分 (duc/ddc):以ddc为例,它是a/d变换后首先要完成的处理工作,它主要包括数字下变频、滤波和二次取样,它是系统中最难完成的部分之一。下面以gsm为例,gsm占用25mhz带宽,实际上一般仅占用10mhz,则取样率应大于2。510mhz=25mhz,同时,为了要进行较好的滤波等处理,每个样点要进行100次操作,这样大约共需2500mips(百万条指令)的运算能力
19、,单个dsp都很难胜任这一工作。因此一般都是将ddc工作交给专用的可编程芯片去完成。1.4.3基带处理 这一部分主要完成单一载波(信道)信号基带可编程处理。基带处理比直接在中频处理其复杂度可大大降低,以gsm为例,若在中频处理,仅考虑信道选择滤波需100次/样值,中频处理需2500mips,降到基带处理,只需对每个载波 (8个时隙信道 ) 200 khz基带信号进行处理,这时仅需2。5200 khz100 =50mips,两者相差50倍。基带处理主要包括:调制 /解调、编码 /译码、交 织/去交织、扩频 /解扩、信道均衡、定时、同步,甚至还有信源编码 /解码等等。(本设计中基带处理只有am/f
20、m的解调。)其复杂度与运算量主要取决于各部分实现的体制与复杂性。显然基带部分总的复杂度远远超过50 mips。 鉴于基站中的基带处理,不仅限于单个载波 (gsm中),而是要同时处理多个载波。若一个基站同时有32个用户,则需同时处理4个载波。这时上述单个载波总体的基带处理能力又要增大4倍。 目前,现有器件对gsm基带处理,基本上可实现,但是对于第三代移动通信系统,其基带带宽由200khz增加到5mhz增加了25倍,仍然难于实现。为了突破dsp运算能力的瓶颈,可以采用几种方法加以解决,一是直接改进器件,提高速率与处理能力;二是使用专用芯片与dsp集成在一起处理;三是用多个dsp并行处理,采用合适的
21、并行算法,完成软件无线电系统所要求的高速处理功能。1.4.4开放式总线结构软件无线电一个重要的指标是开放性和可扩展性,因此必须要为各个功能模块寻找一个统一而开放的接口标准。基于总线结构的硬件平台就是其中最主要的一种,它能将各个功能模块通过总线连接起来。总线结构的优点是实现比较简单,而且目前已有很多总线工业标准,比如vem总线、pci总线等。vem总线是一种可支持多机并行处理的高性能总线,也是目前市场占有率最高的高档标准总线。它具有高性能的支持独立32位地址的32位数据总线,另外还具有支持多主机并行处理、实时操作和高可靠性等一系列优点。所以一般均采用vem总线结构。1.5 dsp实现信号解调的算
22、法模型由于我们的设计只用来解调am/fm广播信号,下面我们着重讨论am/fm信号的解调算法。1.5.1am信号的解调对于am信号,模拟解调普遍采用的方法是包络检波法,实现am信号数字解调的基本思想也是提取已调信号的包络。经过采样,变为离散信号,其表达式为: (1-17)式中,。这里,为采样频率,即,分别是调制信号和载波的数字频率。如果收发载波同频同相,经过数字混频和数字低通滤波器后,同相支路输出为 (1-18)正交支路输出为 (1-19)计算包络,得到 (1-20)信号被正确恢复。可以证明当收发载波的频率存在误差时信号也可以正确恢复。1.5.2fm的解调一个连续的调频信号的表达式为:,x(t)
23、为调制信号。为方便起见,可考虑调制信号是单频余弦的特殊情况。令调制信号为。将调频信号通过模数变换得到:。经过相乘、低通滤波器后,得到:同相支路输出为正交支路输出为其中。计算相角 (1-21) (1-22)当且时,上式表明。当而时,有,于是 (1-23)表明收发载波的频差在输出信号中引入直流分量,其大小同频差成正比,原始信号仍可以正确解调。2.系统概述2.1系统特性a以motorala dsp56f827为核心处理模块。b利用hmm模型进行语音识别,能够识别用户声音,从而能够自动选择频道。c利用数字信号处理技术和软件无线电原理,实现广播信号的精确解调。2.2系统概述天线接收的无线电信号,在与ds
24、p控制的dds芯片ad9850所发出的正弦信号通过混频器ad8343混频后,产生频率为1mhz的中频信号,中频信号通过中频放大器放大。放大后的中频信号经过抗混频滤波器输入到dsp56f827的a/d转换端口。采样后在dsp中利用am和fm信号的正交解调算法,还原出原来的音频信号。音频信号通过dsp56f827的d/a转换端口,输出后经过音频功放后输出。在选台时,麦克风输出的声音信号经过a/d采集后,输入到dsp中。通过语音识别的hmm算法,判断出用户输入的电台。将该电台对应的dds芯片的频率字传给dds芯片,从而产生中频信号。2.3motorola dsp56f827简介自1980年以来,ds
25、p芯片技术得到了突飞猛进的发展,dsp芯片的应用范围也越来越广泛。其中美国的摩托罗拉公司最新推出了dsp56800系列产品,在本文中采用的就是motorala公司dsp56f827,由于语音收音机是对整个工作频段进行数字化,中频和基带处理采用数字信号处理方式。所以,dsp技术是语音收音机的核心。dsp56f827是高性能的浮点处理器,它具有改进的哈佛结构,并行结构cpu,片内存储器,片内d/a,a/d转换器,方便的外设端口。其主要特征包括以下几点:a. 内置adc,最多能支持10通道。使用了其中2通道分别采样人的语音输入,和广播中频信号输入。b. 内置dac,用以转换压控振荡器的输入电压和输出
26、的声音信号c. 高性能的浮点运算能力,能够达到40 dsp mips运算速度。d. 内置flash memory,用来存储用户设定频道名称、频率的名称频率转化表格,语音矢量参数表用以进行语音识别e. 内置cop模块,非常方便地完成watcdog功能,防止软件死锁。以上是对于dsp56f827的一些特征的简单描述,可以看出,相对于其他的一些dsp处理芯片, dsp56f827有着它不可比拟的优越特征,这也使得它能够作为语音收音机的核心。3. 系统硬件系统的硬件电路分为:混频电路,本地振荡电路,抗混频滤波器,声音采集电路和中央处理模块,用了一片dsp56f827。硬件框图如图4。图4语音收音机的硬
27、件框图3.1 混频电路由于接收的广播信号往往频率很高几千khz几十mhz,若从天线进来的信号经过滤波放大后就由adc进行采样数字化,这种结构不仅对adc的性能如转换速率,工作带宽,动态范围等提出了非常高的要求,同时对后续dsp的处理速度要求也特别高。考虑到高速的adc的价格过高(ad6600的价格39$)用在对收音机的解调不经济和dsp56f827的处理速度的限制,并且也没有必要把它做成射频低通采样数字化的理想软件无线电结构。为利用dsp56f827内部集成的adc(dsp56f827的最高采样速率为3.3mhz/s),考虑采用软件无线电的中频数字化结构。采用超外差式的结构,将射频信号通过混频
28、器转变为1mhz的中频信号再送入dsp进行抽样。这里采用混频器ad8343。混频器的硬件电路图如图5所示。图5混频电路3.2本地振荡电路混频器的一个输入由本地振荡器产生,考虑到dsp控制的便易性和设计的数字化程度,这里采用直接数字式频率合成器(dds)作为本地振荡的正弦波发生器,dds的频率控制字由dsp输出,是根据语音识别的结果所对应的电台的频率发出的。dds硬件电路图如图6所示。图6本地振荡电路3.3抗混叠滤波器经过混频后的广播信号中间除所需解调的电台信号外,中间还夹杂着其他电台的信号。为了避免对混频后中频信号直接采样产生的混叠,在a/d转换器之前加一个带通或低通滤波器,用以滤除采样带宽外
29、的信号和噪声。考虑到设计成本,这里选用七阶巴特沃兹滤波器作为带通滤波器。其次,a/d转换器之前还需要加一个驱动放大器(采用ad8138)。放大器把中频信号和a/d转换器隔离起来,给a/d转换器提供低阻驱动。而且还给a/d转换器提供所需的增益,并使输入信号的电平和a/d转换器的输入电压范围相匹配。抗混叠滤波器硬件电路图如图7所示。图7抗混叠滤波器3.4声音采集电路使用常见的麦克风作为传感器,构成声电转换电路,测量对象是人的输入语音。通过前置放大器将麦克风产生的电信号放大送入前置的adc中。经过ad转化后的12bit数据送入dsp56f827的gpio作为语音识别模块的输入。图8 声音采集电路3.
30、5中央处理模块本设计用dsp56f827作为系统的主控模块,进行语音识别与信号解调,这些基本上是都是软件的操作。由于dsp56f827的浮点运算能力很强以及高速内置adc加上已经采用了超外差式的结构,使得不需要用前置的数字下变频器来完成高速数字信号处理。内置a/d转换器将输入1mhz中频信号采样。根据采样得到的信号,利用模拟调制信号解调算法得到调制信号。同时对用户输入声音信号的采样应用语音识别算法取得,利用识别结果判断电台的载波频率。图9 中央处理模块4. 系统软件软件需要完成三部分功能:语音识别程序(hmm算法)、dds控制程序、中频信号解调(正交解调法)。软件程序框图如图10所示。各子程序模块主要功能介绍如下。4.1 语音识别服务程序为满足系统控制的实时性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校园应急预案解读
- 食品安全伴我行
- 认识销售课件教学课件
- 假如课件教学课件
- 高三化学一轮复习 第一章 离子反应 离子方程式 课件
- 稻田餐厅课件教学课件
- 3.1.1铁及铁的氧化物 课件 高一上学期化学人教版(2019)必修第一册
- 2.2化学平衡 课件高二上学期化学人教版(2019)选择性必修1
- 成人夏季食品安全教育
- 企业宿舍管理培训
- 消防应急疏散预案培训
- GB/T 44744-2024粮食储藏低温储粮技术规程
- 2024-2025学年八年级上学期期中考试地理试题
- 2019年湖南岳阳中考满分作文《握手》3
- 注册安全工程师考试安全生产法律法规(初级)试题及解答参考
- 危急值的考试题及答案
- 鼻窦炎围手术期护理
- 浙江省北斗星盟2023-2024学年高二下学期5月阶段性联考数学试题2
- 硫磺安全技术说明书MSDS
- 国开电大《工程数学(本)》形成性考核作业5答案
- GB/T 28653-2012工业氟化铵
评论
0/150
提交评论