单通道16位采样率为441K音频信号进行压缩,实现mp3格式的数据结构(上海大学DSP技术及其应用 )(共8页)

上传人：2*** IP属地：湖北上传时间：2022-07-16 格式：DOCX 页数：11 大小：4.73MB 积分：30 举报 版权申诉

单通道16位采样率为441K音频信号进行压缩,实现mp3格式的数据结构(上海大学DSP技术及其应用 )(共8页)_第2页

单通道16位采样率为441K音频信号进行压缩,实现mp3格式的数据结构(上海大学DSP技术及其应用 )(共8页)_第3页

单通道16位采样率为441K音频信号进行压缩,实现mp3格式的数据结构(上海大学DSP技术及其应用 )(共8页)_第4页

单通道16位采样率为441K音频信号进行压缩,实现mp3格式的数据结构(上海大学DSP技术及其应用 )(共8页)_第5页

已阅读5页，还剩6页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、上海大学(shn hi d xu)20142015学年(xunin)秋季学期研究生课程考试文献(wnxin)阅读报告课程名称： DSP技术及其应用课程编号： 071000907 题目: 单通道16位、采样频率44.1K音频信号压缩，实现*.MP3格式的数据结构研究生姓名: 学号: 评语:成绩: 任课教师: 评阅日期: 单通道16位、采样率为44.1K音频(ynpn)信号进行压缩，实现*.mp3格式的数据结构2015/1/15摘要(zhiyo)：在目前的信息社会，需要应用和传输大量的语音信息，这些信息中存在着大量的冗余，如果不去除掉这些冗余，在其传输和存储的过程中，将会占用大量的资源，因

2、此，语音压缩技术受到了人们的普遍关注。在此基础上，对MP3编码器的基本原理和基本结构(jigu)进行了研究，并对其几个关键模块包括心里声学模型、子带滤波、量化编码等进行了深入的研究。研究结果表明MP3要具有良好的编码质量，本文着重于如何将音频信号压缩为MP3格式。关键词：MP3编解码；音频；算法原理；算法16-channel sampling rate of 44.1K audio signal compression, implement data structures mp3 formatAbstract：In the current information society，there i

3、s much voice information which contains mass of redundancyIt will take up vast resources in transmission and storage processes if the redundant is not removedTherefore，voice compression technology has been paid widely attentionBased on all of these，the basic principle and structure of MPEG-1 layer3

4、audio code is investigatedEspecially，several key modules such as psychoacoustic model，sub-band filtering and quantization coding are carried on further studyThe research results show that the MP3 encoding quality to have，This article focuses on how to get the audio signal compression to MP3 format 。

5、Key words：MP3 coding and decoding；audio frequency；algorithm principle；algorithm近年来，MP3(MPEG一1 layer3)播放器倍受人们的喜爱，主要因为MP3播放器既具有出色的音质又有大的存储容量，对于数字音频的存储、处理和传输都提出了很高的要求，所以在保证一定质量的基础上，应该采用一定的方法来压缩音频数据，以达到降低码率的目的8。MPEG一1音频压缩标准提供了一种高保真度，高压缩比的压缩算法。根据编码计算复杂度及编码效率的不同，分为层I、层和层 3种标准，层次越高编码后的音质就越好，压缩率也越高，其编码的算法也就

6、越复杂，对计算机的能力要求也就越高。层就是应用最为流行的MP3音乐格式，也是目前音频领域中最流行的2。1 音频压缩基本理论1.1 数字音频信号模拟音频信号经过采样、量化、编码得到数字化的音频信号。其中涉及几个重要的参数采样频率、采样位数、声道数等。1.1.1 采样频率即取样频率, 指每秒钟取得声音样本的次数。采样频率越高,声音的质量也就越好,声音的还原(hun yun)也就越真实，但同时它占的资源比较多。1.1.2 采样(ci yn)位数就是将采样样本幅度量化的量化位数。它是用来衡量声音(shngyn)波动变化的一个参数，也可以说是声卡的分辨率。它的数值越大，分辨力也就越高，所发出声音的能力越

7、强。1.1.3 声道数指所使用的声音通道的个数。声道有单声道和双声道之分，单声道的声音只能使用一个声道发声，双声道的PCM可以使两个声道发声（一般左右声道有分工），更能感受到空间效果。1.1.4 比特率表示单位时间（1秒）内传送的比特数bps（bit per second，位/秒）的速度。作为一种数字音乐压缩效率的参考性指标，通常使用kbps（通俗地讲就是每秒钟1024比特）作为单位。1.1.5 音频文件储存量存储量=(采样频率*采样位数*声道)*时间/8(单位：字节数)1.2 PCM数据格式PCM编码是Pulse Code Modulation的缩写，又叫脉冲编码调制，它是数字通信的编码方式

8、之一，其编码主要过程是将话音、图像等模拟信号每隔一定时间进行取样，使其离散化，同时将抽样值按分层单位四舍五入取整量化，同时将抽样值按一组二进制码来表示抽样脉冲的幅值。PCM中的声音数据没有被压缩，PCM编码的最大的优点就是音质好，最大的缺点就是体积大3。1.2.1 PCM数据的存放方式： 1.3 MP3文件格式MP3的全称应为MPEG1 Layer-3音频文件。MP3文件是由帧(frame)构成的,帧是MP3文件最小的组成单位。MP3的压缩率则高达10:1-12:14,也就是说,一分钟CD音质的音乐,未经压缩需要10MB的存储空间,而经过MP3压缩编码后只有 1MB左右。1.3.1 MP3 文

9、件结构：MP3文件大体分为三部分：ID3V2，音频数据，ID3V1。其中(qzhng)ID3V2、ID3V1包含了作者，作曲，专辑等信息。音频数据由一系列的帧构成，用来记录mp3 的位率，采样率，版本等信息，每个帧又分为帧头和数据实体两部分，而帧的长度可能不固定，也可能固定，由位率bitrate 决定。 1.3.2 MP3的数据(shj)帧格式：每一帧由帧头和数据体构成。数据体包括CRC校验位、边信息(xnx)、主数据和附加数据构成。1.3.3 帧长度LayerIII使用公式：帧长度（字节）=(每帧采样数/8*比特率)/采样频率)+附加数据1.3.4 每帧的持续时间每帧持续时间(毫秒)=每帧采

10、样数/采样频率*10001.3.5 主数据（MAIN_DATA）主数据是音频文件中的主要信息部分，压缩率越大，则主数据的数据量越少。主数据部分长度是否变化决定于帧头的位率是否变化,一首MP3歌曲,kbps(比特率)表明了音乐每秒的数据量,Kbps 值越高,音质越好,文件也越大,MP3标准规定,不变的bitrate的MP3文件称作CBR,大多数MP3文件都是 CBR的,而变化的bitrate的MP3文件称作VBR,每个FRAME的长度都可能是变化的。1.4 MP3编码流程图原始的PCM样值信号首先通过分析多相滤波器组，该滤波器将输入信号分为32个等频宽的子频带信号。然后通过改进的离散余弦变换(M

11、DCT，Modified Discrete Cosine Transform)，将每个子带的时域信号映像到频域。同时，输入信号经过FFT后通过心理声学模型，以确定每一子带的信掩比SMR。最后将编码后的数据、边信息及其它所有数据按照MP3所规定的格式封装成比特流输出。1.4.1 分析多相滤波器组MPEG-1/Audio使用了32通道的伪标准正交镜像滤波器组(PQMF)技术，把输入的音频信号分解为32个等频宽的子频带信号，每个子带的分析滤波器均是由同一个原型低通滤波器h(n)通过不同频率和相位的调制而得。在MP3编码中采用了分节处理的方法，即将每一帧数据分为两节来处理，每节的样本数为576，两节数

12、据的处理方法基本相同，都是将他们分成32个子带分别量化。采用对每个子带分别编码来处理音频信号，主要有两个优点。第一，可根据每个子带信号在感觉上的重要性，对每个子带合理的分配比特数，就可能分别控制各子带的量化电平数目以及相应的重建信号的量化误差(wch)方差值，获得更好的主观听音质量。例如，音频信号主要集中在低频，对低频带的子带可以用较多的比特数来表示其样值；而噪声通常出现高频段，对于高频带的子带我们可以分配比较少的比特。第二，对各子带分别进行量化编码，各子带内的量化嗓音相互间独立，被束缚在自己的子带内，这样就避免(bmin)输入电平较低的子带信号被其它子带的量化噪音所淹没。1.4.2 MDCT

13、这一过程中，32个子带的信号经加窗截取后进行(jnxng)修正的离散余弦变换，实现了时域到频域的转换7。在频域中比在时域中处理音频信号的好处要多。相邻音频信号间在时域内存在着较强的相关性，通过信号由时域到频域的转换，可以消除信号问的相关性，且频域信号依频谱由低到高，对人的听觉系统的影响从强到弱。频域内的音频信号具有能量的集中性(低频分量的能量较高频强)和影响力的有序性的特点，因而一般的音频处理都会转换到频域处理。1.4.3 心理声学模型人耳的听力范围是20Hz-20k Hz的频率范围，但是人耳对不同的频率声音的灵敏度是不同的，不同频率的声音要达到能被人耳听到的水平所需要的强度是不一样。那么通过

14、计算，可以把音乐文件中存在但不能被人耳听到的声音去掉。通过这原理，我们还可以建立模型，把大部分数据空间分配到人耳最灵敏的2kHz到5kHz范围，其余频率分配比较少的空间9。遮蔽效应表现在强信号会遮蔽邻近频率的弱信号6。用生活经验来说，在安静的房间中，一根针掉到地上都能听见，可到了大街上，就算手机音量调到最大，来电时也未必能听见，而手机的声音确确实实是存在的，原因就是被周围更大的声音遮蔽了。有了对遮蔽效应的研究成果，编码器就能根据已建立的数学模型，计算强信号对附近弱信号的遮蔽，把能引起人们注意的声音才保留。1.4.4 非线性量化量化是为了用有限的二进制数表示离散化的音频信号样值，必须将连续的样值

15、进行离散化处理，这个过程就是量化过程。量化按照它的量阶的关系可以分为线性量化和非线性量化，线性量化可以适当的表示较大的声音，但是对于大部分的轻声，我们将得到相同的二进制的值，这样就无法把轻声分频，会大大的损害语音的音质；为了解决这个问题，我们采取不同的步阶，就是根据信号的振幅而采取不同的步阶大小(step size)，这样就可以在信号的振幅时的到较多的二进制值，能够很好的把低声分频，从而可以得到较好的音质。1.4.5 Huffman编码Huffman编码是一种比较常用的变长编码方法，其主导思想是根据数据符号发生(fshng)的概率进行编码7。在数据中出现概率(gil)越高的符号，相应的码长越短

16、：出现概率越低的符号，其码长越长，从而达到用尽可能少的码符号表示源数据。Huffman编码需对原始数据进行两遍扫描，第一遍统计原始数据中各字符出现的频率，由此创建Huffman树并将其有关信息保存起来，以便解压时使用：第二遍则根据所得到的Huffman树对原始数据进行编码，并将编码信息保存起来。根据源数据符号出现(chxin)的概率，求出各个符号出现的权值W1，W2，Wn构成n棵二叉树的集合F=T1，T2，Tn，其中每棵二叉树Ti中只有一个带权为Wi的根结点，其左右子数为空。在F中选取两棵根结点的权值最小的树作为左右子树构造一新的二叉树，设置新二叉树的根结点的权值为左、右子树上根结点权值之和

17、。在F中删除所选取的两棵子树，同时将构成得到新二叉树加入到F中。重复、直到F中只包含一个二叉树为止，这棵树便是Huffman树。2 MATLAB实现及代码2.1 lame编码器LAME是最好的MP3编码器，编码高品质MP3的最好也是唯一的选择。LAME本身是DOS下的文件，需要加外壳程序才比较容易使用，也可以在别的软件（比如EAC）中间调用。是一款出色的MP3压缩程序，它使用了独创的人体听音心理学模型和声学模型，改变了人们对MP3高音发哑、低音发破的音质的印象。LAME分DLL和EXE两种版本，DLL版本做为一个方便的接口程序在大多数抓轨软件中都能看到，但由于可控性差，与具备丰富调节参数

18、的EXE版相比，其压缩出来的MP3效果稍逊一筹。2.2 MATLAB代码function mp3write(Y,FS,NBITS,ENCODING,MP3FILE)s = which(mp3write.m);ww = findstr(mp3write.m,s);lame = s(1:ww-2);wavwrite(Y,FS,NBITS,strcat(lame,temp.wav);tmpfile = strcat(lame,temp.wav);MP3FILE = strcat(pwd,MP3FILE);ENCODING = num2str(ENCODING);switch ENCODING cas

19、e 1 cmd = lame,lame, -quiet, , tmpfile, ,MP3FILE; case 2 cmd = lame,lame, -quiet, -b 128 , tmpfile, ,MP3FILE; case 3 cmd = lame,lame, -quiet, -abr 112 , tmpfile, ,MP3FILE; case 4 cmd = lame,lame, -quiet, -f , tmpfile, ,MP3FILE; case 5 cmd = lame,lame, -quiet, -h , -V , tmpfile, ,MP3FILE; otherwise e

20、rror(Encoding parameters not suported) enddos(cmd);delete(tmpfile);mp3write函数通过cmd设置lame的不同的MP3压缩格式(g shi)，再利用dos调用cmd的压缩命令，从而实现了不同的压缩效果。3 结束语本文理论部分首先音频压缩相关的基本音频知识以及相关的音频信号格式的介绍。并且从MPEG一1标准的角度，详细分析了MP3编码算法压缩标准的原理以及编码的主要流程。深入的学习(xux)了MP3编码的基础知识，掌握了MP3的编码算法理论。实验部分通过对录制好的wave音频文件格式压缩为MP3音频文件，再保证音质基本不变的

21、情况，实现了压缩比约为10:1的效果，极大改善了在音频信号在传输过程中便捷。通过研究发现，如果对主要的心理声学模型、量化模块和分析滤波器组的算法进行创新的改进，最终MP3的编码速度和质量会有较大的提高MP3编码器算法的改进和优化将成为计算机科学领域中一个重要的研究方向。参考文献：1张琦MPEG标准的发展(fzhn)J现代电声技术，2003(3)：124-1292谦君3G移动语音编码标准介绍J无线技术，2006(9)：97-98QIAN JunMobile 3G speech coding standard introductionJWireless Technology ，2006(9)：97

22、-983李昌立，吴善培数字语音-语音编码实用教程M.北京：人民邮电出版社20044Michael Mc Candless，The MP3 revolutionJIEEE Intelligent Systems Archive，1999，14(3)：8-95丰帆MP3数字音频编解码算法的研究及实现J西安电子科技大学，2008(1)：3-5FENG FanMP3 digital audio code algorithm research and RealizationJXian Electronic and Science University，2008(1)：3-56张力光，王让定心理声学模型及

23、其在MP3编码(bin m)中的应用J宁波大学学报：理工版，2010，23(3)：27-30ZHANG Li-guang，WANG Rang-dingPsychoacoustic model and its application in MP3 codingJJournal of Ningbo University：Science and Technology，2010，23(3)：27-307HUANG Li-qun，WANG Yu-liang，GONG PingAn improved construction method of Qc-LDPC codes based on the PEG

24、 algorithm C/Circuits， Communications and System(PACCS)，2011:1-48Fossorier M P CQuasi-cyclic low-density parity-check codes from circulant permutation matricesJIEEE Transactions on Information Theory，2004，50(8)：178817939Sullivan M E OAlgebraic construction of sparse matrices with large girthJIEEE Transactions on Information Theory，February 2006，52(2)：719-72710LI Li-xin，CHEN Zheng-kang，FAN Jie，et a1Implementation of LDPC codes decoding based on maximum average mutual information quantizationJ

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

单通道16位采样率为441K音频信号进行压缩,实现mp3格式的数据结构(上海大学DSP技术及其应用 )(共8页)

文档简介

温馨提示

最新文档

评论

单通道16位采样率为441K音频信号进行压缩,实现mp3格式的数据结构(上海大学DSP技术及其应用 )(共8页)

文档简介

温馨提示

最新文档

评论

相关文档