




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
智能语音全套可编辑PPT课件绪论智能语音技术概述目录一、什么是智能语音二、智能语音技术流程 三、智能语音产业技术现状四、智能语音产业应用现状五、智能语音产业人才现状一、什么是智能语音
智能语音是以语音信号识别为基础,搭配自然语言处理和对话管理等技术,将语音输入信息提取、分析,最终通过语音合成等方式输出并完成响应的人机语音交互技术。智能语音的优点(1)操作方式便捷简单语音操作贴近本能。语言是人天生具备的能力,无需后天特定的学习。(2)无界面流程限制智能语音对答可以直达用户需求,无需传统图形用户界面多层级界面操作。(3)人性化声音可以更加亲切直观地表现情绪,而文字符号等反馈方式相对缺乏鲜活体验。(4)场景开放可以在一定距离空间内完成交互行为,可以在家庭场景下多人使用。1.聊天机器人体验更好了,比10年前2.语料库更丰富(应对的话多)3.不标准的普通化,识别有误差(说什么。。。)4.没有男朋友怎么卖给她?(语义理解效果不好)5.智商约3岁(个人感觉聊天方面)二、智能语音技术流程语音,是指人类通过发音器官发出来的、具有一定意义的、目的是用来进行社会交际的声音。在语言的形、音、义三个基本属性当中,语音是第一属性,人类的语言首先是以语音的形式形成。语音信号处理,就是对语音信号进行表示,分析,变换,处理,综合等的总称。它是一门涉及计算机,通信,语音学,语言学,数理统计学以及神经生理学等多学科的一门交叉学科,是难度大的高科技领域。补充:语音增强语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。语音增强语音噪声含噪语音增强语音补充:语音增强智能语音技术流程用户:“明天出门要带伞吗?”音箱:“您好,成都明天晴,气温5-10℃,不需要带伞哦。”智能语音主要技术领域就包含了“信号处理”“语音识别”“自然语言处理”“语音合成”4个主要方向。希望实现人与机器以语言为纽带的通信(“能听、会说、懂你”).可以将任意的文字信息转化为自然流畅的语音,相当于给机器装上了人工嘴巴。可以将语音中内容、说话人、语种等信息识别出来,相当于给机器装上了人工耳朵。语音识别键盘输入手写输入语音输入应用语音识别技术涉及日常生活的各个方面如电信、金融、新闻、公共事业等各个行业,通过采用语音识别技术,可以极大的简化这些领域的业务流程以及操作;提高系统的应用效率。语音监听语音拨号语音命令语音导航语音搜索语音听写语音翻译语音合成语音合成是人机语音通信的一个重要组成部分,语音合成技术赋予机器“人工嘴巴”的功能,它解决的是如何让机器象人那样说话的问题。键盘光电扫描手写识别网络/数据库文本语言处理韵律处理语音合成结果输出词典/规则语音库语音合成发展情况粤语合成系统中文男声系统纯英文语音合成系统STOPSTOPSTOP年份1995年1998年1999年2001年2003年自然度<3.03.03.53.84.3STOPTrainable语音合成20世纪末,可训练的语音合成方法基于统计建模和机器学习的方法,根据一定的语音数据进行训练并快速构建合成系统。中文女声系统中文男声系统纯英文语音合成系统STOPSTOPSTOPEmotion(情感)语音合成在现在陈述语气合成的基础上实现感叹,疑问,强调的效果在正常情绪合成的基础上增强系统在高兴,生气,悲伤等多种情绪方面的表现能力
中立合成 情感合成生气难过应用—语音转换在已有语音合成系统基础上模拟各种发音人说话使合成系统有快速适应能力,根据用户的需要提供个性化语音合成服务扩展语音服务在信息服务以外领域的功能(如娱乐)音色转换的渐进过程演示STOP自然语言处理技术
自然语言处理(NLP)是人工智能(AI)的一个领域,它使机器可以理解人类的语言。NLP结合语言学和计算机科学的力量来研究语言的规则和结构,并创建能够理解、分析和提取文本和语音含义的智能系统(运行在机器学习和NLP算法上)。
垃圾邮件过滤让计算机理解自然语言文本的意义。“善解人意”是智能的必要条件。自然语言:是指人类种族集团的本族语言,是我们日常使用的语言。自然语言是相对于人工语言(程序设计语言C++)而言的。语言是思维的载体,是人际交流的重要工具。八大语系汉藏语系、印欧语系、亚非语系、阿尔泰语系、乌拉尔语系、尼日尔-刚果语系、马来-玻里尼西语系和德拉维达语系。5600多种不同的语言和方言使用人口最多的语言有汉语、英语、俄语、日语、法语和德语等。序号语言表达形式1鲁迅出生于1881年2鲁迅出生在1881年3鲁迅诞生于1881年4周树人是1881年出生的5鲁迅先生生于1881年6鲁迅生于光绪7年一个能理解语言的计算机应该能够判断多种的表达都是同一个意思,这不是一件容易的事情。人们以为他对她有“意思”,于是,建议他对她“意思意思”。他说,他没那种“意思”。她则反问,你们是什么“意思”。大伙中有的觉得很有“意思”,有的则认为真没“意思”。应用与场景假如某公司发布了一款全新的手机产品。新产品的发布带来了来自不同媒体的相关报道、用户反馈。面对这些数据,你/老板可能希望了解:•大家关注的是这款手机的哪些特性;•大家对这款手机的评价如何;•有哪些用户表达了购买的意愿。在面对海量数据的情况下,使用人力分析这些数据显然是不切实际的。这种场景下,计算机语言分析就派上了用场。应用与场景帮助商家进行产品分析,辅助用户进行消费决策评论观点抽取字符串操作和处理是基础!英文文本预处理中文不太友好(涉及编码解码问题)自然语言处理:文本分析---热点最新补充:ChatGPTGPT是GenerativePre-trainedTransformer(生成式预训练变换模型)的缩写。需要非常大量的算力(芯片),轻量型的模型(我们用)ChatGPT是黑盒模型。目前还未能对内在算法逻辑进行分解!卷积神经网络长短期记忆人工神经网络三、智能语音产业技术现状(1)语音识别存在场景受限问题在真实使用场景中,考虑到远场、方言、噪音、断句等问题,准确率会大打折扣。目前业内普遍宣称的97%识别准确率,更多的是人工测评结果,只在安静室内的进场识别中才能实现。很多口语化表达,如闲聊式的对话,识别效果也不理想。(2)语义分析仍是浅层处理语言中往往一词多义,人在理解时会基于已有知识储备和上下文环境,但机器很难做到。(3)语音合成仍偏机械感提高合成语音的自然度、丰富合成语音的表现力、降低语音合成技术的复杂度、多语种语音合成等。全球智能语音市场份额占比:Nuance:业务:语音识别、T9智能文字输入法(移动设备)为微软开发出“Siri”,2021年被微软收购百度语音识别准确度语音交互更能将人的双手、眼睛从图形界面交互中解放出来。(语音助手会在越来越多没有屏幕的设备上出现)没有一个受访者每天使用Siri,或者更具体是,没有一位受访者是每星期都使用Siri的。屏幕上几乎所有的设计都是在诱惑你去点击、滑动或者完成更复杂的『手指交互』。问题不在于用户是否需要,而在于技术能否满足用户。总结:『不智能』的确是现状四、智能语音产业应用现状中国智能语音产业规模用户端和商业端①移动设备智能语音技术在可穿戴设备中的应用量较少。可穿戴设备虽然没有屏幕或屏幕较小,更适合语音交互,但大多(比如智能手表)都是非生活必需品,没有太多交互需求智能手机中的各类应用软件大多都配备了语音功能,相比触摸和文字交互,使用率也不算高。微信语音输入功能思考:
关爱老人既是中华民族的传统美德,也是人类进步科学发展的前提。关爱老人,就要尊重老人的思维方式和自主选择,就要提供更多的便利使老人感受到关爱。您认为智能语音技术可以为老人带来什么服务与便利?②汽车由于人在车内双手和双眼被占用,而需求又十分明确,因此智能语音成了这一场景下最合适的交互方式。智能语音在车内的应用主要以车载导航为主。③家居智能电视、音箱、家用机器人智能家电的语音控制可能通过一个中枢设备来实现。(2)商业端①客服客服作为劳动密集型行业。智能机器人客服可以在很大程度上解决简单、重复性工作,帮助企业节省人工和坐席成本,提升运营效率。由于客服问题主要集中在特定的产品或单一垂直领域,因此需要企业拥有完整的结构化知识库,帮助机器人更好地查询和匹配问答内容。目前,按照行业平均水平,机器人客服可以解决70%左右问题,其余的问题可由人工处理。②教育教育领域的应用包括中英文口语评测,以及部分教育机器人的交互功能。科大讯飞作为智能语音和教育市场的龙头企业,通过为一些全国性考试提供技术支持,已经成为中英文口语测评方面的主要提供方。科大讯飞与新东方联合成立了东方讯飞,用新东方的数据和讯飞的技术,推动教育、培训、学习的智能化进程,智能语音测评技术有望在其中发挥重要作用。③医疗医疗领域的应用目前主要是电子病历录入。医生在临床诊断时使用专业麦克风,可将诊断信息实时转化成文字,录入医院系统,方便后续查询和问答,提高医生工作效率。④金融由于金融行业带有明显的客户服务属性,加上完整而庞大的业务及数据积累,因此成为智能语音的重要应用阵地。当前,一些商业银行已经通过使用语音识别技术,实现了语音业务导航、语音交易、业务办理等基础服务。思考:现在银行业务上有很多识别方式,比如指纹、虹膜、人脸、语音等识别方式。您接触到最多的是哪种识别方式?您认为语音识别与其相比有什么优劣?智能语音商用服务机器人也逐渐成熟,有望在商场、医院等各类服务场所开辟新的应用领地。点餐机、订票机泛娱乐:一个巨大的有待开发的市场。配音:利用语音合成技术,可以大大降低配音的成本和周期;
短视频:利用语音合成技术可以非常容易地为自己的视频配上有趣的声音来展现内容;虚拟主持人:利用语音合成技术,可以提升信息的时效性,同时大大缓解主持人的工作压力,降低其工作强度。四、智能语音产业人才现状把智能语音算法和具体产业相结合落地,使用现有智能语音工具,根据应用场景解决具体问题,做规模化、产业化工程应用。形成终身学习的意识,以获得更高的职业发展空间。基础层技术层语音识别算法工程师语音合成算法工程师语音信号处理算法工程师自然语言处理算法工程师架构师建模应用工程师
语音前端处理工程师语音开发工程师语音数据处理工程师自然语言处理开发工程师测试工程师对话系统工程师数据标注工程师智能语音相关工作岗位市场调查与测评品牌方言辨识度(方言类型)有趣的问答内容(举例)优点不足您认为可改进的地方天猫精灵
小度
小爱
团队成员名单
学生活动总结
活动评价
创意园地语音技术应用方向是谁在说话? ——说话人识别说的是什么内容?——语音识别有干扰怎么办? ——语音增强话里有话? ——语音隐藏说话人在哪? ——声源定位说话人的情绪? ——情感识别计算机说话? ——语音合成有效的传输 ——语音编码作业:提交“是谁在说话?”相关领域的小视频,必须转换为mp4格式上传,时长1-3分钟;“说话人的不同情绪如何判定;或以不同情绪说话”领域的小视频,必须转换为mp4格式上传,时长1-3分钟;文件命名规则:核心主题(自命名)-姓名THANKS智能语音语音的采集与转换CONTENT目录声音的拾取装置语音信号的数字化声音/人声的特性(扩充)一、声音/人声的特性人类发音系统语音:由人体发音器官在大脑控制下的生理运动产生。发音器官:由肺和气管、喉(包括声带)、声道(咽腔、鼻腔和口腔)三部分组成。
◆肺和气管:整个语音系统的能源提供者
◆喉:主要的声音生成机构
◆声道:则对生成的声音进行调制交叉学科---快速了解发声和听觉生物机理人类发音系统肺的功能:◆呼吸功能,进行气体交换
◆提供能量,将压缩空气供给发音器官气管:连接肺和喉,是肺与声道联系的通道喉:由软骨和肌肉组成的复杂系统,含声带(发音器官)声带:
◆是阀门,又是振动部件
◆声带紧绷在喉头的前后壁上,有折叠
◆声带的长度约10~14mm声带的声学功能:为语音提供主要的激励源人类发音系统空气作用:使声带开启/闭合,形成脉动气流(声门脉冲串)基音周期(振动周期):声带每开启/闭合一次的时间基音频率(基频):基音周期的倒数基频随人性别、年龄而不同基频:通常为50~450Hz
◆男性一般为50~250Hz
◆女性一般为200~450Hz老年男性偏低,小孩和青年女性偏高基频高则音调高,基频低则音调低基频与声带的大小、厚薄、松紧程度以及声门上下之间的气压差等有关人类发音系统声道:从声门至口唇的所有发音器官包括咽腔、口腔和鼻腔成男声道:长17cm/面积20cm2声道可看成非均匀截面的声管,是时间函数。口腔各器官协同动作,空气流通过时
形成不同阻碍,并产生振颤,发出
不同声音。口腔是声道最重要的部分,其大小
和形状可以通过调整舌、唇、齿和腭来改变。咽腔与口腔使声道的形状变化增多,能发出较多的声音。声道纵剖面图鼻鼻腔齿龈上唇牙齿下唇下腭骨舌骨甲状软骨气管鼻咽软腭口腔小舌舌根会咽喉管声带环形软骨食道eiueao人类发音系统在发音过程中,肺部与相连的肌肉相当于声道系统的激励源浊音:声带处于收紧状态时,气流使声带振动产生的声音清音:声带处于放松状态时,
无伴有声带振动产生的音两种清音:摩擦音,爆破音摩擦音:舌在声道的某处形成狭窄部位(收紧点)气流经过时产生湍流形成噪声型的声音爆破音:松懈声带,用舌和嘴唇关闭声道,暂时阻止气流。气压升高,突然放开舌与嘴唇,气流释放产生短暂冲音
◆不同的声道收紧点和声道形状,形成不同的摩擦音
◆不同的声道闭紧点和声道形状,形成不同的爆破音肺肌力声带
鼻腔鼻音口腔口音软上腭和小舌咽腔声门语音产生的机理图人类听觉系统1)耳的结构人的听觉系统。◆组成:外耳、中耳和内耳。◆外耳和中耳有导音的作用,合称为导音系;◆内耳有感音作用,称感音器。其感音作用起始于蜗神经的终端螺旋器。人的听觉系统砧骨锤骨鼓膜外耳道耳翼听神经耳蜗内耳中耳咽鼓管镫骨半规管人类听觉系统外耳:由耳翼、外耳道和鼓膜组成。◆耳翼:有保护耳孔和定向作用。◆外耳道:是一条耳管,声音沿其传至鼓膜。有许多共振频率,封闭时最低共振频率约为3060
Hz。共振效应会使声音得到10dB左右的放大。◆鼓膜:位于外耳道内端的韧性锥形结构,声音的振动通过鼓膜传到内耳。日常谈话中,鼓膜位移约为10−8cm。外耳的作用:对声源定位和声放大。头部的衍射效应也会增大鼓膜处的声压,系统总放大:20dB左右。人类听觉系统中耳的结构。中耳:为充气腔体,由鼓膜将其与外耳隔离,通过圆形窗和前庭窗两个小孔与内耳相通。通过咽鼓管与外界相连,以平衡气压,保护鼓膜。听骨链:由锤骨、砧骨和镫骨三块听小骨组成,由韧带悬挂在中耳的腔体内。◆听骨链将振动传到内耳并放大,起到杠杆的作用。◆放大30倍左右。听小骨在不同声强范围内实现
声音的线性或非线性传递。中耳的作用:通过听小骨进行声阻抗变换,放大声压;保护内耳。中耳的结构韧带锤骨鼓膜外耳道半规管砧骨镫骨前庭窗膜中耳咽鼓管听骨耳机(骨传导耳机)人类听觉系统内耳(迷路):在颅骨腔内,由半规管、前庭窗和耳蜗组成。半规管和前庭窗属于本体感受器,与机体的平衡机能有关。◆半规管内的感受器能感受旋转变速运动的刺激,◆前庭窗内的感受器能感受静止的位置和直线变速运动。耳蜗:由鼓阶、中阶和前庭阶三个分隔的部分组成。◆听觉接受器,把声音经机械变换产生神经发放信号。前庭阶中阶鼓阶前庭阶中阶鼓阶骨螺旋板蜗孔覆膜中阶基底膜耳蜗神经骨质层前庭阶鼓阶(a)耳蜗(通过蜗轴的剖面)(b)耳蜗横截面耳蜗示意图说话过程的五个阶段说话过程可分五个阶段:想说、说出、传送、接收、理解1、想说阶段:(与大脑中枢的活动有关)
◆大脑决策产生说话动机◆讲话神经中枢选单词、短语,按规则组合表达内容和情感2、说出阶段:(与发音器官的活动有关)
◆大脑中枢决策,向发音器官发指令,使舌、唇、颚、声带、肺等协调动作,发出声音
◆大脑也发指令给其它器官,产生各种动作来配合
◆根据听觉系统接收的反馈语音信息,来帮助修改语音3、传送阶段:(传送声波信息的物理过程)
◆声波以空气为媒介传送到听者的耳中说话过程的五个阶段4、接收阶段:(与听觉系统活动有关)
声波鼓膜振动
听小骨传递
耳蜗基底膜振动
产生神经脉冲5、理解阶段:(至今尚未完全了解,机理不很清楚)
听觉神经中枢收到脉冲信息,辨认话者及所说信息个人因素:话者口音、用词造句特色听者的听力、理解力。社会因素:话者、听者的社会基础、环境等语言要素:分语言的语素、词、短语和句子等不同层次及词法、句法、文脉等语法和语义内容等。句法的最小单位是单词,词法的最小单位是音节。不同语言有不同语言规则语音的产生和理解:与神经系统和大脑有关,是高级活动。搞清大脑产生和理解语音的机理,对语音技术有极重要意义。例,语音合成:◆目前,按规则合成只能从寻找各种语言的规则入手,尽可能得出较好的人工语言。◆如果发音时大脑智能活动的机理之迷揭开,就可以获得高度自然的语音合成。例,语音识别:◆目前,只能从语音信号出发,用“隐过程”(如隐马尔可夫模型)来模拟神经系统的听觉过程,不是按人的听觉过程建立处理模型。不能达到理想的识别和理解效果。说话过程的五个阶段听觉感知特性听觉系统的两个重要特性:
耳蜗对于声信号的时频分析特性;听觉掩蔽效应。耳蜗的时频分析特性:◆声音使耳蜗内流体压强变化,引起行波沿基底膜的传播。◆声频不同,产生的行波不同,峰值出现在基底膜的位置不同。为对数型分布。◆频率低,峰值出现在基底膜的顶附近;◆频率高,峰值出现在基底膜的底附近。◆振动强度增加,基底膜运动幅度加大,耳蜗:有频谱分析作用。基底膜的频率响应分布图1943顶部7291051431872382973654455366437669081073126414851741203723802777323737704386510059271915816774144691247810759927479916883基部听觉感知特性行波(travellingwave)是指平面波在传输线上的一种传输状态,其幅度沿传播方向按指数规律变化,相位沿传输线按线性规律变化。◆基底膜有频率选择性和对数分布性的重要因素。人的听觉范围:20Hz~20kHz,0~130dB的声音信号。◆听觉范围外的信号分量可忽略掉,以节省处理成本。◆人耳的感觉不是绝对的,随着信号特性的不同而不同。听觉感知特性听觉掩蔽效应:在一个强信号附近,弱信号将变得不可闻,被掩蔽掉。分为同时掩蔽和短时掩蔽。同时掩蔽:同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阀,当弱信号的听阀被升高到一定程度时就会导致这个弱信号变得不可闻。短时掩蔽:例掩蔽声即使消失后,其掩蔽作用仍将持续一段时间,约0.5~2秒,这是由于人耳的存储效应所致。掩蔽门限:被掩蔽掉的不可闻信号的最大声压级,在这个掩蔽阈值以下的声音将被掩蔽掉。听觉感知特性被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限或掩蔽阈值,在这个掩蔽阈值以下的声音将被掩蔽掉。最底端的曲线表示最小可听阈曲线,即在安静环境下,人耳对各种频率声音可以听到的最低声压,可见人耳对低频率和高频率是不敏感的,而在1kHz附近最敏感。低于掩蔽曲线的声音即使阈值高于安静听阈也将变得不可闻。听觉感知特性掩蔽效应是指人的耳朵只对最明显的声音反应敏感,而对于不敏感的声音,反应则较不为敏感。MP3等压缩编码便是听觉掩蔽的重要应用,在这些编码中只突出记录了人耳朵较为敏感的中频段声音,而对较高和较低的频率的声音则简略记录。人声的特性-激励模型语音生成系统分成三个部分:1)在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是“激励系统”;2)从声门到嘴唇的呼气通道是声道,是“声道系统”;3)语音从嘴唇辐射出去,所以嘴唇以外是“辐射系统”。人声的特性-激励模型语音分成清音和浊音,清音由随机噪声激励产生
浊音由准周期脉冲串激励产生,其周期称为基音周期。浊音情况下,激励信号的产生示意图如下。◆冲激串发生器输出的单位冲激序列(冲激间隔为基音周期)。◆线性激励系统函数为G(z),经幅度控制后输出为浊音激励。浊音信号激励的产生基音周期增益控制Av冲激串发生器G(z)
脉冲波人声的特性-激励模型清音情况下,发塞音或摩擦音,声道被阻形成湍流。◆激励可模拟成随机白噪声,
图示为考虑浊音和清音的激励因素,混合激励的数字模型。
语音产生的数学模型基音周期增益控制Avam,GPL(n)增益控制AN冲激串发生器G(z)白噪声发生器V(z)R(z)
人声的特性-声道模型一般分为两类:声管模型和共振峰模型无损声管模型(行波型模型):由多个不同截面积的无损耗管子串联而成的系统,是最简单的声道模型。图示为10级的无损声管级联模型。语音信号的某一“短时”期间,声道可表示为形状稳定的管道。每个管子可看作为一个四端网
络,该网络具有反射系数,此
时声道可由一组截面积或一组
反射系数来表示。10级无损声管级联声门
嘴唇A1l1A2l2A3l3A4l4A5l5A6l6A7l7A8l8A9l9A10l10人声的特性-共振模型共振峰:元音激励声道时,引起共振,产生的一组共振频率称为共振峰频率(共振峰)◆共振峰是区别元音的重要参数,包括其位置和频带宽度精确描述语音,应该用尽可能多的共振峰工程中,常用前三个共振峰参数
◆第一共振峰F1、第二共振峰F2、第三共振峰F3元音的共振峰特性与发音机制有关F1与舌位高低有关,舌位高F1低;舌位低F1高舌位越低,嘴张得越大(开口度大);舌位越高开口度越小F2与舌位前后密切相关,舌位靠前F2高,舌位靠后F2低◆前元音[i]的舌位靠前,F2达2000Hz◆后元音[u]的舌位靠后,F2只有500Hz人声的特性-共振模型F1和F2和嘴唇的圆展程度也有关系,◆如圆唇可使F2降低等。F3与舌位有关,并不密切,◆但受舌尖活动的影响,舌尖抬高卷起时,F3就明显下降舌位前后、唇形圆展和开口度大小对F1和F2
的影响情况。F2
F1后低圆低小(高)前高展高大(低)舌位(开口度)舌位前后唇形圆度舌位、唇形和开口度对F1和F2的影响人声的特性-共振模型成年女子和儿童的基频高于成年男子。区分语音是男声还女声,是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。10个英语单元音前3个共振峰频率的平均值。◆成年女性和男性的共振峰频率有明显的差别(约高25%)表2.2
10个英语单元音前3个共振峰频率的平均值/Hz元音ii:eæaΛuu:əF1男270390530660730570440300640490女310430610860850590470370760500F2男22901990184017201090840102087011901350女27902480233020501220920116095014001640F3男3010255024802410244024102240224023901690女3310307029902810281027102610267027801960人声的特性-共振模型将声道看成为谐振腔,共振峰是该腔体的谐振频率。实践证明:◆元音用前3个共振峰。◆辅音或鼻音,用到5个以上的共振峰。均匀断面声管的共振峰频率:例:成人声道约为17.5
cm,可计算出:f1
=
500
Hz,f2
=1500
Hz,f3
=2500
Hz。发[e]时声道最接近均匀断面,其共振峰最接近上述值。从语音信号求出共振峰频率、带宽和幅度的方法是重要的。人声的特性-共振模型级联型共振峰模型级联型共振峰模型认为声道是一组串联的二阶谐振器。级联型共振峰模型G激励模型V1语音V2V3V4V5辐射模型三种实用的共振峰模型:级联型、并联型、混合型。人声的特性-共振模型并联型共振峰模型模型。并联型共振峰模型语音A1+V1A2V2A3V3A4V4A5V5G激励模型辐射模型人声的特性-共振模型混合型共振峰模型级联型简单,可描述一般元音。级数取决于声道长度,取3~5级鼻音、塞音或摩擦音时,级联模型不能胜任。采用并联型可解决其不足。它比级联型复杂些。混合型:级联型与并联型相混合。一种较完备共振峰模型。混合型共振峰模型语音A1+V1A2V2A3V3A4V4A5V5AF辐射模型随机噪声发生器低通滤波V2V3V4V5V1Av冲激序列发生器低通滤波AB音调周期浊/清开关人声的特性-辐射模型从声道模型输出的是速度波
,而语音信号是声压波
,二者之倒比称为辐射阻抗
。该阻抗表征口唇的辐射效应,也包括圆形的绕射效应等。其频响曲线表现出一阶高通滤波器的特性。在实际信号分析时,常用所谓“预加重技术”,即在取样之后,插入一个一阶的高通滤波器。此时,只剩下声道部分,就便于声道参数的分析。数学模型的实现完整的语音信号的数字模型可以用三个子模型激励模型、声道模型和辐射模型的串联来表示。人耳听觉特性在人耳的声域范围内,声音听觉心理的主观感受主要有响度、音高、音色等特征和掩蔽效应、高频定位等特性。其中响度(音强)、音高、音色可以在主观上用来描述具有振幅、频率和相位三个物理量的任何复杂的声音,故又称为声音“三要素”;而在多种音源场合,人耳掩蔽效应等特性更重要,它是心理声学的基础。人耳听觉特性人耳听觉特性强度与响度强度是一个物理测量值,以dBIL(声强级)、dBSPL(声压级)、dBHL(听力级)或dBSL(感觉级)为单位。响度属于心理范畴即人耳辨别声音由强到弱的等级概念。小量增加一个微弱声音的强度,感觉的响度会增加很大。若使响的声音更响比使弱的声音更响,需要增加更大的强度。人耳听觉特性声压与声压级声压是定量描述声波的最基本的物理量。大气压受到声波扰动后产生的变化,相当于在大气压强上的叠加一个声波扰动引起的压强变化。声压级是声音的有效声压与基准声压之比,取以10为底的对数,再乘以20。人耳听觉特性声强与声强级声强:在物理学中,声波在单位时间内作用在与其传递方向垂直的单位面积上的能量。声强级:用对数尺度来表示声音强度的等级。在声学中,参考声强
I0的大小为10-12W/m2。人耳听觉特性在物理上,客观测量声音强弱,单位:
dyn/cm2(声压,达因每平方厘米),或W/cm2(声强)。在心理上,主观测量声音强弱的单位:
方(phon)(响度级),或宋(sone)(响度)。国际协议规定,
0dB声强级的1kHz纯音的响度级定义为0方,
ndB声强级的1kHz纯音的响度级定义为n
方。响度人耳听觉特性听阈:当声音的强度小到人耳刚刚可听见时的声强。◆1kHz纯音,听阈为10−16W/cm2声强(0dB声强度级);◆0dB声强级是非常小的单位,仅使鼓膜移动约10−9cm。痛阈:当声音的强度大到人耳感到疼痛时的声强。◆1kHz纯音,痛阈约为10−4W/cm2声强(120dB声强度级);◆120dB使鼓膜的位移约为10−3cm。人耳听觉特性等响度曲线:当不同频率的声音有同样响度的时候,它们的强度并不一定是一样的。等响度曲线就是把不同频率和不同强度的纯音和1kHz的纯音做等响度的配对。等响度曲线与声强/声强级的关系声强/W·cm2
10-410-610-810-1010-1210-1410-16声强级/dB12010080604020020
50
100
200
5001k2k5k
10k
频率/Hz120方1101009080706050403020100方例:1kHz,10dB声强级的声音,响度级为10方;与200Hz,30dB
声强级的声音,感觉响度相同。人耳听觉特性音调:是描述听觉分辨声音高低时的一种特性。◆客观上,用频率表示声音的音调,其单位是Hz,◆主观上,感觉音调的单位采用美(mel)标度。感音范围:20Hz~20kHz,约1000倍频程,9~10个八度音。实验表明:音调与频率是非线性的,与声强及波形有关。音调和频率f近似地表示为频率与音高“音调-频率”曲线30002500200015001000500020501002005001k2k5k10k
频率/Hz主观感觉的音调/美人耳听觉特性从频率到Mel频率的转换公式为:其中f为语音信号的频率,单位赫兹(Hz)。defhz2mel(hz):'''把频率hz转化为梅尔频率'''return2595*numpy.log10(1+hz/700.0)defmel2hz(mel):'''把梅尔频率转化为hz'''return700*(10**(mel/2595.0)-1)人耳听觉特性音色与音质音色又称音品,指的是声音的感觉特性,由声音波形的谐波频谱和包络决定。声音波形的基频所产生的最清楚的音称为基音,各次谐波的微小振动所产生的声音称泛音。不同的发声体由于材料、结构不同,发出声音的音色也就不同。“音质”笼统的意义是声音的品质,在音响技术中包含了三方面的内容:声音的音高,即音频的强度或幅度;声音的音调,即音频的频率或每秒变化的次数;声音的音色,即音频泛音或谐波成分。二、声音的拾取装置麦克风:是将空气中的压力波(声音信号)转换为电信号的能量转换器件。(1)动圈式麦克风:将声音的振动传到麦克风的振膜上,推动里边的磁铁形成变化的电流(电磁感应原理),电流送到后面的声音处理电路进行放大处理。(2)电容式麦克风:当振膜受到振动时,使两极板间距改变,即改变了电容C,从而引起电压的变化,电压幅度反映外界声压的强弱。电容式麦克风原理动圈式麦克风原理三、声音的数字化过程智能语音技术应用的一个基础环节就是语音信号的采集,采集器把采集到的模拟信号通过模数转换器转换成数字信号,作为语音识别等算法的输入。语音信号的采集包含声音信号的拾取和数字化过程,声音的拾取过程是指通过麦克风将空气中传播的声波接收,并转化成模拟信号。数字化过程是将连续变化的模拟信号转换成离散数字信号的过程,一般需要完成采样、量化和编码三个步骤。声学场景声学场景=需要识别的声音+不需要识别的声音(对应场景下的“信号处理”直接决定了语音入口体验。)一个好的智能语音产品,“信号处理”和“语音识别”能力必然是针对其投放的“声学场景”深度适配优化后的,如此才能保障后续的语音交互体验。声学场景语音信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的,所以它是一个非平稳态过程。语音信号具有短时平稳性。在按帧进行语音分析,提取语音参数之前,有一些经常使用的、共同的短时分析技术必须预先进行;如语音信号的数字化、预加重、分帧和加窗、语音信号的端点检测等。
语音信号的数字化
声音是一种模拟信号,想要用于计算机,就必须将模拟信号转化为数字信号声音的数字化需要经历三个阶段:采样,量化,编码语音信号的数字化
采样:从一个时间上连续变化的模拟信号中取出若干个有代表性的样本值,来代表这个连续变化的模拟信号。按照奈奎斯特采样定理:要从采样值序列中完全恢复成原始波形,采样频率必须大于原始信号最高频率的2倍采样周期即相邻两个采样点的时间间隔,采样频率是采样周期的倒数常用的采样率包括8kHz和16kHz语音信号的数字化
量化要用某种数字化来表示在某个时刻声波幅度的电压值大小,该值的大小影响音量的高低。对声波波形幅度的数字化表示成称为“量化”。量化的过程就是将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段的样值归为一类,并赋予相同的量化值,常见8bit和16bit划分纵轴。8bit把纵轴划分为256个量化等级,量化位数越高,量化值越接近采样值,其精度越高,但要求的信息存储量就越大。语音信号的数字化
编码
编码是整个声音数字化的最后一步,为了方便计算机的储存和处理,我们需要对它进行编码,以减少数据量。语音文件格式的重要参数:采样率:8K(电话、嵌入式),16K(PC),44.1K(CD)采样精度(量化位数):即每次取样信息量,例如16bit。比特率/数据传输率(bps:bitspersecond),如8k16bit为128kbps.语音通道数:语音通道的个数表明语音产生的波形数,一般分为单声道和立体声道。单声道产生一个波形,立体声道则产生两个波形。语音信号的数字化
数据传输率(bps)=采样频率*精度*声道数声音信号的数据量(byte)=数据传输率*持续时间/8例:CD唱片上所存储的立体声高保真音乐的采样频率为44.1kHZ,量化精度为16位,双声道,计算一小时的数据量:44.1kHZ*16bit*2*3600s/8=6350400B≈605.6MB数字非常大,所以,在编码的时候常常使用压缩的方式来减少储存提高传输效率。语音信号的数字化
不同的语音编码有不同的比特率范围(略)。音频格式:AMR:每秒钟的AMR音频大小可控制在1K字节左右,常用于彩信、微信语音,但失真比较厉害。WAV:无损音频,比较大。WAV文件有两种,分别对应于单声道(11KHz采样率、8Bit的采样值)和双声道(44KHz采样率、16Bit的采样值)。WMA:为抗衡MP3,微软公司推出的一种新的音频格式,在压缩比和音质方面都超过了MP3。MP3:MP3对音频信号采用的是有损压缩方式,压缩率高达10:1~12:1。M4A:MPEG-4音频标准的文件的扩展名,.m4a文件是使用AAC格式的。语音信号的数字化
练习:任意一段语音信号,格式间相互转换。https://convertio.co/zh/任务一语音信号的采集python-mpipinstallpyaudio
(python3.6尝试!)pyaudio
暂时不支持python3.7和3.8,需要下载whl
文件后再离线进行安装。首先:下载安装pyaudio
的whl
文件下载网址:/~gohlke/pythonlibs/。打开网页,搜索Pyaudiio。*特别注意*:下载对应的PyAudio.whl文件例如python
3.8版本,64位操作系统对应下载PyAudio‑0.2.11‑cp38‑cp38‑win_amd64.whlPython版本查看任务一安装SpeechRecogintion库,输入:pipinstallSpeechRecognition
SpeechRecogintion是Python的一个语音识别框架,已经对接了如谷歌和微软的STT(语音转文本)服务。注意:安装SpeechRecognition
需要提前装好Python的
PyAudio
框架。第三方库、包的安装!!!难点任务一方法二:pycharm解释器中添加库:打开“File->Settings->Project:工程名->PythonInterpreter->查看
Package里是否存在已安装的Python函数库”任务一importspeech_recognitionassr"""定义音频录制函数speech_record()"""defspeechrecord(rate,filepath):#设置采样频率,filepath为音频文件的存放地址及名称r=sr.Recognizer()withsr.Microphone(sample_rate=rate)assource:print("请说话......")audio=r.listen(source)#监听麦克风的输入语音,并将语音赋值给aduiowithopen(filepath,"wb")asf:#将音频文件以WAV格式存到指定地址dst处f.write(audio.get_wav_data())print("录音完成!")"""主程序"""scr=“C:\abc\23年录音.wav"#设置录音音频的存放地址speechrecord(16000,scr)#录制音频主程序中调音频录制函数。首先设置录制音频的存放地址和文件名称,然后调用speech_record()函数,并设置存放地址为scr和采样频率rate=16000Hz。任务二获取音频文件信息(一段语音文件,格式转化为.wav)wave.getparams()Returnsanamedtuple()(nchannels,sampwidth,framerate,nframes,comptype,compname)输出信息(声道,采样宽度,帧速率,帧数,唯一标识,无损)语音信号可用1,2,3,4标识,NONE无标识任务二importwave#wave模块
file=wave.open("C:/abc/loveyou.wav","rb")
print('---------声音信息------------')
foriteminenumerate(file.getparams()):#枚举
print(item)
a=file.getparams().nframes#帧总数
f=file.getparams().framerate#采样频率
sample_time=1/f#采样点的时间间隔
time=a/f#声音信号的长度
print(time)声道,采样宽度,帧速率,帧数,唯一标识,无损时间任务三:音频参数的转换库安装wave库、numpy库和audioop库音频参数的转换当录制的wav音频文件参数与实际应用所需不一致时,就需要对其进行调整。例如,音频文件的声道数量nchannels=2,帧速率framerate=48kHz。
百度云平台音频输入参数要求是nchannels=1,framerate=16kHz。任务三关键代码定义wav音频文件参数转换函数wavechange(scr,dst,inrate,outrate,inchannels,outchannels)作用方法将立体声音频转换为单声道音频audioop.tomono(fragment,
width,
lfactor,
rfactor)转换输入语音帧速率audioop.ratecv(fragment,width,nchannels,inrate,outrate,state[,weightA[,weightB]])以元组形式将设置的所有参数file_write.setparams((nchannels,sampwidth,framerate,nframes,comptype,compname))将左声道音频数据写入新的音频文件file_write.writeframes(wavedata_left)任务三执行结果将双声道、48kHz帧速率的音频转换成了单声道、16kHz帧速率的音频。THANKS智能语音语音信号时域分析CONTENT目录时域分析语音的端点检测语音分帧与加窗基音周期估计一、语音分帧与加窗任何语音信号的分析和处理必须建立在“短时”基础上,将语音信号分为一段一段来分析其特征参数。通常,每一段被称为一“帧”,帧长一般取10~30ms。此时,对于整体的语音信号来讲,分析出得到的参数应该是由每一帧特征参数组成的特征参数时间序列。语音分帧语音分帧帧长与帧移的示例分帧一般采用交叠分段的方法。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0~1/2。语音分帧帧长一般设置为10~30毫秒(ms),帧移与帧长的比值一般取为0~1/2。若设定帧长为20ms,帧移为7.5ms。帧速率framerate,将帧长和帧移从时间单位转换为数据点数。例1:当音频文件的帧速率framerate=44100时,则表示1秒时间的语音段包含了44100个数据点。那么20ms对应约880个数据点,7.5ms对应约330个数据点。为此,在程序中设定wlen=880,inc=330。举例2:当音频文件的帧速率framerate=16000时,则表示1秒时间的语音段包含了16000个数据点。那么20ms对应约320个数据点,7.5ms对应约120个数据点。加窗分帧是用可移动的有限长度窗口进行加权的方法来实现:用一定的窗函数ω(n)来乘s(n),从而形成加窗语音信号sω(n)=s(n)*ω(n)。常用的窗函数是矩形窗、汉宁窗、汉明窗等,表达式如下(N为帧长):矩形窗:汉宁窗:Hanning汉明窗(海明窗):Hamming加窗1.窗口的形状对于窗函数的选用原则是:保持最大信息和消除旁瓣的综合效果使窗函数频谱中的主瓣宽度应尽量窄,以获得较陡的过渡带旁瓣衰减应尽量大,以提高阻带的衰减从语音信号截取一个时间片段;对信号进行傅里叶变换,FFT分析中为了减少或消除频谱能量泄漏及栅栏效应采用不同的窗函数对信号进行截短。不同窗函数的形状对短时语音信号的特性影响大加窗优点是主瓣比较集中,缺点是旁瓣较高,导致变换中带进了高频干扰和泄漏,甚至出现负谱现象。频率识别精度最高,幅值识别精度最低。矩形窗使用最多,习惯上不加窗就是使信号通过了矩形窗。加窗汉宁窗又称升余弦窗。主瓣加宽并降低,旁瓣则显著减小,从减小泄漏观点出发,汉宁窗优于矩形窗。但汉宁窗主瓣加宽,相当于分析带宽加宽,频率分辨力下降。它与矩形窗相比,泄漏、波动都减小了,并且选择性也提高。加窗海明窗(汉明窗)又称改进的升余弦窗,只是加权系数不同,使旁瓣达到更小。但其旁瓣衰减速度比汉宁窗衰减速度慢。加窗2.窗口的长度采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间关系:Δf=1/NTs采样周期一定时,Δf随窗口宽度N的增加而减小,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。通常在10kHz采样频率下,N折中选择为100~200点为宜(即10~20ms持续时间)。语音分帧与加窗经过上面介绍的预处理过程(分帧与加窗)语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧,等等,最后得到由每一帧参数组成的语音特征参数的时间序列。根据所分析出的参数的性质的不同可以分为:时域分析、频域分析、倒频域分析等。二、语音信号的时域分析即分析和提取语音信号的时域参数。(短时能量、短时幅值、短时过零率、短时自相关、短时平均幅差)语音信号本身就是时域信号,时域分析是最早使用,应用最广泛的方法。时域分析通常用于最基本的参数分析及应用,如语音的分割、预处理等。特点是:①表示语音信号比较直观、物理意义明确。②实现起来比较简单、运算量少。③可以得到语音的一些重要的参数。时域分析时域表示语音信号可用其时间波形表示,观察波形可看出语音信号的一些重要特性。时域分析语音信号的时域特征参数主要有:(1)短时能量(2)短时平均幅度(3)短时平均过零率(4)短时自相关函数(5)短时平均幅度差函数时域分析短时能量设语音波形时域信号为x(t)、加窗分帧处理后得到的第n帧语音信号为xn(m),则xn(m)满足下式:xn(m)=ω(m)x(n+m)其中,n=0,1T,2T,…,并且N为帧长,T为帧移长度。设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式如下:短时能量体现信号在不同时刻的强弱程度。时域分析短时能量主要用于区分浊音段和清音段,因为浊音时E值比清音时大得多;区分声母与韵母的分界和无话段与有话段分界。例:python语音信号处理,语音信号为普通话的“蓝天,白云”,可以比较清晰的看出短时能量的四个部分。时域分析短时平均幅度En是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即它对高电平非常敏感(因为它计算时用的是信号的平方)。为此,可采用另一个度量语音信号幅度值变化的函数,即短时平均幅度函数Mn,它定义为:Mn也是语音信号能量大小的表征,它与En的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异。时域分析时域分析短时过零率短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。定义语音信号xn(m)的短时过零率Zn为:式中,sgn[]是符号函数,即时域分析利用短时平均过零率还可以从背景噪声中找出语音信号,可用于判断寂静无话段与有话段的起点和终点位置。在背景噪声较小时,用平均能量识别较为有效;而在背景噪声较大时,用短时平均过零率识别较为有效。时域分析女声“我到北京去”的短时平均过零次数的变化曲线:时域分析作用和局限性作用:(1)区分清/浊音,浊音平均过零率低,清音平均过零率高。(2)从背景噪声中找出是否有语音,以及语音的起点,即端点检测。局限性:对于浊音和清音重叠区域,只根据短时平均过零率不能明确地判别清、浊音。
时域分析短时自相关函数定义语音信号xn(m)的短时自相关函数Rn(k)的计算式如下:这里K是最大的延迟点数。自相关函数用于研究信号自身,如波形的同步性、周期性等若序列是周期性的,则自相关函数是同周期性的周期函数自相关函数为偶函数R(0)表示确定性信号的能量或随机信号的平均功率。对浊音语音可用自相关函数求出语音波形序列的基音周期时域分析浊音的短时自相关函数时域分析清音的短时自相关函数时域分析短时自相关函数的作用:1)区分清音(噪声)/浊音:
浊音语音的自相关函数具有一定的周期性。清音语音的自相关函数不具有周期性,也不具有明显突出的峰值,类似噪声。2)估计基音周期:短时自相关函数可以很明显的反映出浊音信号的周期性。缺陷:乘法运算量大,所需时间长。时域分析短时平均幅度差函数即:平均幅度差函数和自相关函数有密切的关系,两者关系可由下式表达:平均幅度差函数能够代替自相关函数进行语音分析,原因:如果信号是完全的周期信号,则相距为周期的整数倍的样点上的幅值是相等的,差值为零。音频具有周期特性,平稳噪声情况下利用短时平均幅度差可以更好地观察周期特性。时域分析一帧浊音的的短时自相关函数时域分析一帧清音的的短时自相关函数非周期性时域分析语音端点检测就是指从包含语音的一段信号中确定出语音的起始点和结束点,使有效的语音信号和无用的噪声信号得以分离。正确的端点检测对于语音识别和语音编码系统都有重要的意义。利用短时过零率来检测清音,用短时能量来检测浊音,两者相配合便实现了信号信噪比较大情况下的端点检测,检测出语音段(清音和浊音)及静音段。基于能量和过零率的语音端点检测方法主要有两种:(1)门限比较法和(2)能零比值法。语音端点检测时域分析含噪语音与非含噪语音对比说话区间能量的数值大,而过零率数值小;而噪声段的情况正好相反。所以把能量值和过零率做比值,更能突显出说话区间,从而更容易检测出语音端点。时域分析需要做除法运算,可能会出现数据溢出等情况,需要对结果进行平滑处理。任务一语音信号的分帧1.录制音频“智能语音技术”或“苏州市职业大学”;2.并设置合适的帧长和帧移等参数;3.绘制出其中的3帧语音帧数据。任务一库安装
库查询:DOS界面输入:piplist方法1:pipinstall-i/pypi/simple/matplotlib方法2:pipinstallmatplotlib双版本:python3.6-mpipinstallpackage_namematplotlib库:数据可视化第三方库matplotlib模块依赖于numpy模块和tkinter模块,可以绘制多种形式的图形,包括线图、直方图、饼状图、散点图、误差线图等等。NumPy:是Python语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。(自动安装)tkinter:Python的标准GUI工具包的接口.任务一pycharm解释器中添加库:添加importwave
importnumpyasnp
importmatplotlib.pyplotasplt
plt.rcParams[‘font.sans-serif’]=[‘SimHei’]
plt.rcParams[‘axes.unicode_minus’]=False
“”“定义wav音频文件读取函数waveread()”“”
defwaveread(filepath):
#已封装
file=wave.open(filepath,'rb')#打开WAV音频,filename为音频文件地址
params=file.getparams()
#获取音频文件的格式信息(声道数、量化位数、采样频率、采样点数、压缩类型、压缩类型的描述)
print('--------音频文件参数---------')
print(params)
nchannels,sampwidth,framerate,nframes=params[:4]#从音频参数矩阵params中取出各参数
Totaltime=nframes/framerate#计算音频信号的总时间长度
print('--------音频时长(秒)---------')
print(Totaltime)
"""将音频数据整理为时间序列"""
strdata=file.readframes(nframes)#获得音频文件的帧数据
wavedata=np.frombuffer(strdata,dtype=np.short)#将帧数据转换为数组,得到一维的short类型的数组
wavedata=wavedata*1.0/(max(abs(wavedata)))#音频数据幅值归一化
time=np.arange(0,nframes)*(1.0/framerate)#计算出每个数据点的时间序列,用于绘图
file.close()#关闭文件
return[time,wavedata]“”“定义音频数据分帧函数enframe()”“”
defenframe(data,wlen,inc):#wlen为设定的帧长,inc为设定的帧移
nx=len(data)#计算数据长度
print(‘--------音频数据长度(采样点)---------’)
print(nx)
nf=(nx-wlen+inc)//inc#计算分帧总数,//取整除
print(‘--------音频分帧后的总帧数---------’)
print(nf)
frameout=np.zeros((nf,wlen))
#np.zero,返回来一个nf行wlen列的用0填充的数组,后续填充语音帧数据
indf=np.multiply(inc,np.array([iforiinrange(nf)]))#遍历nf取值
foriinrange(nf):
frameout[i,:]=data[indf[i]:indf[i]+wlen]
#用于将帧数量为nf,帧长度为wlen的语音帧一次填充到二维数组frameout中
ifisinstance(wlen,list):#判断wlen是否为列表类型
frameout=np.multiply(frameout,np.array(wlen))#是,并将其作为参数传入#将frameout和wlen中的每个元素相乘,得到一个新的二维数组
returnframeoutmultiply(a,b)就是个乘法,如果a,b是两个数组,那么对应元素相乘frameout[i,:]=data[indf[i]:indf[i]+wlen]
含义:将一个一维数组data中的一段数据按照指定的长度wlen分割,并将分割后的数据按行填充到一个二维数组frameout的第i行中。data是一个一维数组,indf也是一个一维数组,表示每个分段的起始位置。indf[i]表示第i个分段的起始位置,indf[i]+wlen则表示这个分段的结束位置。frameout[i,:]表示frameout这个二维数组的第i行,:表示这一行的所有列。任务一任务一"""主程序"""
scr="C://abc//jssvc.wav"#设定wav音频文件的地址
[time,wavedata]=waveread(scr)#调用waveread()读取音频文件参数
inc=330;
wlen=880;
speechframe=enframe(wavedata,wlen,inc)#分帧,wlen:帧长,inc:帧移
print('--------音频分帧后的帧数据---------')
print(speechframe)#打印出各帧数据任务一#绘制音频帧数据
i=150#设置plot显示的起始帧数,第150号帧的波形
tlabel=i
plt.figure(1)
plt.subplot(3,1,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 详尽多条款单项劳务分包合同
- 保险服务居间合同
- 工业厂房租赁合同
- 建筑工程款转让协议书
- 装卸运输服务合同
- 智能科技产品开发合作合同
- 个人果树承包合同
- 管理软件系统买卖合同书
- 美术老师教学成果保护协议
- 项目策划服务合同
- 2024届广东省深圳市中考物理模拟试卷(一模)(附答案)
- 前庭功能锻炼科普知识讲座
- 信永中和线上测评题库
- 供应链战略布局与区域拓展案例
- 上海话培训课件
- 注塑车间绩效考核方案
- 初中英语阅读理解专项练习26篇(含答案)
- LS/T 1234-2023植物油储存品质判定规则
- 如何培养孩子的自主学习能力
- 【新能源汽车企业的财务风险控制研究:以比亚迪公司为例15000字】
- 核心素养导向的作业设计
评论
0/150
提交评论