音频调整方法、计算机设备和计算机程序产品

上传人：灯*** IP属地：河北上传时间：2024-06-27 格式：PDF 页数：27 大小：8.01MB 积分：12 举报 版权申诉

已阅读5页，还剩22页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(19)国家知识产权局

(12)发明专利申请

叩(10)申请公布号CN114743526A

(43)申请公布日2022.07.12

(21)申请号202210333509.2

(22)申请日2022.03.31

(71)申请人腾讯音乐娱乐科技(深圳)有限公司

地址518000广东省深圳市前海深港合作

区前湾一路1号A栋201室

(72)发明人陈梦赵伟峰张超鹏

(74)专利代理机构华进联合专利商标代理有限

公司44224

专利代理师卢晓霞

(51)Int.CI.

G10H7/02(2006.01)

G10H1/00(2006.01)

G1OL27/0232(2013.01)

G10L27/0272(2013.01)

权利要求书3页说明书18页附图5页

(54)发明名称

音频调整方法、计算机设备和计算机程序产

品

(57)摘要

本申请涉及一种音频调整方法、装置、计算

机设备、存储介质和计算机程序产品。通过获取

待调整音频及其对应的标准音频,确定待调整音

频中的演唱技巧信息，并根据标准音频的标准旋

律信息确定待调整音频的演唱准确度,根据演唱

准确度获取待调整音频的演唱等级，基于演唱等

级确定待调整音频中演唱技巧信息对应的目标

音频部分和不包含演唱技巧信息的非目标音频

部分的调整策略，并基于调整策略调整待调整音

频，得到调整后的音频。相较于传统的基于固定

的方式对音频进行调整，本方案通过对用户输入

v的待调整音频进行演唱水平的判定，基于用户的

昌演唱水平进行不同的音频调整策略，从而实现适

g应用户水平的音频调整，提高了音频调整的调整

S效果。

r-H

CN114743526A权利要求书1/3页

1.一种音频调整方法，其特征在于，所述方法包括：

获取待调整音频及其对应的标准音频，确定所述待调整音频中的演唱技巧信息，并根

据所述标准音频确定所述待调整音频的演唱准确度；

根据所述演唱准确度，获取所述待调整音频对应的演唱等级；

基于所述演唱等级，确定针对所述待调整音频中所述演唱技巧信息对应的目标音频部

分和不包含演唱技巧信息的非目标音频部分的不同调整策略,并基于所述调整策略调整所

述待调整音频，得到调整后的音频。

2.根据权利要求1所述的方法，其特征在于，所述确定所述待调整音频中的演唱技巧信

息，包括：

对所述待调整音频进行基频检测,得到所述待调整音频的基频序列；

根据所述基频序列,识别所述待调整音频中的演唱技巧信息。

3.根据权利要求2所述的方法，其特征在于，所述根据所述基频序列，识别所述待调整

音频中的演唱技巧信息,包括：

识别所述基频序列中的至少一种演唱技巧信息；

获取所述至少一种演唱技巧信息的技巧种类以及所述至少一种演唱技巧信息在基频

序列中出现的时间信息以及次数信息,得到所述待调整音频中的演唱技巧信息。

4.根据权利要求2所述的方法，其特征在于，所述根据所述标准音频确定所述待调整音

频的演唱准确度,包括：

获取所述标准音频的标准旋律信息；

根据所述标准旋律信息与所述待调整音频的基频序列的匹配度，确定所述待调整音频

的演唱准确度。

5.根据权利要求4所述的方法，其特征在于，所述根据所述标准旋律信息与所述待调整

音频的基频序列的匹配度，确定所述待调整音频的演唱准确度,包括：

针对所述标准音频中的每句歌词，获取所述标准旋律信息中该句歌词对应的标准旋律

模板序列，并确定该句歌词对应的标准旋律模板序列与所述待调整音频中该句歌词对应的

基频序列的余弦相似度；

基于多句歌词对应的余弦相似度的平均值，确定所述待调整音频的演唱准确度。

6.根据权利要求1所述的方法，其特征在于，所述根据所述演唱准确度，获取所述待调

整音频对应的演唱等级，基于所述演唱等级，确定针对所述待调整音频中所述演唱技巧信

息对应的目标音频部分和不包含演唱技巧信息的非目标音频部分的不同调整策略,包括：

若所述演唱准确度大于或等于第一数值，确定所述演唱等级为第一等级；根据所述第

一等级，确定针对所述待调整音频中所述演唱技巧信息对应的目标音频部分和不包含演唱

技巧信息的非目标音频部分的第一调整策略；

若所述演唱准确度小于第一数值且大于或等于第二数值，确定所述演唱等级为第二等

级;根据所述第二等级，确定针对所述待调整音频中所述演唱技巧信息对应的目标音频部

分和不包含演唱技巧信息的非目标音频部分的第二调整策略；

若所述演唱准确度小于第二数值，确定所述演唱等级为第三等级；根据所述第三等级,

确定针对所述待调整音频中所述演唱技巧信息对应的目标音频部分和不包含演唱技巧信

息的非目标音频部分的第三调整策略；

CN114743526A权利要求书2/3页

其中，所述第一数值大于所述第二数值;所述第一调整策略、第二调整策略、第三调整

策略下对所述目标音频部分的调整程度依次增大。

7.根据权利要求6所述的方法，其特征在于，所述演唱技巧信息包括颤音信息、滑音信

息、转音信息和过渡音信息中的至少两种；

所述基于所述调整策略调整所述待调整音频,包括：

若所述调整策略为第一调整策略，基于所述第一调整策略对所述待调整音频中包含的

各种演唱技巧信息对应的目标音频部分进行音高平移,对非目标音频部分进行音高平移和

幅度压缩处理，以贴合所述标准音频；

若所述调整策略为第二调整策略，基于所述第二调整策略对所述待调整音频中包含的

第一演唱技巧信息进行音高平移和幅度压缩处理和/或对所述待调整音频中包含的第二演

唱技巧信息进行音高平移和幅度压缩处理中的其中一种处理,并对非目标音频部分进行音

高平移和幅度压缩处理，以贴合所述标准音频；

若所述调整策略为第三调整策略，基于所述第三调整策略对所述待调整音频中包含的

各种演唱技巧信息对应的目标音频部分和非目标音频部分均进行音高平移和幅度压缩处

理，以贴合所述标准音频。

8.根据权利要求1所述的方法，其特征在于，所述基于所述调整策略调整所述待调整音

频，得到调整后的音频，包括：

获取所述待调整音频对应的基频序列中的多个类音符单位；

基于所述多个类音符单位所在序列对应的演唱音域，根据所述调整策略调整所述待调

整音频，得到调整后的音频。

9.根据权利要求8所述的方法，其特征在于,所述基于所述多个类音符单位所在序列对

应的演唱音域，根据所述调整策略调整所述待调整音频，得到调整后的音频，包括：

若所述类音符单位所在序列为目标序列，在该目标序列的八度区间内，根据所述调整

策略调整所述待调整音频得到调整后的音频;其中，所述目标序列为所述基频序列中为相

邻句且处于同一个八度区间的序列；

或，

若所述类音符单位所在序列为目标序列外的其他序列，在所述标准旋律信息对应的八

度区间内，根据所述调整策略调整所述待调整音频得到调整后的音频。

10.根据权利要求1所述的方法，其特征在于，所述获取待调整音频，包括：

获取原始音频，根据所述原始音频的噪声信息，确定所述原始音频的音质分数；

若所述音质分数小于预设分数阈值，对所述原始音频进行降噪处理，得到待调整音频。

11.根据权利要求1所述的方法，其特征在于，所述获取待调整音频及其对应的标准音

频之后，还包括：

获取所述待调整音频对应的基频序列，获取所述基频序列中的基频参数;所述基频参

数包括以下至少一种:音域范围、平均音高和音高波动序列；

将所述基频参数输入预设分类模型，根据所述预设分类模型的输出结果，确定所述待

调整音频的音频类型，所述音频类型包括朗读音频或歌唱音频；

若所述待调整音频为歌唱音频，执行确定所述待调整音频中的演唱技巧信息，并根据

所述标准音频确定所述待调整音频的演唱准确度的步骤。

CN114743526A权利要求书3/3页

12.根据权利要求11所述的方法，其特征在于，所述根据所述预设分类模型的输出结

果,确定所述待调整音频的音频类型之后,还包括：

若所述待调整音频为朗读音频，根据所述标准音频、所述待调整音频中的人声音色信

息和人声音高信息进行音频合成,得到调整后的音频。

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在

于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

14.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行

时实现权利要求1至12中任一项所述的方法的步骤。

CN114743526A说明书1/18页

音频调整方法、计算机设备和计算机程序产品

技术领域

[0001]本申请涉及音频处理技术领域，特别是涉及一种音频调整方法、装置、计算机设

备、存储介质和计算机程序产品。

背景技术

[0002]随着计算机技术的发展，用户已经可以通过手机等移动终端进行歌唱音频录制，

由于每个用户的演唱水平不同，移动终端可以对录制到的歌唱音频进行调整，从而达到符

合歌唱音频的原唱的效果。目前对用户的歌唱音频进行调整的方式通常是通过基于固定的

方式调整用户的歌唱音频。然而，通过固定方式调整用户的歌唱音频,存在调整效果不足的

缺陷。

发明内容

[0003]基于•此，有必要针对上述技术问题，提供一种能够提高音频调整效果的音频调整

方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

[0004]第一方面，本申请提供了一种音频调整方法，所述方法包括：

[0005]获取待调整音频及其对应的标准音频,确定所述待调整音频中的演唱技巧信息，

并根据所述标准音频确定所述待调整音频的演唱准确度；

[0006]根据所述演唱准确度，获取所述待调整音频对应的演唱等级；

[0007]基于所述演唱等级，确定针对所述待调整音频中所述演唱技巧信息对应的目标音

频部分和不包含演唱技巧信息的非目标音频部分的不同调整策略，并基于所述调整策略调

整所述待调整音频,得到调整后的音频。

[0008]在其中一个实施例中，所述确定所述待调整音频中的演唱技巧信息,包括：

[0009]对所述待调整音频进行基频检测,得到所述待调整音频的基频序列；

[0010]根据所述基频序列,识别所述待调整音频中的演唱技巧信息。

[0011]在其中一个实施例中，所述根据所述基频序列，识别所述待调整音频中的演唱技

巧信息，包括：

[0012]识别所述基频序列中的至少一种演唱技巧信息；

[0013]获取所述至少一种演唱技巧信息的技巧种类以及所述至少一种演唱技巧信息在

基频序列中出现的时间信息以及次数信息，得到所述待调整音频中的演唱技巧信息。

[0014]在其中一个实施例中，所述根据所述标准音频的标准旋律信息确定所述待调整音

频的演唱准确度,包括：

[0015]获取所述标准音频的标准旋律信息；

[0016]根据所述标准旋律信息与所述待调整音频的基频序列的匹配度，确定所述待调整

音频的演唱准确度。

[0017]在其中一个实施例中，所述根据所述标准旋律信息与所述待调整音频的基频序列

的匹配度，确定所述待调整音频的演唱准确度,包括：

CN114743526A说明书2/18页

[0018]针对所述标准音频中的每句歌词，获取所述标准旋律信息中该句歌词对应的标准

旋律模板序列，并确定该句歌词对应的标准旋律模板序列与所述待调整音频中该句歌词对

应的基频序列的余弦相似度；

[0019]基于多句歌词对应的余弦相似度的平均值，确定所述待调整音频的演唱准确度。

[0020]在其中一个实施例中，所述根据所述演唱准确度，获取所述待调整音频对应的演

唱等级，基于所述演唱等级，确定针对所述待调整音频中所述演唱技巧信息对应的目标音

频部分和不包含演唱技巧信息的非目标音频部分的不同调整策略,包括：

[0021]若所述演唱准确度大于或等于第一数值，确定所述演唱等级为第一等级；根据所

述第一等级，确定针对所述待调整音频中所述演唱技巧信息对应的目标音频部分和不包含

演唱技巧信息的非目标音频部分的第一调整策略；

[0022]若所述演唱准确度小于第一数值且大于或等于第二数值，确定所述演唱等级为第

二等级；根据所述第二等级，确定针对所述待调整音频中所述演唱技巧信息对应的目标音

频部分和不包含演唱技巧信息的非目标音频部分的第二调整策略；

[0023]若所述演唱准确度小于第二数值，确定所述演唱等级为第三等级；根据所述第三

等级，确定针对所述待调整音频中所述演唱技巧信息对应的目标音频部分和不包含演唱技

巧信息的非目标音频部分的第三调整策略;其中，所述第一数值大于所述第二数值;所述第

一调整策略、第二调整策略、第三调整策略下对所述目标音频部分的调整程度依次增大。

[0024]在其中一个实施例中，所述演唱技巧信息包括颤音信息、滑音信息、转音信息和过

渡音信息中的至少两种；

[0025]所述基于所述调整策略调整所述待调整音频,包括：

[0026]若所述调整策略为第一调整策略，基于所述第一调整策略对所述待调整音频中包

含的各种演唱技巧信息对应的目标音频部分进行音高平移，对非目标音频部分进行音高平

移和幅度压缩处理，以贴合所述标准音频；

[0027]若所述调整策略为第二调整策略，基于所述第二调整策略对所述待调整音频中包

含的第一演唱技巧信息进行音高平移和幅度压缩处理和/或对所述待调整音频中包含的第

二演唱技巧信息进行音高平移和幅度压缩处理中的其中一种处理，并对非目标音频部分进

行音高平移和幅度压缩处理，以贴合所述标准音频；

[0028]若所述调整策略为第三调整策略，基于所述第三调整策略对所述待调整音频中包

含的各种演唱技巧信息对应的目标音频部分和非目标音频部分均进行音高平移和幅度压

缩处理，以贴合所述标准音频。

[0029]在其中一个实施例中，所述基于所述调整策略调整所述待调整音频，得到调整后

的音频,包括：

[0030]获取所述待调整音频对应的基频序列中的多个类音符单位；

[0031]基于所述多个类音符单位所在序列对应的演唱音域，根据所述调整策略，得到调

整后的音频。

[0032]在其中一个实施例中，所述基于所述多个类音符单位所在序列对应的演唱音域,

根据所述调整策略调整所述待调整音频，得到调整后的音频，包括：

[0033]若所述类音符单位所在序列为目标序列，在该目标序列的八度区间内，根据所述

调整策略调整所述待调整音频,得到调整后的音频;其中，所述目标序列为所述基频序列中

CN114743526A说明书3/18页

为相邻句且处于同一个八度区间的序列；

[0034]或，

[0035]若所述类音符单位所在序列为目标序列外的其他序列，在所述标准旋律信息对应

的八度区间内，根据所述调整策略调整所述待调整音频得到调整后的音频。

[0036]在其中一个实施例中，所述获取待调整音频,包括：

[0037]获取原始音频，根据所述原始音频的噪声信息，确定所述原始音频的音质分数；

[0038]若所述音质分数小于预设分数阈值，对所述原始音频进行降噪处理，得到待调整

音频。

[0039]在其中一个实施例中，所述获取待调整音频及其对应的标准音频之后，还包括：

[0040]获取所述待调整音频对应的基频序列，获取所述基频序列中的基频参数;所述基

频参数包括以下至少一种:音域范围、平均音高和音高波动序列；

[0041]将所述基频参数输入预设分类模型，根据所述预设分类模型的输出结果，确定所

述待调整音频的音频类型,所述音频类型包括朗读音频或歌唱音频；

[0042]若所述待调整音频为歌唱音频，执行确定所述待调整音频中的演唱技巧信息，并

根据所述标准音频确定所述待调整音频的演唱准确度的步骤。

[0043]在其中一个实施例中，所述根据所述预设分类模型的输出结果，确定所述待调整

音频的音频类型之后，还包括：

[0044]若所述待调整音频为朗读音频，根据所述标准音频、所述待调整音频中的人声音

色信息和人声音高信息进行音频合成,得到调整后的音频。

[0045]第二方面，本申请提供了一种音频调整装置,所述装置包括：

[0046]第一获取模块，用于获取待调整音频及其对应的标准音频,确定所述待调整音频

中的演唱技巧信息，并根据所述标准音频确定所述待调整音频的演唱准确度；

[0047]第二获取模块，用于根据所述演唱准确度,获取所述待调整音频对应的演唱等级；

[0048]调整模块，用于基于所述演唱等级，确定针对所述待调整音频中所述演唱技巧信

息对应的目标音频部分和不包含演唱技巧信息的非目标音频部分的不同调整策略,并基于

所述调整策略调整所述待调整音频，得到调整后的音频。

[0049]第三方面，本申请提供了一种计算机设备，包括存储器和处理器，所述存储器存储

有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

[0050]第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，所述

计算机程序被处理器执行时实现上述的方法的步骤。

[0051]第五方面,本申请提供了一种计算机程序产品，包括计算机程序，该计算机程序被

处理器执行时实现上述的方法的步骤。

[0052]上述音频调整方法、装置、计算机设备、存储介质和计算机程序产品，通过获取待

调整音频及其对应的标准音频，确定待调整音频中的演唱技巧信息,并根据标准音频的标

准旋律信息确定待调整音频的演唱准确度，根据演唱准确度获取待调整音频的演唱等级，

基于演唱等级确定待调整音频中演唱技巧信息对应的目标音频部分和不包含演唱技巧信

息的非目标音频部分的调整策略，并基于调整策略调整待调整音频，得到调整后的音频。相

较于传统的基于固定的方式对音频进行调整，本方案通过对用户输入的待调整音频进行演

唱水平的判定，基于用户的演唱水平进行不同的音频调整策略，从而实现适应用户水平的

CN114743526A说明书4/18页

音频调整，提高了音频调整的调整效果。

附图说明

[0053]图1为一个实施例中音频调整方法的应用环境图；

[0054]图2为一个实施例中音频调整方法的流程示意图；

[0055]图3为一个实施例中音频调整步骤的界面示意图；

[0056]图4为一个实施例中基频序列的示意图；

[0057]图5为一个实施例中调整策略的示意图；

[0058]图6为一个实施例中确定演唱音域步骤的示意图；

[0059]图7为一个实施例中获取音频类型步骤的流程示意图；

[0060]图8为一个实施例中音频合成步骤的流程示意图；

[0061]图9为另一个实施例中音频合成步骤的流程示意图；

[0062]图10为另一个实施例中音频调整方法的流程示意图；

[0063]图11为一个实施例中音频调整装置的结构框图；

[0064]图12为一个实施例中计算机设备的内部结构图。

具体实施方式

[0065]为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对

本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不

用于限定本申请。

[0066]本申请实施例提供的音频调整方法，可以应用于如图1所示的应用环境中。其中，

终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数

据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102

可以获取用户输入的待调整音频，并将待调整音频发送至服务器104,服务器104可以基于

得到的待调整音频，进行用户演唱等级的分析，并基于用户的演唱等级对待调整音频进行

对应策略的调整。另外，服务器104还可以将调整后的音频发送至终端102中进行播放。其

中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可

穿戴设备。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立

的服务器或者是多个服务器组成的服务器集群来实现。

[0067]在一个实施例中，如图2所示，提供了一种音频调整方法，以该方法应用于图1中的

服务器为例进行说明，包括以下步骤：

[0068]步骤S202,获取待调整音频及其对应的标准音频，确定待调整音频中的演唱技巧

信息，并根据标准音频的标准旋律信息确定待调整音频的演唱准确度。

[0069]其中，待调整音频可以是用户输入的音频，例如用户歌唱时录入的歌曲音频。标准

音频可以是待调整音频对应的标准音频，以对用户的歌唱音频进行调整为例,服务器104可

以获取用户歌唱音频对应的原唱音频,作为标准音频。例如，以终端102是手机为例,手机可

以采集用户歌唱后产生的歌曲录音，并将该歌曲录音发送至服务器104,服务器104可以获

取该歌曲录音对应的原唱歌曲的id,服务器104接收到修音任务后，确认任务需要的素材,

包括歌曲录音、原唱歌曲的歌曲旋律和歌曲歌词文件都齐全时，可以对用户的歌曲录音进

CN114743526A说明书5/18页

行调整。

[0070]其中，在获取待调整音频的过程中，服务器104可以通过一定的处理得到待调整音

频。例如，在一个实施例中，获取待调整音频包括:获取原始音频，根据原始音频的噪声信

息，确定原始音频的音质分数；若音质分数小于预设分数阈值,对原始音频进行降噪处理,

得到待调整音频。

[0071]本实施例中，服务器104获取到的音频可以是用户输入的原始音频，由于用户的录

音环境不同，因此录制出来的音频的质量也会不同，该质量可以体现在原始音频包含的噪

声大小。则服务器104可以获取原始音频中的噪声信息，并基于原始音频中的噪声信息，确

定原始音频的音质分数,服务器104还可以基于音质分数确定是否需要对原始音频进行降

噪处理。服务器104可以检测上述音质分数是否小于预设分数阈值，若是，则服务器104可以

确定原始音频中包含的噪声信息较多，此时服务器104可以对原始音频进行降噪处理，得到

待调整音频。具体地，上述原始音频可以是用户输入的用户干声，服务器104可以对用户干

声进行音质评估，估算出一个音质分数X,其中0<X<100,当X小于某一阈值时，例如小于50

分，则服务器104需要对用户干声进行音质处理,从而保证在修音前输入的干声没有过多干

扰成分。其中服务器104可以通过OMLSA（optimally-modifiedlog-spectralamplitude,

最优改进对数谱幅度估计）和spleeter（声源分离算法）等方法对用户干声进行降噪。其中，

0MLSA是一种主要针对稳态噪声的降噪算法，是一种经典单通道音频降噪算法。服务器104

通过上述方法进行音频降噪后，可以得到用于音频调整的待调整音频。

[0072]其中，对于歌唱而言，每个用户的歌唱水平都不一样,因此不能使用统一的修音模

板对用户的音频进行修音，需要针对每个用户的演唱水平进行针对性的修音。服务器104可

以在获取到用户的待调整音频后，确定待调整音频中出现的演唱技巧信息，并且服务器104

还可以获取上述待调整音频对应的标准音频的标准旋律信息，从而服务器104可以根据标

准音频的标准旋律信息确定待调整音频的演唱准确度。即服务器104可以对待调整音频进

行MIR（MusicInformationRetriveal,音乐信息检索）分析，得到上述演唱技巧信息和演

唱准确度信息。

[0073]其中，演唱技巧信息包括颤音信息、滑音信息、转音信息和过渡音信息中的至少一

种。其中，滑音是指从一个音向上或向下滑至另一个音的唱法或演奏法;颤音是指演唱时声

音音高在一定的范围内以一定频率波动，使音符听起来更饱满;转音是指连音转音,短时间

内连唱三到五个音，可以让声音变得丰富而有变化。另外，上述演唱技巧信息也可以包括其

他技巧，例如真声、假声、强声、弱声、气声、咽音、哑音、怒音、噎音、哭腔等，不同发声技巧可

以对演唱效果起到不同的情绪烘托的作用。

[0074]服务器104可以基于上述获取到的演唱技巧信息和演唱准确度，确定用户的演唱

水平,从而进行针对性的音频调整，例如针对演唱水平较好的用户，修音后需要能够保留用

户原来的演唱技巧或者演唱风格;针对演唱水平较差的用户，则需要更多的参考模板信息,

保证修音后用户的音准可以有一个较明显的提升。

[0075]步骤S204,根据演唱准确度,获取待调整音频对应的演唱等级。

[0076]其中，演唱准确度可以是服务器104通过对比标准旋律信息和待调整音频后，基于

对比得到的匹配度确定的演唱准确度，以待调整音频是歌唱音频为例，演唱准确度可以表

征用户对整首歌的音准匹配度。服务器104可以基于上述获取的演唱准确度,获取待调整音

CN114743526A说明书6/18页

频对应的演唱等级。其中，演唱等级可以表征用户输入的待调整音频的演唱水平，演唱等级

越高，则用户的演唱水平越高，即演唱等级为演唱水平的一种体现。

[0077]步骤S206,基于演唱等级，确定针对待调整音频中演唱技巧信息对应的目标音频

部分和不包含演唱技巧信息的非目标音频部分的调整策略，并基于调整策略调整待调整音

频,得到调整后的音频。

[0078]其中，演唱等级可以包括多个等级，例如可以包括三个等级，如第一等级、第二等

级和第三等级，上述三个等级可以表征用户输入的待调整音频不同的演唱水平，且第一等

级、第二等级和第三等级表征的演唱水平依次降低。例如，第一等级可以表示用户的待调整

音频的演唱水平较高、第二等级可以表示用户的待调整音频的演唱水平中等、第三等级可

以表示用户的待调整音频的演唱水平较差。对于不同的演唱等级,服务器104可以确定不同

的调整策略。在一种实现方式中，调整策略可以表示对音频的调整程度，演唱等级表示的演

唱水平越高，调整策略的调整程度越小，相反演唱等级表示的演唱水平越低,调整策略的调

整程度越大。

[0079]服务器104可以基于演唱等级，确定针对待调整音频中目标音频部分（演唱技巧信

息对应的音频部分）的调整策略。从而服务器104可以基于不同的调整策略对应调整上述待

调整音频中的目标音频部分，得到调整后的音频。其中，上述演唱技巧信息可以包括多种类

型，上述调整策略可以包括对每种类型的演唱技巧信息的调整方式，例如，音频调整可以包

括音高平移和幅度压缩的方式,服务器104可以基于上述演唱等级，确定待调整音频中包含

的每种类型的演唱技巧信息的目标音频部分是否需要全部执行音高平移和幅度压缩。并

且，当上述演唱等级越低时,服务器104调整的参数越多。

[0080]具体地，如图3所示，图3为一个实施例中音频调整步骤的界面示意图。以终端102

为手机、待调整音频为用户的歌唱音频为例，用户可以在手机中录入歌唱音频，服务器104

可以获取手机发送的歌唱音频后，基于歌唱音频识别出该音频的演唱等级，并向手机返回

一个推荐的调整力度，包括轻度、中度和深度等选项，如图3中推荐的调整力度可以是轻度,

其中，轻度、中度和深度调整可以分别对应上述第一等级、第二等级和第三等级，上述轻度、

中度和深度调整选项分别对应不同的调整策略，即用户的演唱水平越低,服务器104会推荐

调整力度越大的调整选项，保证修音后的音频的调整效果。其中，用户若对服务器104推荐

的音频调整选项不满意，还可以自行选择相应的调整选项，从而服务器104可以基于用户选

择的调整选项对应的调整策略，调整其歌唱音频,得到调整后的音频。

[0081]具体地，服务器104可以是基于待调整音频的基频序列进行音频调整，服务器104

基于上述对应的调整策略调整基频序列后，可以得到调整后的移频序列，则服务器104可以

基于该移频序列，对用户输入的待调整音频进行变调处理，得到调整后的音频。其中，变调

处理是指能够改变音频速度或者音高的技术。

[0082]上述音频调整方法中，通过获取待调整音频及其对应的标准音频,确定待调整音

频中的演唱技巧信息，并根据标准音频的标准旋律信息确定待调整音频的演唱准确度，根

据演唱准确度获取待调整音频的演唱等级，基于演唱等级确定待调整音频中演唱技巧信息

对应的目标音频部分和不包含演唱技巧信息的非目标音频部分的调整策略,并基于调整策

略调整待调整音频，得到调整后的音频。相较于传统基于固定方式对音频进行调整,本方案

通过对用户输入的待调整音频进行演唱水平的判定，基于用户的演唱水平进行不同的音频

CN114743526A说明书7/18页

调整策略,从而实现适应用户水平的音频调整，提高了音频调整的调整效果。

[0083]在一个实施例中，确定待调整音频中的演唱技巧信息,包括:对待调整音频进行基

频检测，得到待调整音频对应的基频序列;根据基频序列，识别待调整音频中的演唱技巧信

息。

[0084]本实施例中，服务器104获取用户输入的待调整音频后，可以确定待调整音频中的

演唱技巧信息。其中，服务器104可以基于基频序列识别出用户的待调整音频中的演唱技巧

信息。服务器104可以对待调整音频进行基频检测，得到待调整音频对应的基频序列，并且

服务器104可以基于该基频序列识别其中的演唱技巧信息。例如，如图4所示，图4为一个实

施例中基频序列的示意图。服务器104可以对输入的音频进行基频检测，基频是由声带振动

产生的，一般浊音都会有基频。服务器104对待调整音频进行基频检测后得到的基频序列可

以如图4中的曲线所示，并且服务器104还可以通过HMM（HiddenMarkovModel,隐马尔科夫

模型）对上述基频序列进行平滑处理，计算出具有短时平稳性的音高包络NLU（Note-Like

Unit,类音符单位），类音符单位可以如图4中的横线所示，即服务器104可以基于上述类音

符单位对基频序列进行调整，从而实现对待调整音频的调整。在对待调整音频的基频序列

进行调整前,服务器104可以基于该基频序列，识别出其中的演唱技巧信息，从而服务器104

可以在音频调整时确定需要调整的演唱技巧信息。

[0085]例如，在一个实施例中，根据基频序列识别待调整音频中的演唱技巧信息,包括:

识别基频序列中的至少一种演唱技巧信息;获取至少一种演唱技巧信息的技巧种类以及在

基频序列中出现的时间信息以及次数信息，得到待调整音频中的演唱技巧信息。

[0086]本实施例中，待调整音频可以是一种歌唱音频，则演唱技巧信息包括颤音信息、滑

音信息、转音信息和过渡音信息等。服务器104从上述基频序列中识别出演唱技巧信息，演

唱技巧信息可以包括多种,而用户对应的待调整音频中可能包括一种或多种，也可以是不

包含演唱技巧信息。当上述待调整音频中包含演唱技巧信息时，服务器104可以识别出其对

应的基频序列中的至少一种演唱技巧信息，并获取识别出的至少一种演唱技巧信息的技巧

种类、每种演唱技巧信息在上述基频序列中出现的时间信息和出现的次数信息，得到基频

序列中包含的演唱技巧对应的演唱技巧信息。

[0087]具体地，以用户输入的待调整音频为歌唱音频为例,服务器104对歌唱音频进行基

频检测后，服务器104可以令上述待调整音频的基频序列记为F0,服务器104可以在基频序

列中使用颤音检测算法、滑音检测算法和转音检测算法，计算出用户在待调整音频中使用

这些技巧的时间和次数信息。从而服务器104可以将演唱技巧的技巧种类及其出现在基频

序列中的时间和次数信息结合，形成一种类型的演唱技巧信息,服务器104可以基于多种类

型的演唱技巧信息,得到上述待调整音频对应的演唱技巧信息。其中，服务器104可以通过

不同的检测方式检测基频序列中不同的演唱技巧信息。例如，服务器104可以通过计算基频

序列在某一固定音高上下波动的周期性来判断出基频序列中的颤音信息;服务器104可以

通过使用有3-stateHMM模型进行建模，并通过建模判断音高的变化趋势确定基频序列中

的滑音信息;服务器104还可以获取标准音频对应的标准旋律模板信息，并将标准旋律模板

信息中的音符数和基频序列对应的音符数进行比较，从而确定出基频序列中的转音信息;

服务器104还可以通过识别基频序列中音高之间的跳变，获取出基频序列中过渡音信息。其

中，过渡音可以表征演唱过程中字与字之间的衔接，即音高间的跳变不是一蹴而就的，会有

CN114743526A说明书8/18页

一个慢慢过渡的过程。

[0088]其中，服务器104识别出的基频序列中的演唱技巧信息可以包括颤音信息、滑音信

息、转音信息和过渡音信息中的至少一种。服务器104在进行音频调整时，可以基于调整策

略，确定需要对识别出的演唱技巧信息进行怎样的调整,从而保证调整效果。

[0089]通过本实施例，服务器104可以通过基频检测得到待调整音频对应的基频序列，并

基于基频序列识别出其中包含的演唱技巧信息，从而服务器104可以基于音频调整时确定

的调整策略，确定需要对上述演唱技巧信息进行哪些调整，提高了音频调整的调整效果。

[0090]在一个实施例中，根据标准音频的标准旋律信息确定待调整音频的演唱准确度,

包括:获取标准音频对应的标准旋律信息;根据标准旋律信息与待调整音频对应的基频序

列的匹配度，确定待调整音频的演唱准确度。

[0091]本实施例中，服务器104可以获取待调整音频对应的标准音频，例如，待调整音频

可以是用户的歌唱音频，则其标准音频可以是歌唱音频对应的歌曲的原唱音频。服务器104

可以从标准音频中获取到其标准旋律信息，并根据上述标准旋律信息与待调整音频对应的

基频序列的匹配度,确定出待调整音频的演唱准确度。

[0092]其中，服务器104可以将标准旋律信息转换为序列信息后，再进行与基频序列的匹

配。例如，在一个实施例中，根据标准旋律信息与待调整音频对应的基频序列的匹配度，确

定待调整音频的演唱准确度，包括:针对标准音频中的每句歌词，获取标准旋律信息中该句

歌词对应的标准旋律模板序列，确定该句歌词对应的标准旋律模板序列与待调整音频中该

句歌词对应的基频序列的余弦相似度;基于多句歌词对应的余弦相似度的平均值，确定待

调整音频的演唱准确度。本实施例中，上述标准音频中可以是一种歌曲原唱音频，则该标准

音频中可以包括多句歌词,标准音频中包括标准歌词模板以及标准旋律模板，则服务器104

可以将标准旋律模板转换为序列形式，形成标准旋律模板序列，其中标准旋律模板中可以

包含有每句歌词对应的部分序列。对于标准音频中的每句歌词,服务器104可以获取标准旋

律信息中该句歌词对应的标准旋律模板序列，服务器104可以确定该句歌词对应的标准旋

律模板序列与待调整音频中该句歌词对应的基频序列的余弦相似度，即服务器104可以将

标准音频与待调整音频进行基于序列的比较，得到相应的余弦相似度。其中，服务器104可

以获取每句歌词对应的上述余弦相似度,服务器104还可以获取多句歌词的余弦相似度的

平均值，从而服务器104可以基于多句歌词对应的余弦相似度的平均值，确定待调整音频的

演唱准确度。

[0093]具体地，以待调整音频为用户输入的歌唱音频为例，上述每句歌词可以对应于一

个单句得分x,则服务器104可以通过逐句计算标准旋律模板信息的模板音高序列与用户的

演唱音高序列的余弦相似度，得到单句得分x,服务器104可以累加各个单句得分x,通过计

算平均值得到综合音准分数y。其中，单句分数的计算公式如下所示：x=100*cos0；cos0=

(A*B)/(||A||*||B||)，其中，A为标准旋律模板信息的标准音高序列,B为用户的待调整音频的

其中，N为标准音频中的歌词句数，也可以是所有单句得分x的数量,Xj为第i个单句的单句

得分，i大于等于1小于等于N。从而服务器104可以基于该综合音准分数，确定出用户的待调

整音频的演唱准确度。

CN114743526A说明书9/18页

[0094]通过上述实施例,服务器104可以通过将标准音频与待调整音频进行基频序列的

匹配，并基于余弦相似度确定出演唱准确度，从而服务器104可以基于该演唱准确度确定用

户的待调整音频的演唱水平，并基于该演唱水平进行相应的音频调整，提高了音频调整的

调整效果。

[0095]在一个实施例中，根据演唱准确度，获取待调整音频对应的演唱等级，基于演唱等

级，确定针对待调整音频中演唱技巧信息对应的目标音频部分和不包含演唱技巧信息的非

目标音频部分的调整策略，包括:若演唱准确度大于或等于第一数值,确定演唱等级为第一

等级；根据第一等级，确定针对待调整音频中演唱技巧信息对应的目标音频部分和不包含

演唱技巧信息的非目标音频部分的第一调整策略;若演唱准确度小于第一数值且大于或等

于第二数值,确定演唱等级为第二等级;根据第二等级，确定针对待调整音频中演唱技巧信

息对应的目标音频部分和不包含演唱技巧信息的非目标音频部分的第二调整策略;若演唱

准确度小于第二数值，确定演唱等级为第三等级;根据第三等级，确定针对待调整音频中演

唱技巧信息对应的目标音频部分和不包含演唱技巧信息的非目标音频部分的第三调整策

略;其中，第一数值大于第二数值;第一调整策略、第二调整策略、第三调整策略下对目标音

频部分的调整程度依次增大。当然，演唱等级及调整策略的个数并不局限于三个，还可以是

根据实际情况而设置的其他数值。

[0096]本实施例中，服务器104可以对用户输入的待调整音频进行演唱水平的分级，例如

通过上述确定出的演唱准确度，确定用户的待调整音频的演唱等级。服务器104可以将上述

演唱准确度分别与第一数值和第二数值进行比较，其中第一数值大于第二数值。若服务器

104检测到演唱准确度大于或等于第一数值，则服务器104可以确定用户的待调整音频的演

唱等级为第一等级，从而服务器104可以在确定演唱等级为第一等级时，确定针对待调整音

频中演唱技巧信息对应的目标音频部分和不包含演唱技巧信息的非目标音频部分的调整

策略为第一调整策略。若服务器104检测到演唱准确度小于第一数值且大于或等于第二数

值时，服务器104可以确定演唱等级为第二等级，从而服务器104可以在确定演唱等级为第

二等级时，确定针对待调整音频中演唱技巧信息对应的目标音频部分和不包含演唱技巧信

息的非目标音频部分的调整策略为第二调整策略。若服务器104检测到演唱准确度小于第

二数值时，则服务器104可以确定演唱等级为第三等级，从而服务器104可以在确定演唱等

级为第三等级时，确定针对待调整音频中演唱技巧信息对应的目标音频部分和不包含演唱

技巧信息的非目标音频部分的调整策略为第三调整策略。并且，上述第一调整策略、第二调

整策略和第三调整策略下,服务器104对上述待调整音频中演唱技巧信息的目标音频部分

的调整程度依次增大。即上述第一等级、第二等级和第三等级所代表的用户演唱水平依次

降低，而用户演唱水平越低时,服务器104对演唱技巧信息对应的目标音频部分和不包含演

唱技巧信息的非目标音频部分的调整程度越大。

[0097]具体地，上述演唱等级可以分为三个等级，上述第一等级可以是专业水准、上述第

二等级可以是半专业水准、上述第三等级可以是业余水准。则服务器104可以综合上述计算

的演唱准确度的音准分数和演唱技巧，对用户录制的待调整音频进行演唱等级的分类，服

务器104可以将专业水准记为0、将半专业水准记为1以及将业余水准记为2。则用户的待调

整音频的演唱等级的计算公式可以如下所示：

CN114743526A说明书10/18页

0,ify>=80

[0098]level=-1,ifya(60,80)由该公式可知，服务器104可以基于上述计算出的演唱

、2,ify<60；

准确度的不同，确定用户的待调整音频为不同的演唱等级。

[0099]通过本实施例，服务器104可以基于演唱准确度确定出用户输入的待调整音频的

演唱等级，从而服务器104可以基于不同的演唱等级确定对待调整音频的不同调整策略，提

高了音频调整的调整效果。

[0100]在一个实施例中，基于演唱等级，确定针对待调整音频中演唱技巧信息对应的目

标音频部分和不包含演唱技巧信息的非目标音频部分的调整策略，包括:获取待调整音频

对应的基频序列，并获取基频序列中的多个类音符单位;根据演唱等级，确定对多个类音符

单位中的演唱技巧信息对应的目标音频部分和不包含演唱技巧信息的非目标音频部分的

调整策略。

[0101]本实施例中，服务器104在进行音频调整前可以将待调整音频转换为如图4所示的

基频序列，基频序列中可以包括多个类音符单位NLU,则服务器104在对待调整音频进行基

频检测，得到待调整音频的基频序列后，可以获取基频序列中的多个类音符单位，如图4中

的横线所示。其中，每个类音符单位可以与标准音频中的一句歌词对应。服务器104可以基

于上述确定出的演唱等级,确定对基频序列中多个类音符单位中的演唱技巧信息对应的目

标音频部分和不包含演唱技巧信息的非目标音频部分的调整策略。即服务器104可以以类

音符单位为调整对象，实现对演唱技巧信息的调整。

[0102]其中，服务器104对类音符单位中的演唱技巧信息对应的波形进行两种调整，包

括:对用户基频的部分的NLU(Note-LikeUnit)进行平移调整，以及对NLU内的基频抖动的

动态范围进行调整。其中，音高平移是指将偏离模板的音高值通过整体升降调的操作回到

标准值附近的操作；动态范围调整是指控制单个NLU内基频序列的抖动幅度，例如图4中的

矩形800和矩形802。其中，矩形800的抖动程度比较大,而矩形802内的基频抖动幅度比较稳

定。需要说明的是，如果基频序列在当前NLU内几乎没有抖动，听感上就会产生机械感，因

此，抖动过于剧烈或者固定音高不变都是不可取的。服务器104可以基于上述确定的调整策

略，确定需要对类音符单位中的演唱技巧信息的波形进行哪些调整。

[0103]例如，在一个实施例中，基于调整策略调整待调整音频，包括:若调整策略为第一

调整策略，基于第一调整策略对多个类音符单位中包含的各种演唱技巧信息对应的目标音

频部分进行音高平移,对非目标音频部分进行音高平移和幅度压缩处理，以贴合标准音频,

例如贴合标准音频信息对应的标准旋律模板序列；若调整策略为第二调整策略，基于第二

调整策略对多个类音符单位中包含的第一演唱技巧信息进行音高平移和幅度压缩处理和/

或对待调整音频中的多个类音符单位中包含的第二演唱技巧信息进行音高平移和幅度压

缩处理中的其中一种处理，并对非目标音频部分进行音高平移和幅度压缩处理，以贴合标

准音频，例如贴合标准旋律信息对应的标准旋律模板序列;若调整策略为第三调整策略，基

于第三调整策略对多个类音符单位中包含的各种演唱技巧信息对应的目标音频部分和非

目标音频部分均进行音高平移和幅度压缩处理，以贴合标准旋律信息对应的标准旋律模板

序列。

[0104]本实施例中，上述演唱技巧信息可以包括颤音信息、滑音信息、转音信息和过渡音

CN114743526A说明书11/18页

信息中的至少一种。服务器104可以首先基于用户的演唱等级确定出对每种演唱技巧信息

的调整策略。其中演唱等级包括第一等级、第二等级和第三等级，分别对应于第一调整策

略，第二调整策略和第三调整策略。并且第一调整策略、第二调整策略和第三调整策略下，

对演唱技巧信息的调整程度依次增大。上述基频序列中的类音符单位中可以标记有演唱技

巧信息的出现时间和次数，则当服务器104确定调整策略是第一调整策略时,说明用户的待

调整音频的演唱等级为第一等级，属于专业水准,服务器104可以减少对演唱技巧信息的调

整程度。服务器104可以基于第一调整策略，对上述基频序列中的多个类音符单位中包含的

各种演唱技巧信息对应的目标音频部分进行音高平移,例如对类音符单位中的演唱技巧信

息所在的波形部分进行音高平移,从而使得该部分序列贴合标准旋律信息对应的标准旋律

模板序列。

[0105]当服务器104确定调整策略为第二调整策略时，说明用户的待调整音频的演唱等

级为第二等级，属于半专业水准,服务器104对该待调整音频的演唱技巧信息的调整程度可

以相较专业水准增大。服务器104可以基于第二调整策略，对上述基频序列中的多个类音符

单位中包含的颤音信息对应的目标音频部分进行音高平移和幅度压缩处理、对多个类音符

单位中包含的滑音信息和过渡音信息对应的目标音频部分进行音高平移处理、以及对多个

类音符单位中包含的转音信息进行幅度压缩处理。其中，上述颤音信息可以是第一演唱技

巧信息，上述滑音信息、过渡音信息和转音信息可以是第二演唱技巧信息;而对于类音符单

位中不包含演唱技巧信息的非目标音频部分,服务器104可以在任意调整策略中对这些非

目标音频部分均进行音高平移和幅度压缩处理。从而服务器104可以在经过对上述多种演

唱技巧信息进行对应的调整后，使得调整后的基频序列贴合标准旋律信息对应的标准旋律

模板序列，其中，服务器104可以是在检测到有对应的演唱技巧信息后，才对类音符单位中

的演唱技巧信息进行相应的处理。

[0106]当服务器104确定调整策略为第三调整策略时，说明用户的待调整音频的演唱等

级为第三等级，属于业余水准,服务器104对该待调整音频的演唱技巧信息的调整程度可以

相较半专业水准增大。服务器104可以基于第三调整策略，对上述基频序列中的多个类音符

单位包含的各种演唱技巧对应的目标音频部分和非目标音频部分均进行音高平移和幅度

压缩处理,使得调整后的基频序列贴合标准旋律信息对应的标准旋律模板序列。

[0107]其中，以上述待调整音频为用户输入的歌唱音频为例，则标准音频可以是歌唱音

频对应的原唱音频，上述幅度压缩处理可以是一种动态范围调整，例如图4中的矩

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

音频调整方法、计算机设备和计算机程序产品

文档简介

温馨提示

最新文档

评论

音频调整方法、计算机设备和计算机程序产品

文档简介

温馨提示

最新文档

评论

相关文档