移动互联网网络质量评分方法 语音通话_第1页
移动互联网网络质量评分方法 语音通话_第2页
移动互联网网络质量评分方法 语音通话_第3页
移动互联网网络质量评分方法 语音通话_第4页
移动互联网网络质量评分方法 语音通话_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

YD/TXXXX—20XX

目次

目次...............................................................................I

前言..................................................................................II

1范围.................................................................................1

2规范性引用文件.......................................................................1

3术语和定义...........................................................................1

4缩略语...............................................................................1

5测试环境.............................................................................2

6测试工具.............................................................................2

7信号分析.............................................................................4

8测试预设条件与要求...................................................................7

附录A.............................................................................8

A.1预同步.............................................................................8

A.2粗同步.............................................................................8

A.3精细同步...........................................................................9

A.4自校验............................................................................12

附录B............................................................................13

B.1连续丢失的活动语音帧数量与分数系数k...............................................13

B.2插入的空帧或算法引入的合成语音帧数量与分数系数h...................................13

B.3语音间漏帧数量与分数系数l1........................................................13

B.4句首漏帧数量与分数系数l2..........................................................14

B.5a句与b句整合后的分数系数g.......................................................14

附录C............................................................................16

C.1ITU-TP.501中文语音信号(全频带语音)............................................16

C.2本标准建议的中文普通话语音信号....................................................16

I

YD/TXXXX—20XX

前言

本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起

草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由中国通信标准化协会提出并归口。

本文件起草单位:中国信息通信研究院、中国电信集团有限公司、中国移动通信集团有限公司、华

为技术有限公司、中兴通讯股份有限公司。

本标准主要起草人:赵澎、秦岩、郭雯、王伟、黄毅华、许向东、程宝平、雷珺、陈民、吴庆航、

张叶蒙、黄敏峰、樊兆宾、马伟、刘红军。

II

移动互联网网络质量评分方法语音通话

1范围

本文件规定了移动互联网网络端到端语音传输质量通用客观测试方法,包含算法、测试设备要

求及操作等方法。

本文件适用于现有的移动通信网络与有线网络,窄带、宽带、超宽带和全频带语音传输,包含

但不限于AMR、EVS等语音编解码方式。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用

文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)

适用于本文件。

性能、服务质量和体验质量术语(Vocabularyforperformance,qualityof

ITU-TP.10(2017)

serviceandqualityofexperience)

ITU-TP.56(1993)激活语音水平的客观测量

ITU-TP.501(2012)电话测量用测试信号(Testsignalsforuseintelephonometry)

传输质量的主观判断的方法(Methodsforsubjectivedeterminationof

ITU-TP.800(1996)

transmissionquality)

YD/T1538-2021数字移动终端音频性能通用测试方法

YD/T1885-2016移动通信手持机有线耳机接口技术要求和测试方法

3术语和定义

下列术语和定义适用于本文件。

3.1

窄带语音narrowbandspeech

在20Hz-4000Hz范围外没有显着信号分量的信号,通常主要语音能量集中在300Hz-

3400Hz范围内。

[来源:ITU-TP.10——2017,6.166,6.167]

设置格式[BINGO]:字体颜色:自动设置

3.2

宽带语音widebandspeech

在20Hz-8000Hz范围外没有显着信号分量的信号,标称语音信号频率宽度大于300Hz-

3400Hz的语音传输,通常理解为100Hz-7000Hz。

[来源:ITU-TP.10——2017,6.320,6.321]

3.3

超宽带语音superwidebandspeech

在20Hz-14000Hz范围外没有显着信号分量的信号,标称语音信号频率宽度大于100Hz-

7000Hz的语音传输,通常理解为500Hz-14000Hz。

[来源:ITU-TP.10——2017,6.320,6.321]

3.4

全频带语音fullbandspeech

在10Hz-20000Hz范围外没有显着信号分量的信号,标称语音信号频率宽度大于50Hz-

14000Hz的语音传输,通常理解为20Hz-20000Hz。

[来源:ITU-TP.10——2017,6.99,6.100]

4缩略语

1

ACR绝对类别评级AbsoluteCategoryRating

AMR自适应多速率编码AdaptiveMultiRate

ARL声参考电平AcousticReferenceLevel

EPC演进的分组核心网EvolvedPacketCore

EVS增强型语音通话服务EnhancedVoiceServices

FB全频带FullBand

IMSIP多媒体子系统IPMultimediaSubsystem

LTE长期演进LongTermEvolution

MGCF媒体网关控制功能MediaGatewayControlFunction

MOS平均意见分MeanOpinionScore

MS移动台MobileStation

P-CSCF代理呼叫会话控制功能Proxy-CallSessionControlFunction

POI互连点(公共交换电话网络)PointofInterconnection(withPSTN)

SBC会话边缘控制SessionBorderControl

S-CSCF服务呼叫会话控制功能Serving-CallSessionControlFunction

SWB超宽带SuperWideBand

THD+N总谐波失真+噪声TotalHarmonicDistortion+Noise

VoLTE长期演进语音承载VoiceoverLongTermEvolution

VoNR新空口承载语音VoiceoverNewRadio

5测试环境

5.1网络条件

以VoLTE注册用户发起呼叫为例,图1为VoLTE注册用户与被叫呼叫的流程图与移动互联网网络

架构。

图1VoLTE呼叫流程,主叫为IMS用户,被叫为/非IMS用户

现网环境下,主被叫可在同蜂窝不同蜂窝下建立语音通路。建议主被叫在同运营商网络环境

/设置格式[BINGO]:非突出显示

下进行测试,测试结果中应注明主被叫所在的基本网络条件,如电路域、分组域、同/不同小区、

同/跨运营商等。

6测试工具

6.1测试信号

6.1.1参考语音信号

2

建议采用中文普通话作为测试用参考语音信号,可选用ITU-TP.501推荐的中文普通话语音

设置格式[BINGO]:非突出显示

信号,由母语是中文普通话的中青年男性与女性各两位,分别单人录制声音,每人两句话,前句记

为a句,后句记为b句。也可采用本文件推荐的中文语音信号(详见附录C)。

参考语音信号也可自行录制,但应满足以下基本要求。

a)信号为单声道全频带(20Hz—20000Hz)录制,PCM编码、16位、48kHz采样率,平均活

动语音电平需调整到-26dBov(overload,相对于系统过载点的电平)。

b)该参考信号文本应选用常用词,整句语法简单,且好理解;读句子时,应语速适中,语气

自然,不夹杂情绪,声音大小等与日常说话相似,需有男声和女声。

c)语音信号的录制应在标准消声室内进行,可使用自由场传声器(0°入射角)或全向传声

器,人嘴距传声器为10cm,环境噪声应低于30dB(A)SPL(SoundPressureLevels,声压级)。

设置格式[BINGO]:字体:(默认)宋体,(中文)宋体

d)每个参考语音信号总时长为8s,由两句话构成,期间有一静音间隔,不大于2s,不小于1s,

第一句话前部为1s静音间隔,两句话(有效语音信号)合计不少于3s,尾部静音部分不少于1s。

e)参考语音信号中静音间隔的本底噪声不应超过–84dBov(A)。

f)推荐采用中青年男女的中文普通话,也可使用各地方言及不同年龄人群的声音。

6.1.2采样语音信号

经由网络端到端传输后的语音信号,存在一定损伤,该降级语音信号通过被测系统后,在其接

收端的模拟电接口进行单声道全频带(20Hz—20000Hz)采样,16位,48kHz采样率。

采样信号电平幅度建议为–26dBov,

采样信号时长应不大于12s,建议为8s,与参考信号长度一致。采样信号头部至a句起始点,

应不大于2s。采样信号中可能会因网络传输、信号变差等产生噪音,但应没有终端铃声、信号或语

音提示音等其它异常声音。

6.2数据采集设备

6.2.1基本功能

数采设备可通过有线或无线(如WiFi等)方式,依照预设程序至少对两台(一对)数字移动终

端或模拟终端进行单次或循环控制,可实现如下基本功能。

a)自动拨打/接听电话。

b)控制音量键至预设等级,若在测试中被误碰触音量键,应能及时发现并调回预设状态。

c)关闭第三方呼叫等待、提示音、语音识别等容易干扰采样的声音提示。

d)可通过标准3.5mm耳机接口,或其它音频有线方式(Type-C、miniUSB等)对数字移动终端

或模拟终端进行语音信号的发送/接收(采集)。

e)系统应具备通路验证、自检功能。

不建议采用蓝牙或其它无线方式对语音信号进行发送/接收处理。

6.2.2基本性能要求

参考语音和采样语音信号处理能力应符合6.1测试信号的要求。耳机接口性能应满足YD/T

1885标准要求。

输入接口:

频率范围20Hz–20kHz,±0.3dB;

本底噪声不超过-70dB;

THD+N≤1%(100Hz–20kHz,在可输入的标称电平幅度下);

通道隔离度≥60dB。

输出接口:

频率范围20Hz–20kHz,±0.3dB;

本底噪声不超过-75dB;

THD+N≤1%(100Hz–20kHz,在可输出的标称电平幅度下);

通道隔离度≥60dB。

建议数据采集设备在控制两台终端设备,进行发送/接收语音信号时,同步触发精度不大于1ms,

若大于1ms,则数采设备不具有网络语音传输延时的测试能力。

6.3语音采集设备

6.3.1基本功能

3

语音采集终端设备,应支持现有运营商全部网络制式及频段,支持AMR-NB、AMR-WB、EVRC-B

设置格式[BINGO]:非突出显示

语、和EVS语音编解码方式及多种速率。信号采集设备链接方式见图2.

设置格式[BINGO]:居中,缩进:首行缩进:0字符

图2语音采集设备链接示意图

6.3.2性能要求

依照YD/T1538-2021规定的测试方法,应满足该标准附录A中有关头戴机模式下的全部技术

设置格式[BINGO]:缩进:首行缩进:7.4毫米

要求,并且在实验室网络无损伤时,通过耳机接口模拟电信号进行发送/接收通路语音质量测试,

窄带语音质量分数不低于3.7,宽带语音质量分数不低于4.3分,超宽带和全频带语音质量分数不低

于4.5分。

6.4测试设备环境条件

测试设备应在其标称使用环境条件下进行测试。若未标称使用环境条件,建议按照如下使用条

件进行。

温度:0℃~40℃;

相对湿度:0~80%。

7信号分析

7.1基本原理

测试中,仅对单向通话时,网络语音传输质量进行评估分析。语音信号采样后,分别进行预处

设置格式[BINGO]:左,缩进:首行缩进:7.4毫米

理、采样信号与参考信号时间同步对齐和分数计算。信号分析步骤见图3。

图3信号分析步骤

4

7.2采样信号的损伤类型

模拟语音信号经由电路域、分组域网络损伤后的表现,主要有图3所示的三种类型。

图4网络损伤典型类型

图4中:

m——已知参考信号的连续活动语音帧帧数,电平幅度不小于43dBov;

i——任意连续活动语音帧所在位置;

k——某处丢失的活动语音帧数量,1≤k≤m;

h——某处被插入任意位置的帧数量,为空白帧,或解码器根据第i-1帧所模拟出的语音帧

等,h≥1,对照参考信号的活动语音帧起止位置内,采样信号总帧数变为m+i;

q——从任意位置起,某处连续丢失的活动语音帧数量为q,即原有活动语音帧被空白帧或

解码器根据第i-1帧所模拟出的语音帧等取代,对照参考信号的活动语音帧起止位置内,采样信

号总帧数m不变。

采样信号的损伤,可能由一种或几种类型的组合,程度与出现的频次不一。

7.3采样信号与参考信号的时域对齐

参考信号与采样信号均按照16位,48kHz采样率,每帧信号时长为21.33ms,时域对齐后,应

满足下列要求。

a)将参考信号的活动语音帧,与采样信号的活动语音帧,按照时间轴对应关系,计算出采样

信号每帧的具体延时,并做好标记。

b)把采样信号多余的活动语音帧和多余的空白帧全部剔除。

c)将做好标记的采样语音信号,按照固定延时顺序重组。

d)信号同步后,最大单帧误差不超过1帧。

采样信号与参考信号时域对齐的方法有多种,附录A推荐了一种信号对齐方法,可参照使用。

7.4分数计算

采样信号损伤的准确量化,是分数计算的前提与基础。在采样信号与参考信号对齐过程中,可

计算统计出信号损伤的类别与程度。

ITU-TP.800给出了一系列与人主观感受相匹配的语音质量主观评估方法,其中附录B定义的

“听音——绝对类别评级(ACR)”方法,即通常称之为平均意见分数(MOS)。

由于人的感受与信号损伤类型、程度等,并非线性关系,直接用损伤类型、程度等组合方式线

性扣分,并不能与人的主观感受较好匹配。

每个采样信号的分数计算基础条件并不完全一样,在各自基础条件上,再采用与损伤类型、程

度相关的扣分规则,得到的语音质量分数与主观感受偏离度较低。此处给出了一种分数计算方法,

可以主观感受得到较好拟合。附录A为此语音质量分数计算方法与ITU-TP.800的附录B,ACR方法的

对比结果。

信号基础分,通过对采样语音信号对齐重组后的a句和b句,单独进行活动语音帧进行每帧分数

计算,并分别求取平均值。

采样信号有效语音帧幅值,

参考信号有效语音帧幅值,

��

�5

重组后的采样信号的有效语音帧平均幅度:

…………()

�1

式中:�=1�

�=

——重组后的采样信号的有效语�音帧平均幅度;

——采样信号有效语音帧幅值;

�——已知参考信号的连续活动语音帧帧数,电平幅度不小于43dBoV。

参考信�号的有效语音帧平均幅度:

…………()

�2

式中:�=1�

�=

——参考信号的有效语音帧平均�幅度;

——采样信号有效语音帧幅值;

�——已知参考信号的连续活动语音帧帧数,电平幅度不小于43dBoV。

重组后�的采样信号a句或b句的基础分:

�…………(3)

�=1��

0�−��−�

�=5�2�2

式中:��

�=1�−�×�=1�−�

——重组后的采样信号a句或b句的基础分;

——重组后的采样信号的有效语音帧平均幅度;

0

�——采样信号有效语音帧幅值;

�——参考信号的有效语音帧平均幅度;

�——采样信号有效语音帧幅值;

�——已知参考信号的连续活动语音帧帧数,电平幅度不小于43dBoV。

重组后�的采样信号a句或b句的参考分数:

…………(4)

式中:�1=�0×�×�×�

——参考分数;

——重组后的采样信号a句或b句的基础分;

1

K�——丢帧总系数;

0

H�——空帧或算法引入的合成语音帧总系数;

L——遗漏语音帧总系数。

丢帧总系数K为统计出1处或多处丢帧数,对应所有系数的乘积,可参照附录B表B1。

因插入的空帧或算法引入的合成语音帧,其总系数H为统计��出的1处或多处,所有的空帧或合

成语音帧,对应所有系数的乘积,可参照附录B表B2。

因遗漏的语音帧总系数ℎ�L为统计出每处遗漏帧数量对应或(和)值的乘积,可参照附

录B表B3、表B4。

�1��2�

总分数:

()

(句参考分句参考分)(句参考分句参考分)…………(5)

�𝑚式�=中�:1�×��−�+�1�×1−��−�

——总分数;

——a句参考分;

𝑚�

�——b句参考分;

�1�

(句参考分句参考分)——系数。

�1�

��−�

6

其中,a句与b句参考分差,取小数点后一位有效数字,相关系数g,可参照附录B表B5。

8测试预设条件与要求

8.1测试预设条件

确认手机电量不少于90%,充电功能正常。

关闭所有提示音、震动,如短信息、APP提示音、定时等,关闭语音助手(语音识别功能)。

确保主/被叫终端不会被第三方呼叫干扰。

将耳机通话方式时的收听音量调整到预设等级。

此类设置也可由数据采集设备,通过软件控制实施完成。

8.2样本准确率

呼叫建立后,每分钟应不少于4次样本发送循环,建议5或6次。

作为评分依据,一组呼叫在30分钟内,连续累积样本数应不少于110个,有效样本数应不少于

105个,或样本有效率不少于95%。

7

附录A

(资料性)

信号同步对齐算法

A.1预同步

采样语音信号经过IRS滤波器,确认有效语音带宽;

将采样新语音信号RMS电平幅度调整为-26dB,将采样信号通过IRS滤波器,电平幅度调整为与

参考信号一致,误差不超过±0.1dB;

将采样信号和参考信号按照21.33ms为一帧,每帧1024点切分;

按照活动语音帧特性,提取帧幅度大于40dB语音帧,分别定义为采样信号和参考信号中的有效

活动语音帧;

将采样信号和参考信号的活动语音帧,在原有时间各自时间轴上分别逐一,参考信号的活动语

音帧每帧记为,采样信号的活动语音帧每帧记为。

A.2粗同步����

A.2.1方法一

去除采样语音信号中非典型语音信号,如超过40dB,且连续性不足4帧的所有帧;

将采样信号的有效活动语音帧对应的幅度值记为,i最大值为n;

将参考信号的有效活动语音帧对应的幅度值记为,最大值为;

�im

a)当时:�

nm�

将参考信号的有效活动语音帧起点向时间轴反向延�伸a帧空白信号帧,a≥0;

将参考信号的有效活动语音帧终点向时间轴正向延伸b帧空白信号帧,b≥0;

将参考项信号延伸后的信号记,i最大值为a+b+m;

将采样信号与延伸后的参考信号,按照余弦相似度逐一比对,细则如下:

�'�

���'�

�…………(A.1)

�=1��−��'�−�'

��

=�2�2

式中:��

�=1�−�×�=1�'−�'

——采样信号相似度值;

——采样信号的有效活动语音帧对应的幅度值,最大值为;

�in

�——参考信号的有效活动语音帧对应的幅度值,最大值为;

�im

�——参考项信号延伸后的信号,最大值为a+b+,其中,将参考信号的有效活动语

�im

音帧起�点向时间轴反向延伸a帧空白信号帧,a≥0,将参考信号的有效活动语音帧终点向时间轴

正向延�'伸b帧空白信号帧,b≥0。

共可以得到r个值,取最大的值为nm时的参考值,记为,此时。

当a=b=0时,作为的特殊值单独记录。

�_���

b)当时:��=�+�+�−�

nm�

将采样信号的有效活动�语音帧起点向时间轴反向延伸a帧空白信号帧,a≥0;

将采样信号的有效活动语音帧终点向时间轴正向延伸b帧空白信号帧,b≥0;

将采样项信号延伸后的信号记,i最大值为a+b+n;

将参考信号与延伸后的采样信号,按照余弦相似度逐一比对,细则如下:

�'�

���'�

�…………(A.2)

�=1��

��'−�'�−�

�=�2�2

式中:��

�=1�'−�'×�=1�−�

——采样信号相似度值;

——参考信号的有效活动语音帧对应的幅度值;

�——采样项信号延伸后的信号,最大值为a+b+,采样信号的有效活动语音帧起点

�in

向时�间轴反向延伸a帧空白信号帧,a≥0,采样信号的有效活动语音帧终点向时间轴正向延伸b

�'�

8

帧空白信号帧,b≥0。

共可以得到r个值,取最大的值为nm时的参考值,记为,此时。

当a=b=0时,作为的特殊值单独记录。

�_���

Q和特殊值作为进行粗同步时,对齐完成的两种可�能情况。�=�+�+�−�

r_max��

A.2.2方法二

��

当采样语音信号存在明显断续,或空白语音帧时,若第一段连续活动语音帧长度不小于15帧,

将其作为待分析的采样语音信号,采用方法二进行分析,否则不用此方法。

去除采样语音信号中非典型语音信号,如超过40dB,且连续性不足4帧的所有帧;

将采样信号的第一段连续活动语音帧对应的幅度值记为,i最大值为n,且n不小于15;

将参考信号的有效活动语音帧对应的幅度值记为,最大值为,此时<;

i�mnm

将参考信号的有效活动语音帧起点向时间轴反向延伸a帧空�白信号帧,0≤a≤15;

将参考信号的有效活动语音帧终点向时间轴正向延�伸b帧空白信号帧,0≤b≤15;

将参考项信号延伸后的信号记,i最大值为a+b+m;

将采样信号与延伸后的参考信号,按照公式A.1计算,此时Q为进行粗同步时,

�'�r_max

对齐完成的一种可能情况。

���'�

A.2.3方法三

去除采样语音信号中非典型语音信号,如超过40dB,且连续性不足4帧的所有帧;

当采样语音信号存在明显断续,或空白语音帧时,若第一段连续活动语音帧、第一段空白帧、

第二段连续语音帧,且合计长度不小于40帧时,将其作为待分析的采样语音信号;

将采样信号的上述三段作为一个整体,对应的幅度值记为,i最大值为n,且n不小于

40�

将参考信号的有效活动语音帧对应的幅度值记为,i最�大值为m,此时n<m;

将参考信号的有效活动语音帧起点向时间轴反向延伸a帧空白信号帧,0≤a≤40;

将参考信号的有效活动语音帧终点向时间轴正向延�伸b帧空白信号帧,0≤b≤40;

将参考项信号延伸后的信号记,i最大值为a+b+m;

将采样信号与延伸后的参考信号,按照公式A.1计算,此时Q为进行粗同步时,

�'�r_max

对齐完成的一种可能情况。

���'�

A.3精细同步

A.3.1精细同步基础

采样信号活动语音帧与参考信号活动语音帧逐帧转化为频域,并将其在频域上分成两

段,并划分各自频率范围及频率间隔如下,如下:

��

——200Hz-4000H�z,46.875Hz均匀频率间隔�采样,共81个频率点,采样信号记为,

参考信号记为;

1�1�

�——4000Hz-6300Hz,46.875Hz均匀频率间隔采样,共49个频率点,采样信号记为�,

�1�

参考信号记为�;

2�2�

将�采样信号与参考信号在频域内进行比较,可得出,其中和分别�作为

�2�

和的�系数。

���������1�2

��1��2

81…………(A.3)

�=1�1��1�1��1

�1�−��−�

�=22

式中:8181

�=1��1�−��1×�=1��1�−��1

——在200Hz-4000Hz范围内,以46.875Hz均匀频率间隔,对采样信号取81个点;

——在200Hz-4000Hz范围内,以46.875Hz均匀频率间隔,对参考信号取81个点;

��1�

�1�

�——在200Hz-4000Hz范围内,采样信号的相似度。

��1

9

49…………(A.4)

�=1�2��2�1��2

�2�−��−�

�=22

式中:4949

�=1��2�−��2×�=1��2�−��2

——在4000Hz-6300Hz范围内,以46.875Hz均匀频率间隔,对采样信号取49个点;

——在4000Hz-6300Hz范围内,以46.875Hz均匀频率间隔,对参考信号取49个点;

�2�

�——在4000Hz-6300Hz范围内,采样信号的相似度。

��2�

��2

121…………(A.5)

�=1�3��3�3��3

�3�−��−�

�=22

式中:XX��

�=1��3�−��3×�=1��3�−��3

——在6300Hz-12kHz范围内,以46.875Hz均匀频率间隔,对采样信号取121个点;

——在6300Hz-12kHz范围内,以46.875Hz均匀频率间隔,对参考信号取121个点;

�3�

�——在6300Hz-12kHz范围内,采样信号的相似度。

��3�

��3

106…………(A.6)

�=1�4��4�4��4

�4�−��−�

�=22

式中:XXXX

�=1��4�−��4×�=1��4�−��4

——在12kHz-17kHz范围内,以46.875Hz均匀频率间隔,对采样信号取106个点;

——在12kHz-17kHz范围内,以46.875Hz均匀频率间隔,对参考信号取106个点;

�4�

�——在12kHz-17kHz范围内,采样信号的相似度。

��4�

��4

63…………(A.7)

�=1�5��4�5��5

�5�−��−�

�=22

式中:XXXX

�=1��5�−��4×�=1��5�−��5

——在17kHz-20kHz范围内,以46.875Hz均匀频率间隔,对采样信号取63个点;

——在17kHz-20kHz范围内,以46.875Hz均匀频率间隔,对参考信号取63个点;

�5�

�——在17kHz-20kHz范围内,采样信号的相似度。

��5�

��5

…………(A.8)

式中�:�=�1×��1+�2×��2+�3×��3+�4×��4+�5×��5

——为采样信号的总相似度

——在200Hz-4000Hz范围内,采样信号的相似度;

�——在4000Hz-6300Hz范围内,采样信号的相似度;

��1

10��2

——在6300Hz-12kHz范围内,采样信号的相似度;

——在12kHz-17kHz范围内,采样信号的相似度;

�3

�——在17kHz-20kHz范围内,采样信号的相似度;

�4

�——为的系数;

�5

�——为的系数;

1�1

�——为�的系数;

2�2

�——为�的系数;

3�3

�——为�的系数。

�4��4

精细同步必须基于粗同步的基础上开展。粗同步可能的结果类别共有三种,分别如后图A1、A

�5��5

2和A3所示。所有计算均基于公式A.3至A.8进行。

A.3.2基于粗同步结果类别一的精细同步

参考信号共m帧,采样信号,共n帧。以参考信号每1/2帧为一个单位,记为j,

=2。

ij��

将采样信号�与参考信号及其�相邻的前后各4帧,并以1/2帧为步进,共计9帧参考信号,

进行17次比对,依照公式A.3,可得到17个,从中找出最大值,且高于相邻两侧0.1,作为

����

接近的一帧,记为,将与之对齐,ji-4,i4。当遇到采样语音信号中时间轴上空帧时,

��

可自动跳过,与下一个语音帧进行比对。

����

将采样信号与参考信号及其相邻的前后各4帧,以1/2帧为步进,共计9帧参考信号,

进行17次比对,找出最大值,且高于相邻两侧0.1,作为接近的一帧,且处于峰值,高于相邻两侧

�+1�+1

0.1,将与之�对齐。�

重复上述流程,直至比对结束,或已与对齐。记录下所有与达到匹配的所

�+1

处位置,计�算出每个的延时。

�����

图给出了采样信号�前两次比对图�示,具体�如下:��

A1�

采样信号第一帧与�参考信号第一帧已在粗同步确认可以对齐后,在此基础上,分别与及

1

其相邻的前后各4帧,以1/2�帧为步进进行比对。采样信号之前无语音信号,故只需与及

11

其后四帧比对,共计9次。找出最为接近的一帧,且处于峰值,高于相邻两侧0.1。��

11

首先,采样信号应与参考信号进行第一次比对。�当完成后,按照步进1/2帧,采�样信

号与参考信号后1/2帧和前1/2帧组成的信号进行比对。直至完成的9次比对。

�1�1

�1�1�2�1

图A1基于粗同步结果类别一的精细同步

A.3.3基于粗同步结果类别二的精细同步

参考信号共m帧,采样信号,共n帧。通过粗同步的结果,采样信号第n-a帧与

参考信号第一帧对齐,如下图2所示。

����

图A2基于粗同步结果类别二的精细同步

按照A.1.3.2章节,计算出此时采样信号除前n-a帧与参考信号m帧的对齐关系,计算出

11

各帧延时。

A.3.4基于粗同步结果类别三的精细同步

参考信号共m帧,采样信号,共n帧。通过粗同步的结果,采样信号第一帧与参考

信号第m-b帧对齐,如下图2所示。

����

图A3基于粗同步结果类别三的精细同步

按照A.1.3.2章节,计算出此时采样信号与参考信号从第m-b帧至第m帧的对齐关系,计

算出各帧延时。

A.4自校验

对精细同步的所有可能的结果,进行校验,选出一个最具可能的结果,方法如下。

根据精细同步得出的所有能匹配到的,及其对应的延时,进行采样信号重组。重组后,

逐帧与的差值做方差分析。将方差最小的一个重组信号,作为最终完成对齐的结果,进行分数

��

计算。��

��

12

附录B

(规范性)

分数计算系数表汇总

B.1连续丢失的活动语音帧数量与分数系数k

表B1连续丢失的活动语音帧数量与分数系数k

j丢帧数系数kj丢帧数系数kj丢帧数系数k

101.0007不超过1.00.95013不超过1.80.850

2不超过0.61.0008不超过1.10.95014不超过1.90.830

3不超过0.70.9859不超过1.20.92015不超过2.00.820

4不超过0.70.99010不超过1.30.90016不超过2.10.820

5不超过0.80.95011不超过1.40.86017不超过2.20.810

6不超过0.90.96012不超过1.50.85018不超过2.30.800

B.2插入的空帧或算法引入的合成语音帧数量与分数系数

h设置格式[BINGO]:字体:(默认)TimesNewRoman,(中

表B2插入的空帧或算法引入的合成语音帧数量与分数系数h文)宋体,加粗,字距调整:1磅

j插入空帧数分数系数hj插入空帧数分数系数hj插

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论