语音欺骗检测研究与分析_第1页
语音欺骗检测研究与分析_第2页
语音欺骗检测研究与分析_第3页
语音欺骗检测研究与分析_第4页
语音欺骗检测研究与分析_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

随着人工智能技术的发展,生物识别技术彻底改变了我们的个人识别方法,并在维护个人、国家和全球安全方面发挥了至关重要的作用。目前,指纹、人脸和声纹等常见的生物特征已经被大量应用。例如我们日常生活中使用的某些智能手机、智能穿戴设备就配备了声纹解锁功能。以上功能全部基于自动说话人验证(AutomaticSpeakerVerification,ASV)系统,ASV系统通过对输入的语音进行二分类判别,判断该语音来源的用户是否为已注册用户。通过性安全认证系统往往会带有安全问题,由于ASV通常用于电话或其他无人看管、无人监督或面对面接触的分布式场景,并因为语音这一生物特征的特殊性和常见性,语音比其他生物特征信号更容易受到恶意干扰或操纵,致使识别系统受到攻击。攻击者对识别系统的输入特征进行模仿、转换、篡改,就极有可能在生物识别系统中“蒙混过关”。中国人民银行发布的《移动金融基于声纹识别的安全应用技术规范》中明确说明,移动金融领域中声纹识别技术要能够抵御语音欺骗。2020年12月,清华大学人工智能研究院、AIIA-得意音通声纹技术联合实验室和中国电信股份有限公司研究院联合发布了《中国声纹识别产业发展白皮书2.0》,介绍了目前国内声纹识别技术发展的12大趋势。这些都表明了语音欺骗检测是未来语音处理方面研究的一个热点、重点问题。因此,为保障安全性,语音识别系统需要具备能够准确判断输入生物特征的能力,为了解决这一难题,语音欺骗检测技术由此诞生。这对研究学者们来说是一个挑战,同时也引起了国内外学者极大的兴趣。本文介绍了语音欺骗检测的研究现状,包括语音欺骗方法、研究数据集和评价指标,着重阐述了国内外针对语音欺骗检测的最新挑战赛的研究进展,并对其中的具体方法进行分析。最后,对语音欺骗检测技术的局限性和未来发展进行分析。1语音欺骗攻击语音欺骗攻击是指攻击者使用某些语音欺骗攻击手段生成一段新的语音或将某段语音伪装成已注册说话人的声音,进而将其输入到ASV系统,以达到混淆通过ASV系统检测的目的。ASV系统是一个通过性安全识别系统,识别输入的语音是否为特定人的语音。自动说话人验证分为两个步骤,如图1所示。图1语音欺骗检测系统语音欺骗方法最早可追溯到20世纪六七十年代,语音欺骗的方法包括语音模仿、语音回放、文本到语音合成(TextToSpeech,TTS)、语音转换(VoiceConversion,VC)。目前语音欺骗攻击方法可分为两大类:逻辑访问(LogicalAccess,LA)攻击和物理访问(PhysicalAccess,PA)攻击。一般将使用语音合成方法的攻击归为LA攻击,包括TTS和VC;通过语音回放使用录音设备进行重放攻击,属于PA攻击。语音模仿是指攻击者模仿目标说话人的声音,使自己的声音尽量与目标说话人的声音相似,从而让语音识别系统将攻击者的声音误认为注册说话人的声音。语音回放是指使用录音设备录制目标说话人的语音,然后将录音输入到ASV系统。使用不同录音设备和播放设备的录制声音对ASV系统的攻击效果也不同。TTS是一种将文本文字生成一段与特定说话人声音非常相似的语音的技术。TTS主要由2个阶段组成:文本分析阶段和波形生成阶段。残差网络、生成对抗网络等深度神经网络技术的进步提高了转换后的语音质量。虽然VC与TTS同属于语音合成攻击,但两个技术还有一些不同。VC是将一个人的声音转换为另一个人的声音,这也就表示VC系统的输入是语音信号,而不是一段文本文字。2语音欺骗检测2.1语音欺骗检测简介语音欺骗攻击与语音欺骗检测是矛和盾的关系,语音欺骗检测是为了进行语音的鉴伪。2013年后语音欺骗检测才得到人们关注,经过两年筹备,第一次ASVspoof挑战赛

在德国德累斯顿举行,2015挑战赛对TTS和VC等语音合成方法的欺骗攻击进行检测。2017年在瑞典斯德哥尔摩举行的

2017挑战赛则重点关注语音回放欺骗攻击。2019年之后的挑战赛都关注了多种语音攻击方式,如

2019挑战赛同时关注了TTS、VC和语音回放的欺骗攻击方式,在语音合成攻击检测挑战中收到49份挑战结果,在语音回放攻击检测挑战中收到51份挑战结果。2021年Interspeech会议在捷克布鲁诺举行,2021挑战赛在关注TTS、VC和语音回放欺骗方法的基础上,还关注了深度伪造(DeepFake,DF)语音欺骗攻击方法,DF任务类似于LA任务(包括压缩数据),但没有说话人验证,这次挑战收到95份研究结果。最近的SASVChallenge2022挑战赛

同时关注了ASV系统和反措施(CounterMeasure,CM)系统,SASV将

对CM的关注点扩展到对集成系统的考虑上,其中CM和ASV子系统都经过优化来提高系统的可靠性。这次的挑战赛吸引了53个注册团队,收到了23个提交结果。其中,在SASVChallenge2022挑战赛上,来自“昆山杜克大学-OPPO”联合实验室的团队取得了全球第2名的成绩。但是现在还没有一种单一的网络模型能够同时满足自动说话人识别和语音欺骗联合优化检测。2.2语音欺骗检测流程一个语音欺骗检测的流程如图1所示。由于输入ASV系统的语音的欺骗方法未知,传统的语音欺骗检测系统无法同时检测LA和PA两种攻击。将CM与ASV系统进行串联使用,在语音输入到ASV系统之前,对其进行识别,区分这段语音是真实的还是欺骗的,只有真实的语音才能够输入到ASV系统中进行下一步验证。2.3语音欺骗检测的声纹特征1962年,发表了一种基于时频谱图的说话人识别方法,正式提出“声纹”(AcousticFingerprint)这一概念。语音欺骗检测与自动说话人识别都可以归属为二分类问题,语音信号经过预处理,变成具有固定时间间隔的音频帧,然后从这些音频帧中提取出具有固定维度的特征,这些特征将被输入到深度神经网络中。语音欺骗检测与说话人识别所使用的声纹特征也有所不同,比如梅尔频率倒谱系数(MelFrequencyCepstralCoefficients,MFCC),虽然能够较为准确地描述语音中的特征信息,但不能很好地区分真假语音,因此MFCC成为说话人识别系统中的常用特征,但在语音欺骗检测系统中的效果不理想。除此之外,常用的声纹特征还有原始频谱(Rawspec)、梅尔频谱(Melspec)、线性频率倒谱系数(LinearFrequencyCepstralCoefficient,LFCC)、单频滤波倒谱系数(SingleFrequencyFilteringCepstrumCoefficient,SFFCC)、感知线性预测系数(PerceptualLinearPredictive,PLP)、常数Q倒谱系数(ConstantQCepstralCoefficients,CQCC)、长期变量Q变换频谱(Long-termVariableQTransform,L-VQT

spec),这些声纹特征提取步骤如图2所示。图2声纹特征提取步骤3语音欺骗检测挑战赛每一届语音欺骗检测挑战赛都会提供专门的数据集以及评价指标供研究者们使用。参赛团队注册并参加挑战,每个团队可以报名参加一个或两个挑战场景。最终,每个团队应提交一份详细说明策略方法(功能和分类器等)和相关技术的系统描述文件以及对应某个挑战场景的分数文件。3.1

2019挑战赛ASVspoof2015的任务是设计出能够区分使用TTS或VC系统产生的真实语音和欺骗性语音的对抗解决方案;2017挑战的重点是设计旨在检测重放欺骗攻击的对策。为了应对两类语音欺骗攻击手段,2019扩展了之前的挑战。

2019是第一个专注于全部3种主要攻击类型的挑战,即源自TTS、VC和语音重放欺骗的攻击。相对于2015年的改进,包括增加使用了最新的TTS和VC技术,这些技术利用了这4年在这两个领域取得的重大进展。相对于2017年的改进,使用了更加可控的评估设置来评估重放欺骗攻击对策。虽然2017年的挑战是根据真实回放的欺骗攻击的记录创建的,但使用不受控制的设置使得结果比较难分析。此次2019挑战在语音合成攻击检测挑战中收到49份挑战结果,在语音回放攻击检测挑战中收到51份挑战结果。3.1.12019数据集2019LA数据集基于VCTK的标准多说话人语音合成数据集而生成。从107位说话者(46位男性,61位女性)中收集了真实的语音,欺骗性语音是使用多种不同的欺骗算法从真实数据中生成的。2019LA训练数据集包括来自20位说话者(8位男性,12位女性)的真实和欺骗性语音,每个欺骗语音是根据2种语音转换和4种语音合成算法(A01~A06)之一生成的;测试集包括从多个说话者收集的一组无法预测真实或欺骗性的语音,大约有8万次试验,测试数据集大小约为4GB。测试集的记录条件与开发数据集完全相同,欺骗语音是根据各种难以预测的欺骗算法(A07~A19)生成的,但它们是生成开发数据集的欺骗算法的变体。PA考虑了在传感器级别执行的欺骗攻击,这意味着真实的和欺骗的语音都在采集之前通过物理空间传播,因此这种情况下的欺骗攻击被称为重放攻击。PA训练和开发集是根据总共27种不同的声学配置录制的,并有9种不同的回放配置。与语音合成攻击场景相同,测试集在说话人方面与其他两个集合是不相交的,大约有13.5万次试验。如表1、表2所示,与2015年和2017年版本类似,2019年的数据集包含使用不同技术(TTS和VC算法)和回放场景生成的训练、开发和测试集。表1ASVspoof2019LA数据集详细信息表2ASVspoof2019PA数据集详细信息3.1.2ASVspoof2019评价指标(1)等错误率(EqualErrorRate,EER)。EER是评估ASV和其他生物识别系统准确性的标准指标,2019挑战中将其作为次要评价指标。参与者需要为每个测试集记录一个单一的实值检测分数,较高的检测分数表明更有可能观察到真实的人类语音,而相对较低的分数则表明更大的欺骗攻击可能性。给定特定系统的所有检测分数,首先计算错误拒绝率(FalseRejectionRate,FRR)和错误接收率(FalseAcceptanceRate,FAR),分别表示出阈值s处的式中:分别为s的单调递减和递增函数。等错误率(EER)对应于两个检测错误率重合的阈值即(2)串联检测成本函数(TandemDetection

CostFunction,t-DCF)。2015年和2017年挑战侧重于独立系统的开发和评估,2019首次采用串联检测成本函数(t-DCF)这一以ASV为中心的新评价指标,而将EER作为次要指标。

2019采用的t-DCF基本形式如下:如式(1)、式(2)所示。常数由t-DCF成本、Priors和ASV系统检测误差决定:式中:分别为ASV系统错误拒绝目标说话人和错误接收非目标说话人的成本(cost);分别为CM系统错误拒绝真实语音试验和错误接受欺骗语音试验的成本。此外,预先设定了目标非目标和欺骗类的先验概率,其中成本和先验概率预先固定为表3中所示的值。最后,为固定ASV系统在特定ASV检测阈值下的检测错误率。其中,和分别为传统的未命中率(被拒绝的目标用户的比例)和误报率(被接受的非目标用户的比例);是针对ASV系统的欺骗样本的未命中率(被ASV拒绝的欺骗样本的比例)。表3ASVspoof2019中预设的t-DCF成本函数参数原始t-DCF可能难以理解。通常将归一化的t-DCF定义为:式中:是定义为的默认成本。通过分别在式(3)中设置(CM阈值s→+∞)和(CM阈值s→-∞)得到在前一种情况下,标准化的t-DCF写为:其中在后一种情况下,标准化的t-DCF则写为:其中权重α或β表示两个错误率分别在t-DCF中所占的比例。与过去两个挑战版类似,2019并不关注阈值设置(校准),而是将每个评估的CM的阈值固定为与完美校准相对应的最佳值。也就是说,挑战排名将基于最小标准化t-DCF,定义为:其中是使用groundtruth从测试集确定的最佳阈值。3.22021挑战赛ASVspoof2021是双年度挑战系列的第四届挑战,为提高CM系统的泛化性,本次挑战除了继续关注LA、PA任务,还引入了一项涉及深度伪造语音检测的新任务。LA任务是基于2015和

2019LA任务,并考虑到电话场景。2019年LA任务建立在2015年第一版的基础上,考虑了最先进的神经网络和声学波形模型,最终,此次挑战收到95份挑战研究结果。3.2.1

2021数据集2021通过考虑电话编码和传输进一步扩展了挑战,2021没有发布新的训练或开发数据集,挑战者继续使用2019数据集的训练和开发集。新的LA和PA测试集包括从与ASVspoof2019测试集对应的相同48位说话者(21位男性,27位女性)收集的语音记录。DF任务的数据不仅来自VCTK基础语料库,还来自其他(未公开的)语料库。2021LA测试数据集包含针对每个扬声器的新试验以及真实电话系统引入的编码和传输伪像。

2021LA测试数据包括通过IP语音(VoIP)和公共交换电话网络(PSTN)在内的各种电话系统传输的真实和欺骗性语音。LA测试集欺骗试验来自13种不同的语音合成和语音转换欺骗攻击算法之一(A07~A19),但除了攻击算法,欺骗的和真实的试验数据都使用7种不同的编解码器中的一种作为传输结果,表4中列出了7个评估条件,带下划线的评估条件存在于测试集中,但不在训练集中。表4ASVspoof2021LA数据集评估条件2021PA测试集包括与2017数据集类似的真实和重放样本,但具有与2019PA数据集类似的更好的控制设计。真正的试验数据在真实的物理空间中呈现给ASV系统,而重放攻击被获取,然后使用不同质量的设备重新呈现。因此,PA测试数据集包含来自环境和回放设备的混响和附加噪声。真实语音来自VCTK语音库,使用具有合理平坦频率响应的高质量扬声器将原始语音呈现给ASV系统(而不是由真正的说话者发出)。DF测试数据集展示了音频编码和压缩伪影,还包括在不同域中捕获的数据。DF测试数据集是使用常用媒体存储的、不同有损编解码器处理的真实和欺骗的语音集合。音频数据被编码,然后被解码以恢复未压缩的音频,该过程引入了依赖于编解码器类型和配置的失真。测试集取自2019LA测试集以及其他来源,其中包括使用100多种不同的欺骗算法生成的欺骗攻击。与LA类似,表5列出了9个评估条件,带下划线的评估条件出现在测试集中,但不在训练集中。表5

2021DF数据集评估条件3.2.2ASVspoof2021评价指标(1)等错误率(EER)。DF任务的主要指标是等错误率(EER)。由于DF任务不包括ASV系统,因此该任务使用不需要指定代价和先验概率参数的、能很好反映CM系统区分真实和欺骗语音能力的通用EER指标。(2)串联检测成本函数(t-DCF)。2021采用两种不同的性能指标。LA和PA任务的主要指标是串联检测成本函数(t-DCF)。它评估CM和ASV组合(串联)性能,将CM视为放置在未受保护的ASV系统之前的“真实/欺骗门”。该指标反映了贝叶斯的风险,可以通过选择不同的检测成本和类别先验参数来针对不同的应用进行调整。在2019中使用的t-DCF指标在2021挑战中进行了简化,以包含更少的参数,2021中使用的指标形式如下:式中:分别为CM系统检测阈值为τ时的错误拒绝率和错误接收率;和为成本函数参数。这些参数不仅取决于预定义的成本和先验参数,还取决于ASV性能;和取决于ASV在真实测试中的性能,而随ASV系统欺骗误报率线性增加。对于LA和PA任务(见表6)以及它们各自的训练和测试集,参数

,是不同的。2019挑战中式(5)的

项(ASV下限)被丢弃,而2021挑战保留了从式(5)中可以看出,ASV下限是使用无差错CM(没有遗漏或误报)获得的t-DCF,它反映了由ASV系统引起的错误。与2019挑战中的t-DCF类似,在2021挑战中,也将其标准化为式(10)所示:表6ASVspoof2021挑战LA和PA任务的t-DCF参数3.3SASV2022挑战赛最新的SASV2022挑战与之前的

系列挑战不同,最小串联检测成本函数(t-DCF)反映了欺骗攻击和CM对ASV系统的影响,但挑战系列侧重于为固定的ASV系统开发CM,然而当CM和ASV子系统都得到优化时,可以为联合检测验证系统提供更好的性能。SASV挑战将

对CM的关注扩展到集成系统,其中CM和ASV子系统都经过优化以提高可靠性,图3显示了SASV2022挑战的具体内容。图3SASV2022挑战的具体内容SASV2022挑战的目标是通过提供一个框架来支持优化协同运行的CM和ASV系统,并最终促进单一或集成系统。在这个方向上的先前工作较少,因此该挑战的目标是:(1)弥合ASV研究和CM系统研究之间的差距以及相应研究团队之间的差距;(2)扩展ASV场景并将欺骗攻击考虑在内;(3)促进集成模型向集成SASV解决方案的发展,并使该解决方案能够在扬声器和反欺骗嵌入上运行;(4)鼓励开发能够区分不同说话人所说的话语以及欺骗性话语的单一模型。该挑战目前的研究现状如图4所示,此次挑战允许参赛者使用单一的或集成的模型,并希望参赛者的模型在识别说话人身份的同时还能检测出该语音是真实的还是虚假的。2022年的挑战使用

2019protocols,虽然SASV协议利用

2019LA数据,但它们与挑战赛的参与者使用的协议不同,它们不是CM协议,而是ASV协议,更具体地说,是SASV协议(协议格式见表7)。后者涉及3种类型的实验:(1)注册说话人产生的真实的、目标话语;(2)非注册说话人产生的真实的、非目标话语;(3)注册说话人的欺骗、非目标话语,包含合成或转换的语音。该挑战提供不相交的协议,以支持挑战参与者对SASV解决方案的开发和测试。此次的挑战赛收到了53个注册团队提交的23个研究结果。图4SASV2022挑战研究现状表7SASV2022协议格式3.3.1SASV2022数据集SASV2022挑战赛的参与者可以使用以下数据集:2019LA训练数据集;2019LA开发数据集;VoxCeleb2数据集。由于2019LA数据集提供了真实说话者标签,因此它也可用于ASV系统的培训和开发。VoxCeleb2数据集是为ASV实验而设计的,它不包含欺骗数据。VoxCeleb2数据集是通过抓取名人采访的在线视频收集的,是从150480个独特的视频中提取的,平均个人话语长度为7.8s。VoxCeleb2数据集的开发数据集用于ASV子系统的训练;

2019LA数据集在2019挑战中已经进行过介绍,不再赘述。2019LA训练集可用于训练CM子系统,也可与VoxCeleb2数据集结合使用以进行SASV研究。3.3.2SAVS2022评价指标SASV2022挑战也采用EER作为评价指标,此次挑战使用经典EER(SASV-EER)作为主要指标来评估SASV性能,两个额外的EER评估值作为次要指标(评价指标如表8所示)。说话人验证EER(SV-EER)涉及目标试验和真实的非目标试验的组合,而欺骗EER(SPF-EER)涉及目标试验和欺骗的非目标试验的组合。表8

SASV2022挑战评价指标4语音欺骗检测方法比较与分析4.1语音欺骗检测方法比较表9将

2019、2021两次语音欺骗检测挑战赛共计7个赛道中的前5名所使用的特征和分类器进行总结,以供研究学习。4.2语音欺骗检测方法分析语音欺骗检测分为基于传统机器学习(ML)分类器的方法和基于深度学习的方法。对表9中的方法进行简要分析。因为2021挑战中提交的检测技术较为新颖,为此重点分析2021挑战中的检测方法。由于

2021挑战LA任务考虑了信道效应等噪声对语音信号的影响,导致本次LA挑战总体结果不如2019年LA挑战。此次挑战排名第一的团队将循环神网络与残差网络相结合,利用编解码增强和修剪音频的数据增强方法来训练多个子系统,其中两个子系统基于原始波形特征、频谱图特征和LightCNN(LCNN)、ResNet两个并行分类器,它们被转发到LSTM,分数通过权重进行相加。此外,另一个子系统使用SincNet前端和LSTM后端,该子系统的输出分数进一步与上面的加权平均分数融合。排名第二的团队所用数据增强方法是将输入音频使用预加重和a-law算法进行处理,将LFCC特征从处理后的音频中提取出来并输入到两个基于ResNet的分类器中,再计算两个分类器输出分数和的平均值。表9

ASVspoof2019、2021挑战赛方法比较续表

2021PA攻击检测挑战结果并不是很理想,相同排名参赛队伍的EER指标相较于另外两个检测任务都是比较差的,这也说明了语音回放检测的难度确实比较大,尤其是录音环境较好的情况下,录音与真实语音难以区分。排名第一的团队使用一个基于高斯混合模型(GMM)和变分自动编码器(VAE)的分类学习框架,通过房间模拟和两次参数分别为0.9和1.1的速度扰动来进行数据增强。该方法使用的声学特征是对数频谱图,将对数频谱图输入到WORLD、HifiGAN、MelGAN神经声码器得到过滤后的频谱图,再将原始频谱图和过滤后的频谱图通过时间轴进行平均操作后用时间频率来表示。一个GMM和一个VAE使用时间平均频谱图进行训练,而另一个GMM使用原始对数频谱图和过滤后的频谱图进行训练,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论