首页 > 行业资讯 > 精选文章||基于SE-DR-Res2Block的声纹识别方法

精选文章||基于SE-DR-Res2Block的声纹识别方法

时间：2023-11-02 来源：浏览：

精选文章||基于SE-DR-Res2Block的声纹识别方法

原创工程科学学报工程科学学报

工程科学学报

微信号 gh_72df7adaeec6

功能介绍工程科学学报网络宣传与推广

收录于合集

文章信息：

〢详细信息：

基于SE-DR-Res2Block的声纹识别方法

李平, 高清源, 夏宇, 张小勇, 曹毅

工程科学学报, 2023, 45(11): 1962

http://doi.org/10.13374/j.issn2095-9389.2022.09.19.001

点击下方网站直达相应页面：

官网；知网

〢摘要：

针对声纹识别领域中基于传统Res2Net模型特征表达能力不足、泛化能力不强的问题，提出了一种结合稠密连接与残差连接的特征提取模块SE-DR-Res2Block(Sequeeze and excitation with dense and residual connected Res2Block). 首先，介绍了应用传统Res2Block的ECAPA-TDNN(Emphasized channel attention, propagation and aggregation in time delay neural network)网络结构和稠密连接及其工作原理；然后，为实现更高效的特征提取，采用稠密连接进一步实现特征的充分挖掘，基于SE-Block(Squeeze and excitation block)将残差连接和稠密连接相结合，提出了一种更高效的特征提取模块SE-DR-Res2Net. 该模块以一种更细粒化的方式获得不同生长速率和多种感受野的组合，从而获取多尺度的特征表达组合并最大限度上实现特征重用，以实现对不同层特征的信息进行有效提取，获取更多尺度的特征信息；最后，为验证该模块的有效性，基于不同网络模型采用SE-Res2Block(Sequeeze and excitation Res2Block)、FULL-SE-Res2Block(Fully connected sequeeze and excitation Res2Block)、SE-DR-Res2Block、FULL-SE-DR-Res2Block(Fully connected sequeeze and excitation with dense and residual connected Res2Block)，分别在Voxceleb1和SITW(Speakers in the wild)数据集开展了声纹识别的研究. 实验结果表明，采用SE-DR-Res2Block的ECAPA-TDNN网络模型，最佳等错误率分别达到2.24%和3.65%，其验证了该模块的特征表达能力，并且在不同测试集上的结果也验证了其具有良好的泛化能力.

全文

阅览

声纹识别是一种现代生物识别技术，其通过转换仪器将收集的声波特征转化成相应的波谱图形并与已经存储的波谱图形进行对比，从而辨别是否属于同一个体以实现身份验证的功能 ^[
1
] . 声纹识别是语音处理领域的热点研究方向之一，其可实现计算机准确识别说话人的语音信息，进而分析语音中的声纹信息，进一步提高了计算机的语音处理能力. 声纹识别具有非接触式、便利性高、安全性高、识别成本低、可远程确认等优点，因此声纹识别技术被广泛应用于银行交易和远程支付的信息安全 ^[
2
] 、调查嫌疑人是否有罪 ^[
3
−
5
] 、自动身份标记 ^[
6
] 等领域.

针对声纹识别技术，国内外诸多学者分别基于传统机器学习、深度学习两类方法开展了大量的实验与理论研究. 其中，基于传统机器学习，Burget等 ^[
7
] 提出特征信道自适应以降低信道干扰；鲍焕军与郑方 ^[
8
] 提出高斯混合模型−通用背景模型（Gaussian mixture model−Universal background model, GMM−UBM），采用多个GMM模型来拟合不同的说话人；Kenny等 ^[
9
] 提出联合因子分析，采用GMM超矢量空间的子空间进行重新建模以消除信道差异的干扰；Cumani等 ^[
10
] 提出新的概率线性判别分析以用于短语音的识别. 近年来，随着深度学习方法的不断深入，声纹识别技术也取得了飞跃性的进展. 谷歌提出通过深度神经网络训练，提出了d-vector作为说话人特征，并对说话人在帧级别进行分类 ^[
11
] ；Snyder等 ^[
12
] 结合d-vector和时间延迟神经网络 ^[
13
] ，提出了能够有效表示包含上下文信息的语句级x-vector说话人特征；Okabe等 ^[
14
] 通过引入一种新的注意力机制以捕获声纹的长期变化；Jiang等 ^[
15
] 提出将稠密连接卷积网络 ^[
16
] 与门控机制相融合的DDB+Gate(Dilated dense blocks and gate blocks)网络，其采用扩张滤波器以获取更多的时频上下文信息，并通过前馈方式的稠密连接来收集上下文信息；Zhou等 ^[
17
] 通过ResNet-SE(Residual network with sequeeze and excitation)和AS-Softmax(Additive supervision softmax)相结合的ResNet-34-SE系统，利用错误分类样本的先验知识提升分类能力；Li等 ^[
18
] 通过引入一种带典型相关分析约束的多特征学习策略，最大化相同说话人话语的相关性.

综上所述，尽管诸多学者对声纹识别开展了较为深入的研究，但必须指出的是：(1) 当前国内外对声纹识别技术的研究仍存在待解决的技术难点；(2) 已有模型缺乏对声纹低语义特征的关注，其导致模型特征表达能力不足、泛化能力不强. 文献[ 19 ]提出的ECAPA-TDNN（Emphasized channel attention, propagation and aggregation in time delay neural network）神经网络采用的是Res2Net ^[
20
] 中的Res2Block，其具有更大的感受野，虽可获取不同尺度的特征，但仍缺乏对低语义特征的关注，其中低语义特征是指浅层网络中包含大量空间信息、更注重细节信息的特征，高语义特征更集中于全局信息. 文献[ 16 ]提出了稠密连接神经网络，其通过层与层之间的稠密连接来达到特征重用的目的，但增加了模型的大小和计算复杂度. 因此，本文在Res2Block基础上，首先将DenseNet中的特征重用应用于Res2Block；其次为进一步提升泛化能力，本文基于通道特征响应SE-Block (Squeeze and excitationblock)模型的思想对Res2Block进行改进，进而提出一种基于稠密连接、残差连接和通道特征响应的特征提取模块SE-DR-Res2Block (Sequeeze and excitation with dense and residual connected Res2Block).

ECAPA-TDNN网络和稠密链接结构

1.1 ECAPA-TDNN网络

ECAPA-TDNN是一种基于时间延迟神经网络（TDNN）的声纹提取器，其工作原理是首先通过将TDNN和传统的残差模块Res2Block相结合，形成一维的Res2Block以期获取时间上下文信息；其次，添加SE-Block来改善信道特征信息，形成SE-Res2Block(Sequeeze and excitation Res2Block)，如图1 所示，其具体工作流程为：

图 1 SE-Res2Block结构示意图(示例取 T 为5， s 为4)

首先，设输入二维特征（C×T），其中C代表维数和T代表帧数；

其次，将特征的维数等分为s组，且每组分别进行卷积，设 xi(i∈{1,2,⋯,s})为输入特征，其输出 zi可表示为:

（1）

其中， Ci表示一维卷积、 ⊕⊕ 表示特征相加，一维卷积可有效的结合时间上下文信息，处理不同时长的语音[13]. zi=Ci(xi⊕zi−1)，其将前一组的输出 zi−1与第i组的当前输入特征进行相加作为第i组新的输入再进行卷积，这种层次残差连接的方式，增加了输入特征的尺度数量进而扩大其感受野[20].

最后，如图1所示将不同的输出zi再重新进行聚合，并经过一个SE-Block[21]以校准通道特征响应.

SE-Res2Block中：(1)特征拆分有助于提取全局和局部信息；(2)通过对不同复杂程度的层特征进行聚合达到不同尺度的信息融合，提升模型的特征提取能力. 该结构通过将不同感受野的特征进行聚合，其虽有效地提升了性能，但必须指出的是，除第s组 zs=xs ，其余每组的输入特征都经过一维卷积处理，再将处理后的特征进行聚合形成输出，其输出包含 xs 全部信息和 x1 到 xs−1中高语义特征，因此输出特征未包含原始输入 x1 到 xs−1中的低语义特征，因此导致原始输入特征 xi(1⩽i⩽s)低语义特征信息未能充分利用.

1.2 稠密连接网络

DenseNet网络的主要结构为DenseBlock，其每一层的输入均源于前面所有层的输出. 设一个DenseBlock结构中有l层，故其包含l×(l+1)/2个连接. 因其每层特征均通过稠密连接的方式连接后续所有层，记每一层的输入为 x0,x1,⋯则第l层的输入与前l−1层的特征相关，其可表示为 xl=Hl([x0,x1,⋯,xl−1])，其中 [x0,x1,⋯,xl−1] 为前 l−1 层特征在通道维度上的合并， Hl(⋅)代表非线性转化函数，其为卷积操作、批量标准化、激活函数后的结果，如图2所示. 该结构虽可实现特征重用，提升效率，并有效改善梯度消失的问题，但由于其需通过增加每层的信道维度来增加网络宽度，故不仅增加了模型的大小和计算复杂度，且只能获取有限的性能提升[16].

图 2 稠密连接结构示意图

上述研究表明：(1) SE-Res2Block通过对不同感受野的特征聚合实现对多尺度特征信息的提取，但其未能充分利用原始特征中的部分低语义特征，导致特征信息的损失；(2) DenseBlock通过对特征的重用来保证特征信息的完整性，但特征的过多重复利用会导致特征冗余和效率降低.

SE-DR-Res2Block模块结构

基于上述理论，为保证特征信息的完整性并减少特征冗余，论文通过将DenseBlock的稠密连接结构和SE-Res2Block相结合提出SE-DR-Res2Block. DenseBlock中的稠密连接结构及SE-Res2Block中的残差连接结构分别以增加信道维度和堆叠更多的卷积层的方式来加深网络，均可有效捕捉声纹信息，将两者进行融合得到SE-DR-Res2Block，其将通道维度上每一层的特征映射进行连接作为下一层的输入，同时堆叠更多的卷积层，使不同层次特征信息进行融合，更加充分地利用了多分辨率层的信息.

SE-DR-Res2Block模型结构如图3 所，其工作流程如下所示：

图 3 SE-DR-Res2Block结构示意图(示例取 T 为5， s 为4)

首先，将输入特征切分为s组，每组特征 xi(1⩽i⩽s)分别进行卷积，图中 yi(i∈{1,2,⋯,s−1})为中层特征， yi可表示为：

（2）

其中， yi=(yi−1⊕xi)中将当前特征 xi与前一组的特征 yi−1 进行相加后进行卷积，获取当前组的中层特征 yi . 当前组中层特征 yi接收前一组特征 yi−1信息后，相应信息感受野增大，上述不同组特征相加，使得每组中层特征实现对不同感受野特征的聚合，不同感受野包含不同尺度信息，当一个 Ci 接收来自前一个 Ci的特征信息时，相应的感受野会增大，而在这种残差结构中有若干个卷积层，这种操作经过层层作用，最终使得网络的输出获得多种感受野大小的组合，从而有效地以多尺度特征提取全局信息.

其次，每一组特征分别进行稠密和残差连接，其输出特征 zi可表示为：

（3）

其中， ⊗⊗ 表示特征合并. 式（3）中， yi⊕xi 将同组中层特征 yi与相应原始特征 xi相加，在同一组中增加感受野，对不同尺度特征进行聚合，该结构以多尺度特征提取本地信息.

然后，由 Ci((yi⊕xi)⊗xi)可知，将上述聚合后的特征再与原始特征 xi进行合并，实现原始特征的重用，其既保证原始特征信息完整性，又可获得高语义特征，增强特征表达能力，合并后的特征经过卷积从每组中获取不同感受野大小的特征，将所有组输出特征 zi重新聚合以融合不同组的特征信息，从而获取更多尺度的全局信息.

最后，将聚合后的特征输入到SE-Block，其结构如图4所示，相较于传统结构，这里采用卷积层替代全连接层，不仅降低了训练需要的参数，同时权重共享，可降低过拟合. SE-Block通过建立通道间的相互依赖关系，从而达到通道特征响应的目的，其可获取不同特征通道的重要程度，增强重要特征并抑制非重要特征.

图 4 SE-Block结构图

综上所述，SE-DR-Res2Block的工作原理为：(1) 基于残差结构将每个维度下声纹信息进行叠加以提高每个维度上的声纹信息，实现不同尺度特征的聚合；(2) 基于稠密连接结构实现特征信息重用，其通过对特征维度上的合并以提取整个特征所含的声纹信息；二者结合使模型同时增加了维度数和每个维度的信息以实现对特征信息的充分提取，从而增强特征表达能力；(3) SE-Block增加了对通道信息的关注，更有利于提取重要声纹特征，提升泛化能力.

实验设置

3.1 实验数据集

论文实验采用文本无关说话人识别的开源数据集Voxceleb1 ^[
22
] 和SITW （Speakers in the wild）数据集 ^[
23
] . 实验中训练集采用的Voxceleb1的训练集，包含了1211名说话人共计148642条语音，采样频率为16 kHz，单声道，音频无静音段，不需要进行语音活动检测处理 ^[
24
] . Voxceleb1的测试集包含40名说话人共计4874条语音，这些语音数据被处理成37720个测试对用于注册和测试.

SITW数据集是来自媒体的人工注释的语音样本，该数据集包含299名说话人，平均每人有8句语音. 实验使用SITW的评估集，包含180名说话人共计2883条语音，采用core-core测试场景进行测试，其中core表示样本中只包含单个说话人.

3.2 系统设置

声纹识别都是基于Pytorch平台实现，采用Adam优化器优化模型性能，batch size设为128，初始学习速率设为0.001，并采用余弦衰减的学习速率策略来调整学习速率，训练轮次设为70，使用批量标准化和ReLU激活函数加速收敛. 原始语音特征采用梅尔频率倒谱系数 ^[
25
] ，并对特征进行归一化处理. 所有系统采用AAM-softmax(Angular additive margin softmax)损失函数 ^[
26
] 进行训练，其中参照ECAPA-TDNN体系结构中，卷积层采用1024通道，SE-Block和注意力模块瓶颈维度设为128. SE-DR-Res2Block的参数 s 设置为8，采取最后一层192维向量作为说话人特征向量. 最终得分采用简单的余弦距离进行打分，性能指标使用等错误率（Equal error rate, EER）和最小检测代价函数（Minimum normalized detection cost, minDCF）.

3.3 实验结果

3.3.1 不同模块下Res2Net-50的性能比较

实验采用不同模块下的网络模型，并分别在Voxceleb1数据集上进行性能测试. 实验采用EER和最小检测代价函数（DCF0.1、DCF0.01、DCF0.001）作为性能指标来评价其性能，0.1、0.01、0.001为真实说话人出现的先验概率，以下用 p 值表示，其中x-vector作为基线系统，其他实验均在Res2Net-50网络上但采用不同的Res2Block进行，其中50表示网络结构中包含49个卷积层和1个全连接层. 以下实验分别为原始Res2Net-50系统；文献[ 27 ]提出的FULL-Res2Block的结构应用在Res2Net-50上的系统，均简记为FULL-Res2Net-50，其中FULL表示文献[ 27 ]中全连接结构形式；基于本文SE-DR-Res2Block结构的SE-DR-Res2Net-50系统；以及在FULL-Res2Net上的变体FULL-SE-DR-Res2Net-50系统.

由表1 可知：(1) SE-DR-Res2Net-50系统相较于Res2Net-50系统，参数量增加10.69×10 ⁶ ，EER下降了5.9%，minDCF在 p 值为0.1、0.01、0.001分别降低了3.9%、1.8%、2.5%；(2) FULL-SE-DR-Res2Net-50系统相较于FULL-Res2Net-50系统，参数量增加10.69×10 ⁶ ，EER下降了5.4%，minDCF在 p 值为0.1、0.01、0.001分别降低了1.9%、1.6%、0.6%. 结果表明，应用SE-DR-Res2Net的参数量增加，系统性能均有所提升，表明其具有更低的等错误率和最小检测代价函数，也证明了稠密连接和残差连接结合的有效性.

表 1 Voxceleb1测试集在不同Res2Net-50系统下的性能比较

3.3.2 不同模块下ECAPA-TDNN的性能比较

为体现SE-DR-Res2Block结构的适用性，在ECAPA-TDNN上进行性能测试. 结果如表2 所示，其中x-vector作为基线系统，其他实验均在ECAPA-TDNN系统上实现，分别采用不同的Res2Block进行实验. 其中，基于原始Res2Block模块的简记为Res2Block，基于文献[ 27 ]中FULL-Res2Block模块的简记为FULL-Res2Block，基于本文结构的记为SE-DR-Res2Block，基于FULL-Res2Block的变体记为FULL-SE-DR-Res2Block.

表 2 Voxceleb1测试集在不同ECAPA-TDNN系统下的性能比较

由表2 可知：(1) 其中基于SE-DR-Res2Block模块的系统，相于原始Res2Block模块下的ECAPA-TDNN系统，在参数量仅增加1.98M的情况下，EER下降了10%，minDCF在 p 值为0.1、0.01、0.001分别降低了9%、8.9%、3.8%；(2) FULL-SE-DR-Res2Block模块下的系统相较于FULL-Res2Block模块下的系统，参数量仅增加1.98M，EER下降了5.5%，minDCF在 p 值为0.1、0.01、0.001分别降低了5.6%、5.4%、2.2%. 实验结果表明，论文提出的结构在不同网络模型下也具有良好的性能，且在该模型下参数量增幅小，对训练耗时影响小.

机器学习的目的是为了让训练后的模型能更好地适用于新鲜样本，这种适应能力称为泛化能力. 为验证结构的泛化能力，在数据集SITW中的core-core测试场景中进行测试，其实验结果如表3 所示：(1) SE-DR-Res2Block相对于Res2Block，参数量仅增加1.98M，EER下降了6.6%，minDCF在 p 值为0.1、0.01、0.001分别降低了2.2%、4%、7.6%；(2) FULL-SE-DR-Res2Block相对于FULL-Res2Block，参数量仅增加1.98M，EER下降了4.3%，minDCF在 p 值为0.1、0.01、0.001分别降低了0、3.4%、3%. 由上述结果可知，SE-DR-Res2Block在新鲜样本的测试中也具有良好的性能，进一步证明了该模块具有良好的泛化能力.

表 3 SITW测试集在不同ECAPA-TDNN系统下的性能比较

3.3.3 不同时长的性能对比

为评估系统对不同时长的效果，实验采用core-core测试集下的三个子测试集，分别是小于15 s的语音，大于15 s小于25 s的语音及大于25 s小于40 s的语音. 采用不同的Res2Block在ECAPA-TDNN网络系统上进行测试，x-vector系统作为基线系统，实验的具体结果如表4 所示.

表 4 SITW不同时长下的EER

由表4 可知：(1) 随着时长的增长，因语音时长越长，包含的声纹信息也越多，所有系统的EER均降低，表示其性能均有提高；(2) 在系统中采用SE-DR-Res2Block相较于Res2Block，EER在0～15 s、15～25 s、25～40 s分别下降了11%、9.3%、3.8%；(3) FULL-SE-DR-Res2Block相较于FULL-Res2Block，EER在0～15 s、15～25 s、25～40 s分别下降了13.3%、5.3%、2.8%；(4) 其中时长越短，性能提升的愈明显，在所有时长中SE-DR-Res2Block的性能最佳. 实验结果表明，论文提出的结构对不同时长也具有明显优势，且其对短时语音的性能表现最好.

图5 显示的不同时长下不同系统的检测错误权衡曲线. 由图5 可知，SE-DR-Res2Block的大部分曲线在其他系统曲线的下方，表明较其他系统，在大部分工作点，即在False positive rate相同的条件下，其False negative rate更低，具有更好的性能.

图 5 检测误差权衡曲线. (a) 0～15 s; (b) 15～25 s; (c) 25～40 s

3.3.4 不同模型下的性能对比

为评估系统的有效性，在相同数据集下，对不同模型的性能进行比较. 所有实验训练集均为Voxceleb1的开发部分，测试集Voxceleb1和SITW分别为Voxceleb1的测试集和SITW的core-core测试场景.

结果如表5 所示，本文系统在Voxceleb1数据集上相较于文献[ 14 ]的新注意力机制、文献[ 17 ]的错误样本提升先验概率、文献[ 18 ]的多特征学习策略，EER分别下降了42%、36%、23%. 在SITW数据集上相较于文献[ 18 ]中的多声学特征结构(MTAF)和多特征学习策略LSTF-opt+S-CCA (Long-term and short-term features learning structure with canonical correlation analysis constraint)，EER分别下降了29%、13%. 结果表明，本文系统在相同数据集下，相较于其他系统取得了更低的等错误率，模型具有更好的性能.

表 5 不同模型下的性能比较

结论

针对声纹识别中传统的Res2Net模型的特征表达能力不足、泛化能力不强的问题，本文提出一种基于稠密和残差连接的结构SE-DR-Res2Block. 该结构中同时包含稠密和残差结构，其残差连接对不同尺度特征进行融合，增加了每个维度上的特征信息，其稠密连接通过特征重用，使部分低语义特征得以保留，实现了对特征的有效提取，且最大程度上保留了原始特征信息. 同时在SE-DR-Res2Block结构中通过增加通道注意力模块，提升对通道信息的关注，强化对重要特征的权重并降低不必要特征的权重，增强其泛化能力；实验结果表明，SE-DR-Res2Block模块相较于Res2Block模块，不是单一地对特征进行堆叠和拼接，而是对每一层的特征进行聚合，同时保留低语义特征信息，使得不同尺度特征和不同感受野信息进行互补，对不同层的特征进行最大化利用. 其中应用SE-DR-Res2Block的ECAPA-TDNN的网络模型在Voxceleb1和SITW数据集上的最佳等错误率(EER)分别为2.24%和3.65%，相较于Res2Block以及已有研究成果模型具有优异的特征表达能力及良好的泛化能力.

《工程科学学报》精选文章系列