吉林大学学报(理学版) ›› 2026, Vol. 64 ›› Issue (2): 394-0402.
黄金鑫1, 贺前华1, 郑若伟1, 杨茗茹1, 王文武2
HUANG Jinxin1, HE Qianhua1, ZHENG Ruowei1, YANG Mingru1, WANG Wenwu2
摘要: 针对低资源条件下语音关键词检测准确率较低的问题, 提出一种联合无监督特征提取与有监督模型参数迁移的检测方法. 首先, 利用大规模无标注语音数据训练深度特征提取网络, 并将提取的特征与声学谱图特征进行融合, 以增强特征对声学环境的鲁棒性; 其次, 利用源域丰富的有标注数据对判决网络进行预训练, 通过参数迁移的方式引入判决知识, 解决目标域训练数据不足导致的模型难收敛问题; 最后, 使用极少量目标域数据对整体网络进行微调. 在客家话及粤语数据集上的实验结果表明, 该方法显著优于单一迁移策略, 在客家话任务中错误拒绝率降至11.77%, 加权关键词最大值提升至0.734 6. 实验结果证明该方法能有效缓解数据匮乏问题, 显著提升低资源语种的检测性能.
中图分类号: