摘要: 针对连接时序分类模型需具有输出独立性的假设, 对语言模型的依赖性强且训练周期长的问题, 提出一种基于连接时序分类模型的语音识别方法. 首先, 基于传统声学模型的框架, 利用先验知识训练基于注意力机制的语谱图特征提取网络, 有效提高了语音特征的区分性和鲁棒性; 其次, 将语谱图特征提取网络拼接在连接时序分类模型的前端, 并减少模型中循环神经网络层数进行重新训练. 测试分析结果表明, 该改进模型缩短了训练时间, 有效提升了语音识别准确率.
中图分类号:
姜囡, 庞永恒, 高爽. 基于注意力机制语谱图特征提取的语音识别[J]. 吉林大学学报(理学版), 2024, 62(2): 320-0330.
JIANG Nan, PANG Yongheng, GAO Shuang. Speech Recognition Based on Attention Mechanism and Spectrogram Feature Extraction[J]. Journal of Jilin University Science Edition, 2024, 62(2): 320-0330.