吉林大学学报(工学版) ›› 2016, Vol. 46 ›› Issue (3): 870-875.doi: 10.13229/j.cnki.jdxbgxb201603029

• 论文 • 上一篇    下一篇

基于信道补偿的说话人识别算法

申铉京1, 2, 翟玉杰1, 2, 卢禹彤3, 王玉1, 2, 4, 陈海鹏1, 2   

  1. 1.吉林大学 计算机科学与技术学院,长春 130012;
    2.吉林大学 符号计算与知识工程教育部重点实验室,长春 130012;
    3.香港理工大学 工程学院,香港 999077;
    4.吉林大学 应用技术学院, 长春 130012
  • 收稿日期:2014-08-28 出版日期:2016-06-20 发布日期:2016-06-20
  • 通讯作者: 陈海鹏(1978-),男,副教授,博士.研究方向:图像处理及模式识别,多媒体信息安全.E-mail:chenhp@jlu.edu.cn
  • 作者简介:申铉京(1958),男,教授,博士生导师.研究方向:图像处理及模式识别,多媒体信息安全,智能控制技术.E-mail:xjshen@jlu.edu.cn
  • 基金资助:
    国家青年科学基金项目(61305046); 吉林省自然科学基金项目(20140101193JC); 吉林省青年科学基金项目(20130522117JH).

Speaker recognition algorithm based on channel compensation

SHEN Xuan-jing1, 2, ZHAI Yu-jie1, 2, LU Yu-tong3, WANG Yu1, 2, 4, CHEN Hai-peng1, 2   

  1. 1.College of Computer Science and Technology, Jilin University, Changchun 130012, China;
    2.Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,Jilin University, Changchun 130012, China;
    3.Faculty of Engineering,The Hong Kong Polytechnic University,Hong Kong 999077,China;
    4.Applied Technology College of Jilin University, Changchun 130012, China
  • Received:2014-08-28 Online:2016-06-20 Published:2016-06-20

摘要: 现有说话人识别算法普遍受信道因素的干扰,为了提高算法的准确率,在特征级利用特征弯折算法对语音特征参数进行处理,在模型级利用因子分析技术对说话人混合高斯模型(GMM)进行信道处理。对端点进行检测后,利用特征弯折算法对语音特征参数梅尔倒谱系数(MFCC)进行处理,去除线性信道和背景噪声的影响,并建立说话人GMM。然后利用因子分析技术拟合说话人特征空间与信道空间的差异,去除信道因子的影响。最后提取高斯超向量并通过支持向量机(SVM)得到识别结果。实验结果证明了信道补偿算法与GMM-SVM相结合能获得更好的识别率,并能保证算法的鲁棒性。

关键词: 计算机应用, 说话人识别, 支持向量机, 混合高斯模型, 特征弯折, 隐藏因子分析

Abstract: Channel interference factor for the identification results is prevalent among the existing speaker recognition algorithm. In order to improve the accuracy of the system, in this paper, feature warping is used to compensate the channel factor of Mel-Frequency Cepstral Coefficient (MFCC) features. Then, factor analysis technique is applied to deal with the channel factors of the speaker's Gaussian Mixture Model (GMM). In the endpoint detection phase of speech of this recognition system, the GMM for speech modeling is built to accurately determine the beginning and end points of the speech segment, and then the features after feature warping are used to establish speaker GMM. Using factor analysis technique to fit the differences between the speaker characteristics space and the channel space, the algorithm removes channel factor from GMM, and then extracts GMM super-vectors as input of the Support Vector Machine (SVM) to obtain recognition results. Experimental results show that the combination of channel compensation technique and SVM can obtain better recognition rate, and ensure the robustness of the system.

Key words: computer application, speaker recognition, support vector machine(SVM), Gaussian mixture model(GMM), feature warp, latent factor analysis(LFA)

中图分类号: 

  • TP391
[1] Takiguchi T, Nakamura S, Shikano K. HMM-separation-based speech recognition for a distant moving speaker[J]. IEEE Transactions on Speech and Audio Processing,2001,9(2):127-140.
[2] 吴迪,曹洁,王进花.基于自适应高斯混合模型与静动态听觉特征融合的说话人识别[J]. 光学精密工程,2013,21(6):1598-1604.
Wu Di,Cao Jie,Wang Jin-hua. Speaker recognition based on adapted Gaussian mixture model and static and dynamic auditory feature fusion[J]. Optics and Precision Engineering,2013,21(6):1598-1604.
[3] Johnson M, Sinha P. A compact model for speaker-adaptive training[J]. Powder Technology,2013,237(3):506-513.
[4] Kinnunen T, Li H. An overview of text-independent speaker recognition:from features to supervectors[J]. Speech Communication,2010,52(1):12-40.
[5] Kasuriya S,Wutiwiwatchai C,Achariyakulporn V,et al.Comparative study of continuous hidden Markov
models (CHMM) and artificial neural network (ANN) on speaker identification system[J]. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems,2001,9(6):673-683.
[6] Campbell W M, Sturim D E, Reynolds D A. Support vector machines using GMM supervectors for speaker verification[J]. Signal Processing Letters,2006,13(5):308-311.
[7] Munteanu D P, Toma S A. Automatic speaker verification experiments using HMM[C]∥8th International Conference on Communications, Bucharest,Romanian,2010:107-110.
[8] Badran E F M F, Selim H. Speaker recognition using artificial neural networks based on vowel phonemes[C]∥5th International Conference on Signal Processing, Beijing,China, 2000:796-802.
[9] 张素敏,苏东林,王炜. 改进的基于决策树的说话人在线聚类[J]. 光学精密工程,2010,18(1):227-233.
Zhang Su-min,Su Dong-lin,Wang Wei. Improved online speaker clustering based on decision tree[J]. Optics and Precision Engineering, 2010,18(1):227-233.
[10] Ding I J, Yen C T. Enhancing GMM speaker identification by incorporating SVM speaker verification for intelligent web-based speech applications[J]. Multimedia Tools and Applications,2015,74(14):5131-5140.
[11] Sen N, Patil H A, Mandal S K D, et al. Importance of Utterance Partitioning in SVM Classifier with GMM Supervectors for Text-Independent Speaker Verification[M]. Heidelberg:Springer International Publishing,2013:780-789.
[12] 王玉,申铉京,陈海鹏,等. 多角度特征融合的视频人脸纹理表示及识别[J]. 吉林大学学报:工学版,2015,45(6):1954-1960.
Wang Yu,Shen Xuan-jing,Chen Hai-peng,et al. Video-based face texture representation and recognitionwith fusion features from multi-view[J]. Journal of Jilin University(Engineering and Technology Edition), 2015,45(6):1954-1960.
[13] Neff M, Kipp M, Albrecht I, et al. Gesture modeling and animation based on a probabilistic re-creation of speaker style[J]. Acm Transactions on Graphics,2008,27(1):329-339.
[14] Chang C C, Lin C J. LIBSVM: a library for support vector machines[DB/OL].[2014-07-26].http:∥www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf.
[1] 刘富,宗宇轩,康冰,张益萌,林彩霞,赵宏伟. 基于优化纹理特征的手背静脉识别系统[J]. 吉林大学学报(工学版), 2018, 48(6): 1844-1850.
[2] 王利民,刘洋,孙铭会,李美慧. 基于Markov blanket的无约束型K阶贝叶斯集成分类模型[J]. 吉林大学学报(工学版), 2018, 48(6): 1851-1858.
[3] 金顺福,王宝帅,郝闪闪,贾晓光,霍占强. 基于备用虚拟机同步休眠的云数据中心节能策略及性能[J]. 吉林大学学报(工学版), 2018, 48(6): 1859-1866.
[4] 赵东,孙明玉,朱金龙,于繁华,刘光洁,陈慧灵. 结合粒子群和单纯形的改进飞蛾优化算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1867-1872.
[5] 刘恩泽,吴文福. 基于机器视觉的农作物表面多特征决策融合病变判断算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1873-1878.
[6] 隗海林, 包翠竹, 李洪雪, 李明达. 基于最小二乘支持向量机的怠速时间预测[J]. 吉林大学学报(工学版), 2018, 48(5): 1360-1365.
[7] 欧阳丹彤, 范琪. 子句级别语境感知的开放信息抽取方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1563-1570.
[8] 刘富, 兰旭腾, 侯涛, 康冰, 刘云, 林彩霞. 基于优化k-mer频率的宏基因组聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1593-1599.
[9] 桂春, 黄旺星. 基于改进的标签传播算法的网络聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1600-1605.
[10] 刘元宁, 刘帅, 朱晓冬, 陈一浩, 郑少阁, 沈椿壮. 基于高斯拉普拉斯算子与自适应优化伽柏滤波的虹膜识别[J]. 吉林大学学报(工学版), 2018, 48(5): 1606-1613.
[11] 车翔玖, 王利, 郭晓新. 基于多尺度特征融合的边界检测算法[J]. 吉林大学学报(工学版), 2018, 48(5): 1621-1628.
[12] 赵宏伟, 刘宇琦, 董立岩, 王玉, 刘陪. 智能交通混合动态路径优化算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1214-1223.
[13] 黄辉, 冯西安, 魏燕, 许驰, 陈慧灵. 基于增强核极限学习机的专业选择智能系统[J]. 吉林大学学报(工学版), 2018, 48(4): 1224-1230.
[14] 傅文博, 张杰, 陈永乐. 物联网环境下抵抗路由欺骗攻击的网络拓扑发现算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1231-1236.
[15] 曹洁, 苏哲, 李晓旭. 基于Corr-LDA模型的图像标注方法[J]. 吉林大学学报(工学版), 2018, 48(4): 1237-1243.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 刘松山, 王庆年, 王伟华, 林鑫. 惯性质量对馈能悬架阻尼特性和幅频特性的影响[J]. 吉林大学学报(工学版), 2013, 43(03): 557 -563 .
[2] 初亮, 王彦波, 祁富伟, 张永生. 用于制动压力精确控制的进液阀控制方法[J]. 吉林大学学报(工学版), 2013, 43(03): 564 -570 .
[3] 李静, 王子涵, 余春贤, 韩佐悦, 孙博华. 硬件在环试验台整车状态跟随控制系统设计[J]. 吉林大学学报(工学版), 2013, 43(03): 577 -583 .
[4] 胡兴军, 李腾飞, 王靖宇, 杨博, 郭鹏, 廖磊. 尾板对重型载货汽车尾部流场的影响[J]. 吉林大学学报(工学版), 2013, 43(03): 595 -601 .
[5] 王同建, 陈晋市, 赵锋, 赵庆波, 刘昕晖, 袁华山. 全液压转向系统机液联合仿真及试验[J]. 吉林大学学报(工学版), 2013, 43(03): 607 -612 .
[6] 张春勤, 姜桂艳, 吴正言. 机动车出行者出发时间选择的影响因素[J]. 吉林大学学报(工学版), 2013, 43(03): 626 -632 .
[7] 马万经, 谢涵洲. 双停车线进口道主、预信号配时协调控制模型[J]. 吉林大学学报(工学版), 2013, 43(03): 633 -639 .
[8] 于德新, 仝倩, 杨兆升, 高鹏. 重大灾害条件下应急交通疏散时间预测模型[J]. 吉林大学学报(工学版), 2013, 43(03): 654 -658 .
[9] 肖赟, 雷俊卿, 张坤, 李忠三. 多级变幅疲劳荷载下预应力混凝土梁刚度退化[J]. 吉林大学学报(工学版), 2013, 43(03): 665 -670 .
[10] 肖锐, 邓宗才, 兰明章, 申臣良. 不掺硅粉的活性粉末混凝土配合比试验[J]. 吉林大学学报(工学版), 2013, 43(03): 671 -676 .