吉林大学学报(工学版) ›› 2015, Vol. 45 ›› Issue (5): 1665-1670.doi: 10.13229/j.cnki.jdxbgxb201505041

• • 上一篇    下一篇

基于信号能量的浊语音盲信号分离算法

李鸿燕, 屈俊玲, 张雪英   

  1. 太原理工大学 信息工程学院,太原 030024
  • 收稿日期:2013-12-16 出版日期:2015-09-01 发布日期:2015-09-01
  • 作者简介:李鸿燕(1973-),女,副教授,博士.研究方向:盲信号处理,模式识别.E-mail:tylihy@163.com 实验采用英国谢菲尔德大学提供的Cooke语音库。它是由10句连续的浊语音与10种不同的噪声干扰混合形成100个混合语音信号,其中,10句目标语音是由两名男性分别朗读5个句子,采样频率是16 kHz,16 bit量化。10种不同的噪声干扰分别是:1 kHz的纯音调N0,白噪声N1,突变噪声N2,鸡尾酒会噪声N3,摇滚音乐N4,警报声N5,电话铃声N6,女生语音N7,男生语音N8,女生语音N9。 图3 原始纯净语音和电话铃声混合的分离结果
  • 基金资助:
    山西省自然科学基金项目(2013011016-1); 高等学校博士学科点专项科研基金项目(2011081047); 山西省自然科学青年基金项目(2013021016-1)

Voiced speech blind signal separation algorithm based on signal energy

LI Hong-yan, QU Jun-ling, ZHANG Xue-ying   

  1. College of Information Engineering, Taiyuan University of Technology, Taiyuan 030024, China
  • Received:2013-12-16 Online:2015-09-01 Published:2015-09-01

摘要: 针对以往单声道浊语音分离算法对目标语音信号分离不稳定性和信噪比低的不足,引入了浊语音的另一个重要特征,即信号能量。提出了一种基于信号能量的浊语音分离算法,算法对经典的Hu-Wang算法进行了改进,将能量特征应用于听觉重组部分,通过能量特征来改进目标语音听觉流的重组性能,降低噪声对重组后的目标听觉流的干扰,提高算法的稳定性。实验结果表明:与Hu-Wang算法相比较,该改进算法可提高目标语音的分段信噪比,改善了目标浊语音的分离性能。

关键词: 通信技术, 计算听觉场景分析, 语音分离, 信号能量, 听觉片段, 听觉流

Abstract: Considering the shortcoming of instability and low SNR in existing monaural voiced speech separation algorithms, a new voiced speech separation algorithm based on signal energy is proposed, which introduces the signal energy as another important voiced speech feature. This new algorithm is based on the improvement of the classical Hu-Wang algorithm, applying energy feature to the auditory reorganization part. It further improves the reorganization performance of the target speech auditory stream as well as reduces the influence of noise and improves its stability by applying the energy feature. The experiment results show that compared with Hu-Wang algorithm, this improved algorithm can improve the segmental SNR of the target speech segmentation and improve the separation performance obviously.

Key words: communication technology, computational auditory scene analysis, speech separation, signal energy, auditory segment, auditory stream

中图分类号: 

  • TN912.3
[1] Hu K, Wang D L. Unvoiced speech segregation from nonspeech interference via CASA and spectral subtraction[J]. IEEE Trans on Audio,Speech and Lang Process, 2011, 19(6): 1600-1609.
[2] Hu K,Wang D L.An unsupervised approach to cochannel speech separation[J].IEEE Trans on Audio,Speech and Lang Process,2013, 21(1): 120-129.
[3] Hu G N, Wang D L. Auditory segmentation based on onset and offset analysis[J]. IEEE Trans on Audio,Speech and Lang Process, 2007, 15(2): 396-405.
[4] Narayanan A, Wang D L. A CASA based system for long-term SNR estimation[J]. IEEE Trans on Audio,Speech and Lang Process, 2012, 20(9): 2518-2527.
[5] Wang Y, Han K, Wang D L. Exploring monaural features for classification-based speech segregation[J]. IEEE Trans on Audio Speech and Lang Process, 2013, 21(2): 270-279.
[6] Hu G N, Wang D L. A tandem algorithm for pitch estimation and voiced speech segregation[J]. IEEE Trans on Audio Speech and Lang Process, 2010, 18(8):2067-2079.
[7] 李从清, 孙立新, 龙东,等. 语音分离技术的研究现状与展望[J]. 声学技术, 2008, 27(13):779-785. Li Cong-qing, Sun Li-xin, Long Dong,et al. State and frontiers of research in speech separation[J]. Technical Acoustics, 2008, 27(13):779-785.
[8] 马建芬.语音信号盲分离与增强算法的研究[M].北京: 电子工业出版社, 2012. [9] Hu G N, Wang D L. Monaural speech segregation based on pitch tracking and amplitude modulation[J]. IEEE Trans on Neural Networks, 2004, 15(5):1135-1150.
[10] 赵立恒,汪增福. 基于谐波和能量特征的单声道浊语音分离方法[J]. 声学学报,2012, 37(2):218-224. Zhao Li-heng,Wang Zeng-fu.Monaural voiced speech separation based on harmonic and energy features[J]. Acta Acustica, 2012, 37(2): 218-224.
[11] Wang D L,Brown G J. Computational Auditory Scene Analysis[M]. USA: IEEE Press, 2006.
[12] 张学良,刘文举,李鹏,等. 改进谐波组织规则的单通道浊语音分离系统[J]. 声学学报,2011, 36(1): 88-96. Zhang Xue-liang,Liu Wen-ju,Li Peng,et al.Monaural voiced speech separation based on improved harmonic grouping rules[J]. Acta Acustica, 2011, 36(1): 88-96.
[13] Wang D L, Brown G J. Separation of speech from interfering sounds based on oscillatory correlation[J]. IEEE Trans on Neural Networks, 1999, 10(3): 684-697.
[14] 蒋毅,梁维谦,周宏. 低信噪比下二值掩蔽算法性能分析[J]. 清华大学学报:自然科学版,2012, 52(5): 636-641. Jiang Yi, Liang Wei-qian, Zhou Hong. Performance of binary time-frequency masks in low signal to noise ratio environments[J]. Journal of Tsinghua University (Natural science edition), 2012, 52(5):636-641.
[1] 周彦果,张海林,陈瑞瑞,周韬. 协作网络中采用双层博弈的资源分配方案[J]. 吉林大学学报(工学版), 2018, 48(6): 1879-1886.
[2] 孙晓颖, 扈泽正, 杨锦鹏. 基于分层贝叶斯网络的车辆发动机系统电磁脉冲敏感度评估[J]. 吉林大学学报(工学版), 2018, 48(4): 1254-1264.
[3] 董颖, 崔梦瑶, 吴昊, 王雨后. 基于能量预测的分簇可充电无线传感器网络充电调度[J]. 吉林大学学报(工学版), 2018, 48(4): 1265-1273.
[4] 牟宗磊, 宋萍, 翟亚宇, 陈晓笑. 分布式测试系统同步触发脉冲传输时延的高精度测量方法[J]. 吉林大学学报(工学版), 2018, 48(4): 1274-1281.
[5] 丁宁, 常玉春, 赵健博, 王超, 杨小天. 基于USB 3.0的高速CMOS图像传感器数据采集系统[J]. 吉林大学学报(工学版), 2018, 48(4): 1298-1304.
[6] 陈瑞瑞, 张海林. 三维毫米波通信系统的性能分析[J]. 吉林大学学报(工学版), 2018, 48(2): 605-609.
[7] 张超逸, 李金海, 阎跃鹏. 双门限唐检测改进算法[J]. 吉林大学学报(工学版), 2018, 48(2): 610-617.
[8] 关济实, 石要武, 邱建文, 单泽彪, 史红伟. α稳定分布特征指数估计算法[J]. 吉林大学学报(工学版), 2018, 48(2): 618-624.
[9] 李炜, 李亚洁. 基于离散事件触发通信机制的非均匀传输网络化控制系统故障调节与通信满意协同设计[J]. 吉林大学学报(工学版), 2018, 48(1): 245-258.
[10] 孙晓颖, 王震, 杨锦鹏, 扈泽正, 陈建. 基于贝叶斯网络的电子节气门电磁敏感度评估[J]. 吉林大学学报(工学版), 2018, 48(1): 281-289.
[11] 武伟, 王世刚, 赵岩, 韦健, 钟诚. 蜂窝式立体元图像阵列的生成[J]. 吉林大学学报(工学版), 2018, 48(1): 290-294.
[12] 袁建国, 张锡若, 邱飘玉, 王永, 庞宇, 林金朝. OFDM系统中利用循环前缀的非迭代相位噪声抑制算法[J]. 吉林大学学报(工学版), 2018, 48(1): 295-300.
[13] 王金鹏, 曹帆, 贺晓阳, 邹念育. 基于多址干扰和蜂窝间互扰分布的多载波系统联合接收方法[J]. 吉林大学学报(工学版), 2018, 48(1): 301-305.
[14] 石文孝, 孙浩然, 王少博. 无线Mesh网络信道分配与路由度量联合优化算法[J]. 吉林大学学报(工学版), 2017, 47(6): 1918-1925.
[15] 姜来为, 沙学军, 吴宣利, 张乃通. LTE-A异构网络中新的用户选择接入和资源分配联合方法[J]. 吉林大学学报(工学版), 2017, 47(6): 1926-1932.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!