吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (12): 3577-3588.doi: 10.13229/j.cnki.jdxbgxb.20230098
Dondrub LHAKPA1,2(
),Duoji ZHAXI1,Jie ZHU1,2(
)
摘要:
针对现代藏语文本表征形式复杂多样且不规范,影响语音合成系统的性能问题,提出了具有易于维护及可扩展性特点的藏语文本标准化方法。首先,对藏文标记符号和来自其他语言的非藏文特殊符号在藏语文本中的不同表现形式进行了深度解析,并通过不同特征对特殊符号进行了分类;其次,根据归纳的不同类型,分别建立起了15种特殊符号转化为藏语的书写规则;最后,以13 490个句子作为实验数据,通过藏语字音转换测试识别并检测文本中特殊符号和藏文音节的有效性,采用规则匹配的方法对含有特殊符号的句子进行标准化处理。实验结果表明:标准化之前藏语音素转写的遗漏率高达4.69%,而经过标准化之后音素转写的遗漏率降低到0.01%,其藏语文本标准化准确率达99%。
中图分类号:
| 1 | Ren Y, Hu C, Tan X, et al. Fastspeech 2: fast and high-quality end-to-end text to speech[DB/OL].[2023-01-06]. |
| 2 | 王莉莉. 面向特定领域藏语统计参数语音合成的文本分析研究[D]. 兰州: 西北师范大学物理与电子工程学院, 2020. |
| Wang Li-li. Text analysis of speech sythesis based on statical parameters of Tibetan language in specific fields[D]. Lanzhou:College of Physics and Electronic Engineering, Northwest Normal University, 2020. | |
| 3 | 张日培. 藏文文语转换系统关键技术研究[D]. 西宁: 青海师范大学计算机学院, 2018. |
| Zhang Ri-pei. Research on key technologies of Tibetan text-to-speech system[D]. Xining: College of Computer,Qinghai Normal University, 2018. | |
| 4 | 拉巴顿珠, 欧珠, 祖漪清, 等. 藏语同形异音词的消歧方法研究[J]. 中文信息学报, 2018, 32(7):58-66. |
| Lhakpa-Dondrub, Ngodrup, ZU Yi-qing, et al. Disambiguation of polyphonic words in Tibetan[J]. Journal of Chinese Information Processing, 2018, 32(7): 58-66. | |
| 5 | 庄暑楠. 基于深度学习的文本规范化的研究与实现[D]. 长春: 吉林大学计算机科学与技术学院, 2020. |
| Zhuang Shu-nan. Research and implementation of text normalization based on deep learning [D]. Changchun: College of Computer Science and Technology,Jilin University, 2020. | |
| 6 | Tyagi S, Bonafonte A, Lorenzo-Trueba J, et al. Proteno: text normalization with limited data for fast deployment in text to speech systems[DB/OL].[2023-01-08]. |
| 7 | Tran O T, Bui V T. Neural text normalization in speech-to-text systems with rich features[J]. Applied Artificial Intelligence, 2021, 35(3): 193-205. |
| 8 | Zhang H, Sproat R, Ng A H, et al. Neural models of text normalization for speech applications[J]. Computational Linguistics, 2019, 45(2): 293-337. |
| 9 | Mansfield C, Sun M, Liu Y, et al. Neural text normalization with subword units[C]∥Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, USA,2019: 190-196. |
| 10 | Massimo L, Tatyana R, Anne G, et al. Encoder-decoder methods for text normalization[J/OL]. [2023-01-12]. |
| 11 | Dai W L, Song C H, Li X, et al. An end-to-end Chinese text normalization model based on rule-guided flat-lattice transformer[C]∥Proceedings of the ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing, Singapore, 2022: 7122-7126. |
| 12 | 胥桂仙,刘兰寅,张廷,等.基于预训练模型和图神经网络的藏文文本分类研究[J].东北师大学报: 自然科学版,2023,55(1):52-64. |
| Xu Gui-xian, Liu Lan-yin, Zhang Ting, et al.Tibetan text classification based on pre-trained model and graph neural network[J]. Joural of Northeast Normal University (Natural Science Edition), 2023,55(1):52-64. | |
| 13 | 艾金勇. 面向信息处理的藏文文本规范化方法研究[J]. 西北师范大学学报: 自然科学版, 2017, 53(2):52-56. |
| Ai Jin-yong. Research on normalization method of Tibetan text for information processing[J]. Journal of Northwest Normal University (Natural Science), 2017, 53(2): 52-56. | |
| 14 | 贡保加, 才智杰, 才让卓玛, 等. 一种藏语语音识别中数字文本规范方法[J].高原科学研究, 2022, 6(3): 117-124. |
| Gong Bao-jia, Cai Zhi-jie, Cairang-Zhuoma, et al. Study on a method of standardizing digital text in Tibetan speech recognition[J]. Plateau Science Research, 2022, 6(3): 117-124. | |
| 15 | 边巴嘉措. 现代藏语书面语语音结构分析[M]. 北京: 北京民族出版社, 2017. |
| 16 | 邓戈. 藏语语音研究[M].拉萨: 西藏藏文古籍出版社, 2013. |
| 17 | 珠杰. 藏文文本自动处理方法研究[M]. 2版.成都:西南交通大学出版社, 2022. |
| [1] | 梁礼明,周珑颂,尹江,盛校棋. 融合多尺度Transformer的皮肤病变分割算法[J]. 吉林大学学报(工学版), 2024, 54(4): 1086-1098. |
| [2] | 车娜,朱奕明,赵剑,孙磊,史丽娟,曾现伟. 基于联结主义的视听语音识别方法[J]. 吉林大学学报(工学版), 2024, 54(10): 2984-2993. |
| [3] | 薛珊,张亚亮,吕琼莹,曹国华. 复杂背景下的反无人机系统目标检测算法[J]. 吉林大学学报(工学版), 2023, 53(3): 891-901. |
| [4] | 时小虎,吴佳琦,吴春国,程石,翁小辉,常志勇. 基于残差网络的弯道增强车道线检测方法[J]. 吉林大学学报(工学版), 2023, 53(2): 584-592. |
| [5] | 王振,杨宵晗,吴楠楠,李国坤,冯创. 基于生成对抗网络的序列交叉熵哈希[J]. 吉林大学学报(工学版), 2023, 53(12): 3536-3546. |
| [6] | 周丰丰,颜振炜. 基于混合特征的特征选择神经肽预测模型[J]. 吉林大学学报(工学版), 2023, 53(11): 3238-3245. |
| [7] | 王俊杰,农元君,张立特,翟佩臣. 基于施工场景的视觉关系检测方法[J]. 吉林大学学报(工学版), 2023, 53(1): 226-233. |
| [8] | 朱冰,李紫薇,李奇. 基于改进SegNet的遥感图像建筑物分割方法[J]. 吉林大学学报(工学版), 2023, 53(1): 248-254. |
| [9] | 秦贵和,黄俊锋,孙铭会. 基于双手键盘的虚拟现实文本输入[J]. 吉林大学学报(工学版), 2022, 52(8): 1881-1888. |
| [10] | 曲福恒,丁天雨,陆洋,杨勇,胡雅婷. 基于邻域相似性的图像码字快速搜索算法[J]. 吉林大学学报(工学版), 2022, 52(8): 1865-1871. |
| [11] | 白天,徐明蔚,刘思铭,张佶安,王喆. 基于深度神经网络的诉辩文本争议焦点识别[J]. 吉林大学学报(工学版), 2022, 52(8): 1872-1880. |
| [12] | 刘铭,杨雨航,邹松霖,肖志成,张永刚. 增强边缘检测图像算法在多书识别中的应用[J]. 吉林大学学报(工学版), 2022, 52(4): 891-896. |
| [13] | 方世敏. 基于频繁模式树的多来源数据选择性集成算法[J]. 吉林大学学报(工学版), 2022, 52(4): 885-890. |
| [14] | 王生生,李晨旭,王翔宇,姚志林,刘一申,吴佳倩,杨晴然. 基于改进残差胶囊网络和麻雀搜索的脑瘤图像分类[J]. 吉林大学学报(工学版), 2022, 52(11): 2653-2661. |
| [15] | 车翔玖,陈赫元. 基于改进YOLOv4的多目标光盘检测算法[J]. 吉林大学学报(工学版), 2022, 52(11): 2662-2668. |
|