吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (12): 3577-3588.doi: 10.13229/j.cnki.jdxbgxb.20230098

• 计算机科学与技术 • 上一篇    下一篇

藏语文本标准化方法

拉巴顿珠1,2(),扎西多吉1,珠杰1,2()   

  1. 1.西藏大学 信息科学技术学院,拉萨 850000
    2.西藏信息化省部共建协同创新中心,拉萨 850000
  • 收稿日期:2023-02-03 出版日期:2024-12-01 发布日期:2025-01-24
  • 通讯作者: 珠杰 E-mail:zangye@163.com;790139756@qq.com
  • 作者简介:拉巴顿珠(1990-),男,讲师,博士研究生.研究方向:计算语言学,人工智能.E-mail:zangye@163.com
  • 基金资助:
    国家自然基金项目(62406256);教育部人文社会科学研究项目(21YJCZH059);2025年西藏自治区自然科学基金项目(ZRKX2025000068);西藏大学在职攻读博士学位及博士后进站研究人员科研项目(zbds202326);西藏大学培育计划项目(ZDQMJH20-09)

Tibetan text normalization method

Dondrub LHAKPA1,2(),Duoji ZHAXI1,Jie ZHU1,2()   

  1. 1.School of Information Science and Technology,Tibet University,Lhasa 850000,China
    2.Tibet Informatization Collaborative Innovation Center Jointly Built by the Province and the Ministry,Lhasa 850000,China
  • Received:2023-02-03 Online:2024-12-01 Published:2025-01-24
  • Contact: Jie ZHU E-mail:zangye@163.com;790139756@qq.com

摘要:

针对现代藏语文本表征形式复杂多样且不规范,影响语音合成系统的性能问题,提出了具有易于维护及可扩展性特点的藏语文本标准化方法。首先,对藏文标记符号和来自其他语言的非藏文特殊符号在藏语文本中的不同表现形式进行了深度解析,并通过不同特征对特殊符号进行了分类;其次,根据归纳的不同类型,分别建立起了15种特殊符号转化为藏语的书写规则;最后,以13 490个句子作为实验数据,通过藏语字音转换测试识别并检测文本中特殊符号和藏文音节的有效性,采用规则匹配的方法对含有特殊符号的句子进行标准化处理。实验结果表明:标准化之前藏语音素转写的遗漏率高达4.69%,而经过标准化之后音素转写的遗漏率降低到0.01%,其藏语文本标准化准确率达99%。

关键词: 计算机应用技术, 藏语文本分析, 文本标准化, 语音合成, 特殊符号, 字音转换

Abstract:

In view of the complexity and nonstandard representation of modern Tibetan text, which affects the performance of speech synthesis system, this paper proposes a Tibetan text standardization method with the characteristics of easy maintenance and scalability. Firstly,a deep analysis was conducted on the different manifestations of Tibetan marker symbols and non Tibetan special symbols from other languages in Tibetan texts, and the special symbols were classified based on different features. Secondly, according to the different types of induction, the writing rules for converting 15 special symbols into Tibetan language were respectively established. Finally, using 13 490 sentences as the experimental data, the effectiveness of special symbols and Tibetan syllables in the text is identified and tested through the Tibetan grapheme-to-phoneme conversion test, and the sentences containing special symbols are standardized by the method of rule matching. The experimental results show that the omission rate of Tibetan phoneme transcription before standardization was as high as 4.69%, but after standardization, the omission rate of phoneme transcription was reduced to 0.01%, and the standardization accuracy rate of Tibetan text reached 99%.

Key words: computer application technology, Tibetan text analysis, text normalization, text-to-speech, special symbols, grapheme-to-phoneme

中图分类号: 

  • TP391

表1

藏语标记符号(部分)"

功能标记符号功能标记符号
起始符?? ? ? ?吟诵示意符? ? ? ?
句末符? ? ? ?装饰符号? ? ? ?
历算占星符? ? ? ?标点符号? ? ? ?

表2

藏文基本数字符号对照表"

项目藏文数字符号
??????????
汉语含义
藏语含义????????????????????????????????????????
阿拉伯数字0123456789

表3

藏文半数值符号对照表"

藏文数字符号??????????
阿拉伯数字-0.50.51.52.53.54.55.56.57.58.5

表4

藏语位数词的对照表"

项目位 数
1101001 00010 000100 0001 000 00010 000 000100 000 000
含义十万百万千万亿
藏语写法?????????????????????????或????????????或???????????或?????????????

表5

藏语基数词的对照表"

项目单基数词
0123456789
含义
藏语写法????????????????????????????????????????

表6

藏语数词连接词"

连接词????????????????
使用位置21~2931~3941~4951~5961~6971~7981~8991~99

表7

藏语月份的书写格式"

月份文本中出现的形式规范写法
1月?????1???1??????????
2月?????2???2???????????
3月?????3???3???????????
4月?????4???4??????????
5月?????5???5?????????
6月?????6???6???????????
7月?????7???7???????????
8月?????8???8????????????
9月?????9???9??????????
10月?????10???10??????????
11月?????11???11???????????????
12月?????12???12???????????????

表8

时间的书写格式"

序号含义规范写法
1小时??????
2?????
3?????

表9

常用电话号码的书写格式"

序号电话号码书写格式含义藏语书写规则
10+手机号座机打异地号码从左到右的顺序依次转写
2+国家代码-地区号码-用户号码国际电话号码
3区号+普通号码国内电话号码
43|4|5位数的号码特殊电话号码

表10

常用算术运算符的规范书写格式"

符号汉语含义藏语含义藏语书写规则
+加上??????x+??????+y
-减去????x+????+y
×|*乘以?????x+?????+y
÷|/除以????x+????+y

表11

常用关系运算符的规范书写格式"

符号汉语含义藏语含义举例藏语书写规则
<小于????????x<yx+???+y
>大于???????x>yx+??+y
=等于?????x=yx+?????+y

表12

单位缩略词对照表"

序号缩略词含义藏语规范写法
1mm毫米????????
2mL毫升????????
3g??
4摄氏度??????????????
5°????
6@At????

表13

特殊名词缩写"

序号特殊符号含义规范格式
1CBA中国篮球职业联赛CBA
2NBA美国职业篮球联赛NBA
3UEFA欧洲冠军联赛UEFA
4VIP重要人物VIP
5CEO首席执行官CEO

表14

金钱货币的规则表"

货币种类藏语规范写法汉语规范写法

藏语

书写规则

USD,$???????????????|???????美元

币种在前,

数字在后

MCY,¥?????????????????|?????人民币
AUD,A$??????????????????????澳大利亚元
?????????英镑

表15

藏语文本中的常用标点符号"

标点符号含义功能规范格式
( )圆括号在文本中起停顿、语气等作用在文本中不发音,不予转写成藏语
[]方括号
{ }花括号|大括号
《 》书名号
冒号
连接号
“”引号

图1

实验流程图"

表16

标准化前藏语音素转写测试结果"

YTYFTTTFOR/%
6 29517801324.69

表17

标准化后藏语音素转写测试结果"

是否人工介入YTYFTTTFOR/%
6 9020010.01
6 724178012.59

表18

实验结果实例"

测试句子标准化之前的测试结果标准化之后的测试结果

特殊符号检测结果

(音素转写测试1)

文本标准化处理结果

标准的藏语音素序列文本

(音素转写测试2)

???????????650????????????????????????mxii ttej cxii 650 lxaa nnee lxen jqed gjuw rred?????????????????????????????????????????????????????mxii ttej cxii chug gjaa ngaa ccuw lxaa nnee lxen jqed gjuw rred
???1????10????????????????????“110??????????????????”???32??????ddaa 1 tses 10 nxin nzii gjal yxoj gbii “110 chil zhaf nxin mxow ” ah 32 bvaa yxin???????????????????????????????????????????????????????????????????????????????????????????????????ddaa dtah bvow tses ccuw nxin nzii gjal yxoj gbii ccig ccig llad gvor chil zhaf nxin mxow ah ssum ccuw ssow njis bvaa yxin
????????????????????????????????????????????????????????????????????ggee dqun qqos ppel nzii ccii lxow ???? lxoi ccii ddaa ? bvai tses ?? nxin cxuj??????????????????????????????????????????????????????????????????????????????????????????????????????ggee dqun qqos ppel nzii ccii lxow qqig dvoh gguw gjaa ccuw mxed ssum lxoi ccii ddaa xqii bvai tses nxii xxuw nxin cxuj
???????(1990~2022)?????????????????????kkoh nzii (1990~2022)phar phod dtuw xquf bvaa rred?????????????????????????????????????????????????????????????????????????????????????????kkoh nzii qqig dvoh gguw gjaa gguw ccuw nzas nxis dvoh gjaa mxed nxii xxuw zzaa njis phar phod dtuw xquf bvaa rred
“119”??????????????????????????????“119” ah chaj gkah jquh dtuw nnon mxii qqog????????????????????????????????????????????ccig ccig gguw ah chaj gkah jquh dtuw nnon mxii qqog
???????????????-15 ℃??????????ppal qqer chod tsad -15 ℃ yxod bvaa ztaa????????????????????????????????????????????????????ppal qqer chod tsad llad gvor vvog gkii dvuv ccow ngaa yxod bvaa ztaa
?????????1+5=6 ???????????????????????zzis xqii 1+5=6 llob qquh gkii nzah dton rred??????????????????????????????????????????????????????????zzis xqii ccig ddop ngaa tsuj chug llob qquh gkii nzah dton rred
???????????????500.6????hid tsad lxaa mmis 500.6 dqug????????????????????????????????????jhid tsad lxaa mmis ngaa gjaa tseg chug dqug
??????????????:??????????dtaa dvaa qquw tsod ??:?? rred dqug???????????????????????????????????????dtaa dvaa qquw tsod gguw bvaa dtah gvar mxaa ccuw rred dqug
??????????50%?????????????????chaj bqor 50% phar mxah dtuw dvah yxod?????????????????????????????????????????chaj bqor gjaa qqaa ngaa ccuw phar mxah dtuw dvah yxod
????????1984??????????????????????????????????????????NBA????????????????ccii lxow 1984 lxor ngos ssuw aa rrii lxag zzed bvow lxow ttun tsof NBA nzah ngos ssuw xquf????????????????????????????????????????????????????????????????????????????????????NBA????????????????ccii lxow qqig dvoh gguw gjaa gjad ccuw gtaa xqii lxor ngos ssuw aa rrii lxag zzed bvow lxow ttun tsof NBA nzah ngos ssuw xquf
???????????????(1991~2001)????????????????????????kkoh nzii lxow nkow ??(1991~2001)lhaa ssar tsow phaa gbel phaa rred?????????????????(??????????????????????????????????????????????????????????????????????)????????????????????????kkoh nzii lxow nkow ccuw qqig dvoh gguw gjaa gguw ccuw gkow ccig tten nxis dvoh gjaa mxed ccuw mxed ccig lhaa ssar tsow phaa gbel phaa rred
1 Ren Y, Hu C, Tan X, et al. Fastspeech 2: fast and high-quality end-to-end text to speech[DB/OL].[2023-01-06].
2 王莉莉. 面向特定领域藏语统计参数语音合成的文本分析研究[D]. 兰州: 西北师范大学物理与电子工程学院, 2020.
Wang Li-li. Text analysis of speech sythesis based on statical parameters of Tibetan language in specific fields[D]. Lanzhou:College of Physics and Electronic Engineering, Northwest Normal University, 2020.
3 张日培. 藏文文语转换系统关键技术研究[D]. 西宁: 青海师范大学计算机学院, 2018.
Zhang Ri-pei. Research on key technologies of Tibetan text-to-speech system[D]. Xining: College of Computer,Qinghai Normal University, 2018.
4 拉巴顿珠, 欧珠, 祖漪清, 等. 藏语同形异音词的消歧方法研究[J]. 中文信息学报, 2018, 32(7):58-66.
Lhakpa-Dondrub, Ngodrup, ZU Yi-qing, et al. Disambiguation of polyphonic words in Tibetan[J]. Journal of Chinese Information Processing, 2018, 32(7): 58-66.
5 庄暑楠. 基于深度学习的文本规范化的研究与实现[D]. 长春: 吉林大学计算机科学与技术学院, 2020.
Zhuang Shu-nan. Research and implementation of text normalization based on deep learning [D]. Changchun: College of Computer Science and Technology,Jilin University, 2020.
6 Tyagi S, Bonafonte A, Lorenzo-Trueba J, et al. Proteno: text normalization with limited data for fast deployment in text to speech systems[DB/OL].[2023-01-08].
7 Tran O T, Bui V T. Neural text normalization in speech-to-text systems with rich features[J]. Applied Artificial Intelligence, 2021, 35(3): 193-205.
8 Zhang H, Sproat R, Ng A H, et al. Neural models of text normalization for speech applications[J]. Computational Linguistics, 2019, 45(2): 293-337.
9 Mansfield C, Sun M, Liu Y, et al. Neural text normalization with subword units[C]∥Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, USA,2019: 190-196.
10 Massimo L, Tatyana R, Anne G, et al. Encoder-decoder methods for text normalization[J/OL]. [2023-01-12].
11 Dai W L, Song C H, Li X, et al. An end-to-end Chinese text normalization model based on rule-guided flat-lattice transformer[C]∥Proceedings of the ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing, Singapore, 2022: 7122-7126.
12 胥桂仙,刘兰寅,张廷,等.基于预训练模型和图神经网络的藏文文本分类研究[J].东北师大学报: 自然科学版,2023,55(1):52-64.
Xu Gui-xian, Liu Lan-yin, Zhang Ting, et al.Tibetan text classification based on pre-trained model and graph neural network[J]. Joural of Northeast Normal University (Natural Science Edition), 2023,55(1):52-64.
13 艾金勇. 面向信息处理的藏文文本规范化方法研究[J]. 西北师范大学学报: 自然科学版, 2017, 53(2):52-56.
Ai Jin-yong. Research on normalization method of Tibetan text for information processing[J]. Journal of Northwest Normal University (Natural Science), 2017, 53(2): 52-56.
14 贡保加, 才智杰, 才让卓玛, 等. 一种藏语语音识别中数字文本规范方法[J].高原科学研究, 2022, 6(3): 117-124.
Gong Bao-jia, Cai Zhi-jie, Cairang-Zhuoma, et al. Study on a method of standardizing digital text in Tibetan speech recognition[J]. Plateau Science Research, 2022, 6(3): 117-124.
15 边巴嘉措. 现代藏语书面语语音结构分析[M]. 北京: 北京民族出版社, 2017.
16 邓戈. 藏语语音研究[M].拉萨: 西藏藏文古籍出版社, 2013.
17 珠杰. 藏文文本自动处理方法研究[M]. 2版.成都:西南交通大学出版社, 2022.
[1] 梁礼明,周珑颂,尹江,盛校棋. 融合多尺度Transformer的皮肤病变分割算法[J]. 吉林大学学报(工学版), 2024, 54(4): 1086-1098.
[2] 车娜,朱奕明,赵剑,孙磊,史丽娟,曾现伟. 基于联结主义的视听语音识别方法[J]. 吉林大学学报(工学版), 2024, 54(10): 2984-2993.
[3] 薛珊,张亚亮,吕琼莹,曹国华. 复杂背景下的反无人机系统目标检测算法[J]. 吉林大学学报(工学版), 2023, 53(3): 891-901.
[4] 时小虎,吴佳琦,吴春国,程石,翁小辉,常志勇. 基于残差网络的弯道增强车道线检测方法[J]. 吉林大学学报(工学版), 2023, 53(2): 584-592.
[5] 王振,杨宵晗,吴楠楠,李国坤,冯创. 基于生成对抗网络的序列交叉熵哈希[J]. 吉林大学学报(工学版), 2023, 53(12): 3536-3546.
[6] 周丰丰,颜振炜. 基于混合特征的特征选择神经肽预测模型[J]. 吉林大学学报(工学版), 2023, 53(11): 3238-3245.
[7] 王俊杰,农元君,张立特,翟佩臣. 基于施工场景的视觉关系检测方法[J]. 吉林大学学报(工学版), 2023, 53(1): 226-233.
[8] 朱冰,李紫薇,李奇. 基于改进SegNet的遥感图像建筑物分割方法[J]. 吉林大学学报(工学版), 2023, 53(1): 248-254.
[9] 秦贵和,黄俊锋,孙铭会. 基于双手键盘的虚拟现实文本输入[J]. 吉林大学学报(工学版), 2022, 52(8): 1881-1888.
[10] 曲福恒,丁天雨,陆洋,杨勇,胡雅婷. 基于邻域相似性的图像码字快速搜索算法[J]. 吉林大学学报(工学版), 2022, 52(8): 1865-1871.
[11] 白天,徐明蔚,刘思铭,张佶安,王喆. 基于深度神经网络的诉辩文本争议焦点识别[J]. 吉林大学学报(工学版), 2022, 52(8): 1872-1880.
[12] 刘铭,杨雨航,邹松霖,肖志成,张永刚. 增强边缘检测图像算法在多书识别中的应用[J]. 吉林大学学报(工学版), 2022, 52(4): 891-896.
[13] 方世敏. 基于频繁模式树的多来源数据选择性集成算法[J]. 吉林大学学报(工学版), 2022, 52(4): 885-890.
[14] 王生生,李晨旭,王翔宇,姚志林,刘一申,吴佳倩,杨晴然. 基于改进残差胶囊网络和麻雀搜索的脑瘤图像分类[J]. 吉林大学学报(工学版), 2022, 52(11): 2653-2661.
[15] 车翔玖,陈赫元. 基于改进YOLOv4的多目标光盘检测算法[J]. 吉林大学学报(工学版), 2022, 52(11): 2662-2668.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 李寿涛, 李元春. 在未知环境下基于递阶模糊行为的移动机器人控制算法[J]. 吉林大学学报(工学版), 2005, 35(04): 391 -397 .
[2] 刘庆民,王龙山,陈向伟,李国发. 滚珠螺母的机器视觉检测[J]. 吉林大学学报(工学版), 2006, 36(04): 534 -538 .
[3] 李红英;施伟光;甘树才 .

稀土六方Z型铁氧体Ba3-xLaxCo2Fe24O41的合成及电磁性能与吸波特性

[J]. 吉林大学学报(工学版), 2006, 36(06): 856 -0860 .
[4] 张全发,李明哲,孙刚,葛欣 . 板材多点成形时柔性压边与刚性压边方式的比较[J]. 吉林大学学报(工学版), 2007, 37(01): 25 -30 .
[5] 杨树凯,宋传学,安晓娟,蔡章林 . 用虚拟样机方法分析悬架衬套弹性对
整车转向特性的影响
[J]. 吉林大学学报(工学版), 2007, 37(05): 994 -0999 .
[6] 冯金巧;杨兆升;张林;董升 . 一种自适应指数平滑动态预测模型[J]. 吉林大学学报(工学版), 2007, 37(06): 1284 -1287 .
[7] 车翔玖,刘大有,王钲旋 .

两张NURBS曲面间G1光滑过渡曲面的构造

[J]. 吉林大学学报(工学版), 2007, 37(04): 838 -841 .
[8] 刘寒冰,焦玉玲,,梁春雨,秦卫军 . 无网格法中形函数对计算精度的影响[J]. 吉林大学学报(工学版), 2007, 37(03): 715 -0720 .
[9] .

吉林大学学报(工学版)2007年第4期目录

[J]. 吉林大学学报(工学版), 2007, 37(04): 0 .
[10] 李月英,刘勇兵,陈华 . 凸轮材料的表面强化及其摩擦学特性
[J]. 吉林大学学报(工学版), 2007, 37(05): 1064 -1068 .