吉林大学学报(理学版) ›› 2025, Vol. 63 ›› Issue (2): 551-0558.
王轶1, 王坤宁2, 刘铭2
WANG Yi1, WANG Kunning2, LIU Ming2
摘要: 针对现有多语言模型在预训练过程中对多语言数据集的利用效率低, 导致跨语言上下文学习能力不足, 进而产生语言偏差的问题, 提出一种基于交替语言数据重构方法的跨语言文本相似度模型. 该方法通过对称地替换平行语料中的中英文词语, 形成重构的预训练文本对, 并利用上述文本对对多语言大模型mBERT(BERT-based-multilingual)进行基于数据重构的针对性预训练和微调处理. 为验证该模型的可行性, 在联合国平行语料数据集上进行实验, 实验结果表明, 该模型的相似度查准率优于mBERT和其他两种基线模型,其不仅可以进一步提高跨语言信息检索的准确性, 并且可以降低多语言自然语言处理任务的研究成本.
中图分类号: