吉林大学学报(信息科学版) ›› 2024, Vol. 42 ›› Issue (4): 747-753.
钱亮宏1, 王福德2,3, 孙晓海2
QIAN Lianghong1 , WANG Fude2,3, SUN Xiaohai2
摘要:
为解决源代码剽窃检测的问题, 以及针对现有方法需要大量训练数据且受限于特定语言的不足, 提出了一种基于预训练 Transformer 语言模型的源代码剽窃检测方法, 其结合了词嵌入,相似度计算和分类模型。该方法支持多种编程语言, 不需要任何标记为剽窃的训练样本, 即可达到较好的检测性能。实验结果表明,该方法在多个公开数据集上取得了先进的检测效果, F1 值接近。同时, 对特定的能获取到较少标记为剽窃训练样本的场景, 还提出了一种结合有监督学习分类模型的方法, 进一步提升了检测效果。该方法能广泛应用于缺乏训练数据、计算资源有限以及语言多样的源代码剽窃检测场景。
中图分类号: