基于预训练 Transformer 语言模型的源代码剽窃检测研究

Abstract

Abstract: To address the issue of source code plagiarism detection and the limitations of existing methods that require a large amount of training data and are restricted to specific languages, we propose a source code plagiarism detection method based on pre-trained Transformer language models, in combination with word embedding, similarity and classification models. The proposed method supports multiple programming languages and does not require any training samples labeled as plagiarism to achieve good detection performance. Experimental results show that the proposed method achieves state-of-the-art detection performance on multiple public datasets. In addition, for scenarios where only a few labeled plagiarism training samples can be obtained, this paper also proposes a method that combines supervised learning classification models to further improve detection performance. The method can be widely used in source code plagiarism detection scenarios where training data is scarce, computational resources are limited, and the programming languages are diverse.

Key words: source code plagiarism detection, Transformer model, pre-trained model, machine learning, deep learning

CLC Number:

TP181

QIAN Lianghong, WANG Fude, SUN Xiaohai. Research on Source Code Plagiarism Detection Based on Pre-Trained Transformer Language Model[J].Journal of Jilin University (Information Science Edition), 2024, 42(4): 747-753.

References

Metrics

Viewed

Full text

319

HTML			PDF

Just accepted	Online first	Issue	Just accepted	Online first	Issue
0	0	0	0	0	319

From	Others	local

Times	36	283
Rate	11%	89%

Abstract

170

Just accepted	Online first	Issue

0	0	170

	From	Others

	Times	170
	Rate	100%

Cited

Web of Science	Crossref	ScienceDirect	Search for Citations in Google Scholar >>


This page requires you have already subscribed to WoS.

Shared

[1]	LIU Yu, WU Honglin, YAN Zeyi, WEN Shiji, ZHANG Lianzhen. Method for Recognizing Anomalous Data from Bridge Cable Force Sensors Based on Deep Learning [J]. Journal of Jilin University (Information Science Edition), 2024, 42(5): 847-855.
[2]	MEI Jian, SUN Jiayue, ZOU Qingyu. Research on Scoring Method of Skiing Action Based on Human Key Points [J]. Journal of Jilin University (Information Science Edition), 2024, 42(5): 866-873.
[3]	LIU Shifeng, WANG Xin . Improved Method of Medical Images Classification Based on Contrast Learning [J]. Journal of Jilin University (Information Science Edition), 2024, 42(5): 881-888.
[4]	QIAN Lianghong, WANG Fude, SONG Hailong. Research on AI Modeling Approaches of Financial Transactional Fraud Detection [J]. Journal of Jilin University (Information Science Edition), 2024, 42(5): 930-936.
[5]	CHEN Xi, CAI Xianlong. Dynamic Recognition Algorithm of Facial Partial Occlusion Expression Based on Deep Learning [J]. Journal of Jilin University (Information Science Edition), 2024, 42(3): 503-508.
[6]	LI Kai, LI Yu, WANG Lexiao, ZHANG Xiaoqing. Evaluation System of APP Illegal Collection of Personal Information [J]. Journal of Jilin University (Information Science Edition), 2024, 42(3): 537-543.
[7]	GUO Yaru , LIU Miao , NIE Zhongwen . Research on Detection Algorithm of Oil and Gas IoT Data Contamination [J]. Journal of Jilin University (Information Science Edition), 2024, 42(2): 307-311.
[8]	WANG Haikuan, YUAN Jinming. esearch on Visual Android Malware Detection Based on Swin-Transformer [J]. Journal of Jilin University (Information Science Edition), 2024, 42(2): 339-347.
[9]	HE Lehua, XIE Guangzhen, LIU Kexiang, WU Ning, ZHANG Haolan, ZHANG Zhongrui. Fall Detection Based on YOLOv5 [J]. Journal of Jilin University (Information Science Edition), 2024, 42(2): 378-386.
[10]	LI Wanying , LIU Xueyan , YANG Bo . Alternative Data Generation Method of Privacy-Preserving Image [J]. Journal of Jilin University (Information Science Edition), 2024, 42(1): 59-66.
[11]	CAI Xianlong, LI Yang, CHEN Xi . Pedestrian Recognition Algorithm of Cross-Modal Image under Generalized Transfer Deep Learning [J]. Journal of Jilin University (Information Science Edition), 2024, 42(1): 137-142.
[12]	WU Wei, RUAN Xing, CAI Chuanghua, LIU Changyong , LIU Yanxiu, WANG Yihuai . Lightweight Deployment Strategy and Implementation of Resource-Constrained MCUs [J]. Journal of Jilin University (Information Science Edition), 2023, 41(6): 1063-1071.
[13]	LIU Yingqi, SONG Yang, LI Zimu, LUO Wei, HUANG Xinrui, WANG Haofeng. ECG Analysis and Detection System Based on Deep Learning [J]. Journal of Jilin University (Information Science Edition), 2023, 41(6): 1135-1142.
[14]	LIANG Nan , WANG Chengxi , ZHANG Chunfei , XU Tao , JI Fenglei . Design of Multi-Dimensional and Hierarchical Integrated Experimental Platform Based on Python [J]. Journal of Jilin University (Information Science Edition), 2023, 41(5): 858-865.
[15]	LIU Shize . Research on Pedestrian Re-Identification Technology Based on Semantic Perception [J]. Journal of Jilin University (Information Science Edition), 2023, 41(4): 726-731.

Research on Source Code Plagiarism Detection Based on Pre-Trained Transformer Language Model

PDF (PC)

Like

Knowledge

Abstract

Cite this article

share this article

References

Related Articles 15

Metrics

Comments

Recommended 10