吉林大学学报(信息科学版) ›› 2021, Vol. 39 ›› Issue (6): 751-757.
刘思新a , 高 珺b , 田一龙b , 魏韵郦b , 李旭睿b , 吴 静b
LIU Sixin a , GAO Jun b , TIAN Yilong b , WEI Yunli b , LI Xurui b , WU Jing b
摘要: 为解决微博网络暴力言论的自动识别和检测问题, 基于微博语料进行了数据集构建, 数据清洗等工作,
提出一种改进的 TFIDF(Term Frequency-Inverse Document Frequency)文本向量化方法。 将传统方法和此方法构
建的向量用于逻辑回归模型输入, 分别创建出传统方法和改进方法的逻辑回归暴力文本分类模型。 对上述模
型做评估并进行横向比较, 实验结果表明, 改进方法的 AUC 指标和准确率分别为 0. 969 和 0. 970, 较之传统方
法分别提升 14. 4% 和 15. 5%.
中图分类号: