一种改进型TF-IDF文本聚类方法

Abstract

Abstract: Aiming at the shortcomings of traditional term frequency-inverse document frequency (TF-IDF) algorithm for text classification with specific attributes, especially the low accuracy of words with specific meaning under specific classification, we proposed an improved TF-IDF text clustering algorithm. Comparative experiments were carried out through the papers published by scientific research institutions in Jilin Province from 2015 to 2019. The improved TF-IDF algorithm and the traditional TF-IDF algorithm were used to calculate the frequency of keywords in the papers, then K-means++ method was used to cluster. Finally, random forest algorithm was used to evaluate the accuracy of clustering. The experimental results show that the improved TF-IDF algorithm improves the accuracy of classification.

Key words: term frequency-inverse document frequency (TF-IDF), hybrid clustering, interdisciplinary, essential science indicators (ESI) literature

CLC Number:

TP181

ZHANG Lei, JIANG Yu, SUN Li. An Improved TF-IDF Text Clustering Method[J].Journal of Jilin University Science Edition, 2021, 59(5): 1199-1204.

[1]	GAO Yunlong, WU Chuan, ZHU Ming. Short Text Classification Model Based onImproved Convolutional Neural Network [J]. Journal of Jilin University Science Edition, 2020, 58(4): 923-930.
[2]	WANG Ying, CAO Jie, QIU Zhiyang. A Novel Feature Selection Algorithm Based on Crow Search Algorithm [J]. Journal of Jilin University Science Edition, 2019, 57(04): 869-874.
[3]	XUE Xiaona, GAO Shuping, PENG Hongming, WU Huihui. Density Peaks Clustering Algorithm Based onKNearest Neighbors and ClassesMerging#br# [J]. Journal of Jilin University Science Edition, 2019, 57(1): 111-120.
[4]	DONG Liyan, WANG Xuesong, WANG Zhaoyang, LI Yongli. Friends Recommendation and Location RecommendationAlgorithm Based on Regional Active Users#br# [J]. Journal of Jilin University Science Edition, 2018, 56(6): 1441-1446.
[5]	ZHOU Shuisheng, YAO Dan. An Improved LSTSVM Incremental Learning Algorithm [J]. Journal of Jilin University Science Edition, 2018, 56(4): 909-916.
[6]	WANG Lingdi, XU Hua. An Adaptive Ensemble Algorithm Based on Clustering and AdaBoost [J]. Journal of Jilin University Science Edition, 2018, 56(4): 917-924.
[7]	GAO Yunlong1,2, ZUO Wanli1,2, WANG Ying1,2, WANG Xin2,3. Short Text Classification Model Based on Integrated Neural Networks [J]. Journal of Jilin University Science Edition, 2018, 56(4): 933-938.
[8]	ZHOU Shuisheng, ZHOU Yanling, YAO Dan, WANG Baojun. Sparse LSSVM Algorithm Based on QR Factorization [J]. Journal of Jilin University Science Edition, 2018, 56(2): 347-354.
[9]	DENG Leilei, CHEN Xiao. Identification Model of Network Communication LoadState Based on Relevance Vector Machine [J]. Journal of Jilin University Science Edition, 2017, 55(06): 1533-1538.
[10]	CHEN Zhiyu, WANG Huijun, HU Ming, LIU Gang. An Active Semi-supervised Clustering AlgorithmBased on Seeds Set and Pairwise Constraints [J]. Journal of Jilin University Science Edition, 2017, 55(03): 664-672.
[11]	LI Meng, LIU Yuanning. A New Spam Feature Selection Algorithm Based on Information Gain [J]. Journal of Jilin University Science Edition, 2017, 55(02): 379-382.
[12]	PENG Tao, DAI Yaokang, ZHU Fengtong, ZHANG Bangzuo, LIU Lu, YAN Zhao, QIAN Feng. RuleBased Method for Unsupervised PartofSpeech Tagging [J]. Journal of Jilin University Science Edition, 2015, 53(05): 956-962.
[13]	GUO Xinchen, XI Xiantian, FAN Xiuling, HAN Xiao. Fuzzy C-Means Clustering Algorithm Based onSemi-supervised Learning [J]. Journal of Jilin University Science Edition, 2015, 53(04): 705-709.
[14]	GUO Xinchen, FAN Xiuling, XI Xiantian, HAN Xiao. Improved Fuzzy C-Means Clustering Algorithm [J]. Journal of Jilin University Science Edition, 2014, 52(06): 1293-1296.
[15]	WANG Hongzhi, LIU Wanjun, HAN Xiao. Numerical Implementation of Adaptive Fidelity TermDenoising Algorithm Based on Total Variation [J]. Journal of Jilin University Science Edition, 2014, 52(06): 1261-1266.

An Improved TF-IDF Text Clustering Method

PDF (PC)

Like

Knowledge

Abstract

Cite this article

share this article

References

Related Articles 15

Metrics

Comments

Recommended 10