吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (3): 1009-1014.doi: 10.13229/j.cnki.jdxbgxb.20240077

• 计算机科学与技术 • 上一篇    下一篇

k-prototype聚类算法和相对熵下敏感数据重发布隐私安全保护

朱齐亮(),余雪婷   

  1. 华北水利水电大学 信息工程学院,郑州 450046
  • 收稿日期:2024-01-22 出版日期:2025-03-01 发布日期:2025-05-20
  • 作者简介:朱齐亮(1982-),男,副教授,博士.研究方向:服务计算,大数据,人工智能.E-mail:zhuqiliang@ncwu.edu.cn
  • 基金资助:
    国家自然科学基金面上项目(62275080)

k⁃prototype clustering algorithm and privacy protection for sensitive data republishing under relative entropy

Qi-liang ZHU(),Xue-ting YU   

  1. School of Information Engineering,North China University of Water Resources and Electric Power,Zhengzhou 450046,China
  • Received:2024-01-22 Online:2025-03-01 Published:2025-05-20

摘要:

为了有效保证敏感属性数据重发布的安全性和隐私性,本文提出一种基于k-prototype聚类算法和相对熵的敏感属性数据重发布隐私保护方法。根据敏感属性数据的类型属性,采用快速聚类完成各个数据类型属性的距离计算,通过k-prototype聚类算法完成敏感属性数据聚类。利用相对熵计算聚类后敏感属性数据的敏感程度,根据敏感程度组建加权多维桶分组展开敏感属性数据重发布匿名处理,最终达到隐私保护的目的。实验结果表明,本文所提方法可以有效降低隐私数据的隐匿率、信息损失度及信息披露度,提升敏感属性数据重发布隐私保护程度,确保数据的安全性。

关键词: k-prototype聚类算法, 相对熵, 敏感属性数据, 重发布, 隐私保护

Abstract:

In order to effectively ensure the security and privacy of sensitive attribute data republication, a privacy protection method for sensitive attribute data republication based on k-prototype clustering algorithm and relative entropy is proposed. Based on the type attributes of sensitive attribute data, fast clustering is used to calculate the distance between each data type attribute, and k-prototype clustering algorithm is used to cluster sensitive attribute data. Using relative entropy to calculate the sensitivity of sensitive attribute data after clustering, a weighted multi-dimensional bucket group is constructed based on the sensitivity to unfold sensitive attribute data and republish it anonymously, ultimately achieving the goal of privacy protection. The experimental results show that the proposed method can effectively reduce the concealment rate, information loss, and information disclosure of private data, improve the degree of privacy protection for sensitive attribute data republishing, and ensure the security of data.

Key words: k-prototype clustering algorithm, relative entropy, sensitive attribute data, republish, privacy protection

中图分类号: 

  • TP393

图1

实验环境"

图2

不同数据量下附加信息损失度和隐匿率变化情况"

图3

3种方法在不同数据量下的RL测试结果比较"

表1

3种不同方法的安全性分析"

攻击方式本文方法文献[3]方法文献[4]方法
侧信道攻击
机器学习攻击
差分攻击×
链接攻击
恶意软件攻击
数据篡改攻击×
拒绝服务攻击
1 郝玉蓉, 朴春慧, 颜嘉麒, 等. 一种面向LDP的政府民意数据隐私保护方法[J].计算机仿真, 2023, 40(3): 377-384.
Hao Yu-rong, Chun-hui Piao, Yan Jia-qi,et al. An LDP-oriented privacy protection approach for government polls data[J]. Computer Simulation, 2023,40(3): 377-384.
2 于群, 沈志恒, 孙飞飞, 等.面向云计算应用的用电负荷数据差分隐私保护方法[J]. 电力自动化设备,2022, 42(7): 68-75.
Yu Qun, Shen Zhi-heng, Sun Fei-fei, et al. Differential privacy protection method of electrical load data towards cloud computing applications[J]. Electric Power Automation Equipment, 2022, 42(7): 68-75.
3 张星, 张兴, 王晴阳. DP-IMKP:满足个性化差分隐私的数据发布保护方法[J]. 计算机工程与应用, 2023, 59(10): 288-298.
Zhang Xing, Zhang Xing, Wang Qing-yang. DP-IMKP:Data publishing protection method for personalized differential privacy[J]. Computer Engineering and Applications, 2023,59(10): 288-298.
4 李莉, 杜慧娜, 李涛. 基于群签名与属性加密的区块链可监管隐私保护方案[J]. 计算机工程, 2022, 48(6): 132-138.
Li Li, Du Hui-na, Li Tao. A blockchain regulatory privacy protection scheme based on group signature and attribute encryption[J]. Computer Engineering, 2022, 48(6): 132-138.
5 Raju N V S L, Naresh V S. Dynamic distributed KC_i-slice data publishingmodel with multiple sensitive attributes[J]. Concurrency and Computation: Practice and Experience, 2022, 34(21): e7064.1-e7064.25.
6 Parashar A, Shekhawat R S. Protection of gait data set for preserving its privacy in deep learning pipeline[J]. IET Biometrics, 2022, 11(6):557-569.
7 杜秀丽, 姜晓虎, 孙晨瞳, 等. 基于方向性多重假设检验和信息熵的函数型数据聚类新方法[J]. 南京师大学报:自然科学版, 2022, 45(4): 1-9.
Du Xiu-li, Jiang Xiao-hu, Sun Chen-tong, et al. A new functional data clustering method based on directional multiple hypothesis test and information entropy[J]. Journal of Nanjing Normal University(Natural Science Edition), 2022, 45(4): 1-9.
8 菊花. 基于改进磷虾群算法的多目标文本聚类方法[J].计算机工程与设计, 2022, 43(6): 1694-1703.
Ju Hua. Multi-objective text clustering method based on improved krill herd algorithm[J]. Computer Engineering and Design, 2022, 43(6): 1694-1703.
9 章曼, 张正军, 冯俊淇, 等. 基于自适应可达距离的密度峰值聚类算法[J]. 计算机应用, 2022, 42(6):1914-1921.
Zhang Man, Zhang Zheng-jun, Feng Jun-qi, et al. Density peak clustering algorithm based on adaptive reachable distance[J]. Journal of Computer Applications, 2022, 42(6): 1914-1921.
10 袁欣, 俞卫琴, 王国强. 基于希尔伯特相似度的高维面板数据聚类方法及应用[J]. 统计与决策, 2022, 38(17): 52-54.
Yuan Xin, Yu Wei-qin, Wang Guo-qiang. Hilbert similarity-based high-dimensional panel data clustering method and its application[J]. Statistics & Decision, 2022, 38(17): 52-54.
[1] 范大娟,黄志球,曹彦. 面向SaaS隐私保护的自适应访问控制方法[J]. 吉林大学学报(工学版), 2023, 53(10): 2897-2908.
[2] 王军,徐彦惠,李莉. 低能耗支持完整性验证的数据融合隐私保护方法[J]. 吉林大学学报(工学版), 2022, 52(7): 1657-1665.
[3] 邓剑勋, 熊忠阳, 邓欣. 基于谱聚类矩阵的改进DNALA算法[J]. 吉林大学学报(工学版), 2018, 48(3): 903-908.
[4] 李文平,杨静,张健沛,印桂生. 基于CCA的个性化轨迹隐私保护算法[J]. 吉林大学学报(工学版), 2015, 45(2): 630-638.
[5] 蔡朝晖, 张健沛, 杨静. 基于贝叶斯网络的路网位置匿名区域估计[J]. 吉林大学学报(工学版), 2014, 44(2): 454-458.
[6] 郭礼华. 基于互信息相对熵差异的显著区域提取算法[J]. 吉林大学学报(工学版), 2013, 43(增刊1): 270-274.
[7] 王波, 杨静, 张健沛. 基于熵分类的个性化隐私匿名方法[J]. 吉林大学学报(工学版), 2013, 43(01): 179-185.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 陈华,陈耀嘉,谢斌,王鹏凯,邓朗妮. CFRP筋粘结式锚固体系界面失效演化机制及粘结强度计算[J]. 吉林大学学报(工学版), 2020, 50(5): 1698 -1708 .
[2] 姜继海,赵存然,张冠隆,车明阳. 航空煤油柱塞泵摩擦副涂层材料摩擦性能[J]. 吉林大学学报(工学版), 2021, 51(1): 147 -153 .
[3] 王伟,赵健廷,胡宽荣,郭永仓. 基于快速非奇异终端滑模的机械臂轨迹跟踪方法[J]. 吉林大学学报(工学版), 2020, 50(2): 464 -471 .
[4] 聂光明,谢波,田彦涛. 基于Frenet框架的协同自适应巡航控制算法设计[J]. 吉林大学学报(工学版), 2022, 52(7): 1687 -1695 .
[5] 马芳武,陈实现,韩露,梁鸿宇,蒲永锋. 金属表面特征与金属⁃塑料直接连接强度的相关性[J]. 吉林大学学报(工学版), 2019, 49(3): 816 -821 .
[6] 冀汶莉,田忠,柴敬,张丁丁,王斌. 多属性融合分布式光纤导水裂隙带高度预测方法[J]. 吉林大学学报(工学版), 2023, 53(4): 1200 -1210 .
[7] 马淼, 李贻斌. 基于多级图像序列和卷积神经网络的人体行为识别[J]. 吉林大学学报(工学版), 2017, 47(4): 1244 -1252 .
[8] 谢少彪,张宇,温凯瑞,张硕,刘宗明,齐乃明. 非合作目标强跟踪容积卡尔曼滤波运动状态估计[J]. 吉林大学学报(工学版), 2021, 51(4): 1482 -1489 .
[9] 李志华,张烨超,詹国华. 三维水声海底地形地貌实时拼接与可视化[J]. 吉林大学学报(工学版), 2022, 52(1): 180 -186 .
[10] 宋传学, 肖峰, 刘思含, 李少坤, 段亮, 彭思仑. 基于无迹卡尔曼滤波的轮毂电机驱动车辆状态观测[J]. 吉林大学学报(工学版), 2016, 46(2): 333 -339 .