吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (7): 2372-2377.doi: 10.13229/j.cnki.jdxbgxb.20240603

• 计算机科学与技术 • 上一篇    

融合用户兴趣的海量Web多属性数据查询算法

孙建平1(),李志河2   

  1. 1.北京师范大学 人工智能学院,北京 100088
    2.山西师范大学 信息技术与智慧教育研究院,太原 030031
  • 收稿日期:2024-05-31 出版日期:2025-07-01 发布日期:2025-09-12
  • 作者简介:孙建平(1974-),女,副教授.研究方向:人工智能,移动学习. E-mail: m13663575630@163.com
  • 基金资助:
    天津市科技计划项目(23KPXMRC00060)

Query algorithm for massive Web multi-attribute data that integrates user interests

Jian-ping SUN1(),Zhi-he LI2   

  1. 1.School of Artificial Intelligence,Beijing Normal University,Beijing 100088,China
    2.Research Institute of Information Technology and Intelligence,Shanxi Normal University,Taiyuan 030031,China
  • Received:2024-05-31 Online:2025-07-01 Published:2025-09-12

摘要:

为了提升客户满意度,通过融合用户兴趣,进行了海量Web多属性数据查询。根据数据的属性获取Web多属性数据的主题向量,并考虑遗忘因子,动态管理用户兴趣,以更加准确地反映用户的当前兴趣。在此基础上,利用余弦相似度计算Web多属性数据特征向量与用户兴趣主题向量之间的相似度,并利用Borda计数法整合初始化查询列表和个性化查询列表,获得综合考虑用户兴趣的最终查询列表,实现个性化数据查询体验。实验结果表明:该算法可实现Web多属性数据查询,具有处理歧义性查询的能力,且随着查询次数的增加,用户满意度接近100%。说明本文算法可以根据用户的查询内容,进一步了解用户所需,并为用户提供更加精准的查询结果。

关键词: Web多属性数据, 逆用户频率指数, 遗忘因子, 动态兴趣模型, 扩展机制, 相似度

Abstract:

In order to improve customer satisfaction, massive Web multi-attribute data queries are conducted by integrating user interests. Based on the attributes of the data, obtain the topic vector of Web multi-attribute data, and consider the forgetting factor to dynamically manage user interests, in order to more accurately reflect the current interests of users. On this basis, cosine similarity is used to calculate the similarity between Web multi-attribute data feature vectors and user interest topic vectors, and Borda counting method is used to integrate the initialization query list and personalized query list to obtain the final query list that comprehensively considers user interests, achieving a personalized data query experience. The experimental results show that the algorithm can achieve Web multi-attribute data queries and has the ability to handle ambiguous queries. And as the number of queries increases, user satisfaction approaches 100%. This article demonstrates that the algorithm can further understand the needs of users based on their query content, and provide users with more accurate query results.

Key words: Web multi-attribute data, reverse user frequency index, forgetting factor, dynamic interest model, expansion mechanism, similarity

中图分类号: 

  • TP391

图1

查询机制"

表1

Web属性索引存储形式表"

表名RowKey索引(列族)

SOURCE

YYYY

MM-DD索引:attrl 索引:attr2 索引:attrn
排序Urls 排序Urls 排序Urls

表2

实验参数设置"

参数名称参数值
初始化查询列表长度10
个性化查询列表长度5
遗忘因子0.7
数据属性权重[0.2, 0.3, 0.1, 0.2, 0.2]
交互强度(点击)1
交互强度(长时间浏览)2

图2

查询结果分析"

表3

不同算法下的数据查询效果对比"

查询类型本文算法文献[7]算法文献[10]算法
RS相比本文算法降低/%RS相比本文算法降低/%
所有查询0.6980.5670.1880.3520.496
非最优查询0.4930.4260.1360.3120.367
最优查询0.9830.8250.1610.5690.421

表4

3种算法在处理歧义性查询上的性能对比"

点击熵本文算法文献[7]算法文献[10]算法
RS相比本文算法降低/%RS相比本文算法降低/%
低于1.70.7280.60516.90.53526.6
高于等于1.70.5030.4686.80.41218.1

图3

用户对Web多属性数据查询结果的满意度对比"

[1] 赵红梅, 肖明, 白宇, 等. 面向用户偏好的动态网页数据交互式查询算法[J]. 吉林大学学报: 理学版, 2024, 62(2): 417-422.
Zhao Hong-mei, Xiao Ming, Bai Yu, et al. Interactive query algorithm for dynamic web page data based on user preference[J]. Journal of Jilin University(Science Edition),2024,62(2):417-422.
[2] 孙琛琛, 申德荣, 肖迎元, 等. 面向查询式实体解析的多属性数据索引技术[J]. 软件学报, 2022, 33(6): 2331-2347.
Sun Chen-chen, Shen De-rong, Xiao Ying-yuan, et al. Multi-attribute data indexing for query based entity resolution[J]. Journal of Software,2022,33(6):2331-2347.
[3] 王子泓, 邵蓥侠, 何吉元, 等. 基于多空间属性信息融合的序列推荐[J]. 计算机科学, 2024, 51(3):102-108.
Wang Zi-hong, Shao Ying-xia, He Ji-yuan, et al. Sequential recommendation based on multi-space attribute information fusion[J]. Computer Science,2024,51(3):102-108.
[4] 翁彬月, 秦永彬, 黄瑞章, 等. NEMTF: 基于多维度文本特征的新闻网页信息提取方法[J]. 计算机应用研究, 2022, 39(4): 1043-1048.
Weng Bin-yue, Qin Yong-bin, Huang Rui-zhang,et al. NEMTF:method of news Web content extraction based on multi-dimensional text features[J]. Application Research of Computers,2022,39(4):1043-1048.
[5] 蒲岍岍, 雷航, 李贞昊, 等.增强列表信息和用户兴趣的个性化新闻推荐算法[J]. 计算机科学, 2022, 49(6): 142-148.
Pu Yan-yan, Lei Hang, Li Zhen-hao,et al. Personalized news recommendation algorithm with enhanced list[J]. Computer Science, 2022, 49(6):1 42-148.
[6] 聂卉, 邱以菲. 融合用户兴趣及评论效用的评论信息推荐[J]. 图书情报工作, 2021, 65(10): 68-78.
Nie Hui, Qiu Yi-fei. Integrating user interests with review helpfulness for review recommendation[J]. Library and Information Service,2021, 65(10): 68-78.
[7] 杨矫云, 郭思伊, 李廉. 基于Pac算法的流数据top-k实时查询[J].华中科技大学学报:自然科学版,2021, 49(2):56-61.
Yang Jiao-yun, Guo Si-yi, Li Lian. Pac based top-k real-time query algorithm for streaming data [J]. Journal of Huazhong University of Science and Technology(Nature Science Edition),2021, 49(2):56-61.
[8] 高俊杰, 杨帆. 基于群体智能的半结构化数据查询优化算法[J]. 计算机仿真, 2021, 38(8): 381-385.
Gao Jun-jie, Yang Fan. Semi-structured data query optimization algorithm based on swarm intelligence [J]. Computer Simulation,2021, 38(8): 381-385.
[9] 罗芳, 李春花, 周可, 等.基于多属性的海量Web数据关联存储及检索系统[J]. 计算机工程与科学, 2022, 36(3): 404-410.
Luo Fang, Li Chun-hua, Zhou Ke, et al. An associated storage and retrieval system of massive Web data based on multi-attributes[J]. Computer Engineering and Science,2022, 36(3): 404-410.
[10] Tung V, Salvatore A, Giulio J,et al. Spoken conversational context improves query auto-completion in web search[J]. ACM Transactions on Information Systems, 2021, 39(3): 1-32.
[11] 张星, 张兴. dckpdp:改进k-prototype聚类的差分隐私混合属性数据发布方法[J]. 计算机应用研究, 2022, 39(1): 249-253.
Zhang Xing, Zhang Xing. Differential privacy mixed attribute data publishing method for improved k-prototype clustering[J]. Application Research of Computers, 2022, 39(1): 249-253.
[12] 虞文波, 游进国, 牛祥虞. 基于强化学习的数据库多属性索引推荐[J]. 计算机应用研究, 2023, 40(6): 1789-1793.
Yu Wen-bo, You Jin-guo, Niu Xiang-yu. Mira:database multi-attribute index recommendation based on reinforcement learning[J]. Application Research of Computers, 2023, 40(6): 1789-1793.
[13] 麻天, 余本国, 张静, 等. 基于混合聚类与融合用户兴趣的协同过滤推荐算法[J]. 电子技术应用, 2022, 48(4): 29-33.
Ma Tian, Yu Ben-guo, Zhang Jing, et al. Collaborative filtering recommendation algorithm based on hybrid clustering and user preferences fusion[J]. Application of Electronic Technique,2022, 48(4): 29-33.
[14] 凌宇, 单志龙. 基于兴趣增强的知识概念推荐系统[J].计算机应用, 2023, 43(12): 3697-3702.
Ling Yu, Shan Zhi-long. Knowledge concept recommendation system based on interest enhancement[J]. Journal of Computer Applications, 2023, 43(12): 3697-3702.
[15] 张彬, 徐建民, 吴姣. 大数据环境下基于知识图谱的用户兴趣扩展模型研究[J]. 现代情报, 2021, 41(8): 36-44.
Zhang Bin, Xu Jian-min, Wu Jiao. Research on user interest expansion model based on knowledge graph in big data environment[J]. Modern Information, 2021, 41(8): 36-44.
[1] 车翔玖,李良. 融合全局与局部细粒度特征的图相似度度量算法[J]. 吉林大学学报(工学版), 2025, 55(7): 2365-2371.
[2] 张兰芳,李根泽,刘婷宇,余博. 局部多车影响下跟驰行为机理及建模[J]. 吉林大学学报(工学版), 2025, 55(3): 963-973.
[3] 吕锋,李念,冯壮壮,张杨航. 面向用户的个性化产品服务系统协同过滤推介方法[J]. 吉林大学学报(工学版), 2023, 53(7): 1935-1942.
[4] 王海龙,柳林,林民,裴冬梅. 基于信息检索及k均值聚类的音乐个性化推荐算法[J]. 吉林大学学报(工学版), 2021, 51(5): 1845-1850.
[5] 桂春, 黄旺星. 基于改进的标签传播算法的网络聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1600-1605.
[6] 王旭, 欧阳继红, 陈桂芬. 基于垂直维序列动态时间规整方法的图相似度度量[J]. 吉林大学学报(工学版), 2018, 48(4): 1199-1205.
[7] 王旭, 欧阳继红, 陈桂芬. 基于多重序列所有公共子序列的启发式算法度量多图的相似度[J]. 吉林大学学报(工学版), 2018, 48(2): 526-532.
[8] 董立岩, 王越群, 贺嘉楠, 孙铭会, 李永丽. 基于时间衰减的协同过滤推荐算法[J]. 吉林大学学报(工学版), 2017, 47(4): 1268-1272.
[9] 王贵参, 黄岚, 王岩, 宋立明, 欧歌. 引入极值非相邻连接的连接聚类方法[J]. 吉林大学学报(工学版), 2016, 46(5): 1616-1621.
[10] 单泽彪, 石要武, 刘小松, 李新波. 时变遗忘因子动态DOA跟踪算法[J]. 吉林大学学报(工学版), 2016, 46(2): 632-638.
[11] 王克朝, 王甜甜, 苏小红, 马培军. 基于频繁闭合序列模式挖掘的学生程序雷同检测[J]. 吉林大学学报(工学版), 2015, 45(4): 1260-1265.
[12] 王玉磊, 赵春晖, 齐滨. 基于光谱相似度量的高光谱图像异常检测算法[J]. 吉林大学学报(工学版), 2013, 43(增刊1): 148-153.
[13] 苑文举, 王健. E-business信任关系网建模[J]. 吉林大学学报(工学版), 2011, 41(增刊2): 259-263.
[14] 吕丹,毕笃彦. 基于结构相似的DCT域图像质量评价[J]. 吉林大学学报(工学版), 2011, 41(6): 1771-1776.
[15] 郭耸, 顾国昌, 蔡则苏, 刘海波, 沈晶. 基于肤色分割和改进的AdaBoostSVM算法的人脸检测[J]. 吉林大学学报(工学版), 2011, 41(02): 473-0478.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!