摘要:
针对因未考虑大规模数据间存在的特征差异, 而以单一特征作为查询依据会造成查询误差较大的问题,提出一种基于 PAT(Pump Algebra Tutor)代数的大规模数据并行查询算法。采用 PAT 代数对并行数据语义和逻辑进行优化, 设置大规模并行数据的初始序列块, 求得数据块密度, 并按其在有向图中通过调节节点密度实现低权重点过滤, 由此实现有效过滤。 同时, 利用子查询乘积最小策略确定目标数据的所在序列点, 通过贪心规则在邻域集合中查找满足条件的子句集, 建立查询连接, 实现高效数据并行查询。 实验结果表明, 所提方法的数据传输量和查询量均较高, 说明其针对大规模数据能实现准确查询, 具有一定的实用价值。
中图分类号:
孙晔欣, 夏 超.
基于 PAT 代数的大规模数据并行查询算法
[J]. 吉林大学学报(信息科学版), 2026, 44(2): 421-426.
SUN Yexin, XIA Chao.
A Parallel Query Algorithm of Large Scale Data Based on PAT Algebra
[J]. Journal of Jilin University (Information Science Edition), 2026, 44(2): 421-426.