的DBSCAN算法

引用本文

刘淑芬, 孟冬雪, 王晓燕. 基于网格单元的DBSCAN算法. 2014, 44(4): 1135-1139
[LIU Shu-fen, MENG Dong-xue, WANG Xiao-yan. DBSCAN algorithm based on grid cell. Journal of Jilin University Engineering and Technology Edition, 2014, 44(4): 1135-1139] 复制到剪切板

Permissions

基于网格单元的DBSCAN算法

刘淑芬, 孟冬雪, 王晓燕

吉林大学计算机科学与技术学院,长春 130012

通信作者：王晓燕（1977-）,女,讲师,博士.研究方向:软件建模技术,软件编程新方法.E-mail:wangxy@jlu.edu.cn

作者简介：刘淑芬（1950-）,女,教授,博士生导师.研究方向:计算机网络协同工作技术,软件编程新方法. E-mail:liusf@mail.jlu.edu.cn

基金:国家自然科学基金项目(60973041）; “863”国家高技术研究发展计划项目（2009AA010314）; 中央高校基本科研业务费专项资金资助; 吉林省科技发展计划项目(2011507);

摘要

针对DBSCAN算法时间开销大的缺点,提出了基于网格单元的DBSCAN算法,通过对数据空间进行网格单元划分来优化DBSCAN算法中最耗时的区域查询过程,省去了大量不必要的查询操作,并分析了网格单元的划分方式对本文算法的影响,通过选取最优划分方式,提高整个算法的运行效率。通过仿真实验,验证了基于网格单元的DBSCAN算法具有较高的准确率和较低的时间复杂度。

关键词: 计算机应用; 数据挖掘; 聚类分析; DBSCAN; 网格单元

中图分类号:TP301.6 文献标志码:A 文章编号:1671-5497(2014)04-1135-05

DBSCAN algorithm based on grid cell

LIU Shu-fen, MENG Dong-xue, WANG Xiao-yan

College of Computer Science and Technology, Jilin University, Changchun 130012,China

Abstract

To overcome the time overhead shortcoming of Density Based Spatial Clustering of Applications with Noise (DBSCAN) algorithm, a modified DBSCAN algorithm based on grid cell is proposed. Using this algorithm the data space is divided into grid cells and large number of unnecessary operations is eliminated, thus the region query process, which is the most time-consuming in DBSCAN algorithm, is optimized. The effects of different grid division methods are analyzed to select the optimal division method, thus improving the total operation efficiency of the algorithm. Simulation results verify that the modified DBSCAN algorithm based on grid cell has higher accuracy and lower time complexity.

Keyword: computer application; data mining; cluster analysis; density-based spatial clustering of applications with noise(DBSCAN); grid cell

Show Figures

0 引言

数据挖掘是从大量数据中“挖掘”隐含的、有潜在应用价值的信息的过程^{[ 1, 2]}。聚类技术是数据挖掘的一个主要研究方向,它将要分析的数据集合根据每个数据的特点进行分组,并把特征相似的数据归为一类(簇)。目前提出的聚类算法可以分为划分、层次、基于密度和基于网格几种^{[ 3, 4, 5]}。其中基于密度的聚类算法应用广泛,基本思想是:只要邻近区域的密度超过某个阈值就继续聚类^{[ 6]},不需要对簇的数量进行预先设定,因此适合对未知内容的数据集进行聚类^{[ 7]}。

DBSCAN(Density-based spatial clustering of applications with noise)算法是一种简单、有效的基于密度的聚类算法,具有代表性。但该算法的时间开销很大,时间复杂度为 O( n²)^{[ 8]}。因此对DBSCAN算法进行优化,减少运行开销,提高准确度,具有重要意义。本文在DBSCAN算法的基础上,提出一种基于网格单元的聚类新方法,利用网格划分的方法,减少数据点的搜索范围,大大提高了DBSCAN算法的效率。

1 DBSCAN算法

DBSCAN聚类算法能够发现任意大小和任意形状的聚类,能有效识别离群点^{[ 9]},并且对输入对象的顺序不敏感,这些优点使其在许多领域得到了广泛的应用。

1.1 基本概念

定义1 数据点 p的 E_ps邻域:是以数据集合 D中的点 p为圆心,以 E_ps为半径的圆区域。区域中包含的点集合记作 ( p) ={ q∈ D|dist( p, q)≤ E_ps}。

定义2 数据点 p的密度:是数据集合 D中数据点 p的 E_ps邻域中数据点的个数。

定义3 核心点:如果数据点 p的密度大于或等于Min Pts则称其为核心点,其中Min Pts是由用户指定的一个阈值。

定义4 边界点:是指数据点 q本身不是核心点,但它包含在另外一个核心点 p的 E_ps邻域内,则称 q为边界点。

定义5 噪声点:数据集合中既不是核心点也不是边界点的其他点称为噪声点。

定义6 直接密度可达:设数据点 q是核心点,只要满足数据点 p属于数据点 q的 E_ps邻域,则说数据点 p从数据点 q直接密度可达,记作:

定义7 密度可达:如果存在数据点链 p₁, p₂,…, p_n,其中 p₁ =p, p_n=q, p_i∈ D,1≤ i≤ n,而且有 p_i从 p_i+₁直接密度可达,则称数据点 p从数据点 q密度可达。

定义8 密度相连:数据集合 D中,对于给定的 E_ps和Min Pts,如果存在点 o,使得数据点 p和数据点 q都从数据点 o密度可达,则称数据点 p和数据点 q关于 E_ps和Min Pts密度相连。

1.2 算法思想

在DBSCAN算法发现聚类的过程中,先从数据集合 D中找到任一数据点 p,考察点 p,如果 p是核心点,即 p的邻域中点的数目大于等于 MinPts,那么 p的 E_ps邻域中的数据点在接下来的过程中作为种子点,进行进一步考察。具体就是:不断对种子点进行区域查询,如果当前种子点也是核心点,则将它的 E_ps邻域中的点也加入种子集合中。通过这种方式,不断扩展当前数据点所在的类(簇),直到找到一个完整的类(簇)为止,这样就确定了一个关于 E_ps和 MinPts的聚类。如果 p是一个边界点,即 p的邻域中点的数目小于 MinPts,则DBSCAN算法选取数据集 D中的下一个点进行处理。而数据集合中最终剩下的没有被划分到任意类(簇)中的数据点就被标记为噪声点。

点 p邻域中数据点的数目是通过不断执行区域查询和判断来获取的^{[ 9]},以二维数据为例,网格上的区域查询如图1所示。

	Figure Option View Download New Window
	图1 网格单元上的区域查询Fig.1 Region query on grid cell

每次查询判断返回区域中的所有对象,DBSCAN算法的时间复杂度为 O( n²),可见算法的时间开销很大。另外,算法运行时,所有数据都应该存放在内存中,当数据量增大时,要求较大的内存支持,I/O消耗也很大^{[ 10]}。针对以上两点,本文提出一种网格单元划分方法,优化区域查询操作以减少时间开销。

2 改进的DBSCAN算法

算法使用宽度优先搜索来联接多个网格区域,并使用贪婪算法的生长模式来形成聚类。

2.1 相关概念

定义9 网格单元:用户设定一个划分参数 ε,根据这个参数可以将数据空间在每一维上划分为 π个相同长度(即 ε)的区间,每个维度上做相同的划分,从而将整个数据空间划分成边长为 ε的网格。记作网格单元 Cell={ c₁, c₂,…, c_n}, c_i={[ l_ij, h_ij)},1≤ i≤ n,其中 h_ij— l_ij=ε, i表示维度, j表示空间序数,这是一个左闭右开区间。在网格单元划分的过程中,最后一个网格单元的边长可能不足 ε,可以将该边长看作 ε,这样既不会影响计算的准确性,又可保证计算的一致性。

定义10 k-邻接网格集合:网格单元 Cell的 k-邻接网格集合定义为沿网格 Cell的上下左右4个方向各延伸 k个网格边长(即 k×ε的距离)后所构成的矩形区域所包含的网格集合,记作 N_cell。

定义11 E_ps矩形域:以二维网格 Cell的4个顶点为圆心,画4个半径为 E_ps的圆。网格单元 Cell的 E_ps矩形域定义为能够覆盖这4个圆区域的 k-邻接网格集合所构成的区域。

2.2 算法描述

为了便于计算网格单元 Cell的 E_ps矩形域,取网格单元的边长 L_pg=E_ps/γ。显然,当 γ≥1时,网格单元 Cell的 E_ps矩形域为 Cell的 γ-邻接网格集合所构成的区域,边长为(2 γ+1) ×L_pg;当 γ<1时, Cell的 E_ps矩形域为 Cell的1-邻接网格集合所构成的区域,边长为3× L_pg。

图2所示为当 γ=2时,网格单元 Cell的 E_ps矩形域。由图2可以看出,当网格单元 Cell的 E_ps矩形域内的点的数目不足 MinPts时, Cell内任意一点都不可能是核心点,而当网格单元 Cell的 E_ps矩形域内的点的数目大于等于Min Pts时,种子点仅需计算与 E_ps矩形域内的点的距离,以判断该点是否是核心点,从而可以在很大程度上减少点与点之间距离的计算。

	Figure Option View Download New Window
	图2 网格单元 Cell的 E_ps矩形域Fig.2 E_ps rectangular area of grid unit Cell

基于网格单元的DBSCAN算法首先获取数据集合所在的大区域,然后通过网格划分的方法减少每个点的邻居对象的搜索范围,利用宽度优先搜索,忽略掉低密度的单元,用高密度的区域生成聚类。基于网格单元的DBSCAN算法可以分为以下几个步骤:①将数据空间划分为多个网格单元;②建立数据点到网格单元的映射;③利用宽度优先搜索生成聚类。

点 p邻居对象搜索范围的缩小是在步骤③中体现的,具体步骤如下:

(1)将第一个(下一个)标记为未读的数据点作为种子点送入队列,若所有点都已读,则结束。

(2)如果队列不为空,取队列首部的点进行 E_ps矩形域上的区域查询,并将其标记为已读,如果队列为空,执行第(1)步。

(3)如果 E_ps矩形域内点的个数大于等于Min Pts,则在 E_ps矩形域内检测与种子点之间距离小于等于 E_ps的点的个数是否大于等于Min Pts,如果是,则该点是核心点,将它的 E_ps邻域中的点作为种子点送入队列,如果不是,则将其还原为未读。如果 E_ps矩形域内点的个数小于Min Pts,则直接将该点还原为未读。

(4)循环执行第(2)(3)步。

对于核心点的判断方法,上文已经详细说明,值得一提的是,本算法采用欧氏距离公式计算两个 t维空间点的距离,公式如下:

2.3 时间复杂度分析

本文所用数据均为二维数据,算法共分为三大步:第一步网格的划分需要计算数据空间上每一维的最大、最小值,时间复杂度为 O( n);第二步进行数据点到网格单元的映射,需要遍历 n组数据,时间复杂度也是 O( n);第三步聚类的生成利用了宽度优先搜索算法,对种子点的考察穿插在宽度优先搜索的过程中,时间复杂度为 O( n+me), m为扩展的种子点的个数, e为当网格单元的边长 L_pg=E_ps/γ时,计算(2 k+1)²个网格内的点数 s并施行相应操作所用的时间,为 O( k²),其中:若 γ≥1, k=γ;若 γ<1, k=1。故整个算法的时间复杂度为 O( n+mk²),可见 m和 k的值越小,时间复杂度越低。

对于数据集合明显呈现一个或多个簇的情况,当 γ<1时, k=1,虽然 k足够小,但是由于网格明显增大, E_ps矩形域内点的个数也将明显增多,显然时间复杂度高于 γ=1的情况。当 γ≥1时, k=γ,此时随着 k值的增大, E_ps矩形域缩小,但是 k²的值会明显增大,具体哪一方面的作用明显,要视簇所呈现的状态而定,一般情况下 k²的增大作用更明显。

图3是多次对数据量为10 000的数据集合进行聚类时,不同 γ值情况下,运行时间的平均值。

	Figure Option View Download New Window
	图3 γ值对运行时间的影响Fig.3 Effect of γ value on running time

2.4 仿真实验分析

根据2.3节的分析和图3所示的实验数据,本文算法选取 γ=1。采用二维仿真数据集合,分别用原始DBSCAN算法和基于网格单元的DBSCAN算法进行聚类分析。算法用Visual Studio 2010实现,实验在一台PC(Intel Core i7 3.4 GHz处理器,8 G内存,500 G硬盘)上完成。参数 E_ps=10,Min Pts=3。

两个算法分别针对同一数据集运行5次并取得运行时间的平均值,在数据量分别为2000、4000、6000的情况下,得到运行时间和准确率如表1所示。

由表1可知,基于网格单元的DBSCAN算法具有较高的准确率和较低的运行时间。

表1 两种算法运行时间和准确率对比 Table 1 Comparison of two algorithms on running time and accuracy

在数据量分别为2000,4000,…,20 000的情况下,两个算法分别针对同一数据集运行10次并取得运行时间的平均值得到的实验结果如图4所示。由图4可直观看出,对相同规模的数据集,本文算法运行时间明显降低。

	Figure Option View Download New Window
	图4 两种算法运行时间对比Fig.4 Comparison of two algorithms on running time

3 结束语

本文在分析了原始的DBSCAN算法优缺点的基础上,提出了基于网格单元的DBSCAN算法,该算法继承了原始DBSCAN算法的优点,并利用网格技术,避免了原始DBSCAN算法中大量不必要的距离计算,提高了算法的运行效率。实验证明,改进的基于网格单元的DBSCAN算法取得了令人满意的结果。今后的工作主要是将算法扩展到多维度,以满足更复杂的数据聚类分析需求。

The authors have declared that no competing interests exist.

参考文献

View Option

[1]	王光宏, 蒋平. 数据挖掘综述[J]. 同济大学学报: 自然科学版, 2004, 32(2): 246-252. Wang Guang-hong, Jiang Ping. Survey of data mining[J]. Journal of Tongji University(Natural Science), 2004, 32(2): 246-252. [本文引用:1] [CJCR: 0.634]
[2]	刘明亮, 李雄飞, 孙涛, 等. 数据挖掘技术标准综述[J]. 计算机科学, 2008, 35(6): 5-10. Liu Ming-liang, Li Xiong-fei, Sun Tao, et al. Survey of data mining technology stand ards[J]. Computer Science, 2008, 35(6): 5-10. [本文引用:1] [CJCR: 0.61]
[3]	Yu X, Jian Y. A new clustering algorithm based on KNN and DENClUE[C]∥Proceedings of International Conference on Machine Learning and Cybernetics, Guangzhou, China, 2005: 2033-2038. [本文引用:1]
[4]	于智航. 改进的密度聚类算法研究[D]. 大连: 大连理工大学, 2007. Yu Zhi-hang. Reaearch on improved clustering algorithm based on Density[D]. Dalian: Dalian University of Technology, 2007. [本文引用:1] [CJCR: 0.501]
[5]	孙吉贵, 刘杰, 赵连宇. 聚类算法研究[J]. 软件学报, 2008, 19(1): 48-61. Sun Ji-gui, Liu Jie, Zhao Lian-yu. Clustering algorithms research[J]. Journal of Software, 2008, 19(1): 48-61. [本文引用:1] [CJCR: 2.181]
[6]	张海龙, 王仁彪, 聂俊, 等. 海量数据的网格启发信息密度聚类算法[J]. 吉林大学学报: 工学版, 2011, 41(Sup. 2): 254-258. Zhang Hai-long, Wang Ren-biao, Nie Jun, et al. Grid heuristic information density clustering algorithm based on mass data[J]. Journal of Jilin University(Engineering and Technology Edition), 2011, 41(Sup. 2): 254-258. [本文引用:1] [CJCR: 0.701]
[7]	李海峰, 吴冀川, 刘建波, 等. 有限元网格剖分与网格质量判定指标[J]. 中国机械工程, 2012, 23(3): 368-377. Li Hai-feng, Wu Ji-chuan, Liu Jian-bo, et al. Finite element mesh generation and decision criteria of mesh quality[J]. China Mechanical Engineering, 2012, 23(3): 368-377. [本文引用:1] [CJCR: 0.751]
[8]	冯少荣, 肖文俊. 一种提高DBSCAN聚类算法质量的新方法[J]. 西安电子科技大学学报, 2008, 35(3): 523-529. Feng Shao-rong, Xiao Wen-jun. New method to improve DBSCAN clustering algorithm quality[J]. Journal of Xidian University, 2008, 35(3): 523-529. [本文引用:1] [CJCR: 0.444]
[9]	王桂芝, 王广亮. 改进的快速DBSCAN算法[J]. 计算机应用, 2009, 29(9): 2505-2508. Wang Gui-zhi, Wang Guang-liang. Improved fast DBSCAN algorithm[J]. Journal of Computer Applications, 2009, 29(9): 2505-2508. [本文引用:2] [CJCR: 0.646]
[10]	孙玉芬. 基于网格方法的聚类算法研究[D]. 武汉: 华中科技大学, 2006 Sun Yu-fen. Study on grid-based clustering algorithms[D]. Wuhan: Huazhong University of Science and Technology, 2006. [本文引用:1]

2004

0.0

0.634

. 2004, 32(2):246-252

Survey of data mining

从人工智能、统计分析和数据库技术3个方面对数据挖掘技术进行了总结;从模式识别的角度讨论了数据挖掘技术的主要任务,包括分类、聚类、回归、关联、序列和偏差6种模式的识别.详细介绍了数据挖掘技术的常用方法,包括模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法以及归纳学习.列举了当前数据挖掘技术的实际应用场合,并指出其今后的发展趋势以及急需关注的问题.

... 0 引言数据挖掘是从大量数据中“挖掘”隐含的、有潜在应用价值的信息的过程^[1,2] ...

2008

0.0

0.61

. 2008, 35(6):5-10

Survey of data mining technology standards

随着数据挖掘技术应用日趋广泛,涌现出各种挖掘工具和系统.为规范相应的软件开发和数据交换方法,制订数据挖掘技术规范和标准成为当务之急.在将数据挖掘标准划分为过程标准、接口标准、语言标准和Web标准等四类进行分析介绍后,给出一个综合多种标准的应用程序框架,最后总结出数据挖掘标准化领域面临的问题和挑战,并对发展趋势予以展望.

... 0 引言数据挖掘是从大量数据中“挖掘”隐含的、有潜在应用价值的信息的过程^[1,2] ...

2005

0.0

... 目前提出的聚类算法可以分为划分、层次、基于密度和基于网格几种^[3,4,5] ...

2007

0.0

0.501

... 目前提出的聚类算法可以分为划分、层次、基于密度和基于网格几种^[3,4,5] ...

2008

0.0

2.181

. 2008, 19(1):48-61

Clustering algorithms research

对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.

... 目前提出的聚类算法可以分为划分、层次、基于密度和基于网格几种^[3,4,5] ...

2011

0.0

0.701

. 2011, 41(Sup.2):254-258

Grid heuristic information density clustering algorithm based on mass data

1. Xinjiang Astronomical Observatory, Chinese Academy of Sciences, Ulumqi 830011, China; 2. Zhonghuan Information College Tianjin University of Technology, Tianjin 300380, China

This article proposes a mixed clustering algorithm based on grid density,which took Square Inaccuracy Density function as density evaluation criterion and avoided instability factors of classic density algorithm caused by improper setting of Eps and Min Pts .It posed a kind of dynamic neighborhood radius strategy and solved the clustering deviation problem caused by classic density algorithm adopting global static neighborhood radius.In addition,it set the grid density heuristic information on all nodes in the spatial domain.It just needed computing the values of nodes in the grid domain,when constructing data structure and computing neighborhood radius,which cut the computing cost.Moreover,it just selected the representative points meeting a criterion to expand,which reduced the times of selecting and saved the running time.Finally,this article tested the algorithm in the Pendigits datasets and SEQUOIA 2000 database and the experimental results suggested that Grid Heuristic Information density clustering algorithm had a better performance than classic clustering algorithm in the clustering precision,clustering time and clustering stability.

提出了一种基于网格密度的混合聚类算法。该算法使用平方误差密度函数作为密度评估标准,避免了传统密度算法由于Eps和MinPts设置不当给聚类效果带来的不稳定因素。提出了动态邻域半径策略,解决了传统密度算法采用全局静态邻域半径造成的聚类偏差问题。对空间区域内的所有结点设置网格密度启发信息。在进行数据结构构造和邻域半径计算时,只需计算对应网格区域内结点,从而降低了计算成本;在进行区域查询时,只选择符合条件的代表对象进行扩展,从而减少了查询次数,节省了程序运行时间。对Pendigits数据集和SE-QUOIA 2000数据库进行测试,结果表明:提出的基于网格密度的混合快速聚类算法在海量数据聚类精度、聚类时间以及聚类稳定性上要优于传统的聚类算法。

... 其中基于密度的聚类算法应用广泛,基本思想是:只要邻近区域的密度超过某个阈值就继续聚类^[6],不需要对簇的数量进行预先设定,因此适合对未知内容的数据集进行聚类^[7] ...

2012

0.0

0.751

2008

0.0

0.444

. 2008, 35(3):523-529

New method to improve DBSCAN clustering algorithm quality

(1. School of Computer Science and Engineering, South China University of Technology, Guangzhou 510640， China; 2. College of Information Science and Technology, Xiamen Univ., Xiamen 361005， China)

There are three problems along with the Density Based Spatial Clustering of Applications with Noise(DBSCAN) Clustering Algorithm: input sensitivity, desire for too much memory space and the effect of nonuniform data. To solve these problems, a fast Data Partition DBSCAN using Genetic Algorithm(DPDGA) Algorithm is developed which considerably improves the cluster quality. First, the Genetic Algorithm is used to improve the K-means Algorithm to get the initial clustering center. Second, data is partitioned and the DBSCAN Algorithm is applied to cluster partitions. Finally, all clustered result sets are merged. Simulation experiments indicate that the DPDGA Algorithm works well to solve these problems and that both the efficiency and the cluster quality are better than those of the original DBSCAN Algorithm.

针对基于密度带有“噪声”的空间聚类应用(DBSCAN)聚类算法存在的3个主要问题: 输入参数敏感、对内存要求高、数据分布不均匀时影响聚类效果，提出了一种基于遗传方法的DBSCAN算法改进方案数据分区中使用遗传思想的DBSCAN算法(DPDGA)来提高聚类质量．利用遗传算法改进K-means算法来获取初始聚类中心；对数据进行划分，在此基础上对划分的每一部分使用DBSCAN算法进行聚类；合并聚类的结果．仿真实验表明，新方法较好解决了传统DBSCAN聚类算法存在的问题，在聚类效率和聚类效果方面均优于传统DBSCAN聚类算法．

... 但该算法的时间开销很大,时间复杂度为O(n²)^[8] ...

2009

0.0

0.646

. 2009, 29(9):2505-2508

Improved fast DBSCAN algorithm

针对DBSCAN算法时间性能低效的问题,分析快速聚类过程中丢失对象的原因,提出一种新的改进算法IF-DBSCAN.该算法在不丢失对象的基础上,通过选取核心对象邻域中的代表对象来扩展类,从而减少邻域查询次数,提高了算法的时间性能.实验结果表明,IF-DBSCAN算法是正确和高效的.

... 1 DBSCAN算法DBSCAN聚类算法能够发现任意大小和任意形状的聚类,能有效识别离群点^[9],并且对输入对象的顺序不敏感,这些优点使其在许多领域得到了广泛的应用 ...

... 点p邻域中数据点的数目是通过不断执行区域查询和判断来获取的^[9],以二维数据为例,网格上的区域查询如图1所示 ...

2006

0.0

... 另外,算法运行时,所有数据都应该存放在内存中,当数据量增大时,要求较大的内存支持,I/O消耗也很大^[10] ...