高速公路出入口运动车辆轨迹分层聚类算法
孙宗元, 方守恩
同济大学 道路与交通工程教育部重点试验室,上海 201804
通讯作者:方守恩(1961-),男,教授,博士生导师.研究方向:道路交通安全,道路规划与设计.E-mail:fangshouen@tongji.edu.cn

作者简介:孙宗元(1984-),男,博士研究生.研究方向:道路交通安全,道路规划与设计.E-mail:15843071080@163.com

摘要

为了提高对高速公路出入口车辆运动行为的理解和分析水平,根据出入口车辆运动轨迹的时空特征,提出了一种运动轨迹层次聚类算法。结合出入口轨迹方向一致、长短不一的特点,提出采用改进Hausdorff距离来衡量轨迹间的相似性。建立了改进模糊C均值轨迹分层聚类算法,首先根据轨迹的空间几何位置进行路径聚类,然后根据车辆的速度信息对已有路径聚类进一步聚类获得具有时空区分度的最终结果。真实高速公路出入口的试验结果表明:本文提出的轨迹聚类算法对于场景固定运动行为模式不仅具有较强的适用性,而且能够保障聚类结果的准确性和可靠性。

关键词: 交通运输系统工程; 高速公路出入口; 轨迹分析; 改进Hausdorff距离; 聚类算法
中图分类号:U491 文献标志码:A 文章编号:1671-5497(2017)06-1696-07
Hierarchical clustering algorithm of moving vehicle trajectories in entrances and exits freeway
SUN Zong-yuan, FANG Shou-en
Key Laboratory of Road and Traffic Engineering of Ministry of Education,Tongji University,Shanghai 201804,China
Abstract

In order to improve the understanding and analysis of motion patterns of vehicles, a hierarchical trajectory clustering algorithm is developed according to spatial and temporal characteristics of the vehicle trajectories in the entrances and exits of freeway. In view of the vehicle trajectories are different in length, but in the same direction, the improved Hausdorff distance was proposed and applied to measure the similarity of trajectories. The improved fuzzy C-means hierarchical clustering algorithm of trajectories was further established, in which trajectories were first clustered into different paths according to the spatial geometric position of the trajectories, and then trajectories belonging to the same path were further clustered according to the vehicle speed to obtain the final results with spatial and temporal degree. Experiments in the entrances and exits of freeway were carried out. The results confirm that the proposed trajectory clustering algorithm not only has strong adaptability to the inherent motion pattern of the scene, but also ensures the accuracy and reliability of the clustering results.

Keyword: engineering of communication and transportation system; freeway entrances and exits; trajectories analysis; improved Hausdorff distance; clustering algorithm
0 引 言

随着计算机软、硬件及视觉技术的快速发展, 利用交通视频监控系统提升道路安全水平已成为可能, 而基于车辆运动轨迹的行为分析和识别无疑将成为其中一个最有前景的努力方向, 目前也越来越多地引起国内、外研究人员的关注[1]。高速公路出入口是事故多发区, 如何改善其安全性一直是高速公路运营管理所面临的一个重要研究课题。通过对高速公路出入口车辆运动轨迹进行分析, 不仅可以有效判别频繁变更车道、逆行、超速等违规驾驶行为, 而且能够对车辆的运动趋势作出预测并实时评估其安全状态, 进而在危险发生前及时预警以避免事故发生。车辆轨迹聚类是运动行为分析和识别的基础, 良好的轨迹聚类结果不仅可以为识别模型构建提供样本支持, 而且直接影响轨迹分析预测的准确性和可靠性[2]

轨迹作为时变数据序列, 具有动态、不等长、高信息量等特点。轨迹聚类分析旨在利用非监督的学习方式来发掘大量序列数据中所隐藏的潜在模式。目前, 轨迹聚类算法主要有:K均值聚类[3]、层次聚类[4]、基于神经网络(Neural network, NN)聚类[5, 6]和基于HMM(Hidden Markov model)聚类[7, 8]等。其中, K均值聚类法计算简单, 但聚类结果一般且容易陷入局部最优解; 层次聚类算法虽也较为简单, 但传统的层次聚类算法对不完整轨迹聚类时适应性较差, 需要对其进行改进; 基于NN和HMM算法聚类效果相对较好, 但计算复杂, 难以满足实时性要求, 且HMM的状态个数如何确定仍是一个有待研究的问题。

针对现有轨迹聚类算法中所存在的问题, 提出了一种基于改进Hausdorff距离的运动轨迹分层聚类算法。首先, 采用改进Hausdorff距离衡量轨迹之间的相似性。继而, 根据轨迹时空特征的不同, 利用改进模糊C均值算法实现对有效轨迹的分层聚类。真实场景下的试验结果表明, 本文算法对于高速公路出入口区域车辆运动轨迹聚类具有较好的适用性和准确性。

1 轨迹编码

轨迹编码的目的是指根据聚类算法的需要, 建立简洁、紧致的轨迹表达并最终获得开展聚类分析所需的数据样本库。本文采用类似文献[9]的轨迹编码方法:给定一图像序列, 通过对目标进行跟踪可以获得由车辆不同时刻的特征点连接而成的轨迹序列, 在此基础上重新对原始轨迹进行等时间重采样, 采样间隔为Δ t。对于车辆O, 设t次采样时, 质心位置的二维坐标为(xt, yt), n次采样后可以得到一个由n个坐标点连接而成的时序数据序列 Tn:

Tn=(x1, y1), , (xt, yt), , (xn-1, yn-1), (xn, yn)1

若第t+1帧坐标为(xt+1, yt+1), 则车辆O在t时刻的速度向量可表示为:

V=δxt, δyt2

式中: δxt=xt+1-xt; δyt=yt+1-yt

结合本文研究目的, 这里采用一个流矢量序列取代上述的位置点序列来描述车辆的运动轨迹, 其中流矢量 ft是一个四元组, 由车辆的位置和速度元素共同组成:

ft=xt, yt, δxt, δyt3

值得注意的是, 虽然通过轨迹分析也可以获得车辆的加速度, 但考虑到加速度噪音较大和聚类算法的效率, 这里暂不作考虑。最终, 车辆轨迹可表示为由 n个流矢量组成的集合:

Fn=f1, f2, , ft, , fn-1, fn4

通过对高速公路出入口区域内车辆进行跟踪, 可以采集到大量的车辆运动轨迹, 经有效性判断预处理后, 最终可获得有效轨迹样本集 S={F1, F2, , Fl, , FM}, 其中M为轨迹样本的总数目。

2 轨迹间距离指标

为了进行轨迹间对比, 产生有意义的聚类结果, 在聚类之前必须确定采用哪种合适的距离指标度量样本间的相似性。轨迹相似性指标主要用于衡量两条轨迹的相似程度, 是轨迹聚类的前提条件。目前常用的轨迹相似性度量指标包括:欧氏距离(Euclidean)、豪斯多夫距离(Hausdorff)、最长公共序列(Longest common subsequence, LCSS)和DTW(Dynamic time warping)等[10]。其中, 欧氏距离要求轨迹样本等长, 受噪声影响严重且对时序变化敏感; LCSS和DTW虽然能够对轨迹相似性进行有效度量, 但均更适用于度量柔性物体的形状变化轨迹[11]。尽管Hausdorff距离不能考虑轨迹的方向, 但考虑到本文研究对象为高速公路出入口结构化场景中长短不一、方向一致的车辆轨迹, 在综合分析上述各指标优缺点的基础上, 这里提出并采用改进Hausdorff距离指标衡量轨迹之间的相似性。

Hausdorff距离是描述一对点集之间相似程度的一种度量指标, 它可以用于对组成轨迹的两个点集之间的距离进行定义[12, 13]。但当两条轨迹间的长度存在较大差异时, 传统Hausdorff距离会因轨迹长度影响而增大, 并不能客观反映轨迹间真实的相似程度。因此, 给定样本集中第i条和第j条轨迹Fi 、Fj, 本文提出并对称定义了如下改进Hausdorff距离 DH(Fi, Fj):

DHFi, Fj=minDHFi, Fj, DHFj, Fi5

式中:

DHFi, Fj=maxfi, kminfj, ldEfi, k, fj, l, k, l

DHFj, Fi=maxfj, lminfi, kdEfj, l, fi, k, l, k

式中: dE(fi, k, fj, l)为轨迹Fi 、Fj 中第k和l个多维特征向量 fi, kfj, l之间的Euclidean距离。

3 改进模糊C均值分层算法

轨迹聚类的目的是根据研究特征, 将相似的轨迹样本划分为一类。与普通C均值算法相比, 模糊C均值算法由于采用模糊理论来指导聚类, 所以其设计思路更加符合客观实际, 尤其适用于各聚类存在交叉区域的情况, 实际应用中往往可以以较少的工作量和较好的学习效果完成任务[5]。然而, 与前两者相比, 改进模糊C均值算法却拥有更好的鲁棒性和适用性, 其不但能够较好地处理存在野值的情况, 而且因为放松的隶属度条件, 使得最终的聚类结果对预先确定的聚类数目并不敏感。鉴于实际获得的轨迹样本复杂多样, 数据重叠严重, 并且存在个别异常轨迹, 因此, 为提高聚类的效率和精度, 本文依据轨迹时空特征的不同建立基于改进模糊C均值的分层聚类算法, 即首先根据轨迹的空间几何位置进行路径聚类, 在此基础上, 再根据车辆的速度信息对已有路径聚类成果进一步聚类。

3.1 路径聚类

路径是指由轨迹各连续点的位置信息所刻画的空间曲线。路径虽仅包含轨迹中的坐标信息, 但却充分反映了轨迹中最重要的位置和几何形状特征, 因此, 这里首先对各原始轨迹的相应路径进行聚类获得初步结果。路径聚类算法利用所有有效样本轨迹所对应的路径信息作为输入, 以中心典型轨迹和两侧边界轮廓线作为每一聚类的表达, 进而实现路径的聚类并最终获得原对应轨迹的聚类结果。

假设原始有效轨迹集对应的路径集合为: S'={F'1, F'2, , F'l, , F'M}, 路径F'l={f'1, f'2, …, f't, …, f'n}, 其中f't=(xt, yt), 路径聚类的目的是将样本集S'聚成K个不同的子类集合θ ={θ 1, θ 2, …, θ c, …, θ K}, 即:

S'=c=1Kθc6

式中:θ c 为第c个路径子类; K为子类总数目, 其可经反复试验并最终确定, 亦可以根据某种准则计算获得, 这里采用前者。

利用改进模糊C均值对路径聚类实现的步骤如下所示。

(1)随机初始化 K个聚类中心。

(2)输入并计算每个有效样本F'l 到所有K个聚类中心 θc的改进Hausdorff距离, 即:

DHF'l, θc=minDHF'l, θc, DHθc, F'll=1, 2, , M; c=1, 2, , K7

(3)计算各样本到所有 K个聚类中心的隶属度 Rcl(t)为:

Rcl(t)=M/DH2F'l, θcc=1Km=1M1/DH2F'm, θc8

(4)根据隶属度调节每个聚类中心向量元素:

θct+1=l=1MRcl2tF'll=1MRcl2t9

(5)根据是否满足下面的聚类中心稳定条件来判断是否停止迭代, 结束聚类过程:

max1cKθc(t+1)-θc(t)< ε10

(6)根据轨迹的路径聚类结果, 利用路径信息与原样本轨迹的对应关系, 获得原始轨迹基于空间特征的聚类结果:

S={{F1, 1, F1, 2, , F1, M1}, , {Fc, 1, Fc, 2, , Fc, Mc}, , {FK, 1, FK, 2, , FK, MK}}(11)

式中:Mc为第c个路径子类的样本轨迹数目, c=1KMc=M

3.2 速度聚类

尽管几何路径与轨迹模式相类似, 但二者之间又有很大不同, 主要在于相对于前者, 后者还包含了轨迹的动态时间信息, 其外在表现即为速度差异, 说明即使车辆沿着相同的路径运动, 它们也可能归结于不同的轨迹模式, 如同一车辆可能沿相同路径加、减速或正常行驶。轨迹聚类的目的是对车辆运动进行识别、分析和预测, 而利用时间信息对轨迹模式进一步划分对于提高上述工作尤其是后者的精度无疑是必要的。因此, 在前述路径聚类的基础上还需对已有子类 Sc={Fc, 1, Fc, 2, , Fc, Mc}, c=1, 2, , K进一步基于速度信息聚类。

由于原始轨迹的每个流矢量元中已经包含速度元素, 这里依然通过扩展使用并计算改进Hausdorff距离来衡量包含速度信息的轨迹间相似性, 并借助于改进模糊C均值算法对每个子类 Sc进一步聚类。值得注意的是, 由于采用分层轨迹聚类算法, 每个子类 Sc的轨迹数目 Mc较原总有效轨迹数目 M已大大减少, 因而上述基于速度信息的聚类过程比直接对原样本轨迹集进行聚类更加准确、高效。

在速度聚类完成后, 原样本轨迹将聚为 N类:

Sc={{F1, 1, F1, 2, , F1, M'1}, , {Fr, 1, Fr, 2, , Fr, M'r}, , {FN, 1, FN, 2, , FN, M'N}}(12)

式中: M'r为第r个速度子类的原样本轨迹数目, r=1NM'r=Mc

4 试验结果分析

为了验证本文所提出的轨迹聚类算法的有效性和适用性, 选取真实的高速公路出入口交通场景作为研究对象, 出入口类型均为平行式, 主线为双车道。通过处理长度均为30 min的2个视频片段, 每帧大小为520× 480, 帧率为25 帧· s-1, 测试期间出口共有352辆车通过, 入口共有447辆车通过, 利用基于区域跟踪算法采集轨迹并建立样本集, 轨迹由目标不同时刻的质心点连接而成[14]。通过对轨迹进行人工判断预处理, 剔除短小或明显错误样本后, 最终共分别获得405条和529条有效轨迹, 如图1所示。上述轨迹总数略多于车辆数是由于跟踪算法因为对遮挡或其他情况无法处理而导致轨迹发生断裂, 但经有效性判断这些轨迹仍为有效样本的情况。

图1 出口和入口样本轨迹Fig.1 Trajectories from the exit scene and entrance scene

利用分层聚类算法对所获得的出入口样本轨迹分别进行聚类, 迭代控制参数ε =0.01。在获得模糊聚类结果后, 为验证聚类的效果, 与其他算法进行比较, 需要先对其去模糊明确化处理, 设定判断阈值TR=0.01。当计算轨迹样本的最大隶属度Rjl< TR时, 则认为聚类失败; 否则聚类成功, 并以此对聚类成功率进行计算。表1为本文算法以及其他两种典型算法的聚类结果对比。从表1中可以发现:3种算法不仅聚类个数有所不同, 而且聚类成功率也存在明显差异。其中, 层次聚类法[4]由于只考虑了轨迹在空间位置和运动方向上的相似性, 并未对轨迹中所包含的速度特征进行考虑, 因此对轨迹的分辨能力稍弱, 聚类总数最少, 并且将相当比例车速差别较大的轨迹错误地归为一类, 进而影响了聚类的成功率。K均值法[15]虽然在进行轨迹相似性度量时, 综合考虑了轨迹的空间位置、速度大小和方向等特征, 但为实现聚类一次完成, 只能利用上述特征构建了综合距离指标, 因此聚类的效果虽较前者有所提高, 但并不十分令人满意。本文算法由于在聚类时既充分考虑了上述特征的相似性, 又利用改进模糊C均值算法分步进行, 因此进一步有效提升了算法对运动目标轨迹的区分能力, 故采用本文算法的轨迹聚类个数在3种算法中为最多, 同时, 聚类成功率也较前两者有了明显提高。由此可见, 对于长短不一、方向相同的高速公路出入口车辆轨迹, 本文算法在具有较强适应性同时, 还能够获得令人满意的聚类成功率。

表1 轨迹聚类结果 Table 1 Trajectory clustering results

出入口轨迹聚类结果分别如图2所示, 不同的聚类中心分别以均值多段线表示。从图2可以看出:轨迹聚类结果不仅较为规律, 与高速公路出入口处车辆的实际运动行为模式相一致, 而且在存在明显异常轨迹干扰的情况下, 部分重叠严重或空间特征相近的轨迹均能够得以正确划分, 因此, 本文算法对于高速公路出入口车辆运动轨迹具有较好的分辨可靠性, 而且聚类结果物理意义明确, 能够客观地反映车辆在出入口区域所对应样本轨迹的时空分布情况。

图2 出口和入口聚类结果Fig.2 Clustered result in exit scene and entrance scene

图3 出口和入口聚类失败轨迹Fig.3 Failure samples for clustering of trajectories in exit and entrance

出入口聚类失败轨迹分别如图3所示, 图中红色实线为空间聚类失败的轨迹样本, 黄绿色虚线为时间聚类失败的轨迹样本。

对上述失败聚类轨迹进行深入分析可知, 红色实线一部分为车辆随机驾驶行为轨迹, 如车辆随意变道或连续变道超车等, 其他部分则为车辆异常轨迹, 如车辆为避免与前车发生碰撞或发生故障而不得以占用右侧硬路肩行驶、清洁人员的横穿轨迹等。黄绿色虚线除一条逆行轨迹是由于Hausdorff距离指标缺陷导致分类错误外, 其余则多是由于车辆超速或速度过低行驶而导致聚类失败。总之, 上述两者均为与出入口固定运动行为模式无关的车辆轨迹, 不同的是, 只有极小一部分轨迹属于合法驾驶行为, 但由于其自身的随意性, 导致基于统计的算法对该类行为无法彻底分析, 还需从驾驶行为模型角度深入进行研究, 而其他更多的则为违法或违规驾驶行为, 需要引起足够重视, 而这也正是道路日常管理所应该关注的重点, 可见, 本文算法能够为其提供可靠支持。通过以上分析可知, 轨迹聚类失败的主要原因在于轨迹样本的特殊性而非聚类算法本身, 因此进一步验证了本文算法的有效性。

5 结束语

结合高速公路出入口处轨迹的时空特征, 提出了一种合理的车辆运动轨迹分层聚类算法。首先提出并利用改进Hausdorff距离来衡量轨迹之间的相似性, 该指标能够适于出入口处长短不一、方向一致的轨迹样本; 其次, 基于改进模糊C均值算法建立了轨迹层次聚类算法, 即首先根据轨迹的位置几何形状信息进行路径聚类, 在此基础上, 再根据车辆的速度信息对已有路径聚类成果进行进一步聚类。通过对采集到的真实轨迹样本进行试验, 结果表明了本文算法对于场景固定运动行为模式不仅具有较高的聚类成功率, 而且聚类结果准确、可靠。更为重要的是, 采用本文算法所产生的聚类结果为轨迹样本在空间路径和车速层面上的分别划分, 因此最终获得的聚类结果物理意义明确, 可为进一步的车辆运动行为理解和分析提供依据。

The authors have declared that no competing interests exist.

参考文献
[1] Valera M, Velastin S A. Intelligent distributed surveillance systems: a review[J]. IEE Proceedings-Vision, Image and Signal Processing, 2005, 152(2): 192-204. [本文引用:1]
[2] Morris B T, Trivedi M M. A survey of vision-based trajectory learning and analysis for surveillance[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2008, 18(8): 1114-1127. [本文引用:1]
[3] 潘奇明, 程咏梅. 基于隐马尔可夫模型的运动目标轨迹识别[J]. 计算机应用研究, 2008, 25(7): 1988-1991.
Pan Qi-ming, Cheng Yong-mei. Trajectory recognition of moving objects based on hidden Markov model[J]. Application Research of Computers, 2008, 25(7): 1988-1991. [本文引用:1]
[4] 郝久月, 李超, 高磊, . 智能监控场景中运动目标轨迹聚类算法[J]. 北京航空航天大学学报, 2009, 35(9): 1083-1087.
Hao Jiu-yue, Li Chao, Gao Lei, et al. Moving object trajectory clustering method in intelligent surveillance video[J]. Journal of Beijing University of Aeronautics and Astronautics, 2009, 35(9): 1083-1087. [本文引用:2]
[5] Hu W, Xiao X, Fu Z, et al. A system for learning statistical motion patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2006, 28(9): 1450-1464. [本文引用:2]
[6] Sumpter N, Bulpitt A. Learning spatio-temporal patterns for predicting object behaviour[J]. Image & Vision Computing, 1998, 18(9): 697-704. [本文引用:1]
[7] 袁和金, 吴静芳, 贾建军. 一种基于HMM聚类的视频目标轨迹分析方法[J]. 华北电力大学学报: 自然科学版, 2010, 37(6): 90-94.
Yuan He-jin, Wu Jing-fang, Jia Jian-jun. A method of video target's trajectory analysis based on HMM clustering[J]. Journal of North China Electric Power University(Natural Science), 2010, 37(6): 90-94. [本文引用:1]
[8] Saunier N, Sayed T. Automated road safety analysis using video data[J]. Transportation Research Record Journal of the Transportation Research Board, 2007, 2019(2019): 57-64. [本文引用:1]
[9] Stauffer C, Grimson W E L. Learning patterns of activity using real-time tracking[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000, 22(8): 747-757. [本文引用:1]
[10] Xu R, Nd W D. Survey of clustering algorithms[J]. IEEE Transactions on Neural Networks, 2005, 16(3): 645-678. [本文引用:1]
[11] Zhang Z, Huang K, Tan T. Comparison of similarity measures for trajectory clustering in outdoor surveillance scenes[C]//International Conference on Pattern Recognition, Hong Kong, China, 2006: 1135-1138. [本文引用:1]
[12] Khalid S, Naftel A. Evaluation of matching metrics for trajectory-based indexing and retrieval of video clips[C]//Proceedings of the Seventh IEEE Workshops on Application of Computer Vision, Breckenridge, USA, 2005: 242-249. [本文引用:1]
[13] Atev S, Masoud O, Papanikolopoulos N. Learning traffic patterns at intersections by spectral clustering of motion trajectories[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems, Beijing, China, 2006: 4851-4856. [本文引用:1]
[14] 王俊骅, 张方方, 张兰芳. 基于OpenCV和Halcon的交通冲突视频自动检测及数据处理[J]. 同济大学学报: 自然科学版, 2010, 38(2): 238-244.
Wang Jun-hua, Zhang Fang-fang, Zhang Lan-fang. Halcon and OpenCV-based traffic automatic conflicting detecting method and data transaction[J]. Journal of Tongji University(Natural Science), 2010, 38(2): 238-244. [本文引用:1]
[15] 李明之, 马志强, 单勇, . 交通监控中运动目标轨迹的距离计算和聚类[J]. 计算机工程与设计, 2012, 33(6): 2417-2422.
Li Ming-zhi, Ma Zhi-qiang, Shan Yong, et al. Distance calculating and clustering of moving objects'trajectories in traffic surveillance video[J]. Computer Engineering and Design, 2012, 33(6): 2417-2422. [本文引用:1]