作者简介:李海舰(1986-),男,博士研究生.研究方向:智能交通系统,交通传感器网络.E-mail:lihaijian0506@163.com
提出了一种利用多功能地磁传感器采集道路环境磁场数据,并基于决策树模型实现车型的在线分类方法。文中提取8种与车速无关的车辆波形时域特征作为模型输入,基于最优最小划分样本数的CART算法对决策树模型进行训练。对训练得到的决策树,基于最小误差剪枝原则进行剪枝,得到具有更高样本鲁棒性的最佳剪枝树。通过在北京市某道路上布设地磁传感器获取了两种车型数据,正、反向测试的平均准确率分别为88.9%和94.4%。与现有多个分类方法进行了对比实验,结果表明:本文方法能够进行在线车型分类,并在分类准确率、样本鲁棒性和算法执行时间等方面更具优势,能够应用于实际城市道路现场进行车型分类。
An online vehicle classification method based on decision tree model is proposed, in which multi-functional magnetic sensors are used to collect field magnetic data. First, eight speed-independent time-domain waveform features are extracted as the inputs of the decision tree model. Then the decision tree model is trained based on the Classification and Regression Tree (CART) algorithm with the Minimum Number of Slit-samples (MNS). Finally the trained decision tree model is pruned with a Minimum Error Pruning (MEP) role to obtain an optimal pruning tree, which is more robust to new samples. For the field samples collected from a road in Beijing with two types of vehicles, the average classification accuracies of the forward and reverse tests are 88.9% and 94.4% respectively. The proposed classification method is compared with existing methods. The results show that the proposed method enables online vehicle type classification with the advantages of high classification accuracy, sample robustness and less algorithm execution time.
有多种区域, 如对不同车型进行速度和载重限制的路口、高速公路收费站、大型停车场等, 都需要对运动中的车辆进行在线车型分类。车型分布情况也为公路通行能力的预测、交通法规效率评估、不停车收费系统、车辆限重的实施、环境影响评估、车辆优先控制、路基寿命的估算及路段大修等多种应用提供基础数据和参考[1]。
众多学者利用视频[2, 3]、音频[4, 5, 6]、线圈[7, 8]、地磁[1, 9]等车辆检测技术进行车型分类, 并提出多种分类模型和算法。杨兆升等[10]利用车长、轴数、轴重等参数作为输入研究了高速公路收费系统的车型自动分类问题, 是一种离线分类。陈强等[6]利用声音传感器采集车外噪声信号, 根据采集到的两种车型样本数据进行分类。Jeng等[7]提取线圈输出的车辆特征, 并加入车轴数参数, 利用KNN算法进行了车型分类研究。Coifman和Kimb[8]利用单个线圈检测器研究了基于车长的车型分类方法。
由于地磁传感器具有低成本、低能耗、体积小、便于无线传输、不受气候条件影响、便于大规模部署等多方面的优势, 基于地磁传感器的车型分类问题越来越受到关注。Cheung等[1]利用地磁传感器采集的实际数据, 对基于FHWA提出的13类车型进行分类; 由于受到数据获取的限制, Cheung等主要研究了其中的6类车型(1类小汽车和5类货车)的分类, 平均准确率在80%左右。Kaewkamnerd等[9]基于车辆磁感应长度、平均能量值和波峰数3个特征开发车型分类系统, 利用样本把车型分为摩托车、小汽车、小卡车和厢式货车4类, 该系统自动进行车辆检测、特征提取和车型分类, 平均准确率约为79.66%。
传统的研究方法[1, 9]依赖于车长参数, 通过两个或多个传感器求得车辆速度进而推知车长, 这样增加了车型分类的成本; 另外现有方法对新样本鲁棒性和算法执行效率等方面的分析较少。本文利用自主研发的多功能地磁传感器采集车辆地磁信号, 研究面向城市道路的在线车型分类方法。该方法无需车长参数, 且利用单个地磁传感器实现。另外本文首次基于决策树模型研究在线车型识别, 并给出基于CART算法训练决策树模型的步骤。利用实地采集的小汽车和公交车样本, 对比多种现有方法的分类结果, 并对新样本鲁棒性和算法执行效率进行分析, 验证本方法的有效性。
本文采用自主研发的多功能地磁传感器(下文称“ 传感器” )获取车辆波形。传感器为圆柱形, 如图1所示, 直径为100 mm, 高为64 mm。该传感器能够实时检测传感器周围的磁场强度, 利用磁阻效应将磁场信号转化为mV级电压信号, 通过放大器放大后变成V级电压。利用滤波器滤除干扰信号, 然后再通过A/D转换器获得相应的数字量, 数字量大小与车辆对地球磁场的扰动变化量相对应。当传感器周围环境无车辆存在时, 其输出为一个特定的数字量(除去随机噪声), 定义为传感器基准线yb; 当车辆经过传感器时, 由于磁场受到含有铁磁物质的影响, 其输出为叠加车辆扰动变化量和基准线的信号序列, 称为原始地磁信号序列。
传感器由于受到环境、自身等因素影响, 采集的原始地磁信号序列含有高频噪声, 通过分析噪声的频率分布, 设计低通滤波器滤除噪声。滤波后的地磁信号序列更加平滑, 便于单个车辆波形的提取。本文采用双窗口车辆检测算法[11]提取每个车辆的波形。双窗口车辆检测算法描述如下:
(1)初始化基准线yb和窗口大小, 包括车辆接近判别窗口
(3)依次输入地磁信号序列, 若信号幅值都在
(4)启动车辆离开判别窗口W2。
(5)依次输入地磁信号序列, 若信号幅值都在
车辆波形特征有很多种, 需要提取最有利于车型分类的某些特征。在实际道路上, 影响车辆波形时域特征的因素有很多, 如车速、经纬度、温度、车辆行走在车道中的位置等。文献[1]对后两者进行了研究, 它们对传感器输出结果影响较小, 且主要是信号幅值的整体漂移。经纬度因素主要影响环境磁场的大小。由于本传感器采用环境自适应的固定值yb, 可以消除信号幅值的整体漂移和环境磁场差异, 故后三种因素可以忽略。对于速度因素, 在采样频率一定的情况下, 即使是同一辆车, 由于每次经过传感器的速度不同也会导致其波形有所差异。由于通过传感器的时间较短, 速度变化较小, 可以假定车辆匀速通过传感器。这样同一辆车的多个波形在纵轴上表现为均匀压缩或拉伸。为了尽量消除由于车速对分类结果的影响, 本文主要提取以下8种时域特征, 分别是:波峰数
令np、nt分别表示某个车辆波形的波峰数和波谷数, 满足|np-nt|=0或1, 则各特征计算如下:
式中:ave、var、max、min分别为向量
本文首次把决策树模型[12, 13]应用于城市道路在线车型分类。决策树是一种非常有效的机器学习分类算法, 是用二叉树来表示处理逻辑的一种工具。决策树由决策结点、分支和叶子组成, 最上面的结点为根结点, 每个分支是一个新的决策结点, 或者是叶子; 每个决策结点代表一个问题或决策, 通常对应于待分类对象的一个特征量; 每一个叶子结点代表一种可能的分类结果[13]。
本文采用基于最优最小划分样本数的CART算法[12]建立决策树。CART算法采用二分递归分割技术, 将当前的样本集分为两个子样本集, 使得生成的决策树的每个非叶子结点都有两个分支[12]。该算法生成的决策树是结构简洁的二叉树, CART算法流程如下:
(1)创建样本集
(3)针对
(4)对于所有i, 求GINI(i)中最小者, 并把其对应的特征向量
(5)依据第(4)步的划分, 把
(6)对
(7)对
本算法中参数
式中:
依据样本集T某个特征的划分
式中:
本文算法能够根据样本特征自学习, 选择最能有效进行分类的特征建立决策树, 省去了如神经网络、朴素Bayes分类算法剔除无效特征、计算不同特征相关性等步骤, 从而根据建立的最佳决策树得到最优特征组合。
利用已知样本对决策树模型进行训练, 建立能够对样本进行有效分类的最佳决策树。设样本数为
确定最优
由于可能出现过拟合情况, 需要对最佳决策树Treeopt进行剪枝, 得到最佳剪枝树PTreeopt, 提高样本鲁棒性。本文采用最小错误剪枝(Minimum error pruning, MEP)原则对最佳决策树进行剪枝, 定义使测试样本的分类准确率最大的剪枝树作为最佳剪枝树PTreeopt。
离线训练得到最佳剪枝树后, 在传感器节点上实现车型的在线分类。最佳剪枝树给出了车辆波形的最优特征组合, 为减小计算量, 在线分类时只需计算最优特征即可。在线车型分类是沿着决策树从上到下遍历的过程, 过程中根据遇到的决策结点的特征判别条件进行判断, 进入下一个分支, 最后到达一个叶子结点, 读取叶子结点信息即可得到新样本的一个分类。
用于采集实地车辆波形的传感器布设在北京市海淀区交大东路上某车道中央。样本为2009年5月~11月若干时间段采集的470辆小汽车和72辆公交车的车辆波形, 把这542个车辆波形作为样本集验证本文方法。
通过车辆波形获取和特征提取两个步骤得到了包含542个车辆波形样本的特征矩阵, 记作X542× 8。为了对训练结果进行验证, 本文随机地把271个车辆波形(包括235辆小汽车样本和36辆公交车样本)样本作为训练样本, 训练样本特征矩阵记作Xtrain; 剩余271个车辆波形样本作为测试样本, 测试样本特征矩阵记作Xtest。样本采集时利用视频记录并人工统计实际车型, 记1为小汽车, 2为公交车, 则得到Xtrain对应的车型向量ytrain及Xtest对应的车型向量ytest。
为了得到最优参数
由表1可以看出, 当
当τ =9时, 利用CART算法对Xtrain和ytrain进行训练, 得到图3所示的最佳决策树Treeopt。其中三角形为决策结点, 圆形为叶子结点, 叶子结点上的1表示分类结果为小汽车, 2表示分类结果为公交车。
Treeopt是基于训练样本的最佳决策树, 可得最优特征组合
(1)Node 1:若x1< 5.5, 进入第(2)步; 否则进入第(3)步。
(2)Node 2:若x2< 0.898613, 进入第(4)步; 否则进入第(5)步。
(3)Node 3:若x8< 1.12183, 进入第(6)步; 否则进入第(7)步。
(4)Node 4:若x2< 0.0938607, 进入第(8)步; 否则进入第(9)步。
(5)Node 5:class=2, 结束。
(6)Node 6:class=1, 结束。
(7)Node 7:class=2, 结束。
(8)Node 8:若x2< 0.0926934, 进入第(10)步; 否则进入第(11)步。
(9)Node 9:class=1, 结束。
(10)Node 10:若x6< 2480.33, 进入第(12)步; 否则进入第(13)步。
(11)Node 11:class=2, 结束。
(12)Node 12:class=1, 结束。
(13)Node 13:class=2, 结束。
利用决策树算法, 分别对训练样本和测试样本进行集内测试和集外测试。表2和表3分别为集内测试和集外测试的分类准确率。
为了进一步提高测试样本的分类准确率, 基于MEP原则对Treeopt进行剪枝, 得到图4所示的最佳剪枝树PTreeopt。
根据图4的最佳剪枝树PTreeopt得到本实例的改进在线车型分类算法(剪枝树算法)如下:
(1)Node 1:若x1< 5.5, 进入第(2)步; 否则进入第(3)步。
(2)Node 2:若x2< 0.898613, 进入第(4)步; 否则进入第(5)步。
(3)Node 3:若x8< 1.12183, 进入第(6)步; 否则进入第(7)步。
(4)Node 4:class=1, 结束。
(5)Node 5:class=2, 结束。
(6)Node 6:class=1, 结束。
(7)Node 7:class=2, 结束。
与决策树算法相比, 剪枝树算法更加简洁, 执行速度更高, 这对计算和存储能力有限的传感器节点非常重要。由于采用基于MEP原则对Treeopt进行剪枝, 剪枝树算法比决策树算法的分类准确率更高, 对新样本的鲁棒性更高。利用剪枝树算法, 得到新的集外测试结果见表4。
为了进一步验证本文方法的有效性, 从分类准确率、样本鲁棒性和算法执行时间等方面对本文方法与多种现有常用分类算法进行了对比。基于本实例的测试样本Xtest, 表5给出了本文方法与人工神经网络(ANN)、支持向量机(SVM)、朴素Bayes分类(NBayes)、模板匹配(TPM)等算法在分类准确率方面的测试结果。可以看出基于最优MNS的CART算法表现出较高的准确率。由于公交车样本量较少, 算法学习不够充分, 多种算法的公交车分类准确率较低, 仅CART和SVM算法能够给出较好的分类结果。在样本学习中, CART算法能够得到更高拟合度的决策树模型。为了验证CART算法的样本鲁棒性, 把训练样本Xtrain和测试样本Xtest互换(本文把互换前称正向测试, 互换后称反向测试), 以分析各算法分类结果受样本特殊性的影响程度。表6给出了各分类器反向测试结果。CART算法仍能得到较高的分类准确率, 其次是SVM算法。从表5和表6知, 基于最优MNS的CART算法在车型分类中能够得到较高的分类准确率和较好的样本鲁棒性。
由于本文方法的学习和优化都是离线进行的, 不需要考虑实时性问题。但决策树算法或剪枝树算法是在能量和计算资源都有限的传感器节点上进行实时在线分类的, 故在算法执行时间方面, 本文重点研究在线分类时的算法执行时间。图5给出了不同方法完成实例样本分类占用的计算机CPU时间。测试使用的计算机配置如下:操作系统为Windows VistaTM Business; 处理器为Intel Core(TM)2 Duo, CPU为E6750@2.66 GHz; 内存为4.00 GB。ANN和TPM算法运算时间较长, 在线分类速度较慢; CART、SVM和NBayes算法在线分类速度较快, 在运算时间上具有优势, 但考虑到车型分类的准确率, CART算法的优势更加明显, SVM算法次之。
采用自主研发的多功能地磁传感器, 能够得到实时的车辆波形; 通过车辆波形处理和特征提取两个步骤, 得到适用于城市道路车型分类的车辆波形时域特征。本文提出的基于最优MNS的CART算法实现了车型分类。对最佳决策树进行剪枝, 能够提高新样本的分类准确率和鲁棒性。本文方法无需进行无效特征的剔除和特征相关性计算, 即可自动筛选出最优特征组合; 与多种经典分类算法对比可知, 本文方法在分类准确率、样本鲁棒性和算法执行时间上都具有明显的优势。与传统的车型分类方法相比, 本文方法不需要车长信息, 且通过传感器单节点就能实现车辆的在线分类。此外, 根据不同应用对车型分类的需求, 可以训练出面向不同车型分类的决策树, 以满足不同车型分类需求, 这需要采集更多的车型样本作为支撑, 是本文下一步的研究重点。
The authors have declared that no competing interests exist.
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|