作者简介:张浩(1971-),男,教授,博士.研究方向:模式识别及信息安全,生物信息学.E-mail:zhangh@jlu.edu.cn
为了保证对高速公路绿色通道车辆进行快速、高效的计算机检测,本文提出了一种基于多特征融合的绿色通道车辆检测判定方法PGM-OCSVM。该方法首先利用主成分分析法(Principal component analysis,PCA)对学习样本的属性进行特征过滤,然后利用遗传算法(Genetic algorithm , GA)对one-class SVM的两个重要参数——函数核带宽 σ和错误接受率 v进行自适应调整,增强方法的易用性,最后构建one-class SVM模型学习样本,并对结果进行分类。通过对大数据样本分析,PGM-OCSVM可以有效地完成绿色通道车辆判定任务。目前该方法已经应用于绿色通道车辆检测系统中,取得了良好效果。
In order to ensure efficient computerized detection of vehicles passing green toll lane of highway, a detection method, named PGM-OCSVM, is proposed for free toll lane of highway based on multi-feature fusion. First, the Principal Component Analysis (PCA) is used to filter and simplify the sample characteristics. Then, the Genetic Algorithm is applied for adaptive adjustment of bandwidth of kernel function ( σ) and false acceptance rate ( v), which are two important parameters of one-class SVM. Finally, a one-class SVM model is constructed to learn the samples and classify the results. Big data analysis demonstrates that the proposed PGM-OCSVM can effectively complete green-vehicle discrimination task. This method has been applied to the vehicle detection system in free toll lane of highway.
国家对绿色通道车辆实行免收通行费政策, 但是部分车辆利用混装、伪装等手段, 逃缴高速公路通行费, 每年给国家造成数百亿经济损失[1, 2, 3]。为此, 高速公路管理部门急需建立一种绿色通道车辆检测方法, 来智能判定货运车辆是否符合绿色通道车辆通行标准。
绿色通道车辆信息数据特点是只有一类样本, 即绿色通道车辆信息数据, 而缺少伪绿色通道车辆数据, 这实际上是一个典型的基于单类样本的异常点识别问题, 可以归结成单类分类问题。传统的分类技术无法处理此种单类数据, 因此需要找到一种能够针对绿色通道数据特点的分类方法[4, 5], 通过对大量繁杂的绿色通道数据进行量化、整理、分析, 判定货运车辆是否可以满足绿色通道车辆通行条件, 从而享受到国家的优惠政策。
本文将多特征融合技术应用于绿色通道车辆的判定, 并应用主成分分析法和遗传算法, 建立了one-class模型, 提出了一种基于多特征融合的绿色通道车辆检测判定方法。实际应用结果表明, 基于该方法研发的检测系统可以更准确、高效地对经过高速公路绿色通道的车辆进行夹带、混装鉴别, 解决绿色通道车辆远远多于非绿色通道车辆带来的样本不均衡问题, 同时具有操作简单、安全性和准确性高的优点。该方法应用于高速公路绿色通道的运行管理中, 能够提高绿色鲜活农产品通关效率, 确保绿色鲜活农产品及时运达目的地, 同时可防范非绿色通道车辆蒙混过关事件发生, 为国家减少经济损失。
绿色通道车辆检测问题实际上是对一个单类样本进行分类的问题, 即只通过正常的绿色通道车辆历史数据得到一个分类器, 来区分绿色通道车辆和非绿色通道车辆。传统的分类问题一般需要多个类别的样本, 从而设计多分类的分类器。通过绿色通道检测项目所搜集到的数据, 只能获得一类样本, 使得类别严重不平衡, 分类面就会严重偏离, 因而, 传统的分类器方法不适合绿色通道检测系统的应用。所以, 本方法应只能对已知样本进行学习, 形成一个对该类别的数据描述, 然后根据给定或设计的相似性度量设定阈值判别新的样本归属。由于只使用一类样本进行分类, 所以这种分类被称为单类分类(one-class classification), 这种提法在1993年被提出[6]。该绿色通道检测计算判定方法以系统的高特异性为目标, 即降低错误的拒绝, 实现经验风险的最小化。
目前比较流行的分类器算法主要有:基于密度的方法、基于人工神经网络的方法、基于聚类的方法、基于两类分类的方法和基于支持向量机的方法。绿色通道检测系统得到的高速公路绿色通道车辆信息历史数据是有噪声的, 即该数据集中有少量车辆并不是绿色通道车辆, 而基于支持向量机的方法由于具有对含有噪声的数据有较高鲁棒性的特点, 因此基于支持向量机的方法很适合在本项目中应用[7, 8]。为了解决此类方法计算复杂度高的问题, 2006年Tsang等人将马氏距离引入到one-class SVM中, 并避免了二次规划求解, 一定程度上克服了原算法的不足[9]。
根据以上分析, 最后决定采用基于马氏距离的one-class SVM构建绿色通道车辆检测模型。
one-class SVM可以描述如下:给定训练样本集D={xi
式中:ω ∈ χ 和ρ ∈ R为超平面参数, ω .∅(x)-ρ =0表示特征空间中的超平面; l为样本个数, 用vl控制外面数量的上线和支持向量数量下线; ‖ · ‖ 表示欧几里得范数; ξ i≥ 0为松弛变量。
引入拉格朗日函数:
式中:α i≥ 0、γ i≥ 0为拉格朗日乘子。分别使关于ω 、ξ i和ρ 的偏导数为零, 可得:
式中:向量{l}称为支持向量。
将式(3)代入式(2), 可得对偶型:
当0≤ α i≤ 1/vl时, 式(2)的不等式条件变成等式条件, 参数ρ 由相应的样本x(支持向量)求得:
则决策函数可以写成:
从公式(4)开始引入了核函数, 核函数的引入可以避免“ 维数灾难” , 大大减小计算量, 可以隐式地改变从输入空间到特征空间的映射, 无需知道非线性变换函数∅(xi)的形式和参数。本文采用应用最广泛的高斯核函数, 如公式(7)所示:
其中σ 是one-class SVM的重要参数, 表示核函数核带宽。核带宽控制着数据描述边界的光滑性, σ 越大边界越光滑, 反之则粗糙。但分类边界过于粗糙会导致过拟合使得泛化能力降低, 过于光滑又会导致欠拟合使得模型准确性下降。因此, 采用遗传算法来优化高斯核的带宽参数。值得说明的是one-class SVM的另一个重要的参数是惩罚因子c=1/vl, v在本绿色通道车辆判定方法中表示能够容忍的错分率, 否则会有更多的样本落在边界之外。
该绿色通道车辆判定方法利用马氏距离在one-class SVM中代替欧氏距离。马氏距离是一种计算两个未知样本集相似性有效的方法, 相比于欧式距离, 马氏距离考虑到各个特征之间的联系与尺度无关, 即独立于测量尺度。本方法选择马氏距离主要是因为绿色通道车辆数据的特征很多, 尺度不一。马氏距离可以描述如下:
定义列向量x=(x1, x2, …, xN)T, 其每一项均为随机变量, 且均是有限方差, 则矩阵S的每一项(i, j)都是协方差, 可以用公式(8)来表示:
其中用μ i=E(Xi)表示随机变量Xi的期望值, 则协方差矩阵S表示如下:
因此多变量向量x=(x1, x2, …, xN)T的马氏距离可通过一组均值数据μ =(μ 1, xμ , …, μ N)T和协方差矩阵S表示, 如公式(9)所示:
将上述公式代替公式(1)(2)(7)中的欧几里得范数‖ · ‖ , 即得到了基于马氏距离的one-class SVM。
单类分类器one-class SVM中有两个非常重要的参数σ 和v, 这两个参数控制着判定方法的学习效果, 也就是整个判定方法的准确性。这两个参数的设定需要使用者拥有深厚的数学功底和丰富的业务经验。显然, 将这么重要的两个参数交给普通用户去设定是很不合适的, 于是需要引入一种自适应的根据样本集合调整参数的策略, 这里采用遗传算法(GA)[10, 11]来构建。
进化论中的适应度表示某个体对环境的适应程度, 也表示该个体繁殖后代的能力。遗传算法借鉴了进化论中这一概念, 利用适应度来评价群体中个体的优劣程度, 使得群体向适应度高的方向进化。适应度根据适应度函数计算而来, 适应度函数根据所求问题的目标函数来构造。因而在绿色通道车辆检测判定方法中适应度函数最后被设定为SVM模型训练的准确性和特异性。为了明确目标, 下面对特异性进行定义。在分类中, 出现的情况如表1所示。
Sp=
Acc=
式(11)定义了特异性, 式(12)则定义了准确性, 根据本车辆判定方法的目标, 我们构建GA的适应度函数如公式(13)所示:
公式中的α 和β 为常数, 用来控制特异性和准确性的权重, 这里应该满足α > β 。在编码上, 只有核带宽σ 和错误接受率v两个参数需要优化, 采用8位二进制编码, σ 的取值设定为(0, 1), v一般不会超过10%, 设定其取值为(0, 0.1)。该绿色通道车辆判定方法在one-class SVM中嵌入了自适应调整模型参数的遗传算法, one-class SVM单分类器模型增强了基于多特征融合的绿色通道车辆判定方法的易用性, 这样就不需要使用者具有深厚的数学功底和丰富的业务经验就可以对参数σ 和v进行设定, 减少了对判定方法准确性的影响。
通过现场调研得到了大量绿色通道车辆信息的历史数据, 对这些数据进行特征分析, 所得到的特征可以归类为:车牌、入关日期、入关时间、入关收费站、出关时间、减免金额、违纪类型、车轴数、车重、货物、透视图像、信号图像、处罚金额、收费员、验菜员、图像数据、备注、电话、货车宽度、机器判定结果、验货判定结果、车道号、验货员等共24个主要特征。由于不同特征之前的衡量方式不一致, 所以得到的数据不能直接拿来作为训练模型, 因此需要对数据进行量化处理。
以车牌的特征为例, 车牌的特征可以描述为7位车牌号, 处理方案为:拆分成7位, 每位用整数表示。具体处理如表2所示。
与对车牌特征的处理办法相似, 经过对其他20余项的特征处理共得到66个可用于描述高速绿色通道车辆信息量化特征。实际上在这些特征中有些变化不大, 对于分类结果几乎没什么影响, 有些特征在样本中的取值存在奇异点, 即某点明显低于或高于该特征的平均取值, 这可能是由于错误数据造成的, 属于噪声数据, 在实际应用中应该尽量去掉此类样本, 以便在对one-class SVM学习过程中可以减少计算量, 减少运算时间, 增加绿色通道车辆判定工作的效率。因此需要寻找一种有效的提取技术来对特征进行简化, 尽量去掉不相关特征, 减少噪声数据的干扰。
由于融合了PCA, GA和马氏距离, 所以将本文介绍的基于多特征融合的绿色通道车辆检测判定方法命名为PGM-OCSVM。针对高速公路需要保持畅通的要求, 本方法在保持较高准确性的前提下, 重点关注判定方法的特异性, 即对非绿色通道车辆检出的准确性较高, 同时也需要兼顾运行效率。表1以及公式(11)(12)分别定义了特异性和准确性, 本方法的相关实验也主要考察方法的这两个指标。首先选取标准UCI机器学习数据库中的Iris, Diabetes, Glass和Stalog上的Vehicle数据集作为对判定方法的性能进行测试。由于这些数据的维度低于绿通车辆数据通过PCA后的维度, 所以它们均不进行PCA处理。然后对收集的京哈高速公路某收费站2012年11月份的绿色通道车辆数据进行相同的性能测试, 部分数据如表4所示。
对比的方法有基于密度的方法Parzen、基于SVM的方法SVDD, 对比的目标为运行时间、特异性(Sp)和准确性(Acc)。
以Iris数据集为例, 实际上它是由setosa、vesicular、virginica三类数据组成, 随机选取一类(例如setosa类)中的90%作为训练集, 将剩下的10%与另外两个类的数据混合到一起作为测试集, 进行类别判断, 从而得到时间、特异性(Sp)和准确性(Acc), 时间、准确性较为容易理解, 这里以特异性(Sp)为例:Sp=TN/TN+FP, TN为原属于setosa类、但分类结果为非setosa类, FP为原属于非setosa类、但分类结果为setosa类。依照相同的步骤将每个类都做10遍, 对结果取算数平均值。其他数据集均通过此方式进行实验, 但限于篇幅, 实验结果比较只列出了部分结果。
各种方法的运行时间比较如表5所示。
从运行时间的统计结果可以看出, Parzen由于自身算法比较简单, 因而速度很快, 而PGM-OCSVM由于引入遗传算法(GA), 需要自动调节参数, 所以耗时较SVDD要长。
各种方法的准确率比较如表6所示。
从准确率的统计结果可以看出, SVDD与Parzen和PGM-OCSVM相比, 准确率是较高的, 但与其他两个算法相差不大, 尤其是针对绿色通道车辆的数据并没有明显差异。
各方法的特异性比较如表7所示。
在特异性上, 由于PGM-OCSVM做了相应优化, 其结果与Parzen和SVDD的特异性结果相比要好很多, 对比绿色通道车辆数据的结果, 优势更为明显。
综上所述, PGM-OCSVM经过绿色通道车辆数据的学习, 通过与Parzen和SVDD的性能比较, 可以明显看出PGM-OCSVM能够很好地完成绿色通道车辆判别任务。
PGM-OCSVM首先对学习样本的特征进行处理, 再利用PCA方法对学习样本的属性进行特征过滤, 去掉一些不相关的特征, 以期提高方法的准确性和学习速度; 然后利用GA对one-class SVM两个重要的参数— — 核带宽σ 和错误接受率v, 进行自适应调整, 力争增强方法的易用性; 最后构建one-class SVM模型学习样本, 并利用学习好的结果进行分类, 实验结果表明PGM-OCSVM能够很好地对绿色通道车辆进行判别。PGM-OCSVM作为一种基于多特征融合的绿色通道车辆检测判定方法现已在吉林省交通运输厅重大科技项目— — 绿色通道检测系统中实际使用, 运行效果良好。
The authors have declared that no competing interests exist.
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|