基于马尔科夫毯和隐朴素贝叶斯的驾驶行为险态辨识
严利鑫1,2,3, 黄珍4, 朱敦尧1,2, 陈志军1,2, 冉斌3
1.武汉理工大学 智能交通系统研究中心,武汉430063
2.国家水运安全工程技术研究中心,武汉430063
3.威斯康星大学麦迪逊分校 土木与环境工程学院, 麦迪逊 53705
4.武汉理工大学 自动化学院,武汉430070
黄珍(1974-),女,副教授,博士.研究方向:智能交通,交通安全.E-mail:h-zhen@whut.edu.cn

作者简介:严利鑫(1988-),男,博士研究生.研究方向:智能车路关键技术,驾驶行为.E-mail:yanlixinits@126.com

摘要

为了实现对驾驶行为险态的有效辨识,以实时采集的多源信息为依据,通过融合驾驶人心率变化率及违法行为将驾驶行为险态分为4级。采用马尔科夫毯特征抽取算法提取出速度、纵向加速度、前轮转角变化率、车道偏离量以及车辆位置作为构建驾驶行为险态辨识的特征集,基于隐朴素贝叶斯(HNB)构建驾驶行为险态辨识模型。十折交叉验证结果表明,该模型的辨识精度(90.6%)比朴素贝叶斯(NB)、贝叶斯网络(BN)及径向基函数(RBF)神经网络分别提高14.1%、13.9%和13%。此外,ROC曲线验证结果表明该模型对不同险态等级都具有良好的预测效果。

关键词: 道路工程; 险态辨识; 马尔科夫毯; 隐朴素贝叶斯; 交通安全
中图分类号:U491 文献标志码:A 文章编号:1671-5497(2016)06-1851-07
Driving risk status identification based on Markov blanket hidden Naive Bayes
YAN Li-xin1,2,3, HUANG Zhen4, ZHU Dun-yao1,2, CHEN Zhi-jun1,2, RAN Bin3
1.Intelligent Transportation Systems Center, Wuhan University of Technology, Wuhan 430063, China
2.National Engineering Research Center for Water Transport Safety, Wuhan 430063, China
3.Transportation Engineering Laboratory, University of Wisconsin-Madison, Madison 53705, USA
4.School of Automation, Wuhan University of Technology, Wuhan 430070, China
Abstract

In order to effectively identify risk status while driving, a driving risk status identification model is proposed based on the information of driver operation and vehicle status. According to the rate of electrocardiogram (ECG) and traffic violation behaviors, the driving risk status is classified into four levels. Using Markov blanket algorithm, five factors are selected as the feature set, including the speed, the longitudinal acceleration, the rate of front wheel angle, the vehicle position and lane departure. Then, the algorithm of Hidden Naive Bayes (HNB) is employed to establish the driving risk status identification model. The results show that the accuracy of HNB is 90.6%, increasing 14.1%, 13.9 and 13.0% compared with Bayesian Network (BN), Naive Bayes (NB) and Radial Basis Function Neural Network, respectively. The results of ROC curve indicates that the model presents high predictive power. The conclusions can provide theoretical support for designing dangerous driving status recognition equipment based on vehicle and driver operation information.

Key words: road engineering; risk status identification; Markov blanket; Hidden Naive Bayes; traffic safety
0 引言

驾驶人是否能够对危险驾驶状态进行准确评估是防止交通事故发生的关键。因此, 近年来很多专家学者开始关注于驾驶行为及其险态辨识方面的研究[1, 2]

Siordia等[3]通过在驾驶模拟器上加载典型的危险场景来开展驾驶行为险态辨识研究, 采用两位专家的意见对出现的险态进行分级, 并对不同类型驾驶场景导致的驾驶风险进行了分析。de Diego等[4]基于卡车驾驶模拟器开展模拟驾驶试验, 并融合多名专家经验对驾驶过程中出现的危险场景进行定义, 最后采用聚类的方法对不同的驾驶场景进行险态分类。此外, de Diego等[5]还通过分析驾驶人手部的变化规律来构建风险识别模型, 采用遗传算法确定识别模型的因子集, 并融合专家经验对不同险态等级进行自动辨识。马国忠等[6]以单位时间误操作率为基准对行为险态进行分级, 并采用因子分析, 选取听觉感知、动视力等8项因子作为因子集, 采用BP神经网络构建了驾驶行为险态辨识模型。Wu等[7]从驾驶稳定性不良、疲劳驾驶、启动和刹车稳定性不良、驻站驾驶操作不当等4方面提取出7项驾驶险态特征因子, 采用隐马尔科夫方法建立了公交驾驶险态行为辨识模型。郭孜政等[8, 9]分别采用贝叶斯判别、D-S证据推理等方法从驾驶人的角度构建了危险行为辨识模型。此外, 一些专家学者还采用ID3决策树、贝叶斯网络、人工神经网络等方法对驾驶行为安全性进行评价[10]

以上研究成果分别从不同角度对驾驶行为安全性进行了研究, 但是在建模过程中采用的因素提取方法多为专家经验或者因子分析, 当数据样本量大且维数较多时, 计算效果较差。此外, 对于驾驶行为险态辨识的变量维度选择也需要进一步扩展, 而马尔科夫毯方法的优势就是能够对多维高样本量的数据进行特征提取, 通过消除和约减冗余变量的方法实现最优特征的筛选和提取。

考虑到驾驶模拟器重现性好、成本低及安全性高等特点[11], 本文采用驾驶模拟器试验来完成数据的采集。通过融合驾驶人心理变化及违法操作行为信息对险态进行自动分级, 采用马尔科夫毯方法提取对驾驶行为险态具有显著影响的特征。同时采用隐朴素贝叶斯方法构建驾驶行为险态辨识模型, 并对其辨识的准确性和实时性进行分析探讨。该项研究能够为危险驾驶行为的准确识别提供理论依据和技术支持, 进而提高行驶安全性。

1 试验设计
1.1 试验设备

本文采用的汽车驾驶模拟器平台是由车载单元、5通道投影系统及音响系统组成(见图1)。该模拟器通过加装转角传感器、加速度传感器等实时采集车辆当前位置信息、车速、加速度、前轮转角以及车道偏移量等17个不同维度的数据变量。此外, 该汽车驾驶模拟系统能够对驾驶过程中出现的违法驾驶行为(包括超速、闯红灯、驶出车道)进行自动识别。

图1 五通道汽车驾驶模拟器Fig.1 Five channel driving simulator

1.2 试验过程

本文共计招募15名具有中华人民共和国C1驾照的驾驶人(其中包括9名男性, 6名女性, 平均年龄为(25.1± 2.8)岁)开展模拟驾驶试验。为了能够更加准确地反映实际驾驶的特性以及当前存在的危险驾驶行为, 选取的试验路段为城市道路, 双向双车道, 期间包含信号灯、行人穿越、周边车辆超越、出现事故等多种场景。具体试验过程如图2所示, 数据的采集及流向如图3所示。

图2 试验过程图Fig.2 Process of experiment

图3 数据采集图Fig.3 Data collecting

2 模型建立
2.1 驾驶行为险态定义及分级

研究表明[12], 当遭遇危险或者出现驾驶异常时, 驾驶人容易出现紧张或者焦虑等负面情绪, 直接体现为驾驶人心率发生显著变化; 同时, 在负面情绪影响下, 交通事故的发生率将显著提高。因此在统计意义上, 单位时间内心率变化率和违法次数可反映驾驶行为的危险水平。通过对驾驶人心率变化率进行K-均值聚类[13]并融合驾驶过程中的违法行为, 可以将驾驶行为险态自动划分为4级:0级表示非常安全; 1级表示存在小风险, 只需注意, 无须改变当前状态; 2级表示危险, 需采取操作进行规避; 3级表示非常危险, 需要通过强制减速等方式才能避险。其具体的分级过程如式(1)所示:

D=0, (SN0)T=01, (SN1)T=02, ((SN2)T=1) ((SN3)T=0)3, (SN3)T=1 (1)

式中:D为驾驶行为险态等级; S为驾驶人心率变化率, 通过聚类分析可以将其分为N0, …, N3四类, N0为第1类, 其聚类中心为0.684 bmp, N1为第2类, 其聚类中心为4.853 bmp, N2为第3类, 其聚类中心为9.951 bmp, N3为第4类, 其聚类中心为19.186 bmp; T表示该过程中是否出现违法, 0表示未出现, 1表示出现。

根据分类规则对试验数据进行处理分析, 得到有效样本20 219个, 部分驾驶行为险态等级分类如图4所示。

图4 驾驶行为险态分级Fig.4 Definition of driving risk status

2.2 指标选取

马尔科夫毯是一种由Koller等[14]于1996年首次引入到工程应用领域的特征提取方法。其定义和计算方法如下。

定义1 给定一个特征fi, 设特征子集MiF(fiMifi), 则称Mifi的马尔科夫毯, 当且仅当在给定Mi的条件下, fiF-Mi-{fi}是独立的, 即

PF-Mi-fi, Mi=PF-Mi-fiMi (2)

推论1 如果特征子集Mifi的马尔科夫毯, 那么在给定Mi的条件下, fi与类别C也是独立的, 即:

PCfi, Mi=PCMi (3)

马尔科夫毯方法的特点是可以有效地对无关和冗余的特征进行约减或者消除。通过对获取的多维数据进行离散化, 将驾驶行为险态作为目标节点变量, 利用马尔科夫毯学习法(Markov blanket, MB))选取对驾驶行为险态具有显著性影响的特征, 其实现过程如下[14]

(1)输入各变量的离散数据、变量的取值范围(如速度V取值为0~140 km/h)、目标变量节点T

(2)启发式搜索与因变量相关的变量。

(3)利用独立性测试条件去除错误节点, 进而获取目标节点的父子节点集合PC(T)。

(4)从集合PC(T)的父子节点PC中利用条件依赖性寻找目标变量节点的配偶节点。

(5)输出目标变量节点的马尔科夫毯。

由PCMB算法得到驾驶行为险态的马尔科夫毯为车辆当前位置、速度、纵向加速度、前轮转角变化率和车道偏离量(见图5)。然后寻找集合PC(T)中各个节点的父子节点, 得到5个变量的父子节点为图中非阴影节点。

图5 驾驶行为险态马尔科夫毯Fig.5 Markov blanket of driving risk status

采用马尔科夫毯算法选取与驾驶行为险态相关的影响变量, 能够有效地避免现有方法中选取相关变量的主观性, 但是所选择的自变量与因变量之间不一定存在着显著的相关性和因果关系。基于此, 本文采用kendall的tau-b相关系数和Spearman秩相关系数方法对选取变量与驾驶行为险态之间的关系进行分析, 结果如表1所示。

表1 基于马尔科夫毯特征选取的相关性检验 Table 1 Correlation test for features based on Markov blanket

表1可知, 选取置信度为0.05时(当观测的显著性水平小于0.05时, 拒绝原假设, 认为两变量之间存在线性相关性), 通过马尔科夫毯算法选取的当前位置、速度、纵向加速度、前轮转角变化率以及车道偏离量与驾驶行为险态显著相关(Sig.< 0.05), 其中当前位置、车道偏离量与驾驶行为险态显著负相关, 其余特征与驾驶险态正相关。由此可见, 采用马尔科夫毯方法进行驾驶行为险态关联性特征提取是较为合理的。

2.3 隐朴素贝叶斯模型

隐朴素贝叶斯模型(Hidden Naive Bayes, NHB)的特点是在原朴素贝叶斯模型的基础上采用给每个属性节点引入一个隐藏变量来表示其与其他各节点之间的相互依赖关系。其结构上主要包括根节点、属性节点和隐藏的父节点3类节点, 分别用CAAhp表示, 其结构图如图6所示。

图6 隐朴素贝叶斯结构Fig.6 Structure of Hidden Naive Bayes

在驾驶行为险态辨识过程中, 可以将驾驶行为险态作为图6中的根节点C, 而通过马尔科夫毯选择出的5个特征变量可以定义为模型中的节点A, 则Ahp为其属性节点的父节点。由此HNB的联合概率P(A1, …, An, C)可以定义为:

PA1, , An, C=PCPi=1nAiAhpi, C (4)

式中:P(C)为节点C的先验概率。

P(Ai|Ahpi, C)=Wijj=1, jinPAiAj, C, Wijj=1, jin=1 (5)

此外, 为了能够将构造过程简单化, HNB算法采用了贝叶斯毯分类器中剔除的条件互信息, 式(5)中Wij可表示为:

Wij=Ip(Ai, Aj|C)j=1, jinIp(Ai, Aj|C) (6)

式中:Ip(Ai, Aj|C)表示了两个属性之间的条件互信息。

从本质上说, 每个节点变量Ai上所依赖的隐父节点是所有对该属性Ai有影响的依赖性关系的权值的总和。而HNB是一种限制性的贝叶斯分类器, 在进行驾驶行为险态辨识时, 其驾驶行为险态辨识c(E)定义为:

c(E)=argmaxcCP(c) i=1nP(ai|ahpi, c) (7)

式中:P(ai|ahpi, c)为事件aiahpi同时发生的概率[15, 16]

2.4 基于HNB的驾驶行为险态辨识模型

隐朴素贝叶斯模型不仅具有运行效率高、结构简单等特点, 还能够表达节点变量之间的关系。本文基于My Eclipses和Matlab平台对算法进行实现, 其具体的计算流程如图7所示。

图7 驾驶行为险态辨识流程Fig.7 Process of identifying driving risk status

对于所有的试验数据集, 本文采用十折交叉法进行对比验证, 即将所有的数据集分成10份, 轮流将其中9份作为训练集, 剩余1份作为测试集, 将10次的结果均值作为对算法精度的估计。此外, 为了验证所构建模型的优越性和有效性, 本文还分别采用朴素贝叶斯(NB)、贝叶斯网络(BN)和径向基神经网络(RBFNETWORK)三种算法进行建模。通过采用如图7所示的计算方法, 得到4种辨识方法的辨识精度的各项数据如表2所示。由表2可知, 基于HNB算法的驾驶行为险态辨识算法在判断正确率(TP Rate=0.904, FP Rate=0.066)和预测精度方面(Precision=0.906, Recall=0.904, F-measure=0.975)都比NB、BN及RBFNETWORK算法优异。此外, 本文采还从ROC曲线面积及训练用时两个方面对4种不同辨识算法的优劣进行比较分析, 结果如图8所示。

图8 不同风险等级时的ROC曲线Fig.8 ROC curve in different risk status levels

图8(a)~(d)中可以看出, 采用HNB算法对驾驶行为险态4个不同等级辨识时, 其ROC面积分别达到1、0.988、0.976、0.971, 都处于非常高的水平, 同时与其他3种分类算法相比, HNB模型对不同的险态行为的辨识效果都最为理想。由此可见, 采用HNB算法构建驾驶行为险态辨识模型相较于其他算法具有显著的优越性。另外从图9可以看出, 本文选取的HNB算法的曲线下面积(Area under curve, AUC)平均值高于其他3种算法, 说明该算法在准确性识别方面更具优势。此外, 通过对模型训练时间(见图10)的分析发现, HNB算法相较于NB和BN算法虽然训练时间略长, 但是差异性不明显(与BN算法训练时间差异为0.03 s), 而相比于RBFNETWORK算法则具有较明显的优势, 实时性较强。

表2 辨识结果分析 Table 2 Result of identification

图9 四种算法的平均AUC值Fig.9 AUC of four algorithms

图10 四种算法训练用时Fig.10 Training time of four algorithms

3 结束语

基于汽车驾驶模拟试验研究了驾驶行为险态辨识问题, 通过融合驾驶人心率变化率以及是否出现违法行为两个指标对驾驶行为险态进行定义和分级。通过引入马尔科夫毯算法对采集的车辆运行状态数据和驾驶操作数据进行了特征分析, 提取出与驾驶行为险态具有显著相关的5个关系变量。在此基础上, 采用隐朴素贝叶斯(HNB)算法构建驾驶行为险态辨识模型。结果表明:本文模型对不同级别的驾驶险态的辨识较传统的贝叶斯网络、朴素贝叶斯及径向基神经网络算法具有更高的精度, 可为基于车辆和驾驶操作状态的危险驾驶行为识别设备的研发提供理论和技术支持。同时, 本文提出的驾驶险态特征提取及辨识方法也能够为大数据环境下驾驶行为的相关研究提供一定的思路。

The authors have declared that no competing interests exist.

参考文献
[1] 石京, 肖遥. 驾驶心理对交通安全的影响[J]. 交通信息与安全, 2014, 32(5): 65-70.
Shi Jing, Xiao Yao. Effects of driver's phycology on traffic safety[J]. Journal of Transport Information and Safety, 2014, 32(5): 65-70. [本文引用:1]
[2] 严新平, 张晖, 吴超仲, . 道路交通驾驶行为研究进展及展望[J]. 交通信息与安全, 2013, 31(1): 45-50.
Yan Xin-ping, Zhang Hui, Wu Chao-zhong, et al. Research progress and prospect of road traffic driving behavior[J]. Journal of Transport Information and Safety, 2013, 31(1): 45-50. [本文引用:1]
[3] Siordia O S, de Diego I M, Conde C, et al. Combining traffic safety knowledge for driving risk detection[C]∥IEEE Conference on Intelligent Transportation Systems, Washington, DC, USA, 2011: 564-569. [本文引用:1]
[4] de Diego I M, Siordia O S, Conde C, et al. Optimal experts' knowledge selection for intelligent driving risk detection systems[C]∥IEEE Intelligent Vehicles Symposium, Spain, 2012: 896-901. [本文引用:1]
[5] de Diego I M, Siordia O S, Crespo R, et al. Analysis of hand s activity for automatic driving risk detection[J]. Transportation Research Part C: Emerging Technologies, 2013, 26: 380-395. [本文引用:1]
[6] 马国忠, 李燕, 郭孜政, . 驾驶行为险态辨识方法[J]. 公路交通科技, 2013, 30(7): 113-118.
Ma Guo-zhong, Li Yan, Guo Zi-zheng, et al. A method for identifying risk status of driving behavior[J]. Journal of Highway and Transportation Research and Development, 2013, 30(7): 113-118. [本文引用:1]
[7] Wu Zhi-zhou, Chen Tian-zi, Zhang Jian-qiao. Reckless status identification of bus driving behavior based on hidden Markov model[C]∥Eighth China Intelligent Transport Annual Meeting, Hefei, China, 2013: 178-186. [本文引用:1]
[8] 郭孜政. 驾驶行为险态辨识理论与方法[D]. 成都: 西南交通大学交通运输与物流学院, 2009.
Guo Zi-zheng. Theories and methods on driving risk status identification[D]. Chengdu: School of Transportation and Logistics, Southwest Jiaotong University, 2009. [本文引用:1]
[9] 郭孜政, 陈崇双, 闫伟, . 驾驶危险感知评估方法[J]. 吉林大学学报: 工学版, 2012, 42(1): 46-50.
Guo Zi-zheng. Chen Chong-shuang, Yan Wei, et al. Assessment method for driving threat perception[J]. Journal of Jilin University(Engineering and Technology Edition), 2012, 42(1): 46-50. [本文引用:1]
[10] 陈雪梅, 田赓, 苗一松. 面向智能驾驶行为的机器学习[J]. 道路交通与安全, 2014, 14(6): 60-64.
Chen Xue-mei, Tian Geng, Miao Yi-song. A survey on machine learning algorithms for intelligent driving behavior[J]. Road Transportation and Safety, 2014, 14(6): 60-64. [本文引用:1]
[11] 吴晓端, 吴志周. 汽车驾驶模拟器在交通安全中的应用综述[J]. 交通信息与安全, 2015, 33(2): 10-19.
Wu Xiao-duan, Wu Zhi-zhou. A review of vehicle driving simulator application on traffic safety[J]. Journal of Transport Information and Safety, 2015, 33(2): 10-19. [本文引用:1]
[12] Yan Li-xin, Zhu Dun-yao, Wu Chao-zhong, et al. Ranking and causal relationship analysis of incentive factors of driving anger: a case study from an on-road experiment in china[C]∥14th COTA International Conference of Transportation Professionals, Changsha, China, 2014: 2534-2547. [本文引用:1]
[13] 秦大同, 詹森, 漆正刚, . 基于K-均值聚类算法的行驶工况构建方法[J]. 吉林大学学报: 工学版, 2016, 46(2): 383-389.
Qin Da-tong, Zhan Sen, Qi Zheng-gang, et al. Driving cycle construction using K-means clustering method[J]. Journal of Jilin University Engineering and Technology (Engineering and Technology Edition), 2016, 46(2): 383-389. [本文引用:1]
[14] Peña J M, Nilsson R, Björkegren J, et al. Towards scalable and data efficient learning of Markov boundaries[J]. International Journal of Approximate Reasoning, 2007, 45(2): 211-232. [本文引用:2]
[15] Zhuang Hong-lei, Tang Jie, Tang Wen-bin, et al. Actively learning to infer social ties[J]. Data Mining and Knowledge Discovery, 2012, 25(2): 270-297. [本文引用:1]
[16] Hsu W H. Genetic wrappers for feature selection in decision tree induction and variable ordering in Bayesian network structure learning[J]. Information Sciences, 2004, 163(1-3): 105-120. [本文引用:1]