基于SVM灵敏度的城市交通事故严重程度影响因素分析
孙轶轩1, 邵春福1, 岳昊1, 朱亮2
1.北京交通大学 城市交通复杂系统理论与技术教育部重点实验室, 北京 100044
2.中国铁道科学研究院运输及经济研究所, 北京 100081
通信作者:邵春福(1957-),男,教授.研究方向:交通安全.E-mail:cfshao@bjtu.edu.cn

作者简介:孙轶轩(1982-),男,博士研究生.研究方向:交通安全.E-mail:squallsyx@163.com

摘要

基于某中小城市4881起交通事故现场数据,构建了基于“道路交通事故信息系统”事故数据的特征变量集;以一般事故、严重事故作为二分类标签,建立事故严重程度支持向量机(SVM)分类识别模型,并分别通过网格搜索法、遗传算法进行模型核参数寻优;最后,通过单因素局部灵敏度分析方法,研究各个特征变量对模型测试集分类精度的影响,进一步确定事故严重程度的核心影响因素。结果表明:SVM模型在训练集和测试集上的分类精度均在80%左右,表现出良好的分类识别效果和泛化能力;事故属性、车辆属性中有8个特征变量,显著影响SVM模型的分类精度。

关键词: 交通工程; 事故严重程度; 分类识别; 支持向量机; 智能算法
中图分类号:U491 文献标志码:A 文章编号:1671-5497(2014)05-1315-06
Urban traffic accident severity analysis based on sensitivity analysis of support vector machine
SUN Yi-xuan1, SHAO Chun-fu1, YUE Hao1, ZHU Liang2
1.MOE Key Laboratory for Urban Transportation Complex Systems Theory and Technology, Beijing Jiaotong University, Beijing 100044, China
2.Transportation & Economic Research Institute, China Academy of Railway Sciences, Beijing 100081, China
Abstract

According to 4881 crash scene investigation data of accident database of a middle-size city, a Support Vector Machine (SVM) model is established for accident severity recognition, which is classified into low risk (property loss only) and high risk (injury or death involved). Grid Search (GS) and Genetic Algorithm (GA) are applied to find the best combination of penalty parameter C and Radial Basis Function (RBF) kernel parameter g. Then, the sensitivity analysis method is employed to evaluate the potential impacts of variables on the accident severity. The results show that the accuracies of the SVM model on both training and testing datasets are around 80%, which means better generalization performance: 8 variables of accident and vehicle attributes significantly influence the accident severity classification, which can be inferred as key factors.

Keyword: traffic engineering; traffic accident severity; classification recognition; support vector machine(SVM); intelligent algorithm
0 引言

目前,国内外已经在道路交通事故严重程度影响因素分析领域开展了广泛研究,其中以经典统计模型的相关应用最为广泛[ 1],如二项或多项Logit、Probit模型[ 2, 3],有序Logit、Probit或贝叶斯模型[ 4, 5],嵌套Logit模型[ 6],混合Logit模型[ 7]等。国内学者李世民等[ 8]利用累积Logit模型研究了交叉口交通事故严重程度与转弯车辆、用地性质等因素的关系;马壮林等[ 9, 10]分别利用累积Logit模型和灰色模型研究了道路设计因素对隧道交通事故严重程度的影响;侯树展等[ 11]利用主成分分析法研究了交通流特征和高速公路事故严重程度之间的联系。考虑到经典统计模型的缺陷和不足[ 12],近年来有学者开始尝试将非参数、人工智能方法应用于交通事故严重程度影响因素分析,代表性的如分类回归树模型[ 13],贝叶斯网络模型[ 14],神经网络模型[ 15]等。研究表明,非参数模型在实证研究中具有更优的统计拟合度和泛化能力[ 16, 17]

分析研究现状可知,在交通事故的空间分布上,现有研究多选择交通流特征稳定、道路环境相对简单的路段或区域,如高等级公路的路口或路段等作为研究对象,对发生于城市道路网中的交通事故研究相对较少;在严重程度影响因素的选择上,现有研究多选择因果关系较为明晰的交通流或道路设计等宏观指标,如交通流量、车型比例、车道宽度等,较少选择对事故信息采集数据进行直接分析,如碰撞形态、驾驶行为、涉事人员背景调查等。

综合考虑以上因素,本文以城市道路交通事故作为研究对象,提取“道路交通事故信息系统”中事故现场信息数据为候选影响因素指标,采用支持向量机(SVM)建立事故严重程度分类识别模型。但SVM方法长于处理小样本、非线性以及高维的分类识别问题,建模过程损失了特征变量对分类精度敏感程度的可解释性[ 1],因此,本文通过计算各影响因素的单变量局部灵敏度,获得特征变量重要性排序[ 18],并通过观察特征变量组合发掘城市道路交通事故严重程度规律,提出相应预防对策和控制措施。

1 SVM基本原理
1.1 SVM基本思想与核参数寻优

基于统计学习理论的结构风险最小化原则的SVM方法,基本思想是通过非线性变换将高维空间线性决策函数代替原样本属性空间非线性决策函数[ 19],最终求解凸二次规划问题,保证解值的唯一性和全局最优性。该方法解决了神经网络方法难以避免的局部极值问题,算法复杂度与样本维度无关,最终能够在有限特征信息情况下充分发掘数据中隐含的规律。

SVM方法的核心是寻找线性可分情况下的最优分类面,对于线性可分训练样本集 T={( x1, y1),( x2, y2),…,( xl, yl)}∈( x×y) l,其中 xi∈R n, yi∈{ -1,1}, i=1,…, l,求解样本集最优化问题如式(1)所示:

minw,b12w2s.t.yi(w·xi)+b)1,i=1,,l1

由最优解 w* b*确定的分类面,其决策函数为:

(w*·x)+b*=0f(x)=sgn((w*·x)+b*)2

当训练样本集线性不可分时,引入非负松弛变量 ξi≥0, i=1lξi是错分样本度量值,同时引入惩罚参数 C作为综合权重,则原最优化问题变为:

minw,b12w2+Ci=1lξis.t.yi(w·xi)+b)+ξi1,i=1,,l3

通过满足 Mercer条件的核函数 K实现非线性变换,经过核函数映射后的决策函数为:

f(x)=sgni=1lyiαi*K(xi·x)+b*4

本文选用径向基( RBF)核函数:

K(x,xi)=exp{-x-xi2g2}(5)

模型建立后,选用基于交叉验证法( CV)的综合分类精度来评价建模精度。常用交叉验证方法包括 HO-CV K-CV LOO-CV等。以 K-CV方法为例,将样本分割成 K个子样本,其中一个单独的子样本被留作测试集,其他 K-1个样本用作训练集。交叉验证重复 K次,每个子样本验证一次,平均 K次的结果或者使用其他结合方式,最终得到一个单一估测。此外,惩罚参数 C RBF核函数参数 g的选取很大程度上影响着 SVM模型的分类识别效果[ 20]。许多研究者针对 SVM建模的参数寻优提出了各自的算法,常见算法有网格搜索法、双线性搜索法、梯度下降法、拟牛顿法、蒙特卡罗法、遗传算法等[ 21],本文分别采用网格法和遗传算法对惩罚参数 C RBF核参数 g进行参数寻优,最终选取 K-CV条件下测试集精度最高和 C值最小的一组作为寻优结果。

1.2 基于SVM的灵敏度分析

灵敏度分析的目的在于确定模型各变量对输出结果影响的大小,通过灵敏度分析可知模型对哪些变量的变化敏感,从而确定各变量对模型结果的影响。具体分析方法主要包括局部灵敏度分析和全局灵敏度分析[ 22]

在复杂系统中,灵敏度指标(一阶灵敏度系数)常常无法直接计算得到。常用的简化计算方法是进行单因素局部灵敏度分析,即对某一变量进行微小变化,固定其他变量取值进行计算,也称为一次变化法,其灵敏度系数形式为:

Si=dvdpi6

式中: Si为第 i个变量的灵敏度系数; v为模型输出结果,对SVM分类识别模型来说是测试集精度; pi为第 i个变量。

对变量 pi进行人工微小扰动,对连续型变量一般采用因子变化法,即将待分析变量增加或减少一个固定因子;或偏差变化法,即增加或减少量为标准偏差的倍数。对二值或多值分类变量计算灵敏度系数,则分别计算不同取值组合下的模型输出结果均值。单因素局部灵敏度分析法操作简单,当处理的变量变化幅度不大、变量间相互作用对模型输出结果影响不明显时,可以得到较为准确的灵敏度系数。城市道路交通事故严重程度影响因素特征变量多为二值或多值分类变量及少数连续变量[ 23],适用于单因素局部灵敏度分析。

2 实证研究
2.1 数据集特征分析

表1所示,本文选取某中小城市2006~2013年间事故数据作为实证研究对象,从数据库系统调取事故信息总计4881起,含财产损失事故2238起,致伤事故2224起,死亡事故419起。城市道路交通事故影响因素特征变量取自“事故基本信息”数据集,主要包括事故自身属性、致因属性、时空属性和行政属性等,其数据结构为事故现场信息代码[ 24]。考虑到事故信息代码本身较为繁复,对其进行合并分类处理,使用“合成”变量对变量集进行初步降维,重点构造时间属性、事故自身属性、涉事驾驶员及车辆属性变量集。

表1 属性变量定义 Table 1 Attribute variables definition
2.2 SVM建模及参数寻优结果分析

利用Matlab平台Libsvm软件包进行实证数据的SVM建模及核参数寻优,并用序列最小化算法求解。考虑到死亡事故观测频数只有419起,本研究将事故严重程度分类标签定义为一般事故(2238起,占45.9%)和严重事故(2643起,占54.1%)两种分类,其中严重事故包含致伤(2224起)和死亡事故(419起)。

随机抽取一般事故和严重事故各500起作为测试集,剩余事故作为训练集,训练过程K-CV折数为5折。核参数寻优过程网格搜索法设定 C g选择范围为2-8~28,迭代步长为0.5;遗传算法设定进化代数为100,种群数量为20,模型核参数迭代过程如图1所示。

图1 训练集参数寻优视图Fig.1 C & g regression result of training dataset

经Matlab计算得出K-CV条件下的训练集精度、测试集精度及对应参数组合 C g值,如表2所示。

表2 参数寻优结果 Table 2 C & g regression result

参数寻优结果显示,网格搜索法和遗传算法在训练集精度和测试集精度上较为相近,均为80%左右,模型表现出良好的稳健性。其中网格搜索法标定的 C值较遗传算法小,因此 C=8, g=0 .01可确定为模型最优核参数组合。

2.3 灵敏度分析

图2为实证数据集事故严重程度影响因素特征变量的单变量灵敏度系数。观察可知,18个变量中共有8个变量显著影响SVM模型的分类识别精度,具体包括事故类型为人车事故,单车事故,碰撞类型追尾、侧撞,气候与能见度,车辆信息中号牌是否合规,号牌种类是否为大型车辆,载运种类是否为载货车辆。8个变量中,灵敏度系数绝对值最大的前3个变量分别为事故类型为人车事故,气候与能见度不佳,涉事车辆载运种类为载货汽车。

图2 单变量局部灵敏度系数分布图Fig.2 Sensitive analysis of SVM variables regarding the classification accuracy

数据来源城市为小型重工业城市,核心经济产业涉及矿产资源开发利用、大型机械制造等重型工业及配套的仓储、物流运输业。多条高等级公路延伸或环绕城市建成区,承担部分城市路网功能。城市建成区人员流动密集,农村户籍人口比例大使得三轮车、助动车、农用车辆较多,本地和外地大型货运车辆比例较高,交通流结构复杂。观察灵敏度分析所确定的对SVM分类识别模型的精度影响最大的8个特征变量可以推断:大型载货汽车较容易发生致伤或致死的严重交通事故,这类事故既包含冲撞、碾压行人或非机动车的人车事故,也包括坠车、翻车、撞固定物等单车事故;较其他碰撞类型追尾和侧撞在严重交通事故中多发;不良的气候和能见度也易引起严重交通事故;车辆违法特征中,涉牌类违法车辆影响更为显著,应加强对该类违法行为的查处力度。

3 结束语

以某中小城市道路交通事故数据为样本,结合实际数据的可用性,构建了基于“道路交通事故信息系统”事故数据的特征变量集,并按照一般事故和严重事故二分类标签建立了基于SVM灵敏度分析的城市交通事故严重程度影响因素分析模型。灵敏度系数分析结果显示:时间属性、驾驶员属性对SVM分类识别精度影响不明显;事故属性、车辆属性中共有8个变量显著影响SVM分类识别的精度,可标记为事故严重程度的核心影响因素。核心影响因素中,SVM模型对车牌种类为大型货运车辆,事故类型为人车事故,气候与能见度条件为不佳3项特征变量最为敏感,该结论与实证数据集来源城市实际交通环境较为吻合,进而为实践层面对事故防治策略和措施的制定以及防治效果预测提供了理论支持。

The authors have declared that no competing interests exist.

参考文献
[1] Peter T, Savolainen P T, Fred L, et al. The statistical analysis of highway crash-injury severities: A review and assessment of methodological alternatives[J]. Accident Analysis and Prevention, 2011, 43(5): 1666-1676. [本文引用:2]
[2] Chang H, Yeh T. Risk factors to driver fatalities in single-vehicle crashes: comparisons between non-motorcycle drivers and motorcyclists[J]. Journal of Transportation Engineering, 2006, 132(3): 227-236. [本文引用:1] [JCR: 0.863]
[3] Malyshkina N, Mannering F. Empirical assessment of the impact of highway design exceptions on the frequency and severity of vehicle accidents[J]. Accident Analysis and Prevention, 2010, 42(1): 131-139. [本文引用:1]
[4] Yamamoto T, Shankar V. Bivariate ordered-response probit model of driver's and passenger's injury severities in collisions with fixed objects[J]. Accident Analysis and Prevention, 2004, 36(5): 869-876. [本文引用:1]
[5] Helai H, Chor C, Haque M. Severity of driver injury and vehicle damage in traffic crashes at intersections: a Bayesian hierarchical analysis[J]. Accident Analysis and Prevention, 2008, 40(1): 45-54. [本文引用:1]
[6] Lee J, Mannering F. Impact of roadside features on the frequency and severity of run-off-roadway accidents: an empirical analysis[J]. Accident Analysis and Prevention, 2002, 34(2): 149-161. [本文引用:1]
[7] Eluru N, Bhat C, Hensher D. A mixed generalized ordered response model for examining pedestrian and bicyclist injury severity level in traffic crashes[J]. Accident Analysis and Prevention, 2008, 40(3): 1033-1054. [本文引用:1]
[8] 李世民, 孙明玲, 关宏志. 基于累积Logistic模型的交通事故严重程度预测模型[J]. 交通标准化, 2009(3): 168-171.
Li Shi-min, Sun Ming-ling, Guan Hong-zhi. Prediction model cumulative logistic for severity of road traffic accident[J]. Transport Stand ardization, 2009(3): 168-171. [本文引用:1]
[9] 马壮林, 邵春福, 李霞. 基于Logistic模型的公路隧道严重事故严重程度的影响因素[J]. 吉林大学学报: 工学版, 2010, 40(2): 423-426.
Ma Zhuang-lin, Shao Chun-fu, Li Xia. Analysis of factors affecting accident severity in highway tunnels based on logistic model[J]. Journal of Jilin University(Engineering and Technology Edition), 2010, 40(2): 423-426. [本文引用:1] [CJCR: 0.701]
[10] Ma Zhuang-lin, Shao Chun-fu, Ma She-qiang, et al. Constructing road safety performance indicators using fuzzy delphi method and grey delphi method[J]. Expert Systems with Applications, 2011, 38(3): 1509-1514. [本文引用:1] [JCR: 1.854]
[11] 侯树展, 孙小瑞, 贺玉龙, . 高速公路交通事故严重程度与交通流特征的关系研究[J]. 中国安全科学学报, 2011(9): 106-111.
Hou Shu-zhan, Sun Xiao-rui, He Yu-long, et al. Relationships between crash severity and traffic flow characteristics on freeways[J]. China Safety Science Journal, 2011(9): 106-111. [本文引用:1] [CJCR: 1.327]
[12] Mussone L, Ferrari A, Oneta M. An analysis of urban collisions using an artificial intelligence model[J]. Accident Analysis & Prevention, 1999, 31(6): 705-718. [本文引用:1]
[13] Chang L Y, Wang H W. Analysis of traffic injury severity: an application of non-parametric classification tree techniques[J]. Accident Analysis & Prevention, 2006, 38(5): 1019-1027. [本文引用:1]
[14] de Ona J, Mujalli R O, Calvo F J. Analysis of traffic accident injury severity on Spanish rural highways using Bayesian networks[J]. Accident Analysis and Prevention, 2011, 43(1): 402-411. [本文引用:1]
[15] Delen D, Sharda R, Bessonov M. Identifying significant predictors of injury severity in traffic accidents using a series of artificial neural networks[J]. Accident Analysis & Prevention, 2006, 38(3): 434-444. [本文引用:1]
[16] Xie Yuan-chang, Lord Dominique, Zhang Yun-long. Predicting motor vehicle collisions using bayesian neural network models: an empirical analysis[J]. Accident Analysis & Prevention, 2011, 43(1): 402-411. [本文引用:1]
[17] de Oña Juan, Mujalli Rand a Oqab, Calvo Francisco J. Analysis of traffic accident injury severity on spanish rural highways using bayesian networks[J]. Accident Analysis & Prevention, 2007, 39(5): 922-933. [本文引用:1]
[18] Li X G, Lord D, Zhang Y L, et al. Predicting motor-vehicle crashes using support vector machine models[J]. Accident Analysis & Prevention, 2008, 40(4): 1611-1618. [本文引用:1]
[19] 田英杰. 支持向量回归机及其应用研究[D]. 北京: 中国农业大学经济管理学院, 2005.
Tian Ying-jie. Support vector regression and its application[D]. Beijing: College of Economics & Management, China Agricultural University, 2005. [本文引用:1]
[20] 奉国和. SVM分类核函数及参数选择比较[J]. 计算机工程与应用, 2011, 47(3): 123-128.
Feng Guo-he. Parameter optimizing for support vector machines classification[J]. Computer Engineering and Applications, 2011, 47(3): 123-128. [本文引用:1] [CJCR: 0.457]
[21] 董国君, 哈力木拉提·买买提, 余辉. 基于RBF核的SVM核参数优化算法[J]. 新疆大学学报: 自然科学版, 2009(3): 355-358.
Dong Guo-jun, Halmurat Maimait, Yu Hui. Algorithms of optimizing SVM's kernel parameters with RBF kernel[J]. Journal of Xinjiang University(Natural Science Edition), 2009(3): 355-358. [本文引用:1] [CJCR: 0.1793]
[22] 徐崇刚, 胡远满, 常禹, . 生态模型的灵敏度分析[J]. 应用生态学报, 2004, 15(6): 1056-1062.
Xu Chong-gang, Hu Yuan-man, Chang Yu, et al. Sensitivity analysis of ecological modeling[J]. Chinese Journal of Applied Ecology, 2004, 15(6): 1056-1062. [本文引用:1] [CJCR: 1.742]
[23] Li Zhi-bin, Liu Pan, Wang Wei, et al. Using support vector machine models for crash injury severity analysis[J]. Accident Analysis & Prevention, 2012(45): 478-486. [本文引用:1]
[24] GA/T859-2010. 中华人民共和国公安部. 道路交通事故处理信息数据结构[S]. [本文引用:1]