基于时空关系的复杂交互行为识别
王生生, 杨锋, 刘依婷, 王伟烈, 李洋
吉林大学 计算机科学与技术学院,长春 130012

王生生(1974),男,教授,博士生导师.研究方向:时空推理,机器视觉.E-mail:wss@jlu.edu.cn

摘要

提出了一种基于时空关系和多观察值的三层隐马尔科夫扩展模型识别复杂交互活动的方法。根据多目标交互活动具有分层的性质和目标之间的时空关系,给出了提取3个粒度(整体,双人,单人)行为特征的方法。同时提出与之对应的多观测值三层隐马尔科夫扩展模型。实验结果表明:将新的特征提取方法和新的模型应用于复杂交互行为识别能得到较高的识别准确率和较好的鲁棒性。

关键词: 人工智能; 时空关系; 交互行为; 三层多观察隐马尔科夫模型; 三层特征
中图分类号:TP18 文献标志码:A 文章编号:1671-5497(2014)2-421-6
Complex interactive activity recognition with spatial-temporal relationship
WANG Sheng-sheng, YANG Feng, LIU Yi-ting, WANG Wei-lie, LI Yang
College of Computer Science and Technology, Jilin University, Changchun 130012,China
Abstract

A complex interactive activity recognition approach with spatial-temporal relation and an extended Hidden Markov Model with multi-observations and multi-layers is presented here. Interactive activities involving multi-objects are naturally hierarchical and related with spatial-temporal relationship. The multi-granularity features (group, two persons and single person) are used. A new model, Multi-observations Three-Layers Hidden Markov Model (MTHMM), corresponding to these features is put forward. The experiments show that the new feature extraction method and the new model have a good performance and a fair robustness in complex interactive activity recognition.

Keyword: artificial intelligence; spatial-temporal relation; interactive activity; hidden Markov model with multi-observations and three-layers; features with three layers
0 引 言

交互行为识别在视频监控等领域有着广泛的应用前景[1,2]。当前大多数的行为识别研究主要是针对特定场景中的简单行为,多数工作只考虑了部分的行为特性,从单粒度行为特性来研究行为,因而不能很好地表达活动中各个目标之间的相互联系以及目标与整体事件活动的相互联系。现在目标的动作已经成为目标识别和活动建模的重要特征[3]。很多基于单目标运动轨迹的行为识别系统已经被提出,基于多目标的多交互轨迹分析活动的方法也已经被应用在实际场景中[4]。模板匹配法、基于动态贝叶斯网络的方法以及基于文法技术的方法[5]等行为识别方法也已经相继被提出。而基于动态贝叶斯网络的方法是其中应用最多最广泛的一种。作为动态贝叶斯网络的一种,隐马尔科夫模型(Hidden Markov model,HMM)[6]是语音识别和行为识别应用中最广泛的一种。隐马尔科夫模型对于单个目标的行为识别有很好的效果,但是对于复杂的交互行为,隐马尔科夫模型就不能很好地对整个行为进行建模,因此多种隐马尔科夫模型的扩展模型被提出来,如耦合隐马尔科夫模型(Coupled hidden Markov model,CHMM)[7],它由多条马尔科夫链组成,可以很好地用来描述多目标之间的交互行为。还有因子隐马尔科夫模型(Factorial hidden Markov model)[8],耦合隐半马尔科夫模型(Coupled hidden semi-Markov model,CHSMM)[9]等。以上这些研究要么没有关注到交互活动的分层特性,要么没有关注交互活动中目标的时空特征。Liu等[10]应用嵌入式的隐马尔科夫模型系统(IDHMM)对交互行为中的行为特征进行了简单切分,结果表明提取不同层次的特征对于交互行为的识别是很有帮助的。Guo等[5]在模型结构和特征提取都采用了多层次结构,结果表明其效果比单层次特征要好很多,而使用单一模型更方便学习和使用。

本文研究复杂场景中多目标之间的交互行为活动,提出一种提取3个粒度的行为特征(顶层特征,中间层特征,底层特征)的方法。在顶层特征上场景中所有目标的行为将被提取为整体特征因子 φ;在中间层特征中场景中目标两两之间的定量时空关系QSTR(Quantitative spatial-temporal relationship)反映了两个目标之间的行为关系;在底层特征中描述了场景中目标自身的特性。行为识别采用三层的行为特征:顶层特征(group),中间层特征(intermediate)和底层特征(bottom),提出基于时空关系特征和隐马尔科夫扩展模型的交互行为识别框架,在该框架下提出了一种多观测值的三层的隐马尔科夫扩展模型(Multi-observations three-layers hidden Markov model,MTHMM)。

1 定量时空关系特征提取

以往的大多数研究只集中底层特征的研究,仅有少量工作是放在中间层特征和顶层特征,更少将这几层的定量时空关系特征联合起来分析。表1中顶层特征、覆盖的矩形块大小、重叠等组合成的特征因子表示了整个大的场景之间所有目标之间的关系;两两目标之间的定量时空关系(QSTR)则表明在交互过程中两两目标之间的在时间和空间上变化关系及相互之间的影响;目标的轮廓大小,速度位置的变化反映出目标在底层的特征。三个层次的特征从整体到局部再到个体,鲜明的层次结构体现了交互行为活动的层次性。

表1 交互行为特征表 Table 1 Features of interactive activities
1.1 底层特征提取

定义1 在任何自然活动中,运动目标随着时间移动所形成的轨迹称为运动轨迹,一条轨迹就是有一定时间长度

式中:向量

在提取底层特征时,运动目标用矩形框圈出来,

1.2 中间层时空特征提取

在以往很多的交互行为研究中,两两目标之间的关系往往简单地使用两目标之间的距离表示,而忽略了目标之间在时间和空间的相对变化关系,文献[11]提出使用定量时空关系QTC(Qualitative trajectory calculus)研究多目标的运动。本文提出提取基于定量时空关系的中间层特征的方法,更加准确地描述两两目标之间的关系。

关于两个运动目标之间的时空关系,本文应用了方向、距离、时间3个维度来表示目标之间的时空关系。对于任意两个目标对象之间的时空关系如图1所示:

图1 两个目标对象之间的时空关系图Fig.1 Spatial-temporal relationship of two objects

定义2 从时刻 移动的距离为

式中: 有着类似的意义。

定义3 定义 的相对速度的变量因子。

是一个距离阈值,根据具体的应用取值,因此能控制特征值的数量为

很多时候仅仅考虑目标的相对物理位置变化是不够的,还需要知道在时空上两个目标的相对运动方向:

式中: 的连线上移动。

定义4 定义两个目标之间的中间层特征向量为四维向量

表示。
1.3 顶层特征提取

顶层特征提取采用最小边界矩形MBR表示,矩形的大小表示目标的大小,矩形块之间的距离则表示场景中目标之间的距离,当场景中的目标相互靠近遮挡时,两个目标就会被圈成一个更大的矩形块。本文提出针对多目标场景中所有目标的顶层行为特征算子,该算子用 矩形框靠近并出现重叠后的大矩形框。顶层特征的算子表示为

式中: 为任意两个目标,算子越小目标越集中。

2 MTHMM模型:定义,学习

MTHMM模型可以用五元组表示为 表示观测值输出概率。MTHMM是标准隐马尔科夫模型HMM的扩展模型,也是动态贝叶斯网络的一种,它的状态空间是3个状态空间 的集合。MTHMM模型的参数包括初始化状态概率 MTHMM的拓扑结构如图2所示:

图2 HTHMM拓扑结构图Fig.2 Topological structure of HTHMM

Baum-Welch算法HMM中标准参数重估算法需要计算 分别表示不同层状态。记 分别表示顶层、中间层和底层的后向变量。使用初始化观测值矩阵和状态转移矩阵初始化前向与后向变量,迭代计算前向后向变量,最后通过类似Baum-Welch算法的计算过程重估观测值矩阵和状态转移矩阵。

3 实验结果和分析

根据不同场景选用不同的MTHMM模型对多目标行为进行分析。MTHMM是一个三层模型,当场景中人数超过一定数量时可以根据场景中目标之间的距离等做一些限制,以减少中间层的维度,从而减少计算复杂度。在本实验中,应用本文模型对两人行为和三人行为进行识别。模型中的观测数据 分别代表了顶层、中间层和底层观测特征值。行为的样本由在场景中的多人进行模拟并通过固定的单个摄像头拍摄。每一类的行为样本都被分为两部分,一部分用于训练,另一部分用于测试。图3是一个行为样本中几个关键帧及其运动目标跟踪的效果图。

图3 交互行为Double-inter5的关键帧视图Fig.3 Key frame of the Double-interactive activity 5

3.1 双人行为识别及效果

双人视频数据集包含:①Double-inter1,两个目标穿过场景,其中一个目标跟着另一个目标,一直保持一段距离;②Double-inter2,两个目标分别进入场景,而后展开搏斗,搏斗过后分别离开场景;③Double-inter3,两个目标进入场景,相遇,然后并行离开场景;④Double-inter4,两个目标先后进入场景,后进入场景的目标赶上并超过先进入场景的目标;⑤Double-inter5,两个目标穿过场景,第一个运动目标往前走,另一个运动目标跟在后面,然后后面的运动目标加速追上前面的目标,最后并排离开。实验中的视频时长主要分布在12~15 s,约250~350帧。图3是Double-inter5交互视频中几个关键帧的展示,以及各个时间段中目标运动状态的变化说明。对于两个目标的交互行为识别,MTHMM模型中顶层的特征因子由式(8)计算出,其中需要计算每个关键帧中目标之间的距离,顶层特征算子为正,若目标有重叠(如并排行走),则因为式(8)中参数 取负值,顶层特征算子为负。本次实验的场景比较简单,目标数量也比较少,本文只取中间层特征向量中的前两个特征向量,表示两个目标相对时空关系是相互远离还是相互靠近, 表示场景中的两个目标。底层特征使用轨迹特征变量中的中心位置[ x, y]及其速度大小 v。MTHMM模型三层拓扑结构分别对应了时间的三层特征,又至上而下地表示目标之间的空间关联性、时间关联性以及个体独立性。三层拓扑结构的模型虽然增加了模型学习训练的难度,但是却能更好更准确地描述事件的特性。

为了进一步确认对于双人行为识别的准确率,在相同的数据集上,本文选择HMM、HSMM、HHMM和CHMM这几个模型作为比较,对于HMM、HSMM,选择底层特征(( x, y)中心位置, 这几个行为特征)作为输入观测值序列。对于HHMM,CHMM,则选择底层特征(( x, y)中心位置, v速度大小)以及中间层特征(相对时空关系)作为输入观测值序列,每条马尔科夫链的每个状态| Q|值都采用3或4个状态值。采用HTHMM模型时,顶层状态| G|的状态值数量采用3或4,中间层状态| R|采用5或6,底层状态采用5或6。实验中,时长大约每隔两帧或三帧为一个关键帧 T=100。交互行为识别的准确率曲线图如图4所示:

图4 五个两目标交互行为识别准确率折线图Fig.4 Line chart of the accuracy rate of double- interactive activities recognition

从图中可以看出,基于时空关系的HTHMM模型识别效果在多数情况下优于其他几个模型。

3.2 三人交互行为识别效果

三个目标的交互行为的复杂场景中,实验数据包括以下3种行为:①Triple-inter1,三个目标并行进入场景,而后分开,分别离开场景;②Triple-inter2,三个目标从不同方向进入场景,相遇后一同离开场景;③Triple-inter3,两个目标进入场景,第3个目标迎面进入场景相遇,停留片刻分开;④Triple-inter4,第1个目标拿着包进入场景,后面尾随第2个目标,前面迎面走来第三个目标,第2和第3个目标配合抢走第1个目标的包。该视频数据集类似于两目标的数据集,由作者自行采集,视频长度也为12~15 s。当场景中的目标数量为 个中间层特征变量。三个乃至多目标的视频中识别提取的底层特征同上文类似,但是中间层的特征维度将会很大,因此需要增加约束减少计算复杂度,将中间层的特征维度数限制在 O( n)。如果目标超过三个将考虑目标的时间空间关系特性,针对具体的交互行为进行具体的限制,本文中的约束为在活动过程中如果目标始终没有靠近其他目标或者只是靠近其中任意一个目标一定距离,则认为这样的目标是非积极参与到活动中的,因此只考虑与它靠的比较近的几个目标之间的时空关系。本实验同样采用HMM、CHMM和HHMM作为对比,因为实验的数据量不大,因此HMM和CHMM的隐马尔科夫链的每个状态的数量都采用3个状态,HHMM采用参考文献[9]的方法。如图5所示:

图5 多目标事件的识别准确率折线图Fig.5 Line chart of the accuracy rate of double-interactive activities recognition

本文基于时空关系的三层MHTMM模型效果稍优于其他模型。

4 结束语

提出了提取交互行为活动的时空特征的新方法,并提出一个与之对应的新模型用于复杂交互行为的识别。实验结果表明,基于时空关系特性的新模型具有很好的识别结果。

The authors have declared that no competing interests exist.

参考文献
[1] 王丹, 张祥合. 基于HOG 和SVM 的人体行为仿生识别方法[J]. 吉林大学学报: 工学版, 2013, 43(增刊): 489-492.
Wang Dan, Zhang Xiang-he. Biomimetic recognition method of human behavior based on HOG and SVM[J]. Journal of Jilin University(Engineering and Technology Edition), 2013, 43(Sup. ): 489-492. [本文引用:1] [CJCR: 0.701]
[2] 周宝余, 臧雪柏, 赵浩宇, . 基于QT的无线多路视频监控系统[J]. 吉林大学学报: 工学版, 2011, 41(增刊1): 204-207.
Zhou Bao-yu, Zang Xue-bai, Zhao Hao-yu, et al. Wireless multiway video monitor system based on QT[J]. Journal of Jilin University(Engineering and Technology Edition), 2011, 41(Sup. 1): 204-207. [本文引用:1] [CJCR: 0.701]
[3] Rea N, Dahyot R, Kokaram A. Image and Video Retrieval[M]. Dublin, Ireland : Springer, 2004: 88-97. [本文引用:1]
[4] Ma Xiang, Bashir F, Khokhar A A, et al. Event analysis based on multiple interactive motion trajectories[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2009, 19(3): 397-406. [本文引用:1] [JCR: 1.819]
[5] Guo Ping, Miao Zhen-jiang. Multi-person activity recognition through hierarchical and observation decomposed HMM[C]∥Multimedia and Expo (ICME). Suntec City: IEEE, 2010. [本文引用:2]
[6] Rabiner Lawrence R. A tutorial on hidden Markov models and selected applications in speech recognition[J]. Proceedings of the IEEE, 1989, 77(2): 257-286. [本文引用:1] [JCR: 6.911]
[7] Matthew Brand , Oliver Nuria, Pentland Alex. Coupled hidden Markov models for complex action recognition[C]∥IEEE Computer Vision and Pattern Recognition. San Juan : IEEE, 1997. [本文引用:1]
[8] Zoubin Ghahramani, Jordan Michael I. Factorial hidden markov models[J]. Machine Learning, 1997, 29(2/3): 245-273. [本文引用:1] [JCR: 1.467]
[9] Pradeep N, Ramakant N. Coupled hidden semi markov models for activity recognition[C]∥Workshop on Motion and Video Computing - WMVC, Austin, TX, USA: IEEE, 2007. [本文引用:1]
[10] Liu Chin-De, Chung Yi-Nung, Chung Pau-Choo. An interaction-embedded HMM framework for human behavior understand ing: with nursing environments as examples[J]. IEEE Transactions On Information Technology In Biomedicine, 2010, 14(5): 1236-1246. [本文引用:1] [JCR: 1.978]
[11] Matthias Delafontaine, Cohn Anthony G, van de Weghe Nico. Implementing a qualitative calculus to analyze moving point objects[J]. Expert Systems with Applications, 2011, 38(5): 5187-5196. [本文引用:1] [JCR: 1.854]