基于时空兴趣点的单人行为及交互行为识别
王世刚, 孙爱朦, 赵文婷, 惠祥龙
吉林大学 通信工程学院,长春 130012

作者简介:王世刚(1962-),男,教授,博士生导师.研究方向:多媒体通信,视频压缩,视频通信.E-mail:wangshigang@vip.sina.com

摘要

本文方法首先从视频中提取出代表足够运动信息的时空兴趣点,并通过人体前景剪影连通性分析判别时空兴趣点的点集范围。然后对每个视频的兴趣点样本进行高斯混合聚类生成时空单词。最后对时空单词进行训练得到每个行为的高斯混合模型用于人体行为的识别。该方法既可用于单人行为识别也可用于双人行为识别。在行为库上的实验结果证明了该方法有较高的正确率。

关键词: 通信技术; 人体行为识别; 时空特征点; 混合高斯模型
中图分类号:TN911 文献标志码:A 文章编号:1671-5497(2015)01-0304-05
Single and interactive human behavior recognition algorithmbased on spatio-temporal interest point
WANG Shi-gang, SUN Ai-meng, ZHAO Wen-ting, HUI Xiang-long
College of Communication Engineering, Jilin University, Changchun 130012, China
Abstract

First, spatio-temporal interest points containing enough human motion information are detected, and a set of spatio-temporal interest points are selected based on the information of connectivity of human silhouettes. Then, the GMM clustering is performed on the points in the training set and the spatial-temporal words are generated. Finally, these spatial-temporal words are trained to obtain the GMM of each behavior for human behavior recognition. This algorithm can be applied both to single behavior recognition and to interactive behavior recognition. Experiment results on activity database show that this approach has a satisfactory identification rate of human activities.

Keyword: communication; human action recognition; spatio-temporal interest point; Gaussian mixture model
引言

人体行为识别是计算机机器视觉、模式识别研究领域的一个非常重要的研究方向[1, 2, 3], 近年来, 已经在视频监控、病人监控及人机交互等很多领域内得到广泛的应用。一般来说, 人体行为识别可以分为以下的几个基本过程:底层的特征提取和运动表征、简单动作识别; 高层的复杂行为和场景理解等[2]

大部分研究在分析双人交互行为时都先分析单人原子行为, 再分析双人行为。例如Park等[4]采用贝叶斯网络识别单个人体部分的姿态, 然后建模单人原子行为, 最后创建描述交互行为的决策树。Ryoo等[5]将交互行为分为人体部分提取层、姿态层、单人动作层和交互行为层。韩磊等[6]将两人的交互行为识别分为底层采用概率图模型建模单人原子行为。本文认为, 双人交互行为同单人行为一样, 可以被看做是一个整体的行为, 在识别时不需要将两人单独进行研究, 所以本文提出一种将交互行为作为一个整体的人体行为的识别方法, 既可用于单人行为识别又可用于双人交互行为识别。最后, 通过实验验证了本文方法。

1 时空特征的提取
1.1 时空特征点的提取

在空间域内提取兴趣点有很多种方法, 比如比较常见的Harris角点检测方法[7]。该方法认为, 角点为图像中正交方向上梯度向量比较大的点。该梯度向量由以下公式获得:

式中: 是高斯平滑函数。

通常空域中的兴趣点只包含图像中的空域信息, 而没有图像的运动信息, 这对人体行为的特征表示而言是非常重要的。Laptev等[8]将Harris的角点检测思想扩展到了时域, 该方法认为, 时空角点是在 三个方向正交向量上比较大的点(t为时间轴信息), 但是该方法无法提取到足够丰富的时空兴趣点。而Dollá r等[9]所提出的时空兴趣点检测方法, 能够提取出丰富的时空兴趣点, 所以在本文中采取了Dollá r的时空兴趣点检测方法。其响应函数为:

式中: 是一个二维的高斯平滑核, 作用于空间维度, 其公式为:

是一对一维的高斯平滑核, 作用于时间维度, 其公式为:

实验中, 图1表示挥手、跑步、握手、踢腿的兴趣点检测结果。红色点即为检测出的时空兴趣点。

图1 时空兴趣点检测结果(a)挥手Fig.1 Spatio-temporal detection results

图1 时空兴趣点检测结果(b)跑步Fig.1 Spatio-temporal detection results

图1 时空兴趣点检测结果(c)握手Fig.1 Spatio-temporal detection results

图1 时空兴趣点检测结果(d)踢腿Fig.1 Spatio-temporal detection results

1.2 双人交互行为时空点集的选取

时空兴趣点可以正确地表示视频序列中具有明显运动的区域, 值得注意的是, 当两人进行双人交互行为时, 那些包含信息量最大的兴趣点通常是在两人有接触时, 即两个人体剪影区域 连通时, 以及连通前后一段时间的视频序列中。本文认为这一部分的信息才是两人交互行为中最关键的信息, 所以本实验中只取这一部分的时空兴趣点。

设视频序列的时空兴趣点集为 这里 代表所有特征点的个数。

(1)视频序列中有两个互不连通人体剪影的区域 若在 帧图像中只有一个连通区域 时即第 则可以得到:

(2)若在整个视频序列中, 始终有两个互不连通的人体剪影区域C1C2。这是因为某些交互行为比如挥拳或踢腿发生时会有闪躲发生, 两人并没有接触到。针对这种情况, 选取一个中心时间:

则可以得到:

式中: 为尺度参数, 决定连通前后的视频所取帧数的多少。

选取的时空兴趣点集时间轴上的范围为 在本文中, 用 来描述时空兴趣点, 为兴趣点的二维空间坐标, 为兴趣点的时间量值。也就是说, 本文只采用了兴趣点的坐标信息, 这样做可以在很大程度上减少时空单词的维度, 提高运算速度。

由式(7)可以看出, 是与连通帧数 成反比的, 也就是说, 连通帧数越多, 该连通部分时空兴趣点所含的信息量越多, 足以区分不同的行为所需要的连通前后的帧数越少; 若连通的时间越少, 连通部分的时空兴趣点所含信息量不足以区分不同的行为, 则所需要的连通前后的帧数越多。

2 时空单词的生成及行为模型建模

高斯混合模型是一种聚类算法, 按一定的概率将样本划分给不同的类, 一般用于视频背景的生成及前景的提取。在本文中, 将其应用于时空兴趣点的聚类, 生成时空单词。再对时空单词进行聚类, 产生最终的高斯混合模型, 即行为模型的建模。

对于不同人的相同行为动作, 由于行为尺度的不同, 所得到的时空单词也会不同, 即高斯混合模型的聚类中心 的坐标位置会有轻微的差异。但是本文认为该差异只在一定范围内浮动, 高斯混合模型能够找到这种浮动的概率范围, 所以再次采用高斯混合模型来对时空单词进行聚类, 即行为的高斯混合模型建模。

2.1 GMM及其参数估计

高斯混合模型的公式如下:

式中:参数 包含2个高斯模型的参数:均值 服从高斯分布, 表示点 属于第 类的概率密度函数; 包含兴趣点的 方向的坐标值信息。

由于样本的分类即模型参数未知, 需要对高斯混合模型的参数进行估计, 这里采用EM算法对其进行估计。在GMM建模中, EM算法的公式为:

这样就得到了高斯混合模型中的各个参数。

2.2 时空单词的生成

由于时空特征点集里的点都是一些散乱无关的点, 所以需要对这些时空兴趣点进行统计, 生成时空单词。大部分研究者采用K-means聚类算法[3, 6]来对时空兴趣点进行聚类, 这种方法将点强硬地分配给各个聚类中心, 没有考虑其概率分布, 不符合实际情况。高斯混合模型是按一定的概率将点分配给各个聚类中心, 所以本文采用高斯混合模型对时空兴趣点进行聚类, 生成时空单词。为保证时空兴趣点的平移与缩放的不变性, 本文对所有时空兴趣点进行归一化。

归一化后的时空兴趣点集为:将 作为EM算法的输入带入式(13)~(17)中, 得到第一次高斯混合模型的参数。取所得高斯模型的中心点 做为时空单词, 本文中,

图2分别是挥手、跑步、握手、踢腿的时空兴趣点聚类结果及其聚类中心。

图2 各种动作聚类结果及中心Fig.2 Clustering results and clustering centers of different behaviors

图2 各种动作聚类结果及中心Fig.2 Clustering results and clustering centers of different behaviors

2.3 行为模型建模

得到行为库中所有的时空单词后, 要对其进行高斯混合模型训练。设行为库中某一行为的所有时空单词集为:

式中: 为该行为的训练集视频个数。将其带入式(13)~(17)中, 训练得到该行为最终的高斯混合模型:

对行为库内每种行为的 进行GMM训练, 则可得到每一种行为的高斯混合模型。最后采用匹配的方法进行行为识别, 将待测试视频的时空单词输入到每一个GMM中, 符合该行为的高斯混合模型将得到最大值, 则可判断该视频为哪一种行为。

3 实验结果及分析

本文采用Weizmann行为数据库(单人行为), UT行为数据库(双人交互行为)及拍摄的若干单人行为和双人交互行为视频, 对本文算法进行测试及验证。单人行为有10种:bend(弯腰), jack(挥手+跳), jump(向前跳), pjump(原地跳), run(跑), side(横向步行), skip(单腿跳), walk(走), wave1(单手挥手), wave2(双手挥手)。双人行为有5种:拥抱, 踢腿, 挥拳, 握手, 推。在实验中, 每种行为都取公开行为库中的5个与自己拍摄的20个视频片段作为训练集, 用来训练高斯混合模型, 其余的视频片段作为测试集, 每种行为视频45个。表1表2为实验结果。

由于本实验中, 只采用了时空兴趣点的坐标信息, 所以对归一化的要求比较高, 归一化的效果直接影响到实验结果的准确度。本文中归一化的结果依赖于前景的提取, 而双人行为时, 很难训练得到很好的背景, 以至于无法提取到很好的前景区域, 这是导致双人行为识别准确率不高的一个重要原因。

表1 单人行为检测结果 Table 1 Result of single behavior recognition
表2 双人交互行为检测结果 Table 2 Result of interactive behavior recognition
4 结束语

针对人体行为识别问题, 提出了一种基于时空兴趣点的高斯混合模型聚类信息的人体行为识别方法。该方法分三层:特征提取层, 特征表示层与行为表示层。通过提取视频中的时空兴趣点, 对其进行GMM聚类得到时空单词, 再通过训练得到时空单词的GMM模型来达到行为识别的目的。虽然本文方法双人交互行为识别正确率不高, 但是本文方法可以通用于单人与双人交互行为识别, 且比其他的双人交互行为识别方法减少了一个层次的分析, 使算法更为简洁, 并得到了较为理想的实验效果。由于本文方法只采用了时空兴趣点的坐标信息, 对归一化的要求较高, 需要较好的归一化结果以达到较高的识别正确率, 且需要大量的训练视频以提高训练得到的GMM模型的准确度, 并且本文没有考虑复杂场景或多组行为场景的情况, 这些都是我们下一步要解决的问题。

The authors have declared that no competing interests exist.

参考文献
[1] Cand amo J, Shreve M, Goldgof D B, et al. Understand ing transit scenes: a survey on human behavior-recognition algorithms[J]. IEEE Transactions on Intelligent Transportation Systems, 2010, 11(1): 206-224. [本文引用:1] [JCR: 3.064]
[2] 吴联世, 夏利民, 罗大庸. 人的交互行为识别与理解研究综述[J]. 计算机应用与软件, 2011, 28(11): 60-63.
Wu Lian-shi, Xia Li-min, Luo Da-yong. Survey on human interactive behavior recognition and comprehension[J]. Computer Applications and Software, 2011, 28(11): 60-63. [本文引用:2] [CJCR: 0.515]
[3] Ryoo M S, Aggarwal J K. Spatio-temporal relationship match: video structure comparison for recognition of complex human activities[C]∥IEEE 12th International Conference on Computer Vision, 2009: 1593-1600. [本文引用:2] [JCR: 1.959]
[4] Park S, Aggarwal J K. A hierarchical Bayesian network for event recognition of human actions and interactions[J]. ACM Journal of Multimedia Systems, Special Issue on Video Surveillance, 2004, 10(2): 164-179. [本文引用:1]
[5] Ryoo M S, Aggarwal J K. Recognition of composite human activities through context-free grammar based representation[C]∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2006: 1709-1718. [本文引用:1] [JCR: 2.632]
[6] 韩磊, 李君峰, 贾云得. 基于时空单词的两人交互行为识别方法[J]. 计算机学报, 2010, 33(4): 776-784.
Han Lei, Li Jun-feng, Jia Yun-de. Human interaction recognition using Spatio-Temporal words[J]. Chinese Journal of Computers, 2010, 33(4): 776-784. [本文引用:2] [CJCR: 1.796]
[7] Harris C, Stephens M. A combined corner and edge detector[C]∥Proceeding of the 4th Alvey Vision Conference, 1988: 147-151. [本文引用:1]
[8] Laptev I, Lindeberg T. Space-time interest points[C]∥Proceedings of Ninth IEEE International Conference on Computer Vision, 2003: 432-439. [本文引用:1] [JCR: 1.959]
[9] Dollár P, Rabaud V, Cottrell G, et al. Behavior recognition via sparse spatio-temporal features[C]∥Proceedings of 2nd Joint IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance, 2005: 65-72. [本文引用:1]