基于多级图像序列和卷积神经网络的人体行为识别

引用本文

马淼, 李贻斌. 基于多级图像序列和卷积神经网络的人体行为识别. 2017, 47(4): 1244-1252
MA Miao, LI Yi-bin. Multi-level image sequences and convolutional neural networks based human action recognition method. Journal of Jilin University Engineering and Technology Edition, 2017, 47(4): 1244-1252 复制到剪切板

Permissions

基于多级图像序列和卷积神经网络的人体行为识别

马淼, 李贻斌

山东大学控制科学与工程学院,济南 250061

通讯作者：李贻斌(1960-),男,教授,博士生导师.研究方向:智能机器人,特种机器人,智能车辆.E-mail:liyb@sdu.edu.cn

作者简介:马淼(1989-),女,博士研究生.研究方向:机器视觉,智能机器人,模式识别与智能系统.E-mail:mamiaosdu@hotmail.com

基金:“863”国家高技术研究发展计划项目(2015AA042201); 国家自然科学基金项目(61233014).

摘要

首先,构造出能获得更丰富人体行为信息的四级图像序列结构,并分别用卷积神经网络进行处理,从而得到包含表观、运动、前景和背景信息的特征。然后,提出了一种对视频中行为进行分解的方法,将完整行为分解为由粗略到细致的子行为,从而得到更细致的人体行为描述,获取到更具代表性的行为特征。最后,通过两个行为数据集上的验证及对比实验证明了该方法可有效提高行为识别的准确度。

关键词: 人工智能; 行为识别; 视频理解; 卷积神经网络

中图分类号:TP183 文献标志码:A 文章编号:1671-5497(2017)04-1244-09

Multi-level image sequences and convolutional neural networks based human action recognition method

MA Miao, LI Yi-bin

College of Control Science and Engineering, Shandong University, Ji'nan 250061,China

Abstract

A multi-level image sequences and convolutional neural networks human action recognition method is proposed. First, a four-level image sequence structure is constructed, which is able to obtain richer information of human actions. Then the four-level image sequences are processed by convolutional neural networks. This structure is able to use appearance, motion, foreground and background information more sufficiently. Besides, a decomposition method of video sequence is proposed, which is able to acquire more detailed human activity information. This method decomposes each level sequence into sub-sequences, and represents actions from coarse to fine, thus, achieving more representative human activity features. The efficiency of the proposed method is verified by two challenging human action databases. The experiment results show that the proposed method improves the action recognition accuracy efficiently.

Keyword: artificial intelligence; action recognition; video understanding; convolutional neural network

Show Figures

0 引言

视频中人体行为的认知和理解是人工智能的一项重要任务, 并有广泛的应用, 例如人机交互、智能空间、虚拟现实、机器人社会等。近年来视频中人体行为识别得到了广泛的关注, 构造行为识别特征的方法也层出不穷, 现有的行为识别方法大致可划分为三种。第一种是基于图像局部特征检测的方法。例如有些学者使用方向梯度直方图(HOG)或尺度不变(SIFT)检测子来提取视频中的形状信息^{[1, 2]}, 并用光流直方图(HOF)或运动边界直方图(MBH)特征提取视频中的运动信息^{[3, 4]}, 然后用词包的形式进行编码^[5], 并训练分类器识别人体行为^[6]。然而这种获取行为识别特征的方法是将视频图像中提取的局部特征通过手工制造得到高维的特征, 因此针对性较强, 通用性较差。另外, 有一些学者通过构建多级体系结构分级进行行为识别^{[7, 8]}, 例如有些算法采用第一级结构对视频进行多种时空分割并得到所有可能的包含人体区域的分割结果, 再在第二级中利用时空信息对分割结果进行推理, 从而获得有效的人体行为特征^[9]。虽然这种分层级的方法能够更好地融合时间与空间信息, 但在每个层级中的处理仍然依赖于手工制造的特征。此外, 近年来还有一些学者提出使用深度神经网络进行行为识别, 例如有学者提出使用卷积神经网络^[10](Convolutional neural network, CNN)获取视频的表观特征与运动特征^{[11, 12]}, 并将得到的特征进行分析与融合, 从而获得有效的行为识别特征^[13]。这种方法的性能与通用性超越了手工制造特征的方法, 但由于卷积神经网络以静态图像块作为输入, 因此如何构造出有效融合时空信息的行为识别特征仍有待探索。

针对上述方法中存在的问题, 本文提出了一种生成含有不同时空信息的四级图像序列, 并分级使用卷积神经网络构造行为识别特征的新方法。首先, 利用原视频序列计算对应的光流图序列, 并用人体检测方法得到原视频序列中每帧图像的人体区域位置, 从而得到原视频序列、人体区域视频序列、光流序列以及人体区域光流序列这四级并行的图像序列。然后, 对每级图像序列中的每幅图像计算出CNN特征。再对原视频序列中的图像进行处理得到关键帧的索引号, 从而通过构造二叉树将每级图像序列分解为视频子段。在每级序列中对图像序列及其子序列进行计算, 得到代表每级图像序列的CNN特征。之后, 将四级图像序列的CNN特征连接得到视频的人体行为特征。最后, 训练分类器对特征进行分类, 确定视频中人的行为。

1 多级图像序列的获取

通常一段视频所包含的信息可以分为空间信息与时间信息。空间信息以视频中每一帧图像的形式表现出来, 如视频中出现的场景物体等; 时间信息则以帧与帧之间运动变化的形式表现出来, 如观测者或相机的运动以及场景中物体的运动。为了更好地获取视频中的空间及时间信息, 除了使用原始视频序列以外, 我们还生成了另外3级图像序列。

为得到更多的运动信息, 用文献[14]中提出的光流图计算方法获取视频图像序列对应的光流图像序列。由于光流图反映两张连续图像之间的运动, 因此光流序列的长度与原图像序列长度不一致(光流图序列比原图像序列短一帧)。为得到长度一致的序列, 本文用式(1)的方法计算光流, 即第一幅光流图 $\begin{matrix} {\hat{U}}_{1} \end{matrix}$ 表达原视频中第1帧与第2帧之间的运动, 其余每幅光流图 $\begin{matrix} {\hat{U}}_{t} \end{matrix}$ 表达原视频中第t-1帧与第t帧之间的运动。

$\begin{matrix} {\hat{U}}_{t} = \{\begin{matrix} f_{flow} (I_{t}, I_{t + 1}), 若 t = 1 \\ f_{flow} (I_{t - 1}, I_{t}), 否则 \end{matrix} (1) \end{matrix}$

式中:I_t-1 、I_t和I_t+1 分别表示第t-1, t及t+1帧图像; f_flow (• )表示用文献^[14]方法计算两帧图像之间的光流图。

依据卷积神经网络^[14]对输入图像的尺寸及结构的需求, 需要对光流图 $\begin{matrix} {\hat{U}}_{t} \end{matrix}$ 中的像素值进行转换并获取能够作为卷积神经网络的输入图像的新光流图 $\begin{matrix} U_{t} 。 \end{matrix}$ 具体地, 假设光流图 $\begin{matrix} {\hat{U}}_{t} \end{matrix}$ 的尺寸为 $\begin{matrix} a \times b \times 2, \end{matrix}$ 则计算 $\begin{matrix} {\hat{U}}_{t} \end{matrix}$ 中每个位置 $\begin{matrix} (x, y) \end{matrix}$ 对应的光流幅值 $\begin{matrix} \bar{magU} (x, y), \end{matrix}$ 从而构成光流幅值图, 记为矩阵 $\begin{matrix} \bar{magU}, \end{matrix}$ 然后通过线性变换^[14]将 $\begin{matrix} \bar{magU} \end{matrix}$ 中的每个元素值进行变换, 得到新的矩阵 $\begin{matrix} magU, \end{matrix}$ 如式(2)所示:

$\begin{matrix} \{\begin{matrix} \bar{magU} (x, y) = \sqrt[]{{\hat{U}}_{t} {(x, y, 1)}^{2} + {\hat{U}}_{t} {(x, y, 2)}^{2}}, \\ magU (x, y) = 16 \times \bar{magU} (x, y) + 128 \end{matrix} (2) \end{matrix}$

然后, 将尺寸为 $\begin{matrix} a \times b \times 2 \end{matrix}$ 的 $\begin{matrix} {\hat{U}}_{t} \end{matrix}$ 与得到的尺寸为 $\begin{matrix} a \times b \times 1 \end{matrix}$ 的 $\begin{matrix} magU \end{matrix}$ 进行拼接, 得到 $\begin{matrix} a \times b \times 3 \end{matrix}$ 的矩阵, 并将其中大于255的元素值均置为255, 小于0的元素值均置为0。最终得到的 $\begin{matrix} a \times b \times 3 \end{matrix}$ 的新矩阵记为 $\begin{matrix} U_{t}, \end{matrix}$ 作为用于卷积神经网络输入的新的光流图。

在视频序列中每幅图像都包含前景与背景, 前景主要包含人体姿态及运动的信息, 而背景中还包含了人与环境进行交互的信息。为了更加突出人体姿态及运动的信息, 用人体区域估计的方法^[16]从原始视频序列中提取出连续的人体区域图像序列, 同时从光流序列中提取出对应的人体区域光流序列, 得到四级图像序列。

这四级图像序列中的每一帧图像将分别作为卷积神经网络的输入, 因此需要将每级图像序列中的每帧图像尺寸进行调整。本文将每级序列中的每帧图像尺寸调整为224× 224。所得的四级图像序列如图1所示。

	Figure Option View Download New Window
	图1 四级图像序列Fig.1 Four-level image sequences

2 卷积神经网络的结构

本文提出的四级图像序列中既含有RGB图像, 又含有光流图像。在计算每级图像序列的CNN特征时, 考虑到RGB图像及光流图像性质的不同, 采用两个结构相似的CNN来分别提取RGB图像与光流图像的CNN特征。本文使用的两个CNN结构都分别含有5个卷积层和3个降采样层, 如表1所示。

表1 卷积神经网络结构 Table 1 Structure of convolutional neural networks

表1中的C表示卷积层; S表示降采样层; F表示全连接层。对于第1级的原视频图像序列以及第2级的人体区域图像序列, 采用^[17]提出的CNN结构, 如表1中第2行所示。表1中卷积层的(n₁× k₁× k₁)表示使用n₁个k₁× k₁的核; 降采样层的(k₂× k₂)表示使用k₂× k₂的核。此CNN结构是由ILSVRC-2012训练集^[18]训练得到的。对于第3级的光流图像序列以及第四级的人体区域光流序列, 本文采用^[15]提出的CNN结构, 如表1中第3行所示。此CNN结构是由UCF101训练集^[19]训练得到的。

原视频序列和人体区域视频序列中的每一帧图像被送入第一个CNN作为输入, 并取第2个全连接层(表1中的“ F7” )输出的4096维向量作为其对应的CNN特征, 分别记为 $\begin{matrix} f_{t}^{1} \end{matrix}$ 与 $\begin{matrix} f_{t}^{2} \end{matrix}$ , 其中下标t表示第t帧图像。同样地, 光流图像序列以及人体区域光流序列中的每一帧图像被送入第2个CNN作为输入, 并取第2个全连接层输出的4096维向量作为其对应的CNN特征, 分别记为 $\begin{matrix} f_{t}^{3} \end{matrix}$ 与 $\begin{matrix} f_{t}^{4} \end{matrix}$ , 其中t表示帧的索引号。至此, 得到了一段视频的多级图像序列的卷积神经网络特征。

3 行为识别特征的构造

假设一段视频的长度为T, 将四级图像序列中的每帧图像{I_t |t=1, 2, …, T}通过卷积神经网络得到的向量 $\begin{matrix} f_{t}^{1}, f_{t}^{2}, f_{t}^{3} \end{matrix}$ 以及 $\begin{matrix} f_{t}^{4} \end{matrix}$ 连接起来, 则可以得到4× T× 4096=16TK维的特征向量。虽然此向量中包含了整个视频的时间信息、空间信息、前景信息与背景信息, 但是这样的特征向量对于分类器来说维数过大, 无法直接作为分类特征。因此, 接下来对多级图像序列的卷积神经网络特征进行处理, 构造出便于分类的人体行为特征。

人体行为虽然是连续的, 但是连续帧之间的图像变化的程度却不同, 并且每帧图像对行为识别的贡献也不相同。通过观察发现视频中含有冗余的帧, 视频中人体的运动可以由关键帧^[20]来表示而不需要使用视频中的所有帧, 通过关键帧图像信息的变化即能识别出运动类型, 如图2所示。针对这个问题, 本文提出了一种获取视频中关键帧的方法。

将原视频图像序列(图1中的第1级序列)中所有帧得到的4096维CNN特征向量排列成T× 4096的矩阵, 剔除其中全为0的列, 将剩余的矩阵记为C, 取出矩阵C中的最大值记为m。然后将矩阵C的每一行C_t中的每个元素转换为log₂ m (向上取整)位的二进制序列, 记为 $\begin{matrix} {\hat{C}}_{t}, \end{matrix}$ 并将 $\begin{matrix} {{\hat{C}}_{t} | t = 1, 2, \dots, T} \end{matrix}$ 排列成的新矩阵记为 $\begin{matrix} \hat{C} \end{matrix}$ 。以图3为例说明十进制转二进制的过程, 设矩阵C中m=7.48, 则将每一位十进制数转换为log₂m≈ 4位二进制序列。图3中第1行表示十进制序列C_t, 第2行表示二进制序列 $\begin{matrix} {\hat{C}}_{t} 。 \end{matrix}$

	Figure Option View Download New Window
	图2 视频序列中的关键帧Fig.2 Extract key frames from a video sequence

	Figure Option View Download New Window
	图3 将十进制序列转换为二进制序列Fig.3 Transform decimal sequence into binary sequence

	Figure Option View Download New Window
	图4 视频子段二叉树Fig.4 Binary tree for generating sub-sequences

按照t=2, 3, …, T的顺序计算 $\begin{matrix} {\hat{C}}_{t - 1} \end{matrix}$ 与 $\begin{matrix} {\hat{C}}_{t} \end{matrix}$ 的汉明距离^[21], 记为 $\begin{matrix} Δ {\hat{C}}_{t} 。 \end{matrix}$ 取汉明距离 $\begin{matrix} Δ {\hat{C}}_{t} \end{matrix}$ 最大的k个帧作为关键帧, 同时保证所取的关键帧两两之间以及与视频起止帧之间的间隔均不少于3帧图像。将选出的关键帧按照对应的汉明距离由大到小的顺序进行排列。在算法实现中设定k=6。

假设原视频帧索引序列为{1, 2, …, T}, 用有顺序的k个关键帧的索引号依次对视频段进行切割, 每次切割时将关键帧索引号归于前一个子段, 从而得到2k+1个视频子段。用图4中的例子详细说明得到视频子段的过程。图4中假设视频中含有T=30帧图像, 得到的k=6个有顺序的关键帧的索引号为[8, 4, 16, 22, 12, 26], 用第1个关键帧 $\begin{matrix} t = 8 \end{matrix}$ 对原视频进行切割, 则生成两个视频子段索引号:[1-8]与[9-30]。然后按顺序用第2个关键帧 $\begin{matrix} t = 4 \end{matrix}$ 对上一次生成的视频子段继续进行切割, 即将[1-8]切割为[1-4]和[5-8]; 以此类推。那么最终可以画出视频子段二叉树如图4所示, 其中矩形表示视频子段起止帧的索引号, 圆形表示关键帧的索引号。

将得到的视频子段对应的帧索引记为{s_j|j=1, 2, 3, …, 2k+1}, 其中j表示由二叉树得到的第j个视频子段。对图1中的每级图像序列{i|i∈ [1, 2, 3, 4]}, 用每个子段的最后一帧对应的CNN特征减去本子段第一帧对应的CNN特征, 从而得到一个差值向量, 然后分别计算所有视频子段得到的差值向量中每一维的最大值与最小值, 将得到的向量分别记为 $\begin{matrix} p_{\max}^{i} \end{matrix}$ 与 $\begin{matrix} p_{\min}^{i}, \end{matrix}$ 见式(3)。这两个向量的维数均为4096, 其中包含了视频中的人体子行为的信息。

$\begin{matrix} \{\begin{matrix} p_{\max}^{i} (d) = \max_{j = 1, 2, \dots, 2 k + 1} (f_{s_{j} (end)}^{i} (d) - f_{s_{j} (1)}^{i} (d)) \\ p_{\min}^{i} (d) = \min_{j = 1, 2, \dots, 2 k + 1} (f_{s_{j} (end)}^{i} (d) - f_{s_{j} (1)}^{i} (d)) \end{matrix} (3) \end{matrix}$

式中: {d|d∈ [1, 2, …, 4096]}表示向量的第 $\begin{matrix} d \end{matrix}$ 维。

另外, 对每级图像序列 $\begin{matrix} i \end{matrix}$ 计算出所有帧得到的CNN特征中每一维的最大值与最小值^[22], 将得到的向量分别记为 $\begin{matrix} q_{\max}^{i} \end{matrix}$ 与 $\begin{matrix} q_{\min}^{i} : \end{matrix}$

$\begin{matrix} \{\begin{matrix} q_{\max}^{i} (d) = \max_{t = 1, 2, 3, \dots, T} (f_{t}^{i} (d)) \\ q_{\min}^{i} (d) = \min_{t = 1, 2, 3, \dots, T} (f_{t}^{i} (d)) \end{matrix} (4) \end{matrix}$

基于上述计算, 本文构造出了视频的行为识别特征向量:

此特征向量的维数为64K维, 其中前16K维包含视频图像中前景与背景的表观信息; 紧接着的16K维包含视频图像中前景与背景的运动信息; 接下来的16K维包含视频图像前景的表观信息; 最后16K维包含视频图像前景的运动信息。也就是说, 我们得到的行为识别特征向量 $\begin{matrix} V \end{matrix}$ 中包含视频中的图像信息、运动信息、前景信息、背景信息, 并且维数的大小适用于利用支持向量机进行分类^{[1, 23]}。

4 行为分类方法及实验分析

4.1 人体行为数据集

使用两个人体行为数据集来验证本文提出的人体行为识别方法, 这两个数据集分别是中佛罗里达大学计算机视觉研究中心提出的UCF Sports人体行为数据集^[24]和马克斯普朗克研究所智能系统研究中心提出的sub-JHMDB人体行为数据集^[25]。

UCF Sports数据集^[24]中有包含10种行为的150段视频, 这十种行为分别是:跳水、打高尔夫、踢腿、举重、骑马、跑步、滑板、在跳马上旋转、在单杠上旋转和漫步。其中有103段视频用于训练, 其余47段视频用于测试。

sub-JHMDB数据集^[25]中有包含12种行为的316段视频, 12种行为分别是:接住、爬楼梯、打高尔夫、跳跃、踢球、拾起、引体向上、推、跑、投球、打棒球和漫步。数据集中给出了3种训练/测试集的分离方式, 本文采用其中的第3种进行实验, 其中有224段视频用于训练, 其余92段视频用于测试。

4.2 分类方法及效果

本文采用线性多类分类器实现人体行为的分类。线性分类器的个数 $\begin{matrix} N_{c} \end{matrix}$ 与行为种类 $\begin{matrix} N_{a} \end{matrix}$ 之间的关系为:

$\begin{matrix} N_{c} = \frac{N_{a} \times (N_{a} - 1)}{2} (6) \end{matrix}$

以sub-JHMDB数据集为例, 由于数据集中含有12种人体行为, 因此需要训练66个线性分类器, 分类器结构如图5所示, 其中每个圆形代表一个两类线性分类器, N表示第N类行为。类似地, UCF Sports数据集中含有10种人体行为, 因此需要训练45个线性分类器。

	Figure Option View Download New Window
	图5 针对sub-JHMDB数据集训练行为识别分类器Fig.5 Train the SVMs for the sub-JHMDB dataset

对UCF Sports数据集构造式(5)所示的人体行为识别特征向量, 并用训练集中的样本训练如图5所示的线性多类分类器, 对测试集中的行为样本进行分类, 得到的人体行为识别结果如图6所示。对sub-JHMDB数据集, 本文用类似的方法获得行为识别特征向量并训练线性多类分类器, 然后对测试集中的行为样本进行分类, 得到的人体行为识别结果如图7所示。

	Figure Option View Download New Window
	图6 UCF Sports数据集分类结果Fig.6 Action recognition results of UCF Sports dataset

	Figure Option View Download New Window
	图7 sub-JHMDB数据集分类结果Fig.7 Action recognition results of sub-JHMDB dataset

从图6的混淆矩阵中可以看出, 本文方法能够准确识别UCF Sports数据集中的跳水、举重、骑马、滑板和单杠上旋转行为, 对打高尔夫、踢腿、跑步、跳马上旋转和漫步行为的正确识别率分别为83%、86%、75%、86%以及75%。本文方法对UCF Sports数据集中10种行为的平均识别率为90.5%。

表2中列出的不同行为识别方法的行为识别率对比表明, 本文方法比Souly与Shah提出基于视觉角点的识别方法^[7]的平均行为识别率提高了5.2%; 比Le等^[8]提出的利用独立子空间分析及层级不变性的时空特征的人体行为识别方法的平均行为识别率提高了3.8%; 比Wang等^[4]提出的基于密度轨迹的行为识别方法的平均行为识别率提高了1.2%。

表2 对比实验结果 Table 2 Comparison experiment results

从图7的混淆矩阵中可以看出, 本文方法能较准确地识别sub-JHMDB数据集中的打高尔夫、接住、引体向上、推、跑以及跳跃, 对应的行为识别率分别为100%、82%、89%、88%、83%、71%, 对爬楼梯、踢球、拾起、投球、打棒球、漫步的行为识别率分别为50%、43%、50%、67%、57%、67%。由于sub-JHMDB数据集中的行为比UCF Sports数据集中的更具挑战性, 因此行为识别的成功率较低。以文献[4]方法为例, 其对sub-JHMDB数据集的行为识别率(56.6%)比对UCF Sports数据集的行为识别率(89.1%)降低了32.5%。但从表2的对比实验结果中可以看出, 本文方法依然能够较好地识别出数据集中的行为。本文方法对sub-JHMDB数据集中的12种行为的平均识别率为70.6%, 比Wang等^[4]提出的基于密度轨迹的行为识别方法的平均行为识别率提高了14%; 比Gkioxari和Malik^[15]提出的使用多级表观及运动模型构建行为管道的行为识别方法的平均行为识别率提高了8.1%; 比Peng等^[6]提出的利用堆叠的Fisher向量进行行为识别的方法的平均行为识别率提高了1.3%。

4.3 行为识别方法的有效性验证

本文提出的基于多级图像序列与卷积神经网络的人体行为识别方法中的关键算法有:①用原视频序列生成四级图像序列并分别用卷积神经网络提取特征, 这四级图像序列分别为原视频图像序列、人体区域图像序列、光流图像序列和人体区域光流序列; ②提取视频中的关键帧并将原视频划分为视频子段, 从而得到视频中人体行为由粗略到细致的划分, 然后将子段得到的特征(式(3))与整段得到的特征(式(4))组合得到人体行为识别特征(式(5))。

为验证本文提出的四级图像序列结构的有效性而采用的对比方法有:①仅使用原视频序列, 即只用第一级卷积神经网络; ②仅使用原视频图像序列与人体区域图像序列, 即使用本文提出的多级图像序列中的第一级与第二级; ③仅使用原视频图像序列与光流图像序列, 即使用本文提出的多级图像序列中的第一级与第三级。

由表3中序号1、2、3、6的实验结果可以看到, 使用视频图像序列与人体区域图像序列比仅使用原视频序列的行为识别精度提高了12.3%, 这是由于原视频序列中仅包含图像帧的空间信息, 而使用视频图像序列与人体区域图像序列能够附加人体行为的前景信息, 有助于剔除无效信息保留有效信息。使用原视频图像序列与光流图像序列比仅使用原视频序列的行为识别精度提高了3.4%, 这是由于有效利用了帧与帧之间的运动信息。而使用四级图像序列比仅使用原视频序列的人体行为识别精度提高了24.6%, 这是由于四级图像结构比原视频序列中附加了视频中的运动信息与前景信息, 因此能够得到更多有效行为信息。实验结果证明, 本文提出的构造四级图像序列并分别用卷积神经网络进行处理的方法有效地提高了人体行为识别的准确度。

表3 关键算法的有效性验证 Table 3 Efficiency of the key points in the proposed method

为验证本文提出的用完整视频段与视频子段共同构造的人体行为识别特征的有效性, 本文采用的对比方法有:①仅使用完整视频段信息构造人体行为识别特征; ②仅使用视频子段信息构造行为识别特征。

表3中序号为4、5、6的实验数据表明, 仅使用完整视频段的特征进行行为识别的精度为55.5%, 而使用视频子段特征进行行为识别的精度为61.5%, 提高了6%, 这是由于视频子段是通过将完整视频段中的人体行为进行由粗略到细致的划分得到的, 能够体现人体行为的细节信息, 而完整视频段的特征更侧重于视频中行为的整体信息。另外, 从表3可以看出, 同时使用完整视频段信息与视频子段信息得到的行为识别精度为70.6%, 比仅使用完整视频段构造的行为识别特征的行为识别准确率提高了15.1%, 比仅使用视频子段构造的行为识别特征的行为识别准确率提高了9.1%, 这是由于使用由完整视频段信息与视频子段信息相结合构造的人体行为识别特征中既包含了全局信息又包含了细节信息, 因此所含的人体行为的有效信息量更大。实验结果表明, 本文提出的将完整视频段信息与视频子段信息结合构造人体行为识别特征的方法有助于提高人体行为识别的准确度。

5 结束语

本文提出了一种基于多级图像序列和卷积神经网络的人体行为识别方法。首先, 用原始视频图像序列衍生出另外三级图像序列, 它们分别为人体区域图像序列、光流图像序列和人体区域光流序列。然后, 用不同的卷积神经网络分别对四级图像序列进行处理, 得到四级卷积神经网络特征。这样的多级结构中包含了图像的表观特征、前景的表观特征、图像的运动特征以及前景的运动特征, 因此能够提取出更丰富的人体行为特征信息。另外, 本文提出了将人体行为分解为由粗略到细致的子行为的方法, 即从原视频序列中提取关键帧的索引号, 并利用二叉树将四级图像序列分别分解为子序列, 从每个子序列中提取特征向量并融合, 从而得到更具有代表性的人体行为特征。

本文用两个挑战性的人体行为数据集对所提出的算法进行验证, 同时与几种前沿算法进行对比, 并针对所提出的多级结构和视频子序列分解的关键算法分别进行了验证实验。对比实验和验证实验结果表明, 本文方法能够有效识别视频中的人体行为。

The authors have declared that no competing interests exist.

参考文献

View Option

[1]	Wang H, Schmid C. Action recognition with improved trajectories[C]//Proceedings of the IEEE International Conference on Computer Vision, Sydney, NSW, Australia, 2013: 3551-3558. [本文引用:2]
[2]	王丹, 张祥合. 基于 HOG 和 SVM 的人体行为仿生识别方法[J]. 吉林大学学报: 工学版, 2013, 43(增刊1): 489-492. Wang Dan, Zhang Xian-ghe. Biomimetic recognition method of human behavior based on HOG and SVM[J]. Journal of Jilin University(Engineering and Technology Edition), 2013, 43(Sup. 1): 489-492. [本文引用:1]
[3]	Prest A, Ferrari V, Schmid C. Explicit modeling of human-object interactions in realistic videos[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2013, 35(4): 835-848. [本文引用:1]
[4]	Wang H, Klaser A, Schmid C, et al. Action recognition by dense trajectories[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Colorado Springs, CO, USA, 2011: 3169-3176. [本文引用:3]
[5]	Iosifidis A, Tefas A, Pitas I. Discriminant bag of words based representation for human action recognition[J]. Pattern Recognition Letters, 2014, 49: 185-192. [本文引用:1]
[6]	Peng X, Zou C, Qiao Y, et al. Action recognition with stacked fisher vectors[C]//European Conference on Computer Vision(ECCV), Zurich, Switzerland , 2014: 581-595. [本文引用:2]
[7]	Souly N, Shah M. Visual saliency detection using group lasso regularization in videos of natural scenes[J]. International Journal of Computer Vision, 2016, 117(1): 93-110. [本文引用:2]
[8]	Le Q V, Zou W Y, Yeung S Y, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011: 3361-3368. [本文引用:2]
[9]	Ma S, Zhang J, Ikizler-Cinbis N, et al. Action recognition and localization by hierarchical space-time segments[C]//Proceedings of the IEEE International Conference on Computer Vision, Sydney, NSW, Australia, 2013: 2744-2751. [本文引用:1]
[10]	Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems, Lake Tahoe, Nevada, USA, 2012: 1097-1105. [本文引用:1]
[11]	Gkioxari G, Girshick R, Malik J. *Contextual action recognition with rcnn*[C]//Proceedings of the IEEE International Conference on Computer Vision, Santiago, Chile*, 2015: 1080-1088. [本文引用:1]
[12]	Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advances in Neural Information Processing Systems, 2014: 568-576. [本文引用:1]
[13]	Karpathy A, Toderici G, Shetty S, et al. Large-scale video classification with convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Colu mbus, Ohio, USA, 2014: 1725-1732. [本文引用:1]
[14]	Brox T, Bruhn A, Papenberg N, et al. High accuracy optical flow estimation based on a theory for warping[C]//European Conference on Computer Vision(ECCV), Prague, Czech Republic, 2004: 25-36. [本文引用:3]
[15]	Gkioxari G, Malik J. Finding action tubes[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 759-768. [本文引用:2]
[16]	Cherian A, Mairal J, Alahari K, et al. Mixing body-part sequences for human pose estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Columbus, Ohio, USA, 2014: 2353-2360. [本文引用:1]
[17]	Chatfield K, Simonyan K, Vedaldi A, et al. Return of the devil in the details: delving deep into convolutional nets[J]. arXiv Preprint arXiv: 1405. 3531, 2014. [本文引用:1]
[18]	Deng J, Dong W, Socher R, et al. Imagenet: a large-scale hierarchical image database[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009: 248-255. [本文引用:1]
[19]	Soomro K, Zamir A R, Shah M. UCF101: A dataset of 10human actions classes from videos in the wild[J]. arXiv preprint arXiv: 1212. 0402, 2012. [本文引用:1]
[20]	Ravanbakhsh M, Mousavi H, Rastegari M, et al. Action Recognition with Image Based CNN Features[J]. arXiv preprint arXiv: 1512. 03980, 2015. [本文引用:1]
[21]	Hamming R W. Error detecting and errorcorrecting codes[J]. Bell System Technical Journal, 1950, 29(2): 147-160. [本文引用:1]
[22]	Cheron G, Laptev I, Schmid C. P-CNN: pose-based CNN features for action recognition[C]//Proceedings of the IEEE International Conference on Computer Vision, Santiago, Chile, 2015: 3218-3226. [本文引用:1]
[23]	Chatfield K, Lempitsky V S, Vedaldi A, et al. The devil is in the details: an evaluation of recent feature encoding methods[C]//BMVC, Dundee, UK, 2011: 1-12. [本文引用:1]
[24]	Rodriguez M D, Ahmed J, Shah M. Action mach a spatio-temporal maximum average correlation height filter for action recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Anchorage, AK, USA, 2008: 1-8. [本文引用:2]
[25]	Jhuang H, Gall J, Zuffi S, et al. Towards understand ing action recognition[C]//Proceedings of the IEEE International Conference on Computer Vision, Sydney, NSW, Australia, 2013: 3192-3199. [本文引用:2]

2013

0.0

... 例如有些学者使用方向梯度直方图(HOG)或尺度不变(SIFT)检测子来提取视频中的形状信息^[1,2],并用光流直方图(HOF)或运动边界直方图(MBH)特征提取视频中的运动信息^[3,4],然后用词包的形式进行编码^[5],并训练分类器识别人体行为^[6] ...

... 也就是说,我们得到的行为识别特征向量 V中包含视频中的图像信息、运动信息、前景信息、背景信息,并且维数的大小适用于利用支持向量机进行分类^[1,23] ...

2013

0.0

. 2013, 43(增刊1):489-492

Biomimetic recognition method of human behavior based on HOG and SVM

HOG 和 SVM 的人体行为仿生识别方法

Wang Dan , Zhang Xian-ghe.

王丹, 张祥合, . 基于

2013

0.0

2011

0.0

... 比Wang等^[4]提出的基于密度轨迹的行为识别方法的平均行为识别率提高了1 ...

... 6%,比Wang等^[4]提出的基于密度轨迹的行为识别方法的平均行为识别率提高了14% ...

2014

0.0

2014

0.0

... 比Peng等^[6]提出的利用堆叠的Fisher向量进行行为识别的方法的平均行为识别率提高了1 ...

2016

0.0

... 另外,有一些学者通过构建多级体系结构分级进行行为识别^[7,8],例如有些算法采用第一级结构对视频进行多种时空分割并得到所有可能的包含人体区域的分割结果,再在第二级中利用时空信息对分割结果进行推理,从而获得有效的人体行为特征^[9] ...

... 表2中列出的不同行为识别方法的行为识别率对比表明,本文方法比Souly与Shah提出基于视觉角点的识别方法^[7]的平均行为识别率提高了5 ...

2011

0.0

... 比Le等^[8]提出的利用独立子空间分析及层级不变性的时空特征的人体行为识别方法的平均行为识别率提高了3 ...

2013

0.0

2012

0.0

... 此外,近年来还有一些学者提出使用深度神经网络进行行为识别,例如有学者提出使用卷积神经网络^[10](Convolutional neural network,CNN)获取视频的表观特征与运动特征^[11,12],并将得到的特征进行分析与融合,从而获得有效的行为识别特征^[13] ...

2015

0.0

2014

0.0

2014

0.0

2004

0.0

... )表示用文献^[14]方法计算两帧图像之间的光流图 ...

... 依据卷积神经网络^[14]对输入图像的尺寸及结构的需求,需要对光流图 U^t中的像素值进行转换并获取能够作为卷积神经网络的输入图像的新光流图 Ut ...

... 具体地,假设光流图 U^t的尺寸为 a×b×2,则计算 U^t中每个位置 (x,y)对应的光流幅值 magU¯(x,y),从而构成光流幅值图,记为矩阵 magU¯,然后通过线性变换^[14]将 magU¯中的每个元素值进行变换,得到新的矩阵 magU,如式(2)所示: ...

2015

0.0

... 对于第3级的光流图像序列以及第四级的人体区域光流序列,本文采用^[15]提出的CNN结构,如表1中第3行所示 ...

... 比Gkioxari和Malik^[15]提出的使用多级表观及运动模型构建行为管道的行为识别方法的平均行为识别率提高了8 ...

2014

0.0

... 为了更加突出人体姿态及运动的信息,用人体区域估计的方法^[16]从原始视频序列中提取出连续的人体区域图像序列,同时从光流序列中提取出对应的人体区域光流序列,得到四级图像序列 ...

2014

0.0

... 对于第1级的原视频图像序列以及第2级的人体区域图像序列,采用^[17]提出的CNN结构,如表1中第2行所示 ...

2009

0.0

... 此CNN结构是由ILSVRC-2012训练集^[18]训练得到的 ...

1212

0.0

... 此CNN结构是由UCF101训练集^[19]训练得到的 ...

2015

0.0

... 通过观察发现视频中含有冗余的帧,视频中人体的运动可以由关键帧^[20]来表示而不需要使用视频中的所有帧,通过关键帧图像信息的变化即能识别出运动类型,如图2所示 ...

1950

0.0

... 按照t=2,3,…,T的顺序计算 C^t-1与 C^t的汉明距离^[21],记为 ΔC^t ...

2015

0.0

... 另外,对每级图像序列 i计算出所有帧得到的CNN特征中每一维的最大值与最小值^[22],将得到的向量分别记为 qmaxi与 qmini: ...

2011

0.0

2008

0.0

... 1 人体行为数据集使用两个人体行为数据集来验证本文提出的人体行为识别方法,这两个数据集分别是中佛罗里达大学计算机视觉研究中心提出的UCF Sports人体行为数据集^[24]和马克斯普朗克研究所智能系统研究中心提出的sub-JHMDB人体行为数据集^[25] ...

... UCF Sports数据集^[24]中有包含10种行为的150段视频,这十种行为分别是:跳水、打高尔夫、踢腿、举重、骑马、跑步、滑板、在跳马上旋转、在单杠上旋转和漫步 ...

2013

0.0

... sub-JHMDB数据集^[25]中有包含12种行为的316段视频,12种行为分别是:接住、爬楼梯、打高尔夫、跳跃、踢球、拾起、引体向上、推、跑、投球、打棒球和漫步 ...