基于多层次特征表示的场景图像分类算法

引用本文

范敏, 韩琪, 王芬, 宿晓岚, 徐浩, 吴松麟. 基于多层次特征表示的场景图像分类算法[J].吉林大学学报（工学版）, 2017,47(6): 1909-1917
FAN Min, HAN Qi, WANG Fen, SU Xiao-lan, XU Hao, WU Song-lin. Scene image categorization algorithm based on multi-level features representation[J]. Journal of Jilin University Engineering and Technology Edition, 2017,47(6): 1909-1917 复制到剪切板

Doi:10.13229/j.cnki.jdxbgxb201706032
Permissions

基于多层次特征表示的场景图像分类算法

范敏¹, 韩琪¹, 王芬¹, 宿晓岚², 徐浩², 吴松麟²

1.重庆大学自动化学院,重庆 400044

2.国家电网重庆市电力公司市区供电分公司,重庆 400015

作者简介:范敏(1975-),女,副教授,博士.研究方向:计算机视觉、智能控制与智能管理.E-mail:fanmin@cqu.edu.cn

基金:国家电网公司科技项目(SGTYHT/15-JS-191); 国家自然科学基金项目(61473050)

摘要

针对场景图像种类增多、场景复杂度增加和场景内容增大的趋势,本文提出了一种基于多层次特征表示的场景图像分类算法。首先采用Object Bank目标属性的高层特征表示方法,经分类器预测出该图像所属的场景主题;然后在同一场景主题内,采用基于底层特征的局部约束低秩编码方法提取图像特征;在低秩编码方法中加入局部约束正则化并采用F-范数替代核范数的优化方法,减少计算复杂度,实现对场景图像较为细致的理解。这种由高层特征和底层特征相结合的多层次特征表示方法,从对象特征的粗理解到底层细节特征的详细解析,充分利用了不同特征间层层递进和互补的关系,实验结果证明了本文算法的有效性。

关键词: 计算机应用; 目标属性; 低秩编码; 多层次特征; 场景图像分类

中图分类号:TP391.4 文献标志码:A 文章编号:1671-5497(2017)06-1909-09

Scene image categorization algorithm based on multi-level features representation

FAN Min¹, HAN Qi¹, WANG Fen¹, SU Xiao-lan², XU Hao², WU Song-lin²

1.College of Automation, Chongqing University, Chongqing 400044, China

2.Chongqing Urban Power Supply Company of State Grid, Chongqing 400015,China

Abstract

With the increases in categories, complexity and content of scene images, a categorization algorithm based on multi-level features representation was proposed. First, object attributes based on high-level feature representation were available. Using simple classifiers, the topics of scene images were exported. Then in the same topic, the low-level feature in the image was extracted by the way of fast locality-constrained low rank coding. Meanwhile, in order to reduce the computational complexity, the method of adding local constraint regularization and replacing kernel norm with F-norm in the processing of low rank coding was adopted to achieve detailed understanding of scene images. Achieving scene classification from coarse understanding of object characteristics to detailed analysis of low-level feature, the method can make full use of the progressive and complementary relationship between different features. The experiment results show that better classification effect is obtained.

Keyword: computer application; object bank; low rank coding; multi-level features; scene image categorization

Show Figures

0 引言

场景图像分类作为计算机视觉最常见的图像识别任务之一^[1], 旨在通过提取并分析图像特征, 将内容相似的图像归为同一类别。常见的场景类别大致可以归纳为4类^[2]:自然场景、城市场景、室内场景和事件场景。常用在场景分类任务中的特征大体上可以分为底层特征和高层特征两类^[3]。

在场景图像分类识别研究中, 大多数采用SIFT^[4]、GIST^[5]、HOG^[6]等底层特征构建特征描述符^[7], 对特征采用量化、编码等方法进一步挖掘底层特征在结构、空间上的相似度或关联关系, 如ScSPM^[8]、LLC^[9]和LrrSPM^[10]等特征编码方法。然而计算机处理的离散“ 数字存储相似性” 和人理解的“ 概念和内容相似性” 之间存在语义鸿沟^[11]。尽管这些方法在一定程度上弥补了特征表示与场景语义间的鸿沟问题^[12], 但由于计算机视觉任务越来越具有挑战性, 这种基于底层特征的分类方法表现出了越来越多的局限性。而将图像中目标属性作为初始信息的高层特征表示方法如OB^{[13, 14]}、BOP^[15]、LPR^[16]等, 能够补充图像特征表示在鸿沟问题上的语义信息, 取得了不错的分类效果。不同的特征所描述的侧重点不同, 如SIFT特征对于图像平移、旋转、缩放、光照甚至是遮挡等能够保持不错的鲁棒性, HOG特征能够捕获对象属性并且能对目标的边缘形状和轮廓进行描述。文献[17, 18]将多种特征相结合, 利用特征间互补关系, 在场景分类中取得了较好的分类效果。

本文在文献[19]的基础上, 关注场景图像的多层特征, 包括底层的像素特征、中层的量化编码特征、高层语义的目标属性特征, 提出了一种基于多层次特征表示的场景图像分类算法。先提取各场景主题对应的OB特征描述符, 进行场景的粗理解, 即得到场景主题类别; 然后分别对场景主题内的子类图像提取SIFT特征, 并采用快速局部约束低秩编码方法得到特征矩阵, 区分同类场景主题内子类场景之间的差异, 并给出图像的具体场景类别。

1 Object Bank目标属性的特征表示

本文采用Object Bank(OB)方法从目标初始信息出发, 利用OB描述符表示图像中包含的目标信息, 获得语义信息和空间结构关系, 从而形成更加丰富的图像表示。这种基于目标属性的高层特征表示方法, 类似于人类认知世界的过程。例如当人类想象航行场景时, 头脑中会出现上部有蓝天, 下部有海洋和在海洋中漂浮帆船的情景。

1.1 OB描述符

OB描述符基于局部可变模型(Deformable parts model, DPM)^{[20, 21]}方法, 通过对底层HOG^[6]特征进行建模, 获取中间层特征表示, 其核心是目标滤波器(Object filter), 包括描述区域整体相似度的粗糙根滤波器和若干描述局部小块与目标关键位置相似程度的高分辨率的部件滤波器。通过DPM方法表示多个尺度上一组目标滤波器的目标响应值后, 再经LSVM方法(Latent support vector machine)^[22]进行参数学习, 确定目标的具体位置并且得到多个尺度上的目标响应值, 然后求取各层空间金字塔网格上的响应值, 最后使用池化(pooling)方法求取每个网格内各个目标的最大响应值, 将所有网格上的最大响应值连接成一个向量, 构成所包含目标信息的OB描述符。以UIUC 8-Sport运动场景的bocce类中目标“ 人” 为例, 如图1(a)所示, 由于拍摄角度不同可能呈现截然不同的姿态, DPM训练多个视角下不同的滤波器。如图1(b)(c)所示, 从正面、侧面两个视角采用5个部件滤波器和1个根滤波器有效地消除视角干扰。

	Figure Option View Download New Window
	图1 DPM检测的“ 人” 对象模型(bocce类)Fig.1 The “ person” detection model of the DPM(bocce)

1.2 场景主题的特征表示思想

这种包含高层语义信息的场景主题分类方法可以粗略地区分类间差异性较大的场景类, 将对象分布相似、语义相近的图像分到同一场景主题内, 实现对象特征的粗理解。

根据人类视觉原理^[23], 同时受Xiao等^[2]的启发, 利用Object Bank的目标属性特征, 通过已有的177个目标滤波器检测图像中所包含的物体, 计算得到相关物体响应值的高低分布。就室内场景而言, 一般图像中包括了沙发、桌椅、柜、灯具等标志性的物体, 所获得的这些物体的响应值就相对较高, 就可将这类图像归为室内场景。进而构成OB描述符并将其作为分类器SVM的输入, 学习得到分类模型; 当有新的图像输入时, 提取特征形成OB描述符, 再由已训练好的分类模型得到图像所属的场景主题标签。以数据库Scene-13为例, 本文依据其所包含相同对象和相近的语义信息将其分为3个主题场景:室内场景Indoor scene(bedroom、kitchen、livingroom、PARoffice)、自然场景Natural scene(MITcoast、MITforest、MITmountain、MITopencountry)、城市场景City scene(CALsuburb、MITstreet、MITtallbuilding、MITinsidecity)。各场景主题的样本图像如图2所示。其中在室内场景中通常就包含沙发、桌、椅、柜、窗户、灯具等主要对象; 在自然场景中通常包含树木、天空、海洋等主要对象; 在城市场景中通常包含高楼、房屋、街道等主要目标。

	Figure Option View Download New Window
	图2 Scene-13中不同场景主题中图像示例Fig.2 Example images of different scene topics in Scene-13

在对海量图像进行分类处理时, 通过对图像所属场景主题类别进行初步分类, 可以避免图像特征提取及分类模型训练的盲目性, 减小类间差异性较大的场景图像的干扰。依据高层特征目标属性的特点, 有针对性地将包含具有代表性的相似目标对象的图像归为一类主题, 为后续的细分类任务做好准备工作。这样可以缩小分类器训练学习的场景图像范围, 以聚类的形式归纳场景图像, 所得到的分类精度就相对高些。例如, 在数据库Scene-13下的3类主题场景进行测试时, 其精度可达到98%左右。

2 底层特征的快速局部约束低秩编码

采用OB特征表示得到场景主题后, 若在不同场景主题对应的底层特征表示空间内学习统一的分类器, 无法充分利用高层特征的目标对象特征且分类效果主要依赖于底层特征, 存在类内差异大的图像误分成两类或类间相似大的图像误分成同一类的情况。所以本文在得到图像的场景主题后, 采用基于底层特征的快速局部约束低秩编码方法来描述图像特征, 训练对应场景主题下的多个子分类器并输出图像最终所属的具体场景类别。考虑到图像的全局结构一致性和局部空间相似性, 本文在传统的低秩编码方法中加入局部约束正则化并采用 $\begin{matrix} F - \end{matrix}$ 范数替代核范数优化方法, 减少了计算的复杂度。

2.1 快速局部约束低秩编码

低秩编码方法采取一种在数据分布下的联合编码方式, 捕捉特征描述子间的整体结构特征。这种图像数据子流形的低维表示方法能得到图像的共性特征, 即使图像受到光照、遮挡等噪声改变时也有很强的鲁棒性。

基于快速局部约束低秩编码(Fast locality-constrained low rank coding, FLCLRC)的图像分类方法首先对图像提取SIFT特征, 经过K-means聚类得到字典; 然后采用局部约束的低秩编码方法, 求得SIFT特征在字典下的特征编码表示。编码中加入局部约束正则化并采用 $\begin{matrix} F - \end{matrix}$ 范数替代核范数优化方法, 能更好地表示图像特征间的关联信息。编码过程如图3所示。经过池化、空间金字塔SPM^[24]后得到最终的特征表示矩阵。经SVM分类器训练, 输出预测标签。该分类算法流程图如图4所示。

	Figure Option View Download New Window
	图3 快速局部约束低秩编码示意图Fig.3 Illustrations of FLCLRC

	Figure Option View Download New Window
	图4 快速局部约束低秩编码分类流程示意图Fig.4 Flow chart of FLCLRC Classification

2.2 快速局部约束低秩编码的优化方法

现有低秩表示的编码方法是在允许的误差范围内寻找特征矩阵的低秩表示:

$\begin{matrix} \{\begin{matrix} minrank (Z) \\ s . t . X = DZ \end{matrix} (1) \end{matrix}$

式中:rank是矩阵的秩; $\begin{matrix} X = [x_{1}, x_{2}, \dots, x_{n}] \in R^{m \times n} \end{matrix}$ 是从图像中提取的局部描述符; $\begin{matrix} D = [d_{1}, d_{2}, \dots, d_{k}] \in R^{m \times k} \end{matrix}$ 为过完备字典; $\begin{matrix} Z = [z_{1}, z_{2}, \dots, z_{n}] \in R^{k \times n} \end{matrix}$ 为低秩表示矩阵。

由于rank是非凸的, 公式(1)是一个NP-hard问题。Candes等^[25]人证明在一定条件下, 矩阵的秩可以松弛为矩阵的核范数, 同时考虑到字典 $\begin{matrix} D \end{matrix}$ 可能包含的误差, 即将式(1)转换为以下形式:

$\begin{matrix} \{\begin{matrix} \min_{Z, E} ‖ Z ‖_{*} + λ ‖ E ‖_{p} \\ s . t . X = DZ + ED = D_{0} + E_{1} \end{matrix} (2) \end{matrix}$

式中: $\begin{matrix} ‖\cdot ‖_{*} \end{matrix}$ 为核范数; $\begin{matrix} ‖ E ‖_{p} \end{matrix}$ 为约束低秩编码项的 $\begin{matrix} l_{1} \end{matrix}$ -范数或者是约束其中某一项的 $\begin{matrix} l_{2 - 1} \end{matrix}$ -范数( $\begin{matrix} E \end{matrix}$ 为特征表示误差); $\begin{matrix} E_{1} \end{matrix}$ 为字典可能包含的干扰(如亮度变化、遮掩等); $\begin{matrix} λ \end{matrix}$ 为权重系数。

对于核范数的优化问题通常采用增广拉格朗日乘子法(ALM)^[26]方法求解, 优化过程复杂, 计算复杂度为 $\begin{matrix} O (m n^{2}) 。 \end{matrix}$ 这是一种离线迭代的优化方法, 在处理海量图像分类问题时, 分类效果不好。

对低秩编码的优化问题, 本文从以下两个方面做出改进:

(1)Zhang等^[27]证明:数据在一定误差条件下, 可用 $\begin{matrix} F - \end{matrix}$ 范数取代核范数求解矩阵的低秩表示。故在字典误差为零的情况下, $\begin{matrix} E_{1} = D - D_{0} = 0, \end{matrix}$ 用 $\begin{matrix} F - \end{matrix}$ 范数 $\begin{matrix} ‖∙ ‖_{F} \end{matrix}$ 取代核范数 $\begin{matrix} ‖\cdot ‖_{*}, \end{matrix}$ 则式(2)变为:

$\begin{matrix} \min_{Z} ‖ Z ‖_{F} + \frac{λ_{1}}{2} ‖ X - DZ ‖_{_{F}}^{^{2}} (3) \end{matrix}$

式中: $\begin{matrix} λ_{1} \end{matrix}$ 为权重系数。

$\begin{matrix} F - \end{matrix}$ 范数是矩阵低秩表示的另一种求解方式, 采用 $\begin{matrix} F - \end{matrix}$ 范数优化同样能得到对角结构化的编码表示。并且在分类精确度一致的情况下, $\begin{matrix} F - \end{matrix}$ 范数可缩短分类时间。

(2)现有的低秩约束只考虑了图像特征全局结构的一致性, 却忽略了特征的局部空间相似性, 并且局部性能够产生稀疏效果, 反之则不会^{[28, 29, 30]}。受启发于LLC^[8], 本文在低秩编码中加入局部约束正则化项, 弥补特征的局部空间相似性。同时可进行图像局部光滑, 使得相似的图像块有相似的编码向量, 编码也具有更好的重建性能。

因此, 在图像特征全局结构一致性的基础上, 加入局部约束项λ ₂/2 $\begin{matrix} \overset{k}{\sum_{i = 1}} \end{matrix} \begin{matrix} ‖ p_{i} ☉ z_{i} ‖_{_{2}}^{^{2}} \end{matrix}$ , 则式(3)变为:

$\begin{matrix} \begin{matrix} \min_{Z} ‖ Z ‖_{F} + \frac{λ_{1}}{2} ‖ X - DZ ‖_{_{F}}^{^{2}} + \\ \frac{λ_{2}}{2} \overset{k}{\sum_{i = 1}} ‖ p_{i} ☉ z_{i} ‖_{_{2}}^{^{2}} (4) \end{matrix} \end{matrix}$

式中: $\begin{matrix} λ_{1}, λ_{2} > 0 \end{matrix}$ 为不相等的权重; $\begin{matrix} ‖\cdot ‖_{2} \end{matrix}$ 为 $\begin{matrix} l_{2} \end{matrix}$ -范数; 符号 $\begin{matrix} ☉ \end{matrix}$ 表示两向量的对应元素相乘; $\begin{matrix} p_{i} \end{matrix}$ 为局部约束, 即依据每个基向量与其对应的特征向量 $\begin{matrix} x_{i} \end{matrix}$ 之间的相似程度分配不同的自由度, 其可表示为:

$\begin{matrix} p_{i} = \exp (\frac{dist (x_{i}, D)}{σ}) (5) \end{matrix}$

$\begin{matrix} dist (x_{i}, D) = [dist (x_{i}, d_{1}), \dots, dist (x_{i}, d_{k} {)]}^{T}, dist (x_{i}, d_{i}) \end{matrix}$ 是特征向量 $\begin{matrix} x_{i} \end{matrix}$ 与每一个字典向量 $\begin{matrix} d_{i} \end{matrix}$ 间的欧式距离, $\begin{matrix} σ \end{matrix}$ 为调整局部约束程度的权重。

对式(4)进行求导, 最后计算得到特征表示矩阵为:

$\begin{matrix} Z = (λ_{1} I + D D^{T} + λ_{1} λ_{2} \overset{k}{\sum_{i = 1}} {p_{i}}^{T} p_{i})^{- 1} D^{T} X (6) \end{matrix}$

式中: $\begin{matrix} I \end{matrix}$ 为 $\begin{matrix} k \times k \end{matrix}$ 的单位向量。

可得到图像的编码时间复杂度为 $\begin{matrix} O (m k^{2}) 。 \end{matrix}$ 一般情况下字典的维数 $\begin{matrix} k < n, \end{matrix}$ 所以本文所采用编码方法的计算复杂度有所降低。

在引入局部约束正则化和用 $\begin{matrix} F \end{matrix}$ -范数进行低秩表示求解后, 本文算法不仅在分类精度上有所提高, 而且降低计算量, 分类速度比传统稀疏编码和低秩编码都快。如表1所示, 优化后算法FLCLRC与ScSPM^[8]、LLC^[9]算法在数据库UIUC8-Sport^[31]上的效果对比。

表1 各算法在UIUC 8-Sport数据库上的效果对比 Table 1 Comparison of the effect of each algorithm on UIUC 8-Sport database

3 多层次特征表示的场景图像分类

在OB描述符表示的场景主题粗理解基础上, 采用快速局部低秩编码的表示方法描述同一主题内场景类别的细节特征, 分别对不同的场景主题学习不同的子分类器(Sub-support vector machine, S-SVM), 由此构成组分类器(Group-support vector machine, G-SVM)。整个分类过程如图5所示。首先对新输入的图像利用目标滤波器获取响应值, 经LSVM和Max Pooling作用得到OB描述符, 输入已训练得到的场景主题SVM模型中, 得到该类图像所属的主题标签; 再对该图像提取SIFT特征 $\begin{matrix} f \end{matrix}$ , 采用快速局部约束低秩编码方法获取特征表示矩阵 $\begin{matrix} Z^{*}, \end{matrix}$ 根据主题标签来选择G-SVM分类器中对应的子分类器模型model_j( $\begin{matrix} j \end{matrix}$ 表示一类场景主题下子类场景数目), 预测出该场景图像所属具体场景类别。

	Figure Option View Download New Window
	图5 多层次特征表示的场景图像分类算法示意图Fig.5 Flow chart of scene imagecategorization based on multi-level features representation

4 实验结果与分析

为验证本文算法的分类效果, 在计算机上使用Matlab软件进行实验。从经典的图像数据库UIUC 8-Sport^[31], Scene-13^[32]中选取图像进行实验验证。

4.1 实验说明

根据本文所提出的“ 由粗到细” 分类方法, 在“ 粗分类” 部分将这两类数据库按照图像中包含的某些相似目标或者具有相似语义的图像归为同一主题下; 在“ 细分类” 部分按照数据库原来的类别划分进行实验。

(1)场景主题模型:将Scene-13数据库分为3个主题场景:室内场景Indoor scene(bedroom、kitchen、livingroom、PARoffice)、自然场景Natural scene(MITcoast、MITforest、MITmountain、MITopencountry)、城市场景City scene(CALsuburb、MITstreet、MITtallbuilding、MITinsidecity), 每个主题下分别包含4个子类场景。在OB部分训练模型参数时, 每个大主题下随机选取100× 4张图像用于训练, 剩余图像用于测试; 同样地, 将UIUC 8-Sport数据库分为2个主题场景:球类运动Ball sports(badminton、bocce、croquet、polo)、室外运动Outside sports(RockClimbing、snowboarding、rowing、sailing), 每个主题下又分别包含4个子类场景。在获取OB部分训练模型参数时, 每个大主题下随机选取70* 2张图像用于训练, 从剩下的图像中随机选取60* 2张用于测试。

(2)主题下的子类模型:在Scene-13数据库中, 对每个主题所包含的4个子类场景图像每类随机选取100张图像用于训练, 剩余的用于测试; 同样地, 在UIUC 8-Sport数据库中对每个主题下的4个子类场景图像每类随机选取70张用于训练, 从剩余图像中随机选取60张用于测试。

4.2 实验结果

在Scene-13数据库、UIUC 8-Sport数据库中的测试结果如表2所示。本文整体算法与OB-177^[13]、FLCLRC^[19]算法在数据库上的效果对比如表3所示。

表2 本文方法在数据库Scene-13, UIUC 8-Sport测试结果 Table 2 Testing results of our method on UIUC 8-Sport and Scene-13 database

表3 整体算法在数据库Scene-13, UIUC 8-Sport分类效果 Table 3 Overall classification accuracy on UIUC 8-Sport, Scene-13 database

可以看出本文算法在两类标准数据库下场景主题和对应场景主题的子类场景取得了较好的分类效果, 分类精度也有所提高, 其中在13类场景中的分类效果相对明显。而在8类运动场景中, 本文算法的效果稍有逊色。这是因为在场景主题分类时, 8类运动场景所包含的对象相对复杂, 类内间的背景复杂度和差异性较大。背景的变化对前景目标的检测造成干扰使得主题分类效果受到影响, 所以会对后面的细分类造成影响进而影响了整体的分类效果。

4.3 实验分析

4.3.1 主题场景实验分析

以场景主题为标签进行分类, 图6为Scene-13数据库下不同主题分类效果。采用OB特征表示方法检测到不同尺度及视角变化的对象。图中, 相同颜色的矩形框表示同一物体, 例如椅(绿色)、桌(蓝色)、灯(橙色)等。可以看到同一物体在拍摄角度和外观上差异很大, 但是OB基本上都能成功检测。例如livingroom中种类多样的沙发、窗户、椅等物体。并且对于每一类图像都有着其标志性的对象, 如livingroom中的沙发,

	Figure Option View Download New Window
	图6 Scene-13数据库中不同主题下检测到的物体示例Fig.6 Example of object detections of different classes

bedroom中的床, kitchen中的碗柜, PARoffice中的电脑等。而这些图像又可归纳于同一主题当中, 如本文所分类的室内场景主题Indoor。因此, 可依据这些标志性的物体特征将图像进行主题分类。虽然根据人的主观的主题划分会对实验效果有所影响, 但从本文算法的实验结果来看效果还是不错的。

结合表2和表3可以看出, OB特征表示方法在以主题为标签, 通过检测属于同一主题内具有的相似对象进行分类预测时, 其分类精度高于将具体场景类别作为标签进行分类。原因在于以主题为标签时, 所需要检测的具有标志性的目标明确、数量少且响应值较为突出, 这样对于分类器模型的约束条件就相对较少, 所以最后得到的分类精度相对高。同时也可看出在数据库Scene-13上的测试精度高于UIUC 8-Sport。在Scene-13数据库中, 除了室内场景Indoor主题下包含的目标对象多而复杂, 另外的两个主题场景自然场景和城市场景目标对象较为明确且具有很强的代表性, 对于目标滤波器所得的响应值就较为突出。这也可以说明OB描述方法较为适用于一些具有明显标志性目标的自然场景, 或者一些具有多个目标但背景相对简单的室内场景。

4.3.2 子类场景分析

在对场景主题下的子类场景分类时, 表4和表5展示了UIUC 8-Sport下2类主题场景的分类效果。

表4 室外运动场景主题下的分类效果 Table 4 Classification accuracy of outside sport topic

表5 球类运动场景主题下的分类结果 Table 5 Classification accuracy of ball sport topic

对比表4、表5, 可以看出室外运动主题下的4类子场景相对于球类运动场景主题下的子场景分类效果好些。这是因为户外场景主题下的4类场景包含明显的前景目标和局部结构相似的背景, 并且其局部特征的相似度很高。如图7所示, sailing中包含帆船、海洋、天空, 其中整个帆船和海洋的纹理结构和颜色分布都极其相似; 同snowboarding的雪地的局部特征非常相似, 验证了局部约束能有效地捕捉局部特征描述子的间的相似性和共性特征。表5对应于在球类运动场景主题下的4个子类场景, 这4类场景类别的类内差异性较大, 稀疏编码能够保持对象的个性特征, 其分类精度就比低秩编码要高。如bocce类包含外观各异的场地如草坪, 沙滩, 水泥地; 数量不等的人; 复杂多变的背景房屋或户外森林、海滩; 甚至球的大小和尺度都不同。各类算法在8类运动场景的整体效果对比如表1所示。可以看出本文在场景细分类时所采用的优化方法所取得的分类效果还是不错的。

	Figure Option View Download New Window
	图7 UIUC 8-Sport数据库样图示例Fig.7 Example images in UIUC 8-Sport

5 结束语

本文提出了一种基于多层次特征表示的场景图像分类算法。在主题分类中, 充分利用高层特征的目标属性这一特点进行初步分类。在相应主题下的子类场景细分类时, 考虑到本文提取了高层和底层两种特征, 所需要的计算时间相对于一般算法要稍多些, 因此在底层特征编码中加入局部正则化并采用 $\begin{matrix} F - \end{matrix}$ 范数替代核范数优化方法, 这样能够降低计算复杂度, 而且对分类效果也有一定的改善。从构造一种较为通用的场景图像分类模型出发, 先依据图像内容判断出其所属场景主题, 再对细节特征进行详细描述与理解, 这是一种新的尝试。在接下来的研究工作中, 考虑将图像中的背景信息与前景目标相结合, 挖掘其中的关联关系, 进一步优化分类模型, 提高算法的分类精度。

The authors have declared that no competing interests exist.

参考文献

View Option

[1]	Forsyth D A, Ponce J. Computer Vision: a modern approach[M]. New Jersey: Pearson Educacion Inc. , 2002. [本文引用:1]
[2]	Xiao J X, Hays J, Ehinger K A, et al. Sundatabase: large-scale scene recognition from abbeyto zoo[C]//IEEE Conference on Computer Vision and Pattern Reco-gnition (CVPR), San Francisco, California, USA, 2010: 3485-3492. [本文引用:2]
[3]	李学龙, 史建华, 董永生, 等. 场景图像分类技术综述[J]. 中国科学: 信息科学, 2015, 45(7): 827-848. Li Xue-long, Shi Jian-hua, Dong Yong-sheng, et al. Summarize of scene image classification technology[J]. Science China Information Sciences, 2015, 45(7): 827-848. [本文引用:1]
[4]	Lowe D G. Distinctive image features from scaleinvariantkeypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. [本文引用:1]
[5]	Oliva A, Torralba A. Modeling the shape of the scene: a holistic representation of the spatial envelope[J]. International Journal of Computer Vision, 2001, 42(3): 145-175. [本文引用:1]
[6]	Dalal N, Triggs B. Histograms of oriented gradientsfor human detection[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), San Diego, CA, USA, 2005, 1(12): 886-893. [本文引用:2]
[7]	刘萍萍, 赵宏伟, 耿庆田, 等. 基于局部特征和视皮层识别机制的图像分类[J]. 吉林大学学报: 工学版, 2011, 41(5): 1401-1406. Liu Ping-ping, Zhao Hong-wei, Geng Qing-tian, et al. Image classification method based on local feature and visual cortex recognition mechanism[J]. Journal of Jilin University (Engineering and Technology Edition), 2011, 41(5): 1401-1406. [本文引用:1]
[8]	Yang J, Yu K, Gong Y, et al. Linear spatial pyramidmatching using sparse coding for image classification[C]//Computer Society Conference on Computer Vision and Pattern Recognition(CVPR), Miami, FL, 2009: 1794-1801. [本文引用:3]
[9]	Wang J, Yang J, Yu K, et al. Locality-constrained lin-ear coding for image classification[C]//Computer Society Conference on Computer Vision and Pattern Rec-ognition (CVPR), San Francisco, California, USA, 2010, 119(5): 3360-3367. [本文引用:2]
[10]	Xi Peng, Rui Yan, Bo Zhao, et al. Fast low rank representation based spatial pyramid matching for image classification[J]. Knowledge Based Systems, 2015, 90(C): 14-22. [本文引用:1]
[11]	Datta R, Joshi D, Li J. Image retrieval: ideas, influences, and trends of the new age[J]. ACM, Computing Surveys, 2008, 40(2): 1-60. [本文引用:1]
[12]	陈涛, 邓辉舫, 刘靖. 基于密度聚类和多示例学习的图像分类方法[J]. 吉林大学学报: 工学版, 2014, 44(4): 1126-1134. Chen Tao, Deng Hui-fang, Liu Jing. Image categorization method using density clustering on region features and mutiinstance learning[J]. Journal of Jilin University (Engineering and Technology Edition), 2014, 44(4): 1126-1134. [本文引用:1]
[13]	Li L J, Su H, Xing E P, et al. Object bank: a highlevel image representation for scene classification & s-emanticfeature sparsification[J]. Advances in Neural Information Proceedings Systems, Vancouver, 2010, 26(6): 719-729. [本文引用:2]
[14]	Li Li-jia, Su Hao, Lim Yong-whan, et al. Objects as attributes for scene classification[J]. Trends and Topics in Computer Vision, 2010, 6553: 57-69. [本文引用:1]
[15]	Juneja M, Vedialdi A, Jawahar C V, et al. Blocks thatshout: distinctive part for scene classification[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Portland , OR USA, 2013, 9(4): 923-930. [本文引用:1]
[16]	Sadeghi F, Tappen M F. Latent pyramidal regions for recognizing scenes[C]//European Conference on Computer Vision (ECCV), Firenze, Italy, 2012, 7576(1): 228-241. [本文引用:1]
[17]	Yu Jun, Tao Da-cheng, Rui Yong, et al. Pairwise constrains based multiview features fusion for scene classification[J]. Pattern Recognition, 2013, 46(2): 483-396. [本文引用:1]
[18]	Luo Y, Tao D, Xu C, et al. Multiview vector-valued manifold regularization for multilabel image classification[J]. IEEE Transactions on Neural Networks and Learning Systems, 2013, 24(5): 709-722. [本文引用:1]
[19]	Fan Min, Wang Fen, et al. Fast locality-constrained low-rank coding for image classification[C]//The Chinese Automation Congress (CAC), Wuhan, China, 2015: 644-650. [本文引用:1]
[20]	Felzenszwalb P, McAllester D, Ramanan D. A discriminatively trained, multiscale, deformable part model[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Anchorage, Alaska, USA, 2008: 1-8. [本文引用:1]
[21]	Felzenszwalb P, Girshick R B, McAllester D, et al. Object detection with discriminatively trained part-bas-ed models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645. [本文引用:1]
[22]	Andrews S, Tsochantaridis I, Hofmann T. Support vector machines for multiple-instance learning[J]. Advances in Neural Information Processing Systems, Vancouver, 2002, 15(2): 561-568. [本文引用:1]
[23]	Grauman K, Darrell T. Pyramid match kernels: Disc-riminative classification with sets of image features[C]//IEEE International Conference on Computer Vision (ICCV), Beijing, China, 2006: 1458-1465. [本文引用:1]
[24]	Lazebnik S, Schmid C, Ponce J. Beyond bags of features: spatial pyramid matching for recognizingnatur-al scene categories[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), New York, NY, USA, 2006: 2169-2178. [本文引用:1]
[25]	Cand es E, Recht B. Exact matrix completion via convex optimization[J]. Foundations of Computational Mathematics, 2008, 9: 712-717. [本文引用:1]
[26]	Lin Z, Ganesh A, Wright J, et al. Fast convex optimization algorithms for exact recovery of a corrupted lowrank matrix[J]. Journal of the Marine Biological Association of the UK, 2009, 56(3): 707-722. [本文引用:1]
[27]	Zhang H, Yi Z, Peng X. fLRR: fast low-rank repre-sentation using Frobenius-norm[J]. Electronics Letters, 2014, 50(13): 936-938. [本文引用:1]
[28]	Yu K, Zhang T, Gong Y. Nonlinear learning using lo-calcoordinate coding[C]//Proc of NIPS, 2009: 2223-2231. [本文引用:1]
[29]	Yang Lei, Re Yan-yunn, Zhang Wen-qiang, et al. 3D depth image analysis for indoor fall detection of elderly people[J]. Digital Communications & Networks, 2016, 2(1): 24-33. [本文引用:1]
[30]	Xu H, Hua K, Wang H. Adaptive FEC coding and cooperative relayed wireless image transmission[J]. Digital Communications & Networks, 2015, 1(3): 213-221. [本文引用:1]
[31]	Li L J, Li Fei-fei. What, where and who? classifyi-ng events by scene and object recognition[C]//IEEE International Conference on Computer Vision (ICCV), Rio de Janeiro, Brazil, 2007: 1-8. [本文引用:2]
[32]	Li Fei-fei, Perona P. A Bayesian hierarchical model for learning natural scene categories[C]//IEEE Confer-ence on Computer Vision and Pattern Recognition (CVPR), San Diego, CA, USA, 2005: 524-531. [本文引用:1]

2002

0.0

... 0 引言场景图像分类作为计算机视觉最常见的图像识别任务之一^[1],旨在通过提取并分析图像特征,将内容相似的图像归为同一类别 ...

2010

0.0

... 常见的场景类别大致可以归纳为4类^[2]:自然场景、城市场景、室内场景和事件场景 ...

... 根据人类视觉原理^[23],同时受Xiao等^[2]的启发,利用Object Bank的目标属性特征,通过已有的177个目标滤波器检测图像中所包含的物体,计算得到相关物体响应值的高低分布 ...

2015

0.0

. 2015, 45(7):827-848

Summarize of scene image classification technology

场景图像分类技术综述

Li Xue-long , Shi Jian-hua , Dong Yong-sheng

李学龙, 史建华, 董永生

... 常用在场景分类任务中的特征大体上可以分为底层特征和高层特征两类^[3] ...

2004

0.0

... 在场景图像分类识别研究中,大多数采用SIFT^[4]、GIST^[5]、HOG^[6]等底层特征构建特征描述符^[7],对特征采用量化、编码等方法进一步挖掘底层特征在结构、空间上的相似度或关联关系,如ScSPM^[8]、LLC^[9]和LrrSPM^[10]等特征编码方法 ...

2001

0.0

2005

0.0

... 1 OB描述符OB描述符基于局部可变模型(Deformable parts model,DPM)^[20,21]方法,通过对底层HOG^[6]特征进行建模,获取中间层特征表示,其核心是目标滤波器(Object filter),包括描述区域整体相似度的粗糙根滤波器和若干描述局部小块与目标关键位置相似程度的高分辨率的部件滤波器 ...

2011

0.0

. 2011, 41(5):1401-1406

Image classification method based on local feature and visual cortex recognition mechanism

基于局部特征和视皮层识别机制的图像分类

Liu Ping-ping , Zhao Hong-wei , Geng Qing-tian

刘萍萍, 赵宏伟, 耿庆田

提出了一种新的图像分类方法,采用层次结构模拟视皮层各区细胞功能,利用Gabor滤波器提取初级图像特征,经过稀疏化处理后进行中间层模板匹配提取尺度和位置的不变性特征,最后提交给分类网络。仿真实验表明,本文采用的层次化特征提取方法在分类任务中优于经典的局部特征方法（SIFT）,与其他图像分类方法相比,本文的方法在少量训练样本下,在多个数据集中可获得优良的测试效果,具有较高的实用价值。

2009

0.0

... 受启发于LLC^[8],本文在低秩编码中加入局部约束正则化项,弥补特征的局部空间相似性 ...

... 如表1所示,优化后算法FLCLRC与ScSPM^[8]、LLC^[9]算法在数据库UIUC8-Sport^[31]上的效果对比 ...

2010

0.0

... 如表1所示,优化后算法FLCLRC与ScSPM^[8]、LLC^[9]算法在数据库UIUC8-Sport^[31]上的效果对比 ...

2015

0.0

2008

0.0

... 之间存在语义鸿沟^[11] ...

2014

0.0

. 2014, 44(4):1126-1134 DOI:doi:10.13229/j.cnki.jdxbgxb201404034

Image categorization method using density clustering on region features and mutiinstance learning

基于密度聚类和多示例学习的图像分类方法

Chen Tao , Deng Hui-fang , Liu Jing.

陈涛, 邓辉舫, 刘靖

In order to narrow the semantic gap between low-level visual features and high-level semantic concepts in image categorization, the clustering information from a density clustering algorithm and the characteristics of multi-instance learning framework in distinguishing ambiguous object are exploited. An image categorization method is proposed using Density Clustering on Region Features and Multi-Instance Learning (DCRF-MIL). First, the DCRF-MIL divides each image into number of regions and relines up all regions into a collection; then it uses a density clustering algorithm to learn the potential distribution information of the region features in the collection. Second, it treats an image as a bag and the regions as instances in the bag. Based on the cluster distribution information of region features, the bag is mapped into a vector in the cluster distribution space. Finally, a support vector machine classifier is constructed to predict the class label of the unlabeled image. The experiments on the Corel image data set and MUSK molecular activity prediction data set show that the DCRF-MIL method has high classification accuracy and it is easy to select its parameters.

针对图像的低级特征表示与高级概念之间的语义鸿沟, 本文利用密度聚类获得的簇分布信息和多示例学习框架在区分歧义性对象上的特点, 提出了一个基于区域特征密度聚类和多示例学习的图像分类方法(DCRF-MIL)。该方法首先将每个图像分割为多个区域, 将所有区域组成一个集合, 在这个区域集合上, 使用密度聚类算法学习到区域特征的簇分布信息;然后, 将图像看作包, 区域看作包中的示例, 基于区域特征的簇分布信息, 将包映射为簇分布空间上的一个向量作为包的特征, 使得包特征带有图像区域的语义信息;最后, 使用支持向量机算法, 在带有包特征的训练集上训练分类器, 对测试图像进行分类。在Corel图像集和MUSK分子活性预测数据集上的实验表明, DCRF-MIL算法具有分类精度高和参数易于选择等特点。

... 尽管这些方法在一定程度上弥补了特征表示与场景语义间的鸿沟问题^[12],但由于计算机视觉任务越来越具有挑战性,这种基于底层特征的分类方法表现出了越来越多的局限性 ...

2010

0.0

... 而将图像中目标属性作为初始信息的高层特征表示方法如OB^[13,14]、BOP^[15]、LPR^[16]等,能够补充图像特征表示在鸿沟问题上的语义信息,取得了不错的分类效果 ...

... 本文整体算法与OB-177^[13]、FLCLRC^[19]算法在数据库上的效果对比如表3所示 ...

2010

0.0

2013

0.0

2012

0.0

2013

0.0

2013

0.0

2015

0.0

... 本文整体算法与OB-177^[13]、FLCLRC^[19]算法在数据库上的效果对比如表3所示 ...

2008

0.0

2010

0.0

2002

0.0

... 通过DPM方法表示多个尺度上一组目标滤波器的目标响应值后,再经LSVM方法(Latent support vector machine)^[22]进行参数学习,确定目标的具体位置并且得到多个尺度上的目标响应值,然后求取各层空间金字塔网格上的响应值,最后使用池化(pooling)方法求取每个网格内各个目标的最大响应值,将所有网格上的最大响应值连接成一个向量,构成所包含目标信息的OB描述符 ...

2006

0.0

2006

0.0

... 经过池化、空间金字塔SPM^[24]后得到最终的特征表示矩阵 ...

2008

0.0

... Candes等^[25]人证明在一定条件下,矩阵的秩可以松弛为矩阵的核范数,同时考虑到字典 D可能包含的误差,即将式(1)转换为以下形式: ...

2009

0.0

... 对于核范数的优化问题通常采用增广拉格朗日乘子法(ALM)^[26]方法求解,优化过程复杂,计算复杂度为 O(mn2) ...

2014

0.0

... (1)Zhang等^[27]证明:数据在一定误差条件下,可用 F-范数取代核范数求解矩阵的低秩表示 ...

2009

0.0

... (2)现有的低秩约束只考虑了图像特征全局结构的一致性,却忽略了特征的局部空间相似性,并且局部性能够产生稀疏效果,反之则不会^[28,29,30] ...

2016

0.0

... (2)现有的低秩约束只考虑了图像特征全局结构的一致性,却忽略了特征的局部空间相似性,并且局部性能够产生稀疏效果,反之则不会^[28,29,30] ...

2015

0.0

... (2)现有的低秩约束只考虑了图像特征全局结构的一致性,却忽略了特征的局部空间相似性,并且局部性能够产生稀疏效果,反之则不会^[28,29,30] ...

2007

0.0

... 如表1所示,优化后算法FLCLRC与ScSPM^[8]、LLC^[9]算法在数据库UIUC8-Sport^[31]上的效果对比 ...

... 从经典的图像数据库UIUC 8-Sport^[31],Scene-13^[32]中选取图像进行实验验证 ...

2005

0.0

... 从经典的图像数据库UIUC 8-Sport^[31],Scene-13^[32]中选取图像进行实验验证 ...