跳转至

第五部分 图像特征与目标识别

第五部分:图像特征与目标识别

核心问题

经过增强、边缘检测和分割之后,我们希望进一步回答:

图像中有什么?它属于哪一类?

从区域到理解

图像 \(\longrightarrow\) 特征提取 \(\longrightarrow\) 分类识别

图像特征

目标识别

一句话

特征是图像内容的 “描述方式”,识别是根据这些描述判断 “它是什么”。

什么是图像特征?

直观理解

图像特征就是从图像中提取出来的、有助于区分不同目标的信息。

人是怎样识别物体的?

计算机需要什么?

关键理解

图像特征不是图像本身,而是对图像中有用信息的概括。

为什么不能直接用像素识别?

一个朴素想法

既然图像本来就是像素矩阵,能不能直接比较像素?

\[ I = \left[ \begin{array}{c c c} I (1, 1) & I (1, 2) & \dots \\ I (2, 1) & I (2, 2) & \dots \\ \vdots & \vdots & \ddots \end{array} \right] \]

问题在于:像素太敏感

一句话

直接比较像素往往不稳定,因此需要提取更加稳健的图像特征。

颜色特征:最直观的图像描述

基本思想

颜色特征描述图像中颜色的组成和分布。

常见方法:颜色直方图

统计不同颜色或灰度在图像中出现的频率。

\[ h (k) = \# \{(x, y) \mid I (x, y) = k \} \]

优点

缺点

例子:只看颜色,绿色苹果和绿色葡萄可能很难区分。

纹理特征:描述局部重复结构

什么是纹理?

纹理是图像中局部灰度或颜色反复变化形成的结构模式。

常见纹理

纹理能描述什么?

理解

纹理特征关注的不是单个像素,而是一小片区域内的灰度变化规律。

形状特征:描述目标轮廓

基本思想

形状特征用于描述目标区域的几何外观。

常见形状信息

适用场景

例子

圆形、细长形、不规则形状,往往对应不同类型的目标。

注意

形状特征通常依赖较好的分割结果;如果分割不准,形状描述也会受到影响。

局部特征:抓住图像中的关键位置

基本思想

有些位置比普通像素更有辨识度,例如角点、斑点、纹理突变处。

局部特征关注什么?

典型应用

一句话

局部特征就像图像中的 “指纹点”,可以帮助计算机在不同图像之间建立对应关系。

从人工特征到深度特征

传统方法

人工设计特征,然后交给分类器判断。

图像 \(\longrightarrow\) 人工特征 \(\longrightarrow\) 分类器 \(\longrightarrow\) 类别

深度学习方法

神经网络自动从数据中学习特征。

图像 \(\longrightarrow\) 神经网络 \(\longrightarrow\) 类别

人工特征

深度特征

目标识别:从特征到类别

基本思想

目标识别的任务,是根据图像或图像区域的特征,判断它属于哪一类。

图像区域 \(\longrightarrow\) 特征表示 \(\longrightarrow\) 分类结果

输入

输出

一句话

目标识别就是让计算机根据图像内容回答 “这是什么”。

分类器:根据特征做判断

传统识别流程

通常先提取特征,再使用分类器进行判断。

图像 \(\longrightarrow\) 特征向量 \(\longrightarrow\) 分类器 \(\longrightarrow\) 类别

特征向量

把颜色、纹理、形状等信息表示成一组数字:

\[ \mathbf {x} = (x _ {1}, x _ {2}, \dots , x _ {d}) \]

分类器的作用

理解

分类器可以看作一个决策规则:输入一组特征,输出一个类别。

一个简单分类例子:猫和狗

问题

给定一张动物图片,希望判断它是猫还是狗。

传统方法可能会怎么做?

动物图像 \(\longrightarrow\) 特征 \(\longrightarrow\) 猫 / 狗

困难在哪里?

目标识别为什么困难?

同一个目标可能看起来很不一样

不同目标也可能看起来很相似

关键理解

目标识别不是简单地比较像素,而是要在复杂变化中抓住稳定的本质特征。

卷积神经网络:自动学习图像特征

基本思想

卷积神经网络 CNN 可以从大量图像中自动学习多层次特征。

图像 \(\longrightarrow\) 低层特征 \(\longrightarrow\) 中层特征 \(\longrightarrow\) 高层语义 \(\longrightarrow\) 类别

低层特征

中层特征

高层特征

一句话

深度网络不是手工指定特征,而是从数据中逐层学习特征。

卷积操作:局部模式检测

基本思想

卷积核在图像上滑动,检测局部区域中是否存在某种模式。

\[ g (i, j) = \sum_ {m, n} w (m, n) f (i - m, j - n) \]

和前面滤波的联系

重要联系

卷积神经网络中的卷积,与前面讲过的滤波、锐化、边缘检测在形式上有相通之处。

深度网络为什么有效?

核心原因

深度网络能够学习从简单到复杂的多层次表示。

层次化表示

像素 → 边缘 → 纹理 → 部件 → 目标

优势

但也要注意

深度学习效果好,并不意味着它不需要数据质量、模型设计和结果解释。

图像分类、目标检测与分割的区别

三类常见视觉任务

图像分类

图像 \(\rightarrow\) 类别

目标检测

图像 \(\rightarrow\)\(+\) 类别

图像分割

图像 \(\rightarrow\) 像素类别

一句话

分类回答 “是什么”,检测回答 “在哪里、是什么”,分割回答 “每个像素是什么”。

目标检测:不仅识别,还要定位

基本任务

目标检测要在图像中找出目标的位置,并判断目标类别。

图像 \(\longrightarrow\) {(位置框,类别,置信度)}

输出通常包括

应用场景

识别结果如何评价?

分类任务常用指标

\[ \text { Accuracy } = \frac {\text { 预测正确的样本数 }}{\text { 总样本数 }} \]

为什么不能只看准确率?

如果异常样本很少,一个模型即使全部预测为正常,也可能有很高准确率,但它没有真正发现异常。

工程理解

评价指标要结合任务目标选择,不能只看一个数字。

医学图像识别中的例子

任务

根据医学图像判断是否存在病灶,或者判断病灶类型。

可能的输入

可能的输出

注意

医学图像识别不能只追求高准确率,还要重视可靠性、可解释性和临床验证。

遥感图像识别中的例子

任务

从遥感图像中识别地物类型或目标对象。

常见目标

主要困难

理解

遥感图像识别不仅要看局部纹理,还要结合空间分布和场景上下文。

第五部分阶段小结

本部分核心

从 “图像是什么样子” 到 “图像里有什么”,关键在于建立有效的图像表示。