第五部分图像特征与目标识别¶

第五部分：图像特征与目标识别¶

核心问题¶

经过增强、边缘检测和分割之后，我们希望进一步回答：

图像中有什么？它属于哪一类？

从区域到理解¶

图像 \(\longrightarrow\) 特征提取 \(\longrightarrow\) 分类识别

图像特征¶

目标识别¶

一句话¶

特征是图像内容的 “描述方式”，识别是根据这些描述判断 “它是什么”。

什么是图像特征？¶

直观理解¶

图像特征就是从图像中提取出来的、有助于区分不同目标的信息。

人是怎样识别物体的？¶

计算机需要什么？¶

关键理解¶

图像特征不是图像本身，而是对图像中有用信息的概括。

为什么不能直接用像素识别？¶

一个朴素想法¶

既然图像本来就是像素矩阵，能不能直接比较像素？

\[ I = \left[ \begin{array}{c c c} I (1, 1) & I (1, 2) & \dots \\ I (2, 1) & I (2, 2) & \dots \\ \vdots & \vdots & \ddots \end{array} \right] \]

问题在于：像素太敏感¶

一句话¶

直接比较像素往往不稳定，因此需要提取更加稳健的图像特征。

颜色特征：最直观的图像描述¶

基本思想¶

颜色特征描述图像中颜色的组成和分布。

常见方法：颜色直方图¶

统计不同颜色或灰度在图像中出现的频率。

\[ h (k) = \# \{(x, y) \mid I (x, y) = k \} \]

优点¶

缺点¶

例子：只看颜色，绿色苹果和绿色葡萄可能很难区分。

纹理特征：描述局部重复结构¶

什么是纹理？¶

纹理是图像中局部灰度或颜色反复变化形成的结构模式。

常见纹理¶

纹理能描述什么？¶

理解¶

纹理特征关注的不是单个像素，而是一小片区域内的灰度变化规律。

形状特征：描述目标轮廓¶

基本思想¶

形状特征用于描述目标区域的几何外观。

常见形状信息¶

适用场景¶

例子¶

圆形、细长形、不规则形状，往往对应不同类型的目标。

注意¶

形状特征通常依赖较好的分割结果；如果分割不准，形状描述也会受到影响。

局部特征：抓住图像中的关键位置¶

基本思想¶

有些位置比普通像素更有辨识度，例如角点、斑点、纹理突变处。

局部特征关注什么？¶

典型应用¶

一句话¶

局部特征就像图像中的 “指纹点”，可以帮助计算机在不同图像之间建立对应关系。

从人工特征到深度特征¶

传统方法¶

人工设计特征，然后交给分类器判断。

图像 \(\longrightarrow\) 人工特征 \(\longrightarrow\) 分类器 \(\longrightarrow\) 类别

深度学习方法¶

神经网络自动从数据中学习特征。

图像 \(\longrightarrow\) 神经网络 \(\longrightarrow\) 类别

人工特征¶

深度特征¶

目标识别：从特征到类别¶

基本思想¶

目标识别的任务，是根据图像或图像区域的特征，判断它属于哪一类。

图像区域 \(\longrightarrow\) 特征表示 \(\longrightarrow\) 分类结果¶

输入¶

输出¶

一句话¶

目标识别就是让计算机根据图像内容回答 “这是什么”。

分类器：根据特征做判断¶

传统识别流程¶

通常先提取特征，再使用分类器进行判断。

图像 \(\longrightarrow\) 特征向量 \(\longrightarrow\) 分类器 \(\longrightarrow\) 类别

特征向量¶

把颜色、纹理、形状等信息表示成一组数字：

\[ \mathbf {x} = (x _ {1}, x _ {2}, \dots , x _ {d}) \]

分类器的作用¶

理解¶

分类器可以看作一个决策规则：输入一组特征，输出一个类别。

一个简单分类例子：猫和狗¶

问题¶

给定一张动物图片，希望判断它是猫还是狗。

传统方法可能会怎么做？¶

动物图像 \(\longrightarrow\) 特征 \(\longrightarrow\) 猫 / 狗

困难在哪里？¶

目标识别为什么困难？¶

同一个目标可能看起来很不一样¶

不同目标也可能看起来很相似¶

关键理解¶

目标识别不是简单地比较像素，而是要在复杂变化中抓住稳定的本质特征。

卷积神经网络：自动学习图像特征¶

基本思想¶

卷积神经网络 CNN 可以从大量图像中自动学习多层次特征。

图像 \(\longrightarrow\) 低层特征 \(\longrightarrow\) 中层特征 \(\longrightarrow\) 高层语义 \(\longrightarrow\) 类别

低层特征¶

中层特征¶

高层特征¶

一句话¶

深度网络不是手工指定特征，而是从数据中逐层学习特征。

卷积操作：局部模式检测¶

基本思想¶

卷积核在图像上滑动，检测局部区域中是否存在某种模式。

\[ g (i, j) = \sum_ {m, n} w (m, n) f (i - m, j - n) \]

和前面滤波的联系¶

重要联系¶

卷积神经网络中的卷积，与前面讲过的滤波、锐化、边缘检测在形式上有相通之处。

深度网络为什么有效？¶

核心原因¶

深度网络能够学习从简单到复杂的多层次表示。

层次化表示¶

像素 → 边缘 → 纹理 → 部件 → 目标

优势¶

但也要注意¶

深度学习效果好，并不意味着它不需要数据质量、模型设计和结果解释。

图像分类、目标检测与分割的区别¶

三类常见视觉任务¶

图像分类¶

图像 \(\rightarrow\) 类别

目标检测¶

图像 \(\rightarrow\) 框 \(+\) 类别

图像分割¶

图像 \(\rightarrow\) 像素类别

一句话¶

分类回答 “是什么”，检测回答 “在哪里、是什么”，分割回答 “每个像素是什么”。

目标检测：不仅识别，还要定位¶

基本任务¶

目标检测要在图像中找出目标的位置，并判断目标类别。

图像 \(\longrightarrow\) {(位置框，类别，置信度)}

输出通常包括¶

应用场景¶

识别结果如何评价？¶

分类任务常用指标¶

\[ \text { Accuracy } = \frac {\text { 预测正确的样本数 }}{\text { 总样本数 }} \]

为什么不能只看准确率？¶

如果异常样本很少，一个模型即使全部预测为正常，也可能有很高准确率，但它没有真正发现异常。

工程理解¶

评价指标要结合任务目标选择，不能只看一个数字。

医学图像识别中的例子¶

任务¶

根据医学图像判断是否存在病灶，或者判断病灶类型。

可能的输入¶

可能的输出¶

注意¶

医学图像识别不能只追求高准确率，还要重视可靠性、可解释性和临床验证。

遥感图像识别中的例子¶

任务¶

从遥感图像中识别地物类型或目标对象。

常见目标¶

主要困难¶

理解¶

遥感图像识别不仅要看局部纹理，还要结合空间分布和场景上下文。

第五部分阶段小结¶

本部分核心¶

从 “图像是什么样子” 到 “图像里有什么”，关键在于建立有效的图像表示。

第五部分 图像特征与目标识别¶

第五部分：图像特征与目标识别¶

核心问题¶

从区域到理解¶

图像特征¶

目标识别¶

一句话¶

什么是图像特征？¶

直观理解¶

人是怎样识别物体的？¶

计算机需要什么？¶

关键理解¶

为什么不能直接用像素识别？¶

一个朴素想法¶

问题在于：像素太敏感¶

一句话¶

颜色特征：最直观的图像描述¶

基本思想¶

常见方法：颜色直方图¶

优点¶

缺点¶

纹理特征：描述局部重复结构¶

什么是纹理？¶

常见纹理¶

纹理能描述什么？¶

理解¶

形状特征：描述目标轮廓¶

基本思想¶

常见形状信息¶

适用场景¶

例子¶

注意¶

局部特征：抓住图像中的关键位置¶

基本思想¶

局部特征关注什么？¶

典型应用¶

一句话¶

从人工特征到深度特征¶

传统方法¶

深度学习方法¶

人工特征¶

深度特征¶

目标识别：从特征到类别¶

基本思想¶

图像区域 \(\longrightarrow\) 特征表示 \(\longrightarrow\) 分类结果¶

输入¶

输出¶

一句话¶

分类器：根据特征做判断¶

传统识别流程¶

特征向量¶

分类器的作用¶

理解¶

一个简单分类例子：猫和狗¶

问题¶

传统方法可能会怎么做？¶

困难在哪里？¶

目标识别为什么困难？¶

同一个目标可能看起来很不一样¶

不同目标也可能看起来很相似¶

关键理解¶

卷积神经网络：自动学习图像特征¶

基本思想¶

低层特征¶

中层特征¶

高层特征¶

一句话¶

卷积操作：局部模式检测¶

基本思想¶

和前面滤波的联系¶

重要联系¶

深度网络为什么有效？¶

核心原因¶

层次化表示¶

优势¶

但也要注意¶

图像分类、目标检测与分割的区别¶

三类常见视觉任务¶

图像分类¶

目标检测¶

第五部分图像特征与目标识别¶