【知识点】Mask R-CNN

Mask R-CNN 是一种用于实例分割（Instance Segmentation）的深度学习模型，它在 Faster R-CNN 的基础上增加了对每个目标生成像素级掩码（Mask）的功能。因此，Mask R-CNN 的损失函数由以下几个部分组成：

分类损失（Classification Loss, $L_{cls}$ ）
这是 Faster R-CNN 中的目标分类损失，用于预测每个候选区域（Region Proposal）属于哪个类别。通常使用交叉熵损失（Cross-Entropy Loss）来计算。
边界框回归损失（Bounding Box Regression Loss, $L_{box}$ ）
这是 Faster R-CNN 中的边界框回归损失，用于调整候选区域的位置和大小，使其更准确地包围目标。通常使用平滑 L1 损失（Smooth L1 Loss）来计算。
掩码分支损失（Mask Loss, $L_{mask}$ ）
Mask R-CNN 增加了一个额外的分支，用于生成每个目标的像素级掩码。对于每个候选区域，掩码分支会输出一个 $K \times m \times m$ 的张量，其中 $K$ 是类别数， $m \times m$ 是掩码的分辨率。掩码损失通常使用逐像素的二值交叉熵损失（Binary Cross-Entropy Loss）来计算，且只针对真实类别对应的掩码进行监督。

Mask R-CNN 的总体损失函数可以表示为：

L = L_{cls} + L_{box} + L_{mask}

分类损失 $L_{cls}$ ：

$L_{cls} = -\frac{1}{N_{cls}} \sum_{i=1}^{N_{cls}} \left[ y_i \log(p_i) + (1 - y_i) \log(1 - p_i) \right]$

其中：
- $N_{cls}$ 是分类样本的数量。
- $y_i$ 是第 $i$ 个样本的真实标签（0 或 1）。
- $p_i$ 是模型预测的第 $i$ 个样本属于正类的概率。
边界框回归损失 $L_{box}$ ：

$L_{box} = \frac{1}{N_{reg}} \sum_{i=1}^{N_{reg}} \text{smooth}_{L1}(t_i - t_i^*)$

其中：
- $N_{reg}$ 是边界框回归样本的数量。
- $t_i$ 是预测的边界框参数（如中心点坐标、宽高）。
- $t_i^*$ 是真实边界框参数。
- $\text{smooth}_{L1}(x)$ 是平滑 L1 损失函数，定义为： $\text{smooth}_{L1}(x) = \begin{cases} 0.5x^2 & \text{if } |x| < 1 \\ |x| - 0.5 & \text{otherwise} \end{cases}$
掩码分支损失 $L_{mask}$ ： 掩码分支的损失是对每个像素的二值交叉熵损失求平均。假设对于某个候选区域的真实类别为 $k$ ，则掩码分支的损失为：

$L_{mask} = -\frac{1}{N_{mask}} \sum_{i=1}^{N_{mask}} \left[ M_i \log(P_i^k) + (1 - M_i) \log(1 - P_i^k) \right]$

其中：
- $N_{mask}$ 是掩码中像素的总数。
- $M_i$ 是第 $i$ 个像素的真实掩码值（0 或 1）。
- $P_i^k$ 是模型预测的第 $i$ 个像素属于类别 $k$ 的概率。
需要注意的是，掩码分支的损失只对真实类别 $k$ 对应的掩码进行计算，其他类别的掩码不会参与损失计算。

目录