Asymmetric Loss For Multi-Label Classification

Abstract
Introduction
Asymmetric Loss
代码实现
总结
参考

本文主要对ASL（Asymmetric Loss For Multi-Label Classification）进行了介绍，包括ASL的背景、思路、方法等，顺便对ASL的源码，对照论文进行分析和说明。

Abstract

positive/negative samples：正/负样本
Positive/Negative labels：正/负类标注

在多标签数据集中，一张图片往往包含有少量Positive Labels，和大量的Negative labels。这种称为类别间不平衡问题，是样本不平衡问题中的一种，也可以基本说是多标签分类中固有的问题。类别不平衡导致梯度不平衡，类别间的损失不平衡，最终表现是ACC较低。ASL 类似 Focal loss一样，达到了困难样本挖掘的目的，同时，还可以自动忽略掉错误标注的样本（错标样本）。

Introduction

上图表达的内容是：在一张图中，正样本只有少数，而负样本却非常多；ASL对这种不平衡，计算得到的loss有特殊含义，曲线的左边表示忽略了简单样本，而趋向于应对困难样本。

其实，正负样本不平衡不一定是上图描述的在单张图片中的表达方式，更体现在整个数据集中，label间的数量不平衡。
同时，不单单是多标签分类，目标检测任务中，前背景的样本不平衡问题也是相当的突出。

现有处理方案：
在Faster-RCNN中，只是用部分背景样本（subset）来计算loss，而对于多标签来说，提取的subset也是样本不平衡的；
Focal-Loss（更关注困难样本，但困难样本不一定包含足量的正样本；计算loss时，简单的背景样本也包含在内）；

本论文提出一种非对称的loss，ASL（Asymmetric Loss）。它建立在两个关键点上：

将positive samples和negative samples解耦，并赋予它们独立的衰减因子（exponential decay factors）；
通过平移negative samples的概率函数（称 probability shifting），来达到忽略简单negative samples的目的。平移的尺度是一个超参（所以称 hard thresholding）。

通过计算，经过probability shifting后的损失函数的导数，得出证明：probability shifting同时做到了忽略非常困难的样本（错标样本）的目的。
（错标被认为是在多标签标注任务中非常常见的问题。）

Asymmetric Loss

本小节，首先回顾 cross-entropy and focal loss，再介绍ASL，并给出其梯度公式和概率分析，最后提供了一个在训练过程中动态设置 loss’ asymmetry levels 的方法。

K：label 总数
Zk: label logit输出
σ(zk)：logit经过激活函数sigmoid作为最终输出 Ltot：total loss

公式（1）： CE loss
公式（2）： BCE loss
公式（3）： focal loss

ASL对CE loss的改装，将正样本损失和负样本损失进行解耦，就体现在将L拆分为 L+ 和 L−。
同时，focal loss也可以使用L+ 和 L−来表示。
其中， p = σ(z)，当γ = 0，focal loss == BCE loss。
当 γ > 0 时，表示简单负样本的权重被降低（对越小的p，pγ 越小，L−越小，L越接近0），loss更倾向于关注困难样本（p比较大的样本）。

对于focal loss，有一个trade-off：当γ较大时，L+也被抑制了。为此，对focal loss解耦正负样本的衰减因子，得到公式（4）：