人脸检测江湖的那些事儿( 三 )



人脸检测江湖的那些事儿

文章插图
Xception-39M 收集布局
人脸检测江湖的那些事儿

文章插图
Xception-39M 单一 Block 布局SFace Backbone 理论计较量只有下表中部门方式的 1/200(这些方式多采用 VGG-16、ResNet-101 等作为 Backbone),且都采用多标准测试;而 SFace 测试全数在单一标准下进行 。 事实上,SFace 的设计初志恰是只在一个标准下测试即可笼盖更大规模的标准转变 。

人脸检测江湖的那些事儿

文章插图
WIDER Face 验证集和测试集的 PR 曲线消融尝试证实直接融合 Anchor-based 与 Anchor-free 方式不成行,而 SFace 提出的融合方式是有用的 。 Anchor-free 分支笼盖了绝大大都标准(easy set 和 medium set),而 Anchor-based 分支晋升了细小人脸(hard set)的检测能力 。

人脸检测江湖的那些事儿

文章插图
WIDER Face 验证集的消融尝试4K 分辩率下,SFace 运行速度上接近及时,据知这是首个在 4K 分辩率下 WIDER Face hard AP 高于 75 的及时人脸检测方式 。

人脸检测江湖的那些事儿

文章插图
SFace 在分歧分辩率下的运行时候(单张 NVIDIA Titan Xp)遮挡:FAN
Face Attention Network: An Effective Face Detector for the Occluded Faces
我们可以从另一个角度考虑遮挡问题 。 一个物体在清楚可见、无遮挡之时,其特征图对应区域的响应值较高;若是物体有(部门)遮挡,抱负环境应是只有遮挡区域响应值下降,其余部门不受影响;但现实环境倒是整个物体地点区域的响应值城市降低,进而导致模子 Recall 下降 。
解决这个问题大要有两种思绪:1)尽可能连结住未遮挡区域的响应值,2)把无遮挡区域降低的响应值填补回来;前者较难,后者则相对轻易 。 一个简单的做法是让检测器进修一个 Spatial-wise Attention,它应在无遮挡区域有更高的响应,然后借助它以某种体例加强原始的特征图 。
那么,若何设计这个 Spatial-wise Attention 。 最简单考虑,它该当是一个 Segmentation Mask 或者 Saliency Map 。 基于 RetinaNet,FAN 选择增添一个 Segmentation 分支,对于学到的 Score Map,做一个 exp 把取值规模从 [0, 1] 放缩到[1, e],然后乘以原有的特征图 。 为简单起见,Segmentation 分支只是叠加 2 个 Conv3x3,Loss 采用 Sigmoid Cross Entropy 。

人脸检测江湖的那些事儿

文章插图
FAN 的分层 Attention这里将面临的一个问题是,Segmentation 分支的 ground truth 是什么,究竟结果不存在邃密的 Pixel-level 标注 。 因为人脸图像近似椭圆,一个先验信息是鸿沟框区域内几乎被人脸填满,布景区域很小;常见的遮挡也不会改变「人脸占有鸿沟框绝大部门区域」这一先验 。 基于这一先验可以直接输出一个以鸿沟框矩形区域为正样本、其余区域为负样本的 Mask,并将其视为一个「有 Noise 的 Segmentation Label」作为现实收集的 ground truth 。 我们也测验考试按照该矩形截取一个椭圆作为 Mask,但尝试成果表白根基没有区别 。
这样的 ground truth 真能达到结果吗?经由过程可视化已学到的 Attention Map,发现它确实可以规避开部门遮挡区域,好比一小我拿着话筒讲话,Attention Map 会高亮人脸区域,绕开话筒区域 。 我们相信,若是采用更复杂的手段去清洗 Segmentation Label,现实结果将有更多提高 。

人脸检测江湖的那些事儿

推荐阅读