YOLOv9 | Kolbey

Computer Vision

发布日期: 2024-02-23

更新日期: 2024-02-23

文章字数: 750

阅读时长: 2 分

阅读次数:

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

资源信息

Paper

Code

主要贡献

如今的深度学习方法重点关注如何设计最合适的目标函数，从而使得模型的预测结果能够最接近真实情况。同时，必须设计一个适当的架构，可以帮助获取足够的信息进行预测。然而，现有方法忽略了一个事实，即当输入数据经过逐层特征提取和空间变换时，大量信息将会丢失。因此，YOLOv9 深入研究了数据通过深度网络传输时数据丢失的重要问题，即信息瓶颈和可逆函数。

研究者提出了可编程梯度信息（programmable gradient information，PGI）的概念，来应对深度网络实现多个目标所需要的各种变化。PGI 可以为目标任务计算目标函数提供完整的输入信息，从而获得可靠的梯度信息来更新网络权值。

此外，研究者基于梯度路径规划设计了一种新的轻量级网络架构，即通用高效层聚合网络（Generalized Efficient Layer Aggregation Network，GELAN）。该架构证实了 PGI 可以在轻量级模型上取得优异的结果。

PGI

PGI 主要包括三个部分，即（1）主分支，（2）辅助可逆分支，（3）多级辅助信息。

PGI 的推理过程仅使用了主分支，因此不需要额外的推理成本；
辅助可逆分支是为了处理神经网络加深带来的问题，网络加深会造成信息瓶颈，导致损失函数无法生成可靠的梯度；
多级辅助信息旨在处理深度监督带来的误差累积问题，特别是多个预测分支的架构和轻量级模型。

GELN

GELAN网络架构如下图所示，具体而言，研究者把 CSPNet、 ELAN 这两种神经网络架构结合起来，从而设计出兼顾轻量级、推理速度和准确性的通用高效层聚合网络（generalized efficient layer aggregation network ，GELAN）。研究者将最初仅使用卷积层堆叠的 ELAN 的功能泛化到可以使用任何计算块的新架构。

GELAN