image
VincentWei

天地间,浩然正气长存,为天地立心,为生民立命,为往圣继绝学,为万世开太平!

免责声明:网站内容仅供个人学习记录,禁做商业用途,转载请注明出处。

版权所有 © 2017-2020 NEUSNCP个人学习笔记 辽ICP备17017855号-2

CVPR2025 - LSNet: See Large, Focus Small

VincentWei    2025年9月7日 17:34:50

 


1. 研究背景与问题

现有轻量级视觉网络的局限

  • 计算复杂度与性能矛盾:CNN和ViT在视觉任务中表现优异,但计算成本高,难以部署于实时应用。

  • Token混合机制缺陷

    • 自注意力(Self-Attention):全局感知导致冗余计算(如对无关背景区域过度关注),且感知与聚合范围相同,扩展上下文时计算量剧增。

    • 卷积(Convolution):静态核权重缺乏对动态上下文的适应性,感受野受限,表达能力不足。

  • 核心挑战:如何在有限计算预算下,实现高效感知与精准聚合的平衡?

人类视觉系统的启发

  • 双步机制

    • "See Large"(大范围感知):视网膜周边的杆细胞(Rods)负责大视野、低分辨率的场景概览。

    • "Focus Small"(小范围聚焦):中央凹的锥细胞(Cones)负责小视野、高分辨率的细节处理。

  • 关键洞察:异尺度视觉能力(大感知 + 小聚合)可指导轻量级网络设计。


2. 核心方法:LS卷积与LSNet

LS卷积(Large-Small Convolution)

设计理念:模拟人类视觉的"大感知小聚合"策略,分离感知与聚合过程,提升效率与表达能力。

  • 大核感知(Large-Kernel Perception, LKP)

    • 结构:点卷积(PW)→ 大核深度卷积(DW, 核大小$K_L \times K_L$)→ 点卷积(PW)。

    • 作用:捕获大范围空间上下文(如$K_L=7$),建模token间关系,生成动态权重$W \in \mathbb{R}^{H \times W \times D}$。

    • 效率:深度卷积大幅降低计算量(计算复杂度$O(HWCK_L^2)$)。

  • 小核聚合(Small-Kernel Aggregation, SKA)

    • 结构:分组动态卷积(通道数$G$,小核大小$K_S \times K_S$)。

    • 作用:基于LKP生成的权重$W$,对局部邻域$N_{K_S}(x_i)$进行自适应特征融合。

    • 效率:分组机制($G=C/8$)限制聚合范围,减少冗余计算(复杂度$O(HWCK_S^2)$)。

数学表达

  • 感知:$w_i = \text{PW}(\text{DW}{K_L \times K_L}(\text{PW}(N{K_L}(x_i))))$

  • 聚合:$y{ic} = w_i^g \ast N{K_S}(x_{ic})$,其中$w_i^g$为第$g$组的动态核。

LSNet架构

  • 整体设计

    • 四阶段下采样结构(分辨率$H/8 \times W/8$ → $H/64 \times W/64$)。

    • 前三阶段堆叠LS Block,末阶段采用MSA Block(处理低分辨率长距离依赖)。

  • LS Block

    • 核心:LS卷积 + 跳跃连接。

    • 增强模块:额外3×3深度卷积 + SE层(引入局部归纳偏置)。

    • 通道混合:FFN(前馈网络)。

  • 模型变体

    • LSNet-T(0.3G FLOPs)、LSNet-S(0.5G)、LSNet-B(1.3G)。


3. 技术创新点

关键优势

  1. 异尺度处理

    • 感知(大核)与聚合(小核)解耦,避免自注意力的冗余和卷积的静态局限。

  2. 高效性

    • 深度卷积 + 分组机制确保线性计算复杂度($O(HWC)$)。

  3. 动态适应性

    • 小核聚合权重由大核感知动态生成,适应不同上下文。

与现有方法的对比

方法 感知范围 聚合范围 适应性 计算效率
自注意力 全局 全局
卷积 局部 局部
LS卷积 大范围 小范围

4. 实验结果与分析

ImageNet-1K分类

  • 性能对比(Top-1 Acc):

    • LSNet-T(0.3G):74.9%(比EfficientViT-M3高1.5%)

    • LSNet-S(0.5G):77.8%(比UniRepLKNet-A高0.8%)

    • LSNet-B(1.3G):80.3%(比AFFNet高0.5%且推理快3倍)

  • 效率:在相同FLOPs下,吞吐量显著高于对比模型(如LSNet-T达14,708 img/s)。

下游任务

  • COCO检测/分割

    • RetinaNet框架:LSNet-T比StarNet-S1高0.6 AP。

    • Mask R-CNN框架:LSNet-B比RepViT-M1.1高1.0 AP。

  • ADE20K语义分割

    • LSNet-T(40.1 mIoU)比VAN-B0高1.6 mIoU。

    • LSNet-B(43.0 mIoU)比FastViT-SA24高2.0 mIoU。

鲁棒性测试

  • ImageNet-C/A/R/Sketch

    • LSNet-B在ImageNet-C上mCE=59.3(优于UniRepLKNet-A的67.0)。

    • ImageNet-A准确率17.3%(比EdgeNeXt-S高5.4%)。


5. 消融实验与设计验证

LS卷积的有效性

  • 移除LS卷积:Top-1 Acc下降2.3%(71.6% → 69.3%)。

  • 对比其他Token混合方法

    • 比SDTA高1.0%,比RepMixer高1.9%,计算量更低。

关键组件分析

组件 修改方式 Top-1 Acc 影响
大核感知 移除LKP 70.5% ↓1.1% 大范围感知至关重要
  $K_L=3 \to 9$ 70.9%→71.5% 更大核提升性能
小核聚合 移除SKA(静态卷积) 70.1% ↓1.5% 动态聚合优于简单大+小核组合
  $K_S=1 \to 5$ 69.6%→71.6% $K_S=3$为最优平衡点
分组数 $C/G=1 \to 32$ 71.7%→70.9% $G=C/8$时效果最佳
辅助模块 移除DW/SE 71.1%/71.3% 局部归纳偏置提升表达能力

通用性验证

  • 迁移至ResNet50:替换3×3卷积为LS卷积,Top-1 Acc提升1.9%(78.8%→80.7%)。

  • 迁移至DeiT-T:替换自注意力为LS卷积,Top-1 Acc提升0.8%(72.2%→73.0%)。


6. 总结与贡献

核心贡献

  1. 新策略:提出"See Large, Focus Small"的轻量级网络设计范式,受人类视觉启发。

  2. 新操作:LS卷积解耦大核感知与小核聚合,实现高效动态特征融合。

  3. 新架构:LSNet在分类、检测、分割等任务上达到SOTA,且计算效率显著提升。

实际意义

  • 部署友好:低FLOPs(0.3–1.3G)和高吞吐量适合移动端/边缘设备。

  • 开源支持:代码与模型已公开(GitHub链接)。

未来方向

  • 探索更大核($K_L>9$)与更细粒度分组策略。

  • 扩展至视频理解、多模态任务。


总结:LSNet通过模拟人类视觉的异尺度处理机制,在轻量级网络中实现了感知范围与聚合精度的平衡,为高效视觉模型设计提供了新思路。实验证明其在性能、效率和鲁棒性上的全面优势,有望成为轻量级视觉任务的新基线。

最近更新: 2025年9月7日 17:34:50
浏览: 39

[[total]] 条评论

添加评论
  1. [[item.time]]
    [[item.user.username]] [[item.floor]]楼
  2. 点击加载更多……
  3. 添加评论