
1. 研究背景与问题
现有轻量级视觉网络的局限
-
计算复杂度与性能矛盾:CNN和ViT在视觉任务中表现优异,但计算成本高,难以部署于实时应用。
-
Token混合机制缺陷:
-
自注意力(Self-Attention):全局感知导致冗余计算(如对无关背景区域过度关注),且感知与聚合范围相同,扩展上下文时计算量剧增。
-
卷积(Convolution):静态核权重缺乏对动态上下文的适应性,感受野受限,表达能力不足。
-
-
核心挑战:如何在有限计算预算下,实现高效感知与精准聚合的平衡?
人类视觉系统的启发
-
双步机制:
-
"See Large"(大范围感知):视网膜周边的杆细胞(Rods)负责大视野、低分辨率的场景概览。
-
"Focus Small"(小范围聚焦):中央凹的锥细胞(Cones)负责小视野、高分辨率的细节处理。
-
-
关键洞察:异尺度视觉能力(大感知 + 小聚合)可指导轻量级网络设计。
2. 核心方法:LS卷积与LSNet
LS卷积(Large-Small Convolution)
设计理念:模拟人类视觉的"大感知小聚合"策略,分离感知与聚合过程,提升效率与表达能力。
-
大核感知(Large-Kernel Perception, LKP):
-
结构:点卷积(PW)→ 大核深度卷积(DW, 核大小$K_L \times K_L$)→ 点卷积(PW)。
-
作用:捕获大范围空间上下文(如$K_L=7$),建模token间关系,生成动态权重$W \in \mathbb{R}^{H \times W \times D}$。
-
效率:深度卷积大幅降低计算量(计算复杂度$O(HWCK_L^2)$)。
-
-
小核聚合(Small-Kernel Aggregation, SKA):
-
结构:分组动态卷积(通道数$G$,小核大小$K_S \times K_S$)。
-
作用:基于LKP生成的权重$W$,对局部邻域$N_{K_S}(x_i)$进行自适应特征融合。
-
效率:分组机制($G=C/8$)限制聚合范围,减少冗余计算(复杂度$O(HWCK_S^2)$)。
-
数学表达:
-
感知:$w_i = \text{PW}(\text{DW}{K_L \times K_L}(\text{PW}(N{K_L}(x_i))))$
-
聚合:$y{ic} = w_i^g \ast N{K_S}(x_{ic})$,其中$w_i^g$为第$g$组的动态核。
LSNet架构
-
整体设计:
-
四阶段下采样结构(分辨率$H/8 \times W/8$ → $H/64 \times W/64$)。
-
前三阶段堆叠LS Block,末阶段采用MSA Block(处理低分辨率长距离依赖)。
-
-
LS Block:
-
核心:LS卷积 + 跳跃连接。
-
增强模块:额外3×3深度卷积 + SE层(引入局部归纳偏置)。
-
通道混合:FFN(前馈网络)。
-
-
模型变体:
-
LSNet-T(0.3G FLOPs)、LSNet-S(0.5G)、LSNet-B(1.3G)。
-
3. 技术创新点
关键优势
-
异尺度处理:
-
感知(大核)与聚合(小核)解耦,避免自注意力的冗余和卷积的静态局限。
-
-
高效性:
-
深度卷积 + 分组机制确保线性计算复杂度($O(HWC)$)。
-
-
动态适应性:
-
小核聚合权重由大核感知动态生成,适应不同上下文。
-
与现有方法的对比
方法 | 感知范围 | 聚合范围 | 适应性 | 计算效率 |
---|---|---|---|---|
自注意力 | 全局 | 全局 | 高 | 低 |
卷积 | 局部 | 局部 | 低 | 高 |
LS卷积 | 大范围 | 小范围 | 高 | 高 |
4. 实验结果与分析
ImageNet-1K分类
-
性能对比(Top-1 Acc):
-
LSNet-T(0.3G):74.9%(比EfficientViT-M3高1.5%)
-
LSNet-S(0.5G):77.8%(比UniRepLKNet-A高0.8%)
-
LSNet-B(1.3G):80.3%(比AFFNet高0.5%且推理快3倍)
-
-
效率:在相同FLOPs下,吞吐量显著高于对比模型(如LSNet-T达14,708 img/s)。
下游任务
-
COCO检测/分割:
-
RetinaNet框架:LSNet-T比StarNet-S1高0.6 AP。
-
Mask R-CNN框架:LSNet-B比RepViT-M1.1高1.0 AP。
-
-
ADE20K语义分割:
-
LSNet-T(40.1 mIoU)比VAN-B0高1.6 mIoU。
-
LSNet-B(43.0 mIoU)比FastViT-SA24高2.0 mIoU。
-
鲁棒性测试
-
ImageNet-C/A/R/Sketch:
-
LSNet-B在ImageNet-C上mCE=59.3(优于UniRepLKNet-A的67.0)。
-
ImageNet-A准确率17.3%(比EdgeNeXt-S高5.4%)。
-
5. 消融实验与设计验证
LS卷积的有效性
-
移除LS卷积:Top-1 Acc下降2.3%(71.6% → 69.3%)。
-
对比其他Token混合方法:
-
比SDTA高1.0%,比RepMixer高1.9%,计算量更低。
-
关键组件分析
组件 | 修改方式 | Top-1 Acc | 影响 |
---|---|---|---|
大核感知 | 移除LKP | 70.5% ↓1.1% | 大范围感知至关重要 |
$K_L=3 \to 9$ | 70.9%→71.5% | 更大核提升性能 | |
小核聚合 | 移除SKA(静态卷积) | 70.1% ↓1.5% | 动态聚合优于简单大+小核组合 |
$K_S=1 \to 5$ | 69.6%→71.6% | $K_S=3$为最优平衡点 | |
分组数 | $C/G=1 \to 32$ | 71.7%→70.9% | $G=C/8$时效果最佳 |
辅助模块 | 移除DW/SE | 71.1%/71.3% | 局部归纳偏置提升表达能力 |
通用性验证
-
迁移至ResNet50:替换3×3卷积为LS卷积,Top-1 Acc提升1.9%(78.8%→80.7%)。
-
迁移至DeiT-T:替换自注意力为LS卷积,Top-1 Acc提升0.8%(72.2%→73.0%)。
6. 总结与贡献
核心贡献
-
新策略:提出"See Large, Focus Small"的轻量级网络设计范式,受人类视觉启发。
-
新操作:LS卷积解耦大核感知与小核聚合,实现高效动态特征融合。
-
新架构:LSNet在分类、检测、分割等任务上达到SOTA,且计算效率显著提升。
实际意义
-
部署友好:低FLOPs(0.3–1.3G)和高吞吐量适合移动端/边缘设备。
-
开源支持:代码与模型已公开(GitHub链接)。
未来方向
-
探索更大核($K_L>9$)与更细粒度分组策略。
-
扩展至视频理解、多模态任务。
总结:LSNet通过模拟人类视觉的异尺度处理机制,在轻量级网络中实现了感知范围与聚合精度的平衡,为高效视觉模型设计提供了新思路。实验证明其在性能、效率和鲁棒性上的全面优势,有望成为轻量级视觉任务的新基线。