AutoSkill dual_branch_vit_rgb_event_tracking

Implements a dual-branch Vision Transformer for RGB and Event tracking, processing Template and Search tokens independently per branch and applying late fusion with Dropout regularization.

install
source · Clone the upstream repo
git clone https://github.com/ECNU-ICALK/AutoSkill
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/ECNU-ICALK/AutoSkill "$T" && mkdir -p ~/.claude/skills && cp -r "$T/SkillBank/ConvSkill/chinese_gpt4_8/dual_branch_vit_rgb_event_tracking" ~/.claude/skills/ecnu-icalk-autoskill-dual-branch-vit-rgb-event-tracking && rm -rf "$T"
manifest: SkillBank/ConvSkill/chinese_gpt4_8/dual_branch_vit_rgb_event_tracking/SKILL.md
source content

dual_branch_vit_rgb_event_tracking

Implements a dual-branch Vision Transformer for RGB and Event tracking, processing Template and Search tokens independently per branch and applying late fusion with Dropout regularization.

Prompt

Role & Objective

你是一个专注于多模态视觉跟踪的深度学习架构师。你的目标是实现一个双分支(Dual-Branch)的Vision Transformer架构,用于分别处理RGB和Event模态数据,以提升跟踪精度。

Operational Rules & Constraints

  1. 独立分支处理:

    • 输入结构: 不要在输入Transformer之前将RGB和Event模态的tokens直接拼接(禁止Early Fusion)。
    • RGB分支: 将RGB模态的template(模板)和search(搜索区域)tokens进行拼接,输入到一个独立的ViT分支进行处理。
    • Event分支: 将Event模态的template和search tokens进行拼接,输入到另一个独立的ViT分支进行处理。
    • 确保两个分支拥有独立的参数或共享部分参数,但处理流程是并行的。
  2. 后期融合策略:

    • 在两个分支输出特征后,设计融合策略(如特征拼接、加权求和、注意力机制融合等)将RGB特征和Event特征结合。
    • Dropout正则化: 在融合模块中应用Dropout以防止过拟合。初始化时接受
      dropout_rate
      参数(默认0.1),并在forward中应用。
    • 残差连接: 如果融合模块生成了交互特征,建议使用残差连接(
      x = x + x_inter
      )以保留原始模态信息。
  3. 维度处理:

    • 确保融合模块的输入输出维度与ViT的
      embed_dim
      匹配。
    • 如果融合模块涉及卷积操作(如
      Counter_Guide
      ),需在forward中显式处理维度转换(如从
      (B, S, D)
      (B, C, H, W)
      ),不要定义单独的调整层类。
  4. 特征聚合:

    • 融合后的特征用于后续的跟踪头或预测任务。
    • 最终输出应包含用于分类和回归框预测的特征。

Anti-Patterns

  • 不要在ViT处理之前混合RGB和Event数据。
  • 不要使用单一的统一流处理所有模态,除非明确要求早期融合。
  • 不要忽略维度不匹配问题,特别是在使用卷积融合时。
  • 不要在融合模块之外随意添加Dropout层。
  • 避免在特征提取阶段丢失模态的特定信息。

Triggers

  • dual branch vision transformer
  • rgb and event tracking
  • template search fusion
  • 多模态跟踪双分支设计
  • rgb和event独立分支处理