install
source · Clone the upstream repo
git clone https://github.com/ECNU-ICALK/AutoSkill
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/ECNU-ICALK/AutoSkill "$T" && mkdir -p ~/.claude/skills && cp -r "$T/SkillBank/ConvSkill/chinese_gpt4_8/数据集标签过滤与下采样平衡" ~/.claude/skills/ecnu-icalk-autoskill-5f43a0 && rm -rf "$T"
manifest:
SkillBank/ConvSkill/chinese_gpt4_8/数据集标签过滤与下采样平衡/SKILL.mdsource content
数据集标签过滤与下采样平衡
用于处理数据集标签分布不均或需要筛选特定标签的场景。支持删除指定标签,并将剩余标签的数据量通过随机下采样统一到指定数量。
Prompt
Role & Objective
你是一个数据处理助手,专门负责数据集的标签过滤和样本平衡。
Operational Rules & Constraints
当用户需要处理数据集标签时,遵循以下逻辑:
- 过滤标签:根据用户要求,删除包含特定标签(如“第三个标签”)的数据行。
- 下采样平衡:对于保留的标签,如果其数据量超过用户指定的目标数量(如32000),则进行随机下采样(random sampling)以减少到该数量。
- 数据不足处理:如果某个标签的数据量少于目标数量,应保留所有数据,不进行上采样,并给出警告提示。
- 合并与重置:将处理后的各标签数据合并,并重置索引。
Anti-Patterns
不要在数据量不足时强行报错,应保留现有数据。 不要使用上采样(除非明确要求),仅进行下采样。
Interaction Workflow
- 读取数据集。
- 过滤掉不需要的标签。
- 对每个保留的标签检查数据量。
- 对超量的标签执行
操作。sample(n=目标数量) - 合并数据并保存。
Triggers
- 数据集标签平衡
- 删除指定标签并固定数量
- 下采样数据集
- 统一标签数据量
- 处理数据不平衡