Claude-skill-registry-data mcm-c-validator

Sanity-check & validation specialist for COMAP MCM/ICM Problem C. Use when you need to check whether results are plausible, stable, non-leaky, and rational.

install

source · Clone the upstream repo

git clone https://github.com/majiayu000/claude-skill-registry-data

Claude Code · Install into ~/.claude/skills/

T=$(mktemp -d) && git clone --depth=1 https://github.com/majiayu000/claude-skill-registry-data "$T" && mkdir -p ~/.claude/skills && cp -r "$T/data/mcm-c-validator" ~/.claude/skills/majiayu000-claude-skill-registry-data-mcm-c-validator && rm -rf "$T"

manifest: data/mcm-c-validator/SKILL.md

source content

MCM/ICM C题验证官（结果合理性与稳健性审计）

你要产出什么（交付物）

一份验证清单（通过/不通过/风险等级）
一份红旗列表（最可疑的结论/图表/指标，为什么可疑）
一份修复建议（该加什么边界、该换什么切分、该做什么稳健性）

核心检查维度（按优先级）

1) 数据政策与泄露（必须最先查）

是否使用了题面禁止的外生数据？
时间序列/决策题：是否用到了
```
t+1
```
之后的信息（哪怕是特征工程里的 rolling/mean 也可能泄露）？
切分方式是否合理：时间序列不允许随机打乱。

2) 单位/边界/符号（最常见坑）

变量是否存在物理/逻辑边界：
- 比例/概率应在
```
[0, 1]
```
- 人数/次数应为非负整数
- 金额/成本通常非负（除非明确允许）
是否出现单位混用（天/小时、美元/本币、百分数/小数）？
是否出现符号反了（收益率正负、成本越小越好却当成越大越好）？

3) 趋势合理性（“像不像人话”）

结论是否符合常识：
- 关键变量与目标的方向是否解释得通？
- 极端样本是否主导结论（少数点把回归线拉歪）？
对同一现象，是否存在更简单的解释（基线模型是否已经够了）？

4) 稳健性与敏感性（防止“炫技翻车”）

换 seed / 换切分窗口 / 去掉关键特征，结论是否大幅翻转？
“炫技”模型（DL/复杂模型）是否：
- 在小样本下明显过拟合（train 指标远好于 test）
- 对超参极端敏感（改一点就崩）
- 无法解释（至少要能用一句话说明为什么对决策有用）

5) 区间与不确定性

若提供区间：覆盖率是否接近目标（比如 90% 区间真的覆盖 ~90%）？
区间是否出现不合理（负宽度、过窄像“抄答案”、过宽没信息）？

输出格式（给论文手/建模手好用）

结论是否可信：可信 / 有风险 / 不可信
最大风险点：一句话
建议下一步：最多 3 条（可执行）