Agent-almanac review-research

install

source · Clone the upstream repo

git clone https://github.com/pjt222/agent-almanac

Claude Code · Install into ~/.claude/skills/

T=$(mktemp -d) && git clone --depth=1 https://github.com/pjt222/agent-almanac "$T" && mkdir -p ~/.claude/skills && cp -r "$T/i18n/zh-CN/skills/review-research" ~/.claude/skills/pjt222-agent-almanac-review-research-cbfdfa && rm -rf "$T"

manifest: i18n/zh-CN/skills/review-research/SKILL.md

source content

研究评审

对研究工作进行结构化同行评审，评估方法论、统计选择、可重复性和整体科学严谨性。

适用场景

评审论文手稿、预印本或内部研究报告
评估研究提案或研究协议
评估某项主张或建议背后的证据质量
在数据收集前对同事的研究设计提供反馈
评审学位论文章节或毕业论文章节

输入

必填：研究文档（手稿、报告、提案或协议）
必填：领域/学科背景（影响方法论标准）
可选：期刊或发表指南（如果是为发表而评审）
可选：补充材料（数据、代码、附录）
可选：先前评审者的意见（如果是评审修订稿）

步骤

第 1 步：初读——范围与结构

通读整篇文档一遍，以了解：

研究问题：是否陈述清晰且具体？
贡献声明：什么是新颖或创新之处？
整体结构：是否遵循预期格式（IMRaD 或特定场合格式）？
范围匹配：研究是否适合目标读者/发表场合？

## 初读评估
- **研究问题**：[清晰 / 模糊 / 缺失]
- **新颖性声明**：[有陈述且有支撑 / 过度夸大 / 不明确]
- **结构**：[完整 / 缺失章节：___]
- **范围适配**：[适当 / 边缘 / 不适当]
- **初读后建议**：[继续评审 / 需提前标注重大问题]

预期结果： 清楚理解论文的论点和贡献。

失败处理： 若通读后研究问题仍不清晰，将其记录为重大问题并继续评审。

第 2 步：评估方法论

对照该领域的标准评估研究设计：

定量研究

研究设计与研究问题相适应（实验性、准实验性、观察性、调查性）
样本量有理据支撑（功效分析或实际依据）
抽样方法已描述且适当（随机、分层、便利）
变量定义清晰（自变量、因变量、控制变量、混杂变量）
测量工具已验证且报告了信度
数据收集程序可从描述中重现
伦理问题已处理（伦理审查委员会批准、知情同意）

定性研究

方法论明确（扎根理论、现象学、案例研究、民族志）
参与者筛选标准和饱和度已讨论
数据收集方法已描述（访谈、观察、文献）
研究者立场性已承认
可信度策略已报告（三角验证、成员核查、审计轨迹）
伦理问题已处理

混合方法

混合设计的理由已阐述
整合策略已描述（会聚式、解释性顺序式、探索性顺序式）
定量和定性部分均符合各自标准

预期结果： 方法论清单已完成，每项均有具体观察。

失败处理： 若关键方法论信息缺失，标记为重大问题，而不是假设其存在。

第 3 步：评估统计和分析选择

统计方法与数据类型和研究问题相适应
统计检验的假设已核查并报告（正态性、方差齐性、独立性）
效应量与 p 值一并报告
适当情况下提供了置信区间
必要时进行了多重比较校正（Bonferroni、FDR 等）
缺失数据处理方式已描述且适当
对关键假设进行了敏感性分析
结果解释与分析一致（未夸大研究发现）

常见统计危险信号：

p 值操纵迹象（大量比较、选择性报告、"边缘显著"）
不适当的检验（无理由地对非正态数据使用 t 检验，对顺序数据使用参数检验）
混淆统计显著性与实际显著性
未报告效应量
将事后假设呈现为事先假设

预期结果： 统计选择已评估，具体问题已记录。

失败处理： 若评审者对特定方法缺乏专业知识，应承认这一点并建议请专业评审者。

第 4 步：评估可重复性

数据可用性已说明（开放数据、数据库链接、可按需提供）
分析代码可用性已说明
软件版本和环境已记录
随机种子或可重复性机制已描述
关键参数和超参数已报告
计算环境已描述（硬件、操作系统、依赖项）

可重复性等级：

等级	描述	证据
金级	完全可重复	开放数据 + 开放代码 + 容器化环境
银级	基本可重复	数据可获取，分析描述详细
铜级	潜在可重复	方法已描述但无数据/代码共享
不透明	不可重复	方法描述不足或数据专有

预期结果： 已分配可重复性等级并附有理由。

失败处理： 若数据无法共享（隐私、专有），合成数据或详细伪代码是可接受的替代方案——注意是否已提供。

第 5 步：识别潜在偏倚

选择偏倚：参与者是否代表目标人群？
测量偏倚：测量过程是否系统性地扭曲了结果？
报告偏倚：是否报告了所有结果，包括非显著结果？
确认偏倚：作者是否只寻找支持其假设的证据？
幸存者偏倚：是否考虑了退出者、被排除的数据或失败的实验？
资金偏倚：资金来源是否已披露，是否可能影响研究发现？
发表偏倚：这是否是完整的图景，还是可能遗漏了阴性结果？

预期结果： 已识别潜在偏倚，并附有来自手稿的具体示例。

失败处理： 若无法从现有信息评估偏倚，建议作者明确说明。

第 6 步：撰写评审意见

以建设性方式组织评审：

## 摘要
[2-3 句总结论文贡献和整体评估]

## 重大问题
[必须在认定研究成立之前解决的问题]

1. **[问题标题]**：[具体描述，注明章节/页码/图表]
   - *建议*：[作者可如何解决此问题]

2. ...

## 次要问题
[提高质量但非根本性问题]

1. **[问题标题]**：[具体描述]
   - *建议*：[建议的修改]

## 向作者的提问
[完成评估所需的澄清]

1. ...

## 积极评价
[值得认可的具体优点]

1. ...

## 建议
[接受 / 小幅修改 / 大幅修改 / 拒绝]
[简要说明建议的理由]

预期结果： 评审具体、有建设性，且引用了手稿中的具体位置。

失败处理： 若评审篇幅过长，优先处理重大问题，将次要问题汇总为列表。

验证清单

每个重大问题均引用了具体章节、图表或论点
反馈具有建设性——问题与建议配对
积极方面与问题一并得到认可
统计评估与所用分析方法相匹配
可重复性已明确评估
建议与提出的问题严重程度一致
语气专业、尊重且同行友好

常见问题

模糊批评："方法论薄弱"没有帮助。具体说明薄弱之处及原因。
要求不同的研究：评审实际完成的研究，而非你本人会做的研究。
忽视范围：会议论文与期刊文章的要求不同。
人身攻击：评审研究，而非作者。切勿提及作者身份。
完美主义：没有完美的研究。关注会改变结论的问题。