Agent-almanac review-research

install
source · Clone the upstream repo
git clone https://github.com/pjt222/agent-almanac
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/pjt222/agent-almanac "$T" && mkdir -p ~/.claude/skills && cp -r "$T/i18n/zh-CN/skills/review-research" ~/.claude/skills/pjt222-agent-almanac-review-research-cbfdfa && rm -rf "$T"
manifest: i18n/zh-CN/skills/review-research/SKILL.md
source content

研究评审

对研究工作进行结构化同行评审,评估方法论、统计选择、可重复性和整体科学严谨性。

适用场景

  • 评审论文手稿、预印本或内部研究报告
  • 评估研究提案或研究协议
  • 评估某项主张或建议背后的证据质量
  • 在数据收集前对同事的研究设计提供反馈
  • 评审学位论文章节或毕业论文章节

输入

  • 必填:研究文档(手稿、报告、提案或协议)
  • 必填:领域/学科背景(影响方法论标准)
  • 可选:期刊或发表指南(如果是为发表而评审)
  • 可选:补充材料(数据、代码、附录)
  • 可选:先前评审者的意见(如果是评审修订稿)

步骤

第 1 步:初读——范围与结构

通读整篇文档一遍,以了解:

  1. 研究问题:是否陈述清晰且具体?
  2. 贡献声明:什么是新颖或创新之处?
  3. 整体结构:是否遵循预期格式(IMRaD 或特定场合格式)?
  4. 范围匹配:研究是否适合目标读者/发表场合?
## 初读评估
- **研究问题**:[清晰 / 模糊 / 缺失]
- **新颖性声明**:[有陈述且有支撑 / 过度夸大 / 不明确]
- **结构**:[完整 / 缺失章节:___]
- **范围适配**:[适当 / 边缘 / 不适当]
- **初读后建议**:[继续评审 / 需提前标注重大问题]

预期结果: 清楚理解论文的论点和贡献。

失败处理: 若通读后研究问题仍不清晰,将其记录为重大问题并继续评审。

第 2 步:评估方法论

对照该领域的标准评估研究设计:

定量研究

  • 研究设计与研究问题相适应(实验性、准实验性、观察性、调查性)
  • 样本量有理据支撑(功效分析或实际依据)
  • 抽样方法已描述且适当(随机、分层、便利)
  • 变量定义清晰(自变量、因变量、控制变量、混杂变量)
  • 测量工具已验证且报告了信度
  • 数据收集程序可从描述中重现
  • 伦理问题已处理(伦理审查委员会批准、知情同意)

定性研究

  • 方法论明确(扎根理论、现象学、案例研究、民族志)
  • 参与者筛选标准和饱和度已讨论
  • 数据收集方法已描述(访谈、观察、文献)
  • 研究者立场性已承认
  • 可信度策略已报告(三角验证、成员核查、审计轨迹)
  • 伦理问题已处理

混合方法

  • 混合设计的理由已阐述
  • 整合策略已描述(会聚式、解释性顺序式、探索性顺序式)
  • 定量和定性部分均符合各自标准

预期结果: 方法论清单已完成,每项均有具体观察。

失败处理: 若关键方法论信息缺失,标记为重大问题,而不是假设其存在。

第 3 步:评估统计和分析选择

  • 统计方法与数据类型和研究问题相适应
  • 统计检验的假设已核查并报告(正态性、方差齐性、独立性)
  • 效应量与 p 值一并报告
  • 适当情况下提供了置信区间
  • 必要时进行了多重比较校正(Bonferroni、FDR 等)
  • 缺失数据处理方式已描述且适当
  • 对关键假设进行了敏感性分析
  • 结果解释与分析一致(未夸大研究发现)

常见统计危险信号:

  • p 值操纵迹象(大量比较、选择性报告、"边缘显著")
  • 不适当的检验(无理由地对非正态数据使用 t 检验,对顺序数据使用参数检验)
  • 混淆统计显著性与实际显著性
  • 未报告效应量
  • 将事后假设呈现为事先假设

预期结果: 统计选择已评估,具体问题已记录。

失败处理: 若评审者对特定方法缺乏专业知识,应承认这一点并建议请专业评审者。

第 4 步:评估可重复性

  • 数据可用性已说明(开放数据、数据库链接、可按需提供)
  • 分析代码可用性已说明
  • 软件版本和环境已记录
  • 随机种子或可重复性机制已描述
  • 关键参数和超参数已报告
  • 计算环境已描述(硬件、操作系统、依赖项)

可重复性等级:

等级描述证据
金级完全可重复开放数据 + 开放代码 + 容器化环境
银级基本可重复数据可获取,分析描述详细
铜级潜在可重复方法已描述但无数据/代码共享
不透明不可重复方法描述不足或数据专有

预期结果: 已分配可重复性等级并附有理由。

失败处理: 若数据无法共享(隐私、专有),合成数据或详细伪代码是可接受的替代方案——注意是否已提供。

第 5 步:识别潜在偏倚

  • 选择偏倚:参与者是否代表目标人群?
  • 测量偏倚:测量过程是否系统性地扭曲了结果?
  • 报告偏倚:是否报告了所有结果,包括非显著结果?
  • 确认偏倚:作者是否只寻找支持其假设的证据?
  • 幸存者偏倚:是否考虑了退出者、被排除的数据或失败的实验?
  • 资金偏倚:资金来源是否已披露,是否可能影响研究发现?
  • 发表偏倚:这是否是完整的图景,还是可能遗漏了阴性结果?

预期结果: 已识别潜在偏倚,并附有来自手稿的具体示例。

失败处理: 若无法从现有信息评估偏倚,建议作者明确说明。

第 6 步:撰写评审意见

以建设性方式组织评审:

## 摘要
[2-3 句总结论文贡献和整体评估]

## 重大问题
[必须在认定研究成立之前解决的问题]

1. **[问题标题]**:[具体描述,注明章节/页码/图表]
   - *建议*:[作者可如何解决此问题]

2. ...

## 次要问题
[提高质量但非根本性问题]

1. **[问题标题]**:[具体描述]
   - *建议*:[建议的修改]

## 向作者的提问
[完成评估所需的澄清]

1. ...

## 积极评价
[值得认可的具体优点]

1. ...

## 建议
[接受 / 小幅修改 / 大幅修改 / 拒绝]
[简要说明建议的理由]

预期结果: 评审具体、有建设性,且引用了手稿中的具体位置。

失败处理: 若评审篇幅过长,优先处理重大问题,将次要问题汇总为列表。

验证清单

  • 每个重大问题均引用了具体章节、图表或论点
  • 反馈具有建设性——问题与建议配对
  • 积极方面与问题一并得到认可
  • 统计评估与所用分析方法相匹配
  • 可重复性已明确评估
  • 建议与提出的问题严重程度一致
  • 语气专业、尊重且同行友好

常见问题

  • 模糊批评:"方法论薄弱"没有帮助。具体说明薄弱之处及原因。
  • 要求不同的研究:评审实际完成的研究,而非你本人会做的研究。
  • 忽视范围:会议论文与期刊文章的要求不同。
  • 人身攻击:评审研究,而非作者。切勿提及作者身份。
  • 完美主义:没有完美的研究。关注会改变结论的问题。

相关技能

  • review-data-analysis
    — 更深入聚焦数据质量和模型验证
  • format-apa-report
    — 研究报告的 APA 格式标准
  • generate-statistical-tables
    — 出版级统计表格
  • validate-statistical-output
    — 统计输出验证