Agent-almanac review-research
install
source · Clone the upstream repo
git clone https://github.com/pjt222/agent-almanac
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/pjt222/agent-almanac "$T" && mkdir -p ~/.claude/skills && cp -r "$T/i18n/zh-CN/skills/review-research" ~/.claude/skills/pjt222-agent-almanac-review-research-cbfdfa && rm -rf "$T"
manifest:
i18n/zh-CN/skills/review-research/SKILL.mdsource content
研究评审
对研究工作进行结构化同行评审,评估方法论、统计选择、可重复性和整体科学严谨性。
适用场景
- 评审论文手稿、预印本或内部研究报告
- 评估研究提案或研究协议
- 评估某项主张或建议背后的证据质量
- 在数据收集前对同事的研究设计提供反馈
- 评审学位论文章节或毕业论文章节
输入
- 必填:研究文档(手稿、报告、提案或协议)
- 必填:领域/学科背景(影响方法论标准)
- 可选:期刊或发表指南(如果是为发表而评审)
- 可选:补充材料(数据、代码、附录)
- 可选:先前评审者的意见(如果是评审修订稿)
步骤
第 1 步:初读——范围与结构
通读整篇文档一遍,以了解:
- 研究问题:是否陈述清晰且具体?
- 贡献声明:什么是新颖或创新之处?
- 整体结构:是否遵循预期格式(IMRaD 或特定场合格式)?
- 范围匹配:研究是否适合目标读者/发表场合?
## 初读评估 - **研究问题**:[清晰 / 模糊 / 缺失] - **新颖性声明**:[有陈述且有支撑 / 过度夸大 / 不明确] - **结构**:[完整 / 缺失章节:___] - **范围适配**:[适当 / 边缘 / 不适当] - **初读后建议**:[继续评审 / 需提前标注重大问题]
预期结果: 清楚理解论文的论点和贡献。
失败处理: 若通读后研究问题仍不清晰,将其记录为重大问题并继续评审。
第 2 步:评估方法论
对照该领域的标准评估研究设计:
定量研究
- 研究设计与研究问题相适应(实验性、准实验性、观察性、调查性)
- 样本量有理据支撑(功效分析或实际依据)
- 抽样方法已描述且适当(随机、分层、便利)
- 变量定义清晰(自变量、因变量、控制变量、混杂变量)
- 测量工具已验证且报告了信度
- 数据收集程序可从描述中重现
- 伦理问题已处理(伦理审查委员会批准、知情同意)
定性研究
- 方法论明确(扎根理论、现象学、案例研究、民族志)
- 参与者筛选标准和饱和度已讨论
- 数据收集方法已描述(访谈、观察、文献)
- 研究者立场性已承认
- 可信度策略已报告(三角验证、成员核查、审计轨迹)
- 伦理问题已处理
混合方法
- 混合设计的理由已阐述
- 整合策略已描述(会聚式、解释性顺序式、探索性顺序式)
- 定量和定性部分均符合各自标准
预期结果: 方法论清单已完成,每项均有具体观察。
失败处理: 若关键方法论信息缺失,标记为重大问题,而不是假设其存在。
第 3 步:评估统计和分析选择
- 统计方法与数据类型和研究问题相适应
- 统计检验的假设已核查并报告(正态性、方差齐性、独立性)
- 效应量与 p 值一并报告
- 适当情况下提供了置信区间
- 必要时进行了多重比较校正(Bonferroni、FDR 等)
- 缺失数据处理方式已描述且适当
- 对关键假设进行了敏感性分析
- 结果解释与分析一致(未夸大研究发现)
常见统计危险信号:
- p 值操纵迹象(大量比较、选择性报告、"边缘显著")
- 不适当的检验(无理由地对非正态数据使用 t 检验,对顺序数据使用参数检验)
- 混淆统计显著性与实际显著性
- 未报告效应量
- 将事后假设呈现为事先假设
预期结果: 统计选择已评估,具体问题已记录。
失败处理: 若评审者对特定方法缺乏专业知识,应承认这一点并建议请专业评审者。
第 4 步:评估可重复性
- 数据可用性已说明(开放数据、数据库链接、可按需提供)
- 分析代码可用性已说明
- 软件版本和环境已记录
- 随机种子或可重复性机制已描述
- 关键参数和超参数已报告
- 计算环境已描述(硬件、操作系统、依赖项)
可重复性等级:
| 等级 | 描述 | 证据 |
|---|---|---|
| 金级 | 完全可重复 | 开放数据 + 开放代码 + 容器化环境 |
| 银级 | 基本可重复 | 数据可获取,分析描述详细 |
| 铜级 | 潜在可重复 | 方法已描述但无数据/代码共享 |
| 不透明 | 不可重复 | 方法描述不足或数据专有 |
预期结果: 已分配可重复性等级并附有理由。
失败处理: 若数据无法共享(隐私、专有),合成数据或详细伪代码是可接受的替代方案——注意是否已提供。
第 5 步:识别潜在偏倚
- 选择偏倚:参与者是否代表目标人群?
- 测量偏倚:测量过程是否系统性地扭曲了结果?
- 报告偏倚:是否报告了所有结果,包括非显著结果?
- 确认偏倚:作者是否只寻找支持其假设的证据?
- 幸存者偏倚:是否考虑了退出者、被排除的数据或失败的实验?
- 资金偏倚:资金来源是否已披露,是否可能影响研究发现?
- 发表偏倚:这是否是完整的图景,还是可能遗漏了阴性结果?
预期结果: 已识别潜在偏倚,并附有来自手稿的具体示例。
失败处理: 若无法从现有信息评估偏倚,建议作者明确说明。
第 6 步:撰写评审意见
以建设性方式组织评审:
## 摘要 [2-3 句总结论文贡献和整体评估] ## 重大问题 [必须在认定研究成立之前解决的问题] 1. **[问题标题]**:[具体描述,注明章节/页码/图表] - *建议*:[作者可如何解决此问题] 2. ... ## 次要问题 [提高质量但非根本性问题] 1. **[问题标题]**:[具体描述] - *建议*:[建议的修改] ## 向作者的提问 [完成评估所需的澄清] 1. ... ## 积极评价 [值得认可的具体优点] 1. ... ## 建议 [接受 / 小幅修改 / 大幅修改 / 拒绝] [简要说明建议的理由]
预期结果: 评审具体、有建设性,且引用了手稿中的具体位置。
失败处理: 若评审篇幅过长,优先处理重大问题,将次要问题汇总为列表。
验证清单
- 每个重大问题均引用了具体章节、图表或论点
- 反馈具有建设性——问题与建议配对
- 积极方面与问题一并得到认可
- 统计评估与所用分析方法相匹配
- 可重复性已明确评估
- 建议与提出的问题严重程度一致
- 语气专业、尊重且同行友好
常见问题
- 模糊批评:"方法论薄弱"没有帮助。具体说明薄弱之处及原因。
- 要求不同的研究:评审实际完成的研究,而非你本人会做的研究。
- 忽视范围:会议论文与期刊文章的要求不同。
- 人身攻击:评审研究,而非作者。切勿提及作者身份。
- 完美主义:没有完美的研究。关注会改变结论的问题。
相关技能
— 更深入聚焦数据质量和模型验证review-data-analysis
— 研究报告的 APA 格式标准format-apa-report
— 出版级统计表格generate-statistical-tables
— 统计输出验证validate-statistical-output