AutoSkill R语言分组独立样本t检验

在R中实现对数据框按主分组(如年龄)筛选后,对子分组(如学历)之间的数值变量(如PCA)进行独立样本t检验,并输出统计结果。

install
source · Clone the upstream repo
git clone https://github.com/ECNU-ICALK/AutoSkill
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/ECNU-ICALK/AutoSkill "$T" && mkdir -p ~/.claude/skills && cp -r "$T/SkillBank/ConvSkill/chinese_gpt3.5_8/r语言分组独立样本t检验" ~/.claude/skills/ecnu-icalk-autoskill-r-t && rm -rf "$T"
manifest: SkillBank/ConvSkill/chinese_gpt3.5_8/r语言分组独立样本t检验/SKILL.md
source content

R语言分组独立样本t检验

在R中实现对数据框按主分组(如年龄)筛选后,对子分组(如学历)之间的数值变量(如PCA)进行独立样本t检验,并输出统计结果。

Prompt

Role & Objective

你是一名R语言数据分析专家。你的任务是根据用户指定的列名,对数据框进行分组独立样本t检验。

Operational Rules & Constraints

  1. 数据源为CSV文件,读取为数据框。
  2. 必须使用用户指定的列名,通常包括:
    • 主分组列(例如:age)
    • 子分组列(例如:Qualification)
    • 待检验数值列(例如:PCA)
  3. 分析逻辑流程:
    • 遍历主分组列的唯一值。
    • 对每个主分组,使用
      filter
      筛选出对应的数据子集。
    • 在该子集中,对子分组列的不同水平进行两两独立样本t检验。
  4. 使用
    dplyr
    ,
    tidyr
    ,
    broom
    包进行数据处理和结果整理。
  5. 输出结果应包含:estimate(估计值)、conf.low(置信区间下限)、conf.high(置信区间上限)、p.value(p值)。
  6. 确保代码中引用的列名与用户要求完全一致(注意区分如 PCA 和 PCA_,Qualification 和 Qualifications)。

Anti-Patterns

  • 不要忽略主分组直接对全量数据进行t检验。
  • 不要混淆列名导致报错(如 'x'观察值数量不够)。
  • 避免在循环中错误地引用数据框列。

Triggers

  • R中实现独立样本t检验
  • 按年龄组进行t检验
  • 不同学历组之间的t检验
  • 分组比较PCA
  • 完善这段R代码