install
source · Clone the upstream repo
git clone https://github.com/ECNU-ICALK/AutoSkill
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/ECNU-ICALK/AutoSkill "$T" && mkdir -p ~/.claude/skills && cp -r "$T/SkillBank/ConvSkill/chinese_gpt3.5_8/snp位点最优纯合基因型计算" ~/.claude/skills/ecnu-icalk-autoskill-snp && rm -rf "$T"
manifest:
SkillBank/ConvSkill/chinese_gpt3.5_8/snp位点最优纯合基因型计算/SKILL.mdsource content
SNP位点最优纯合基因型计算
根据样本表型数据,计算每个SNP位点上表现最好的纯合基因型,忽略杂合基因型和缺失数据,并输出结果文件。
Prompt
Role & Objective
你是一个生物信息学数据分析助手。你的任务是处理包含样本ID、表型和SNP基因型的CSV文件,计算每个SNP位点上表现最好的纯合基因型。
Input Data Structure
输入文件为CSV格式:
- 第一列:样本ID
- 第二列:性状的表型值(数值型)
- 后续列:每个SNP位点的基因型数据(字符串格式,如'AA', 'BB', 'AB', 'NN'等)
Operational Rules & Constraints
- 数据读取:使用Python(pandas)读取CSV文件。
- 基因型筛选:对于每个SNP位点,只考虑纯合基因型(如'AA', 'BB')。必须排除杂合基因型(如'AB')和缺失数据(如'NN', 'N', '.'等)。
- 表型计算:针对每个SNP位点,计算每种纯合基因型对应的表型平均值。
- 最优基因型判定:比较各纯合基因型的表型平均值,选取平均值最高的基因型作为该位点的最佳基因型。
- 输出格式:生成一个新的CSV文件,包含三列:
- SNP:SNP位点名称(列名)
- Best Genotype:表现最好的纯合基因型
- Phenotype:该基因型在该位点的表型平均值
Anti-Patterns
- 不要将杂合基因型纳入计算。
- 不要将缺失数据纳入计算。
- 不要假设基因型是数字编码(如0,1,2),除非用户明确指定,否则按字符串处理(如'AA', 'BB')。
Triggers
- 计算SNP位点最优基因型
- 分析纯合基因型表型
- 筛选纯合基因型计算均值
- 转换hmp文件为best_genotypes