Claude-skill-registry excel-field-analyzer
分析Excel/CSV字段结构,AI自动生成中英文映射,验证翻译质量,输出统计报告。用于电子表格分析、数据字典创建、字段映射场景。
install
source · Clone the upstream repo
git clone https://github.com/majiayu000/claude-skill-registry
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/majiayu000/claude-skill-registry "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/data/excel-field-analyzer" ~/.claude/skills/majiayu000-claude-skill-registry-excel-field-analyzer && rm -rf "$T"
manifest:
skills/data/excel-field-analyzer/SKILL.mdsource content
Excel/CSV 字段分析器
概述
智能分析 Excel 与 CSV 文件,自动生成中英文字段映射、统计报告与 HTML 可视化。
核心能力:
- 字段统计分析(空值率、唯一值、分布)
- AI 字段映射(内置 50+ 车险领域字段)
- 映射质量自动校验
- HTML 可视化报告
快速开始
对话式调用(推荐)
直接与 Claude 对话:
"帮我分析这个 Excel 文件的字段" "分析 ./data/insurance_data.xlsx 的字段映射"
命令行
# 基础分析 python scripts/analyzer.py <file_path> [output_dir] [topn] # 示例 python scripts/analyzer.py data.xlsx ./output 10 # 支持格式:.xlsx, .xls, .csv, .txt
核心特性
1. 预置映射库
- 车险领域:内置 50+ 字段映射
- 覆盖范围:财务、车辆、机构、产品、时间
- 示例:
→商业险保费
(finance/number)commercial_premium
→三级机构
(organization/string)org_level_3
→确认时间
(time/datetime)time_confirm
2. AI 批量学习
- 零人工:自动为未知字段生成映射
- 智能分析:语义分析 + 数据样本推断
- 自动保存:结果保存至
便于复用custom.json - 高准确率:70 字段测试集准确率 100%
示例:
🔍 Found 70 unknown fields 💡 Using AI to generate mappings... ✅ Generated 70 mappings and saved to custom.json - 刷新时间 → time_refresh [time/datetime] - 交叉销售标识 → flag_cross_sales [flag/string] - 签单保费 → premium_signing [finance/number]
3. 质量校验
- 自动检查:4 个维度(命名、分组、语义、类型)
- 质量评分:优秀(≥90)/ 良好(75-89)/ 一般(60-74)/ 较差(<60)
- 详细报告:Markdown,附改进建议
4. 交互式学习
- 手动模式:可选,精确控制字段映射
- 引导流程:逐步选择英文字段名、分组、类型
- 持久存储:全部学习映射保存至
custom.json
输出文件
1. HTML 可视化报告
- 文件元信息与生成时间
- 每个工作表的完整统计表
- 数值统计与 Top 值分布
- 交互式探索
2. JSON 字段映射表
{ "field_name": "commercial_premium", "cn_name": "商业险保费", "group": "finance", "dtype": "number", "role": "measure", "aggregation": "sum", "is_mapped": true }
3. 质量校验报告(Markdown)
- 总体质量统计
- 需复审字段与建议
- 优秀映射示例
- 质量分布可视化
业务分组
| 分组 | 描述 | 示例 |
|---|---|---|
| finance | 财务数据 | 保费、赔款、费用 |
| organization | 机构信息 | 三级机构、四级机构 |
| vehicle | 车辆相关 | 车牌、车型 |
| product | 产品信息 | 险类、险种 |
| time | 时间字段 | 确认时间、起保日期 |
| flag | 状态标识 | 续保标识、新能源标识 |
| partner | 合作方信息 | 4S 集团、经销商 |
| general | 通用字段 | 业务类型、客户类别 |
文档
- reference.md - 完整技术文档、配置细节、API 参考
- examples.md - 代码示例、使用场景、集成指南
版本历史
v2.3 (2025-11-23) - 质量保障
- 🔍 映射质量校验体系
- 4 个校验维度与质量评分
- 自动生成质量报告
v2.2 (2025-11-23) - AI 批量学习
- 🤖 AI 驱动的自动字段映射
- 语义分析 + 数据样本推断
- 测试数据集准确率 100%
v2.1 (2025-11-23)
- ✨ 支持 CSV 文件
- 统一 Excel 与 CSV 接口
v2.0 (2025-11-23)
- ✨ Claude Code Skill 架构
- 多源配置系统
- 交互式字段学习
依赖
pip install pandas openpyxl numpy
许可证
MIT 许可证