Skills minimax-image-understanding
使用多模态大模型理解图片内容,生成业务含义描述。支持多种模型:(1) MiniMax VLM (2) OpenAI GPT-4V (3) Claude Vision。用于理解截图、图表、文档照片等,生成精准的文字描述。
install
source · Clone the upstream repo
git clone https://github.com/openclaw/skills
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/openclaw/skills "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/aidescend/minimax-image-understanding" ~/.claude/skills/clawdbot-skills-minimax-image-understanding && rm -rf "$T"
manifest:
skills/aidescend/minimax-image-understanding/SKILL.mdsource content
图片理解
调用多模态大模型理解图片,生成精准的业务描述。
支持的模型
| 模型 | 环境变量 | 说明 |
|---|---|---|
| MiniMax VLM | , | 默认,推荐用于中文理解 |
| OpenAI | | GPT-4V |
| Anthropic | | Claude Vision |
使用方法
前提条件
设置对应模型的环境变量(至少一个):
# MiniMax(默认) export MINIMAX_API_KEY="your-minimax-key" export MINIMAX_API_HOST="https://api.minimaxi.com" # 或 OpenAI export OPENAI_API_KEY="your-openai-key" # 或 Anthropic export ANTHROPIC_API_KEY="your-anthropic-key"
调用脚本
python3 <skill>/scripts/understand_image.py <图片路径> [model] [prompt]
参数:
- 图片路径:本地图片文件(PNG、JPG、JPEG、GIF、WebP)
- model(可选):
(默认)、minimax
、openaianthropic - prompt(可选):自定义提示词
示例
# 使用默认(MiniMax) python3 ~/.openclaw/workspace/skills/minimax-image-understanding/scripts/understand_image.py /path/to/image.png # 指定模型 python3 ~/.openclaw/workspace/skills/minimax-image-understanding/scripts/understand_image.py /path/to/image.png openai # 自定义提示词 python3 ~/.openclaw/workspace/skills/minimax-image-understanding/scripts/understand_image.py /path/to/image.png minimax "描述图表中的数据趋势"
输出
直接输出图片的业务含义描述,不再罗列元素位置,聚焦数据内容和业务逻辑。