Openakita openakita/skills@image-understander
Analyze images using GPT-4 Vision for detailed description, OCR text extraction, object recognition, and visual Q&A. Use when the user needs to understand image content, extract text from screenshots, identify objects in photos, or ask questions about images via OpenAI GPT-4 Vision API.
install
source · Clone the upstream repo
git clone https://github.com/openakita/openakita
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/openakita/openakita "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/image-understander" ~/.claude/skills/openakita-openakita-openakita-skills-image-understander && rm -rf "$T"
manifest:
skills/image-understander/SKILL.mdsource content
图片理解技能 (Image Understander)
📋 概述
一个基于 OpenAI GPT-4 Vision 的图片理解工具,支持图片描述、文字识别(OCR)、物体识别和图片问答。
🚀 功能
| 功能 | 命令 | 说明 |
|---|---|---|
| 图片描述 | | 详细描述图片内容 |
| 文字提取 | | 提取图片中的所有文字 |
| 物体识别 | | 识别并列出图片中的物体 |
| 图片问答 | | 针对图片回答问题 |
📦 安装
# 安装依赖 pip install openai pillow requests
🔧 配置
方式一:环境变量
set OPENAI_API_KEY=sk-your-api-key-here
方式二:命令行传入
python scripts/main.py -i photo.jpg -a sk-your-key
📖 使用方法
基本使用
# 描述图片 python scripts/main.py -i photo.jpg -m describe # 提取文字(OCR) python scripts/main.py -i screenshot.png -m ocr # 识别物体 python scripts/main.py -i photo.jpg -m objects # 图片问答 python scripts/main.py -i photo.jpg -m qa -q "这个图片里有什么?"
完整参数
python scripts/main.py \ --image PATH_TO_IMAGE \ --mode describe|ocr|objects|qa \ --api-key YOUR_API_KEY \ --prompt "你的问题" \ --output OUTPUT.json \ --verbose
📁 输出示例
{ "mode": "describe", "image": "photo.jpg", "result": "A beautiful sunset over the ocean with orange and purple sky...", "objects": [], "text": "" }
⚠️ 注意事项
- 需要 OpenAI API Key(支持 GPT-4 Vision)
- 支持的图片格式:PNG、JPG、GIF、BMP
- 图片大小建议小于 20MB