Skills image-understanding
使用智谱AI的GLM-4V-Flash免费多模态API理解图片内容。当用户需要理解图片内容、描述图片、识别图中物体时使用此skill。
install
source · Clone the upstream repo
git clone https://github.com/openclaw/skills
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/openclaw/skills "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/andyzwp/image-read" ~/.claude/skills/clawdbot-skills-image-understanding && rm -rf "$T"
manifest:
skills/andyzwp/image-read/SKILL.mdsource content
Image Understanding Skill
这个skill用于理解图片内容,使用智谱AI的GLM-4V-Flash免费多模态API。
何时使用
当用户需要理解图片内容时使用此skill,例如:
- "这张图里是什么"
- "描述一下这个图片"
- "这张细胞图显示了什么"
- "分析这张图片的内容"
前置要求
用户需要:
- 访问 https://bigmodel.cn/ 注册账号
- 获取API Key:https://bigmodel.cn/console/apikeys
- 将API Key以环境变量方式提供:
ZHIPU_API_KEY
使用方法
方式一:使用内置脚本
skill提供了
scripts/analyze_image.py 脚本,可以直接调用:
python scripts/analyze_image.py <图片路径> "<问题>"
参数:
: 图片文件路径(建议使用jpg格式)<图片路径>
: 要问的问题,如"这张图片里有什么"<问题>
方式二:手动调用API
如果没有脚本,可以直接用Python调用智谱API:
from zhipuai import ZhipuAI client = ZhipuAI(api_key="你的API Key") response = client.chat.completions.create( model="glm-4v", messages=[ { "role": "user", "content": [ {"type": "text", "text": "这张图片里有什么?请详细描述。"}, {"type": "image_url", "image_url": {"url": "图片URL或base64"}} ] } ] ) print(response.choices[0].message.content)
输出格式
返回图片内容的详细描述,包括:
- 图像中的主要物体/人物
- 场景/背景
- 颜色、布局等视觉特征
- 文字(如果有)
- 可能的含义或推断
注意事项
- GLM-4V-Flash完全免费,但有调用频率限制
- 支持图片URL或Base64编码
- 最佳支持图片尺寸:1024x1024以内
- 建议使用JPG格式,PNG格式可能存在兼容性问题