OpenClawPi vl_vision_skill
当用户询问看到什么、能看到什么、需要观察周围环境/图像分析时触发,通过摄像头实时拍摄并使用Ollama qwen3.5:9b模型进行视觉分析
install
source · Clone the upstream repo
git clone https://github.com/vanstrong12138/OpenClawPi
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/vanstrong12138/OpenClawPi "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/vl_vision_skill" ~/.claude/skills/vanstrong12138-openclawpi-vl-vision-skill && rm -rf "$T"
OpenClaw · Install into ~/.openclaw/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/vanstrong12138/OpenClawPi "$T" && mkdir -p ~/.openclaw/skills && cp -r "$T/skills/vl_vision_skill" ~/.openclaw/skills/vanstrong12138-openclawpi-vl-vision-skill && rm -rf "$T"
manifest:
skills/vl_vision_skill/SKILL.mdsource content
视觉识别技能(vl_vision_skill)
功能概述
该技能通过英特尔实感(RealSense)摄像头实时捕获图像,调用本地Ollama部署的qwen3.5:9b大模型进行视觉分析,返回场景描述、物体识别、环境细节等分析结果。
触发场景
当用户提出以下类型的请求时自动调用:
- 询问"你看到了什么"、"能看到什么"、"帮我看看周围"
- 要求观察环境、识别图像内容、进行视觉相关的分析
- 其他需要通过摄像头获取实时视觉信息的场景
运行环境要求
- 依赖Conda虚拟环境:
nerosdk - 必需的Python依赖包:
、pyrealsense2
、opencv-python
、ollamanumpy - 本地需提前启动Ollama服务,并拉取
模型:qwen3.5:9bollama pull qwen3.5:9b - 需正确连接英特尔实感摄像头并完成系统识别
调用方式
标准调用格式
conda activate nerosdk && python /home/agilex/.nanobot/workspace/skills/vl_vision_skill/scripts/nanobot_vision.py "自定义提示词"
快速调用示例
- 使用默认提示词("图像中有什么"):
conda run -n nerosdk python /home/agilex/.nanobot/workspace/skills/vl_vision_skill/scripts/nanobot_vision.py
- 自定义提示词(详细描述周围环境):
conda run -n nerosdk python /home/agilex/.nanobot/workspace/skills/vl_vision_skill/scripts/nanobot_vision.py "请详细描述我周围的环境,包括物体位置和场景氛围"
输出处理规则
技能会自动将模型返回的原始分析结果进行结构化整理,以清晰易懂的格式输出给用户,包含:
- 识别到的核心物体、人物、设备等细节
- 场景环境描述(空间布局、装饰、工作氛围等)
- 可选的自定义分析维度(根据用户指定的提示词调整)
常见问题
- 若提示"No device connected":请检查摄像头是否正确连接并被系统识别
- 若提示模型连接失败:请确认Ollama服务已正常启动
- 若提示依赖缺失:请在
环境中执行依赖安装命令:nerosdkpip install pyrealsense2 opencv-python ollama numpy