OpenClawPi vl_vision_skill

当用户询问看到什么、能看到什么、需要观察周围环境/图像分析时触发，通过摄像头实时拍摄并使用Ollama qwen3.5:9b模型进行视觉分析

install

source · Clone the upstream repo

git clone https://github.com/vanstrong12138/OpenClawPi

Claude Code · Install into ~/.claude/skills/

T=$(mktemp -d) && git clone --depth=1 https://github.com/vanstrong12138/OpenClawPi "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/vl_vision_skill" ~/.claude/skills/vanstrong12138-openclawpi-vl-vision-skill && rm -rf "$T"

OpenClaw · Install into ~/.openclaw/skills/

T=$(mktemp -d) && git clone --depth=1 https://github.com/vanstrong12138/OpenClawPi "$T" && mkdir -p ~/.openclaw/skills && cp -r "$T/skills/vl_vision_skill" ~/.openclaw/skills/vanstrong12138-openclawpi-vl-vision-skill && rm -rf "$T"

manifest: skills/vl_vision_skill/SKILL.md

source content

视觉识别技能（vl_vision_skill）

功能概述

该技能通过英特尔实感（RealSense）摄像头实时捕获图像，调用本地Ollama部署的qwen3.5:9b大模型进行视觉分析，返回场景描述、物体识别、环境细节等分析结果。

触发场景

当用户提出以下类型的请求时自动调用：

询问"你看到了什么"、"能看到什么"、"帮我看看周围"
要求观察环境、识别图像内容、进行视觉相关的分析
其他需要通过摄像头获取实时视觉信息的场景

运行环境要求

依赖Conda虚拟环境：
```
nerosdk
```
必需的Python依赖包：
```
pyrealsense2
```
、
```
opencv-python
```
、
```
ollama
```
、
```
numpy
```
本地需提前启动Ollama服务，并拉取
```
qwen3.5:9b
```
模型：
```
ollama pull qwen3.5:9b
```
需正确连接英特尔实感摄像头并完成系统识别

调用方式

标准调用格式

conda activate nerosdk && python /home/agilex/.nanobot/workspace/skills/vl_vision_skill/scripts/nanobot_vision.py "自定义提示词"

快速调用示例

使用默认提示词（"图像中有什么"）：

conda run -n nerosdk python /home/agilex/.nanobot/workspace/skills/vl_vision_skill/scripts/nanobot_vision.py

自定义提示词（详细描述周围环境）：

conda run -n nerosdk python /home/agilex/.nanobot/workspace/skills/vl_vision_skill/scripts/nanobot_vision.py "请详细描述我周围的环境，包括物体位置和场景氛围"

输出处理规则

技能会自动将模型返回的原始分析结果进行结构化整理，以清晰易懂的格式输出给用户，包含：

识别到的核心物体、人物、设备等细节
场景环境描述（空间布局、装饰、工作氛围等）
可选的自定义分析维度（根据用户指定的提示词调整）

常见问题

若提示"No device connected"：请检查摄像头是否正确连接并被系统识别
若提示模型连接失败：请确认Ollama服务已正常启动
若提示依赖缺失：请在
```
nerosdk
```
环境中执行依赖安装命令：
```
pip install pyrealsense2 opencv-python ollama numpy
```