Skills whisper-asr

install
source · Clone the upstream repo
git clone https://github.com/openclaw/skills
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/openclaw/skills "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/279458179/openclaw-whisper-asr" ~/.claude/skills/openclaw-skills-whisper-asr && rm -rf "$T"
OpenClaw · Install into ~/.openclaw/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/openclaw/skills "$T" && mkdir -p ~/.openclaw/skills && cp -r "$T/skills/279458179/openclaw-whisper-asr" ~/.openclaw/skills/openclaw-skills-whisper-asr && rm -rf "$T"
manifest: skills/279458179/openclaw-whisper-asr/SKILL.md
source content

本地 Whisper 语音识别配置 (whisper-asr)

概述

通过 whisper.cpp 在服务器上配置本地语音识别,用于:

  • 识别用户发来的语音消息
  • 离线运行,无需 API
  • 支持中文等多种语言

前置要求

  • Linux 服务器(已测试 Ubuntu/Debian)
  • ffmpeg 已安装
  • ~150MB 磁盘空间(base 模型)

安装步骤

1. 安装 ffmpeg

sudo apt-get update
sudo apt-get install -y ffmpeg

2. 克隆 whisper.cpp

cd /home/brew/.openclaw/workspace
git clone https://github.com/ggml-org/whisper.cpp.git

3. 下载中文模型

cd whisper.cpp
sh ./models/download-ggml-model.sh base

模型选择建议:

模型大小内存推荐场景
tiny75 MB~273 MB快速测试
base142 MB~388 MB平衡推荐
small466 MB~852 MB更高精度

4. 编译

cd whisper.cpp
cmake -B build
cmake --build build -j --config Release

使用方式

1. 转换音频格式

飞书语音通常是 ogg 格式,需要转换为 whisper 需要的格式:

ffmpeg -i input.ogg -ar 16000 -ac 1 -c:a pcm_s16le output.wav

2. 语音转文字

./build/bin/whisper-cli \
  -m models/ggml-base.bin \
  -f output.wav \
  --language zh \
  --no-timestamps

常用参数:

  • -m
    : 模型路径
  • -f
    : 输入音频文件
  • --language zh
    : 指定中文
  • --no-timestamps
    : 不输出时间戳
  • -t 4
    : 线程数(默认自动)

3. 完整示例(单命令)

ffmpeg -i input.ogg -ar 16000 -ac 1 -c:a pcm_s16le /tmp/audio.wav && \
./build/bin/whisper-cli -m models/ggml-base.bin -f /tmp/audio.wav --language zh --no-timestamps

路径速查

项目路径
whisper.cpp 目录
/home/brew/.openclaw/workspace/whisper.cpp
可执行文件
/home/brew/.openclaw/workspace/whisper.cpp/build/bin/whisper-cli
模型目录
/home/brew/.openclaw/workspace/whisper.cpp/models/
base 模型
/home/brew/.openclaw/workspace/whisper.cpp/models/ggml-base.bin

常见问题

Q: 识别结果不准确?

A: 尝试使用更大的模型(small/medium),或在安静环境下录音。

Q: 识别速度慢?

A: 增加线程数:

./whisper-cli -t 8 ...

Q: 支持其他语言?

A: 不指定

--language
会自动检测。也可指定
--language en
等。


进阶:量化模型(节省资源)

# 量化(减少模型大小)
./build/bin/quantize models/ggml-base.bin models/ggml-base-q5.bin q5_0

# 使用量化模型
./build/bin/whisper-cli -m models/ggml-base-q5.bin -f audio.wav --language zh

本技能参考 whisper.cpp 官方文档