Skills douyin-transcribe-fast

install
source · Clone the upstream repo
git clone https://github.com/openclaw/skills
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/openclaw/skills "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/btboy773/douyin-transcribe-fast" ~/.claude/skills/clawdbot-skills-douyin-transcribe-fast && rm -rf "$T"
manifest: skills/btboy773/douyin-transcribe-fast/SKILL.md
source content

抖音视频快速转文字(优化版)🎬➡️📝

本地 Whisper 转录,无需 API Key,零成本,高隐私。


前置依赖检查

使用前确保以下工具已安装:

1. Python 3.8+

python --version

2. FFmpeg(音频处理)

ffmpeg -version

未安装?Windows:

winget install Gyan.FFmpeg

3. OpenAI Whisper(本地转录)

pip install openai-whisper

使用方式

方式 1:抖音链接

用户发送抖音链接,如:

2.89 03/17 zTl:/ n@d.nq 真正赚钱的人到底怎么用 AI? https://v.douyin.com/D4SVbwCEY6g/

执行步骤:

步骤 1:解析视频信息

使用 douyin-mcp 获取视频下载链接:

mcporter call douyin-mcp.parse_douyin_video_info share_link="<抖音链接>"

步骤 2:下载视频(仅音频流)

ffmpeg -i "<视频URL>" -vn -acodec pcm_s16le -ar 16000 -ac 1 "audio.wav" -y

步骤 3:本地 Whisper 转录

whisper "audio.wav" --model tiny --language Chinese --output_format txt

💡 优化提示

  • 使用
    tiny
    模型最快(适合短视频)
  • 使用
    base
    模型平衡速度和质量
  • 使用
    small
    模型质量最好(适合长视频)

步骤 4:返回结果

读取生成的 txt 文件,返回给用户。


方式 2:本地视频文件

用户发送视频文件,直接执行步骤 3-4。


优化策略

🚀 速度优化

策略效果适用场景
只下载音频流减少 90% 下载时间所有视频
使用 tiny 模型CPU 转录 1-2 分钟短视频 (<3分钟)
使用 base 模型CPU 转录 3-5 分钟中等视频 (3-10分钟)
跳过视频下载直接提取音频 URL网页版抖音

💰 成本优化

  • 零 API 费用:本地 Whisper 完全免费
  • 零网络依赖:不需要 Groq/OpenAI API
  • 隐私保护:视频/音频不离开本地机器

🛡️ 稳定性优化

  • 不依赖浏览器:避免抖音反爬和登录问题
  • 不依赖第三方 API:避免 API 限制和费用
  • 离线可用:安装后无需网络即可转录

完整工作流程

用户发送抖音链接
    ↓
提取 modal_id / 视频 URL(通过 douyin-mcp)
    ↓
下载音频流(ffmpeg,~1-5MB)
    ↓
本地 Whisper 转录(tiny/base/small 模型)
    ↓
返回中文文案

总耗时

  • 短视频(<3分钟):2-3 分钟
  • 中等视频(3-10分钟):5-8 分钟
  • 长视频(>10分钟):10-15 分钟

故障排查

问题原因解决
douyin-mcp 返回 403API Key 无效检查
~/.cursor/mcp.json
配置
ffmpeg 未找到未安装或不在 PATH安装 ffmpeg 并添加到环境变量
whisper 未找到未安装运行
pip install openai-whisper
转录质量差模型太小或音频不清改用 base/small 模型
转录速度慢CPU 性能不足使用 tiny 模型或升级硬件

模型选择建议

模型速度质量显存/内存推荐场景
tiny⚡ 最快⭐⭐~1GB短视频、快速预览
base🚀 快⭐⭐⭐~1GB日常使用
small🚗 中等⭐⭐⭐⭐~2GB高质量需求
medium🐢 慢⭐⭐⭐⭐⭐~5GB专业用途

配置示例

Windows PowerShell 环境变量

$env:PATH = "C:\Users\<用户名>\AppData\Local\Programs\Python\Python311\Scripts;" +
            "C:\ffmpeg\bin;" +
            $env:PATH

快速转录命令

# 下载音频
ffmpeg -i "<视频URL>" -vn -acodec pcm_s16le -ar 16000 -ac 1 "audio.wav" -y

# 转录(tiny 模型,最快)
whisper "audio.wav" --model tiny --language Chinese --output_format txt

# 转录(base 模型,平衡)
whisper "audio.wav" --model base --language Chinese --output_format txt

与原版 skill 对比

特性douyin-transcribedouyin-transcribe-fast(本版)
依赖Groq API Key无需 API Key
费用免费(Groq)完全免费
隐私音频上传到 Groq完全本地
速度3-5 秒2-15 分钟(取决于视频长度)
网络要求需要网络安装后离线可用
准确度⭐⭐⭐⭐⭐⭐⭐⭐⭐(small模型)
适用场景快速转录、大量视频隐私敏感、离线环境、零成本

最佳实践

  1. 短视频(<3分钟):直接用 tiny 模型,2分钟出结果
  2. 中等视频(3-10分钟):用 base 模型,平衡速度和质量
  3. 长视频(>10分钟):用 small 模型,或分段处理
  4. 批量处理:先下载所有音频,再批量转录
  5. 质量优先:对重要视频使用 small 模型,日常用 base

技术栈

  • douyin-mcp:获取视频信息
  • ffmpeg:音频提取和处理
  • OpenAI Whisper:本地语音识别
  • Python:运行环境

优化版 Skill,让抖音文案提取更简单、更私密、更经济。