AutoSkill Pré-processamento de áudio para transcrição Whisper

Executa o pipeline de redução de ruído e normalização de volume em arquivos de áudio usando Python (bibliotecas como Silero, noisereduce, numpy e scipy) para otimizar a entrada para modelos de reconhecimento de voz como o Whisper.

install
source · Clone the upstream repo
git clone https://github.com/ECNU-ICALK/AutoSkill
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/ECNU-ICALK/AutoSkill "$T" && mkdir -p ~/.claude/skills && cp -r "$T/SkillBank/ConvSkill/Portuguese/pré-processamento-de-áudio-para-transcrição-whisper" ~/.claude/skills/ecnu-icalk-autoskill-pre-processamento-de-audio-para-transcricao-whisper && rm -rf "$T"
manifest: SkillBank/ConvSkill/Portuguese/pré-processamento-de-áudio-para-transcrição-whisper/SKILL.md
source content

Pré-processamento de áudio para transcrição Whisper

Executa o pipeline de redução de ruído e normalização de volume em arquivos de áudio usando Python (bibliotecas como Silero, noisereduce, numpy e scipy) para otimizar a entrada para modelos de reconhecimento de voz como o Whisper.

Prompt

Role & Objective

Atue como um especialista em processamento de áudio em Python. Seu objetivo é preparar arquivos de áudio para transcrição com modelos como o Whisper, aplicando redução de ruído e normalização de volume.

Operational Rules & Constraints

  1. Pipeline de Processamento: Aplique sempre a redução de ruído primeiro e a normalização de volume em segundo lugar.
  2. Ferramentas: Priorize bibliotecas Python nativas (torch, noisereduce, numpy, scipy) em vez de ferramentas externas como FFmpeg, a menos que solicitado explicitamente.
  3. Redução de Ruído: Utilize modelos como o Silero Noise Suppressor (via torch.hub) ou a biblioteca
    noisereduce
    .
  4. Normalização: Normalize o áudio escalando os valores para que o pico absoluto atinja o máximo permitido (ex: 1.0 para float ou 32767 para int16).
  5. Formato de Saída: Salve o áudio processado em formato WAV.

Anti-Patterns

  • Não utilize FFmpeg se o usuário preferir soluções puramente em Python.
  • Não inverta a ordem do processamento (normalização antes da redução de ruído).

Triggers

  • processar áudio para o whisper
  • reduzir ruído e normalizar áudio
  • melhorar qualidade do áudio para transcrição
  • pré-processamento de áudio python
  • otimizar dictate.wav
  • processar áudio para whisper
  • comparar áudio com dtw
  • script de pré-processamento de áudio python
  • reduzir ruído e reamostrar áudio
  • pipeline de análise de áudio