AudioInk es una app de escritorio para transcribir audio y video localmente con Whisper. Está construida con Tauri 2 y Rust, y el proyecto soporta macOS.
- Soporte actual:
macOS 10.15+ - Procesamiento: local, sin subir tus archivos a servicios externos
- Transcribe archivos de audio y video desde tu Mac
- Permite elegir entre varios modelos de Whisper, con
Turbocomo opción recomendada por defecto - Soporta detección automática o selección manual de idioma
- Puede mostrar marcas de tiempo en la transcripción
- Guarda historial de transcripciones
- Permite usar subtítulos de YouTube o transcribir el audio con Whisper
- Puede acelerar audio antes de transcribir usando
ffmpeg
- Audio:
mp3,wav,m4a,flac,ogg - Video:
mp4,mov,mkv
macOS 10.15+Node.js 18+Rust- Entre
75 MBy1.55 GBlibres por modelo, según el modelo de Whisper que uses
-
yt-dlpSe usa para flujos de YouTube. Instalar con:brew install yt-dlp
-
ffmpegSe usa para acelerar audio y para postprocesado de YouTube. Instalar con:brew install ffmpeg
brew install node
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
npm install
npm run tauri devnpm install
CI=true npx tauri build --bundles app,dmgLos artefactos se generan en:
src-tauri/target/release/bundle/macos/AudioInk.appsrc-tauri/target/release/bundle/dmg/
- Abre
AudioInk. - Descarga un modelo de Whisper desde la app.
- Elige una fuente:
Filepara audio o video local.YouTubepara subtítulos o transcripción con Whisper. - Ajusta idioma, timestamps y velocidad si lo necesitas.
- Ejecuta la transcripción.
- Copia o exporta el resultado.
Turbo: recomendado por defecto, mejor equilibrio entre calidad y velocidadBase: buen equilibrio generalSmall: mejor precisiónMedium: alta precisiónTiny: más rápido, menos preciso
audioink-rs/
├── src/ # Frontend en HTML, CSS y JavaScript
└── src-tauri/ # App de escritorio en Rust + Tauri
└── src/
├── commands/ # Comandos Tauri
├── core/ # Whisper, audio, YouTube
├── models/ # Tipos y estructuras
├── persistence/ # Historial
└── utils/ # Utilidades y manejo de errores
- Frontend: HTML, CSS y JavaScript vanilla
- Desktop: Tauri 2
- Backend: Rust
- Transcripción:
whisper-rs(bindings dewhisper.cppconMetalen Apple Silicon) - Decodificación de audio:
Symphonia
MIT