Este proyecto permite ejecutar el modelo FastVLM-0.5B de Apple en local, sin necesidad de Internet durante la inferencia, gracias a la descarga previa del modelo dentro de la imagen Docker.
Ofrece una interfaz web mediante Streamlit en la que se puede subir una imagen y obtener una descripción automática utilizando Transformers.
- Ejecución de FastVLM-0.5B completamente local
- Interfaz web con Streamlit
- Implementación en contenedor Docker
- Soporte opcional para GPU NVIDIA
- Funcionamiento sin acceso a Hugging Face en tiempo de ejecución (
local_files_only=True) - Modelo descargado y almacenado dentro de la imagen (
/app/models/FastVLM-0.5B)
fastvlm/
├─ app.py
├─ Dockerfile
├─ docker-compose.yml
├─ requirements.txt
└─ README.md
Software necesario:
- Docker
- Docker Compose
Opcional GPU NVIDIA:
- Drivers NVIDIA instalados
- nvidia-container-toolkit configurado
La primera vez es necesario acceso a Internet porque se descargará el modelo desde Hugging Face:
docker compose build --no-cachedocker compose upAbrir en el navegador:
http://localhost:8501
Subir una imagen JPG o PNG y el modelo devolverá una descripción en español.
| Entorno | Observación |
|---|---|
| GPU NVIDIA RTX 3060 o superior | Recomendado |
| CPU | Funciona pero con latencias elevadas |
- Modelo: https://huggingface.co/apple/FastVLM-0.5B
- Documentación Streamlit: https://docs.streamlit.io/
- Documentación Hugging Face Hub: https://huggingface.co/docs/hub
Este proyecto utiliza el modelo FastVLM bajo licencia apple-amlr. Revisar la licencia completa en: