Skip to content

Solucionex/fastvlm-example

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

FastVLM – Descripción automática de imágenes (Docker + Streamlit)

Este proyecto permite ejecutar el modelo FastVLM-0.5B de Apple en local, sin necesidad de Internet durante la inferencia, gracias a la descarga previa del modelo dentro de la imagen Docker.

Ofrece una interfaz web mediante Streamlit en la que se puede subir una imagen y obtener una descripción automática utilizando Transformers.

Características

  • Ejecución de FastVLM-0.5B completamente local
  • Interfaz web con Streamlit
  • Implementación en contenedor Docker
  • Soporte opcional para GPU NVIDIA
  • Funcionamiento sin acceso a Hugging Face en tiempo de ejecución (local_files_only=True)
  • Modelo descargado y almacenado dentro de la imagen (/app/models/FastVLM-0.5B)

Estructura del proyecto

fastvlm/
├─ app.py
├─ Dockerfile
├─ docker-compose.yml
├─ requirements.txt
└─ README.md

Requisitos

Software necesario:

  • Docker
  • Docker Compose

Opcional GPU NVIDIA:

  • Drivers NVIDIA instalados
  • nvidia-container-toolkit configurado

Instalación

1. Construcción de la imagen Docker

La primera vez es necesario acceso a Internet porque se descargará el modelo desde Hugging Face:

docker compose build --no-cache

2. Ejecución del servicio

docker compose up

3. Acceso a la aplicación

Abrir en el navegador:

http://localhost:8501

Subir una imagen JPG o PNG y el modelo devolverá una descripción en español.

Rendimiento esperado

Entorno Observación
GPU NVIDIA RTX 3060 o superior Recomendado
CPU Funciona pero con latencias elevadas

Referencias

Licencia

Este proyecto utiliza el modelo FastVLM bajo licencia apple-amlr. Revisar la licencia completa en:

https://huggingface.co/apple/FastVLM-0.5B

About

Aplicación en Streamlit que ejecuta el modelo multimodal FastVLM-0.5B completamente en local mediante Docker y GPU, permitiendo subir una imagen y obtener una descripción generada por IA.

Resources

Stars

Watchers

Forks

Contributors