Local VLM Chatbot avec Ollama

Description

Ce script Python permet de sélectionner une image via l'explorateur de fichier, de saisir un prompt dans la console, puis d'appeler le modèle qwen2.5vl:3b via la CLI Ollama pour générer une réponse basée sur l'image et le prompt.

Prérequis

Python 3.6+
Tkinter (inclus par défaut dans la plupart des distributions Python). Si besoin installer en utilisant la commande sudo apt-get install python3-tk sur linux ou wsl
Ollama installé avec le modèle qwen2.5vl:3b

 ollama pull qwen2.5vl:3b

Installation

Clonez ce dépôt ou téléchargez le script :

git clone git@github.com:Razziat/local_vlm_chatbot.git ou https://github.com/Razziat/local_vlm_chatbot.git
cd local_vlm_chatbot/local_vlm_chatbot

(Optionnel) Créez un environnement virtuel et activez-le :

python3 -m venv venv
source venv/bin/activate  # macOS/Linux
venv\Scripts\activate    # Windows

Utilisation

Lancez le script :

python challenge_optionnel.py

Une fenêtre de sélection de fichier s'ouvre. Choisissez une image (PNG, JPG, JPEG, BMP, GIF).
Si aucun fichier n'est sélectionné, le programme s'arrête.
Dans la console, saisissez votre prompt et validez.
Le script appelle Ollama CLI et affiche la réponse du modèle.

Exemple de sortie

Entrez votre prompt : Décris cette image en détail.

Réponse du modèle :
...

Personnalisation

Pour utiliser un autre modèle, modifiez la ligne dans subprocess.run :

["ollama", "run", "qwen2.5vl:3b", file_path, prompt],