Description
Ce script Python permet de sélectionner une image via l'explorateur de fichier, de saisir un prompt dans la console, puis d'appeler le modèle qwen2.5vl:3b via la CLI Ollama pour générer une réponse basée sur l'image et le prompt.
Prérequis
- Python 3.6+
- Tkinter (inclus par défaut dans la plupart des distributions Python). Si besoin installer en utilisant la commande sudo apt-get install python3-tk sur linux ou wsl
- Ollama installé avec le modèle qwen2.5vl:3b
ollama pull qwen2.5vl:3b
Installation
- Clonez ce dépôt ou téléchargez le script :
git clone git@github.com:Razziat/local_vlm_chatbot.git ou https://github.com/Razziat/local_vlm_chatbot.git
cd local_vlm_chatbot/local_vlm_chatbot
- (Optionnel) Créez un environnement virtuel et activez-le :
python3 -m venv venv
source venv/bin/activate # macOS/Linux
venv\Scripts\activate # Windows
Utilisation
- Lancez le script :
python challenge_optionnel.py
-
Une fenêtre de sélection de fichier s'ouvre. Choisissez une image (PNG, JPG, JPEG, BMP, GIF).
-
Si aucun fichier n'est sélectionné, le programme s'arrête.
-
Dans la console, saisissez votre prompt et validez.
-
Le script appelle Ollama CLI et affiche la réponse du modèle.
Exemple de sortie
Entrez votre prompt : Décris cette image en détail.
Réponse du modèle :
...
Personnalisation
- Pour utiliser un autre modèle, modifiez la ligne dans
subprocess.run
:
["ollama", "run", "qwen2.5vl:3b", file_path, prompt],