Déployer un modèle localement – Méthode 1 : via Ollama
Du Hub Hugging Face → téléchargement → (conversion en GGUF si besoin) → création d’un Modelfile → exécution avec Ollama.
1) Choisir le modèle sur Hugging Face et créer un token
- Dans l’onglet Explorer, cliquez sur « Voir sur HuggingFace ».
- Créez un compte (si besoin), puis générez un « User Access Token » (Profil → Settings → Access Tokens). Conservez-le en lieu sûr.
Le token est requis pour télécharger des fichiers (privés/gated) et pour éviter les limites anonymes.
2) Télécharger les fichiers du modèle avec Python
Installez la librairie si besoin : pip install -U huggingface_hub
# Remplacez par votre token et le repo_id exact (ex: "TheBloke/Mixtral-8x7B-Instruct-GGUF" ou "org/model")
import os
os.environ["HUGGING_FACE_HUB_TOKEN"] = "hf_xxx..."
from huggingface_hub import snapshot_download
snapshot_download(
repo_id="org_or_user/repo_name",
local_dir="./modele_telecharge", # dossier de sortie
local_dir_use_symlinks=False, # copies réelles des fichiers
resume_download=True,
force_download=True,
max_workers=1
)
À la fin, regardez les extensions dans le dossier : .gguf
ou .safetensors
.
3) GGUF vs safetensors : convertir si nécessaire avec llama.cpp
Si vous avez déjà des fichiers .gguf, passez directement à l’étape 4. Si vous avez des .safetensors, convertissez-les en GGUF :
# 1) Récupérer llama.cpp (nouvelle organisation ggml-org)
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
pip install -r requirements.txt
# 2) (Optionnel) Voir l’aide du convertisseur
python3 convert.py -h
# 3) Convertir un repo Hugging Face (chemin local du dossier téléchargé)
python3 convert.py /chemin/vers/modele_telecharge --outfile ./modele.gguf
# Remarque : sur d’anciennes versions, le script pouvait s’appeler convert_hf_to_gguf.py
La conversion produit un .gguf prêt à être importé par Ollama.
4) Installer et lancer Ollama
- Installez Ollama (macOS, Linux, Windows). Sous Linux :
curl -fsSL https://ollama.com/install.sh | sh
- Lancez le serveur (si l’app Desktop n’est pas utilisée) :
ollama serve
Par défaut, Ollama écoute sur le port 11434.
5) Créer un Modelfile et importer le GGUF dans Ollama
Créez un fichier nommé Modelfile
dans un répertoire de travail :
# Modelfile minimal (remplacez par le chemin réel vers votre .gguf)
FROM /chemin/absolu/vers/modele.gguf
# (Optionnel) Paramètres / système / template
# PARAMETER temperature 0.7
# SYSTEM "Tu es un assistant utile et concis."
# TEMPLATE "Question: {{ .Prompt }}\nRéponse:"
Puis créez et lancez le modèle :
# Construire un modèle local "mon-modele" à partir du Modelfile
ollama create mon-modele -f Modelfile
# Exécuter le modèle
ollama run mon-modele
# (Optionnel) Voir les modèles / arrêter
# ollama list
# ollama stop mon-modele
Déployer un modèle localement – Méthode 2 : via LM Studio
LM Studio charge des modèles au format GGUF. Si vous avez déjà un .gguf, passez directement à l’étape 2. Sinon, convertissez vos .safetensors en GGUF avec llama.cpp (voir Étape 3 ci-dessus).
1) Préparer le modèle au format GGUF
- Si votre dépôt propose déjà un fichier .gguf (idéalement quantifié), téléchargez-le.
- Si vous n’avez que des .safetensors, convertissez-les en GGUF avec llama.cpp (même procédure que la Méthode 1, Étape 3).
Conseil : privilégiez une quantification adaptée à votre VRAM (ex. Q4_K_M, Q5_K_M, Q8_0).
2) Installer LM Studio
Installez LM Studio (macOS / Windows / Linux) puis ouvrez l’application.
3) Localiser le dossier « Local models folder »
- Dans LM Studio, allez dans l’onglet My Models.
- Relevez le chemin affiché pour Local models folder.
Vous allez y copier votre ou vos fichiers .gguf.
4) Créer l’arborescence et déplacer le .gguf
Dans le « Local models folder », créez un premier sous-dossier portant le nom de votre modèle (ex. « mistral-7b-instruct »). À l’intérieur, créez un second sous-dossier (ex. « model_gguf »), puis placez votre fichier .gguf dedans.
Exemple d’arborescence :
LocalModelsFolder/
└─ mistral-7b-instruct/
└─ model_gguf/
└─ mistral-7b-instruct.Q4_K_M.gguf
Si vous avez plusieurs quantifications (Q4, Q5, Q8…), placez-les dans le même dossier : LM Studio les affichera comme variantes.
5) Rafraîchir My Models et utiliser le modèle
- Revenez dans LM Studio → My Models , cliquez sur « Refresh/Rescan » si nécessaire.
- Votre modèle devrait apparaître. Sélectionnez-le pour l’utiliser dans l’interface (chat / complétion).