Déployer un modèle localement – Méthode 1 : via Ollama

Du Hub Hugging Face → téléchargement → (conversion en GGUF si besoin) → création d’un Modelfile → exécution avec Ollama.

Recommandation — Pour un modèle donné, commencez par chercher une version au format GGUF (idéalement déjà quantifiée) : cela simplifie et accélère fortement le déploiement avec Ollama. Si aucun GGUF n’est disponible, ou si vous avez besoin d’une quantification précise, partez de fichiers .safetensors et suivez la conversion en GGUF avec llama.cpp ci-dessous.

1) Choisir le modèle sur Hugging Face et créer un token

Dans l’onglet Explorer, cliquez sur « Voir sur HuggingFace ».
Créez un compte (si besoin), puis générez un « User Access Token » (Profil → Settings → Access Tokens). Conservez-le en lieu sûr.

Le token est requis pour télécharger des fichiers (privés/gated) et pour éviter les limites anonymes.

2) Télécharger les fichiers du modèle avec Python

Installez la librairie si besoin : pip install -U huggingface_hub

# Remplacez par votre token et le repo_id exact (ex: "TheBloke/Mixtral-8x7B-Instruct-GGUF" ou "org/model")
import os
os.environ["HUGGING_FACE_HUB_TOKEN"] = "hf_xxx..."

from huggingface_hub import snapshot_download

snapshot_download(
    repo_id="org_or_user/repo_name",
    local_dir="./modele_telecharge",          # dossier de sortie
    local_dir_use_symlinks=False,             # copies réelles des fichiers
    resume_download=True,
    force_download=True,
    max_workers=1
)

À la fin, regardez les extensions dans le dossier : .gguf ou .safetensors.

3) GGUF vs safetensors : convertir si nécessaire avec llama.cpp

Si vous avez déjà des fichiers .gguf, passez directement à l’étape 4. Si vous avez des .safetensors, convertissez-les en GGUF :

# 1) Récupérer llama.cpp (nouvelle organisation ggml-org)
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
pip install -r requirements.txt

# 2) (Optionnel) Voir l’aide du convertisseur
python3 convert.py -h

# 3) Convertir un repo Hugging Face (chemin local du dossier téléchargé)
python3 convert.py /chemin/vers/modele_telecharge --outfile ./modele.gguf

# Remarque : sur d’anciennes versions, le script pouvait s’appeler convert_hf_to_gguf.py

La conversion produit un .gguf prêt à être importé par Ollama.

4) Installer et lancer Ollama

Installez Ollama (macOS, Linux, Windows). Sous Linux :
curl -fsSL https://ollama.com/install.sh | sh
Lancez le serveur (si l’app Desktop n’est pas utilisée) :
ollama serve

Par défaut, Ollama écoute sur le port 11434.

5) Créer un Modelfile et importer le GGUF dans Ollama

Créez un fichier nommé Modelfile dans un répertoire de travail :

# Modelfile minimal (remplacez par le chemin réel vers votre .gguf)
FROM /chemin/absolu/vers/modele.gguf

# (Optionnel) Paramètres / système / template
# PARAMETER temperature 0.7
# SYSTEM "Tu es un assistant utile et concis."
# TEMPLATE "Question: {{ .Prompt }}\nRéponse:"

Puis créez et lancez le modèle :

# Construire un modèle local "mon-modele" à partir du Modelfile
ollama create mon-modele -f Modelfile

# Exécuter le modèle
ollama run mon-modele

# (Optionnel) Voir les modèles / arrêter
# ollama list
# ollama stop mon-modele

Note : si vous n’avez pas de GPU, Ollama peut tout de même fonctionner en CPU, mais les performances seront nettement inférieures.

Déployer un modèle localement – Méthode 2 : via LM Studio

LM Studio charge des modèles au format GGUF. Si vous avez déjà un .gguf, passez directement à l’étape 2. Sinon, convertissez vos .safetensors en GGUF avec llama.cpp (voir Étape 3 ci-dessus).

1) Préparer le modèle au format GGUF

Si votre dépôt propose déjà un fichier .gguf (idéalement quantifié), téléchargez-le.
Si vous n’avez que des .safetensors, convertissez-les en GGUF avec llama.cpp (même procédure que la Méthode 1, Étape 3).

Conseil : privilégiez une quantification adaptée à votre VRAM (ex. Q4_K_M, Q5_K_M, Q8_0).

2) Installer LM Studio

Installez LM Studio (macOS / Windows / Linux) puis ouvrez l’application.

3) Localiser le dossier « Local models folder »

Dans LM Studio, allez dans l’onglet My Models.
Relevez le chemin affiché pour Local models folder.

Vous allez y copier votre ou vos fichiers .gguf.

4) Créer l’arborescence et déplacer le .gguf

Dans le « Local models folder », créez un premier sous-dossier portant le nom de votre modèle (ex. « mistral-7b-instruct »). À l’intérieur, créez un second sous-dossier (ex. « model_gguf »), puis placez votre fichier .gguf dedans.

Exemple d’arborescence :

LocalModelsFolder/
└─ mistral-7b-instruct/
   └─ model_gguf/
      └─ mistral-7b-instruct.Q4_K_M.gguf

Si vous avez plusieurs quantifications (Q4, Q5, Q8…), placez-les dans le même dossier : LM Studio les affichera comme variantes.

5) Rafraîchir My Models et utiliser le modèle

Revenez dans LM Studio → My Models , cliquez sur « Refresh/Rescan » si nécessaire.
Votre modèle devrait apparaître. Sélectionnez-le pour l’utiliser dans l’interface (chat / complétion).

Note : si vous n’avez pas de GPU, LM Studio peut tout de même fonctionner en CPU, mais les performances seront nettement inférieures.