Un assistant de code qui tourne en local. Pas de requêtes vers une API externe. Pas de données qui partent dans le cloud. L’idée me plaît. Devstral Small 2, le dernier modèle de Mistral AI optimisé pour le code, vient de sortir. 24 milliards de paramètres. 256K de contexte. 68% sur SWE-bench Verified. Je veux le tester.
J’installe Ollama sur mon Mac M4 Pro. brew install ollama. Sur Linux, c’est curl -fsSL https://ollama.com/install.sh | sh. Je télécharge le modèle quantifié Q4_K_M avec ollama pull devstral:24b-small-2505-q4_K_M. 14 Go de téléchargement. J’attends.
Premier test : générer une fonction “is_prime”. CPU à 900% pendant plus de 10 minutes. Aucune réponse. Je tue le processus.
Deuxième test : un simple “hi”. 3 minutes d’attente. “Hello! How can I assist you today” – 7 tokens. ollama ps montre 44 Go de mémoire utilisée, 62% CPU / 38% GPU. Le système swappe en permanence. 24 Go de RAM unifiée, c’est insuffisant.
Je comprends le problème. Par défaut, Ollama configure Devstral avec 128k tokens de contexte. C’est trop pour ma config. Il faut créer une variante avec un contexte réduit. Je crée un fichier Modelfile :
FROM devstral:24b-small-2505-q4_K_M
PARAMETER num_ctx 32768
Puis ollama create devstral-32k -f Modelfile. Je relance avec 4096 tokens pour voir : 14 Go de mémoire, 100% GPU, réponse en 26 secondes. Avec 8192 tokens : 15 Go, 100% GPU, 32 secondes. Utilisable, mais 8k tokens c’est trop court pour du code. A peine quelques fichiers. Sur Mac 24 Go, c’est le maximum.
Verdict : inutilisable pour du vrai travail.
Je passe sur mon desktop. RTX 4070 SUPER, 12 Go de VRAM, 94 Go de RAM. Les résultats changent :
| Contexte | RAM | GPU | “hello” | is_prime |
|---|---|---|---|---|
| 4k | 15 Go | 71% | 4s | 32s |
| 32k | 21 Go | 50% | 6s | 48s |
| 128k | 44 Go | 23% | 11s | 45s |
C’est mieux. Mais si je compare aux APIs cloud :
| Service | Vitesse |
|---|---|
| Devstral local (RTX 4070 SUPER) | ~5-6 tok/s |
| Claude Sonnet | ~75 tok/s |
| GPT-4o | ~80-100 tok/s |
| Mistral Small | ~94 tok/s |
Le local, c’est 12-18x plus lent. Pour vérifier que le GPU travaille bien, nvidia-smi ou nvtop sur Linux. Sur Mac, Activity Monitor. Si le GPU n’est pas à 100%, il y a un problème.
Pour atteindre la fluidité des APIs, il faut du hardware plus costaud :
| GPU | VRAM | Prix | Devstral Q4 | Vitesse estimée |
|---|---|---|---|---|
| RTX 4070 SUPER | 12 Go | ~600 € | Offload CPU | ~5-6 tok/s |
| RTX 4090 | 24 Go | ~2 000 € | 100% GPU | ~35-40 tok/s |
| RTX 5090 | 32 Go | ~2 300 € | 100% GPU | ~50-60 tok/s |
| RTX 6000 Ada | 48 Go | ~6 800 € | 100% GPU + contexte large | ~45-55 tok/s |
La RTX 5090 est le meilleur rapport qualité/prix pour le LLM local en 2025. Plus rapide que la RTX 6000 Ada malgré moins de VRAM, grâce à sa bande passante mémoire supérieure.
L’alternative pour la plupart des gens : l’API Mistral. Devstral 2 (la version 123B, plus puissante) est gratuit via l’API jusqu’à fin décembre 2025. Après, ça passera à $0.40/$2.00 par million de tokens. La clé API se génère sur console.mistral.ai.
Le vrai avantage du local, au-delà de la confidentialité : on contrôle tout. Pas de rate limiting. Pas d’abonnement. Pas de dépendance à un service externe. Une fois installé, ça fonctionne offline. Pour du code sensible ou des projets clients avec des clauses de confidentialité strictes, c’est une vraie option – si on a le hardware pour.
Un Mac M4 Pro 24 Go, c’est du haut de gamme pour 95% du travail de dev. Pour les LLMs locaux, c’est insuffisant. Ça donne une idée de ce que ces modèles demandent.
Sources et benchmarks :
Points clés à retenir
- ✓ Mac M4 Pro 24 Go : insuffisant, swap permanent
- ✓ RTX 5090 (2 300 €) : meilleur rapport qualité/prix en 2025
- ✓ Local = 12-18x plus lent que les APIs cloud
- ✓ API Mistral gratuite jusqu'à fin décembre 2025