Devstral Small 2 en local : le hardware qu'il faut vraiment

Un assistant de code qui tourne en local. Pas de requêtes vers une API externe. Pas de données qui partent dans le cloud. L’idée me plaît. Devstral Small 2, le dernier modèle de Mistral AI optimisé pour le code, vient de sortir. 24 milliards de paramètres. 256K de contexte. 68% sur SWE-bench Verified. Je veux le tester.

J’installe Ollama sur mon Mac M4 Pro. brew install ollama. Sur Linux, c’est curl -fsSL https://ollama.com/install.sh | sh. Je télécharge le modèle quantifié Q4_K_M avec ollama pull devstral:24b-small-2505-q4_K_M. 14 Go de téléchargement. J’attends.

Premier test : générer une fonction “is_prime”. CPU à 900% pendant plus de 10 minutes. Aucune réponse. Je tue le processus.

Deuxième test : un simple “hi”. 3 minutes d’attente. “Hello! How can I assist you today” – 7 tokens. ollama ps montre 44 Go de mémoire utilisée, 62% CPU / 38% GPU. Le système swappe en permanence. 24 Go de RAM unifiée, c’est insuffisant.

Je comprends le problème. Par défaut, Ollama configure Devstral avec 128k tokens de contexte. C’est trop pour ma config. Il faut créer une variante avec un contexte réduit. Je crée un fichier Modelfile :

FROM devstral:24b-small-2505-q4_K_M
PARAMETER num_ctx 32768

Puis ollama create devstral-32k -f Modelfile. Je relance avec 4096 tokens pour voir : 14 Go de mémoire, 100% GPU, réponse en 26 secondes. Avec 8192 tokens : 15 Go, 100% GPU, 32 secondes. Utilisable, mais 8k tokens c’est trop court pour du code. A peine quelques fichiers. Sur Mac 24 Go, c’est le maximum.

Verdict : inutilisable pour du vrai travail.

Je passe sur mon desktop. RTX 4070 SUPER, 12 Go de VRAM, 94 Go de RAM. Les résultats changent :

Contexte	RAM	GPU	“hello”	is_prime
4k	15 Go	71%	4s	32s
32k	21 Go	50%	6s	48s
128k	44 Go	23%	11s	45s

C’est mieux. Mais si je compare aux APIs cloud :

Service	Vitesse
Devstral local (RTX 4070 SUPER)	~5-6 tok/s
Claude Sonnet	~75 tok/s
GPT-4o	~80-100 tok/s
Mistral Small	~94 tok/s

Le local, c’est 12-18x plus lent. Pour vérifier que le GPU travaille bien, nvidia-smi ou nvtop sur Linux. Sur Mac, Activity Monitor. Si le GPU n’est pas à 100%, il y a un problème.

Pour atteindre la fluidité des APIs, il faut du hardware plus costaud :

GPU	VRAM	Prix	Devstral Q4	Vitesse estimée
RTX 4070 SUPER	12 Go	~600 €	Offload CPU	~5-6 tok/s
RTX 4090	24 Go	~2 000 €	100% GPU	~35-40 tok/s
RTX 5090	32 Go	~2 300 €	100% GPU	~50-60 tok/s
RTX 6000 Ada	48 Go	~6 800 €	100% GPU + contexte large	~45-55 tok/s

La RTX 5090 est le meilleur rapport qualité/prix pour le LLM local en 2025. Plus rapide que la RTX 6000 Ada malgré moins de VRAM, grâce à sa bande passante mémoire supérieure.

L’alternative pour la plupart des gens : l’API Mistral. Devstral 2 (la version 123B, plus puissante) est gratuit via l’API jusqu’à fin décembre 2025. Après, ça passera à $0.40/$2.00 par million de tokens. La clé API se génère sur console.mistral.ai.

Le vrai avantage du local, au-delà de la confidentialité : on contrôle tout. Pas de rate limiting. Pas d’abonnement. Pas de dépendance à un service externe. Une fois installé, ça fonctionne offline. Pour du code sensible ou des projets clients avec des clauses de confidentialité strictes, c’est une vraie option – si on a le hardware pour.

Un Mac M4 Pro 24 Go, c’est du haut de gamme pour 95% du travail de dev. Pour les LLMs locaux, c’est insuffisant. Ça donne une idée de ce que ces modèles demandent.

Sources et benchmarks :

Points clés à retenir

✓ Mac M4 Pro 24 Go : insuffisant, swap permanent
✓ RTX 5090 (2 300 €) : meilleur rapport qualité/prix en 2025
✓ Local = 12-18x plus lent que les APIs cloud
✓ API Mistral gratuite jusqu'à fin décembre 2025

Points clés à retenir

Partager cet article