Guide classé

IA locale / privée — Votre cerveau, votre machine, vos règles

Q: "Pourquoi exécuter des modèles d'IA localement plutôt que dans le cloud\u0026nbsp;?"

"L\u0026rsquo;IA locale offre une confidentialité totale (les données ne quittent jamais votre machine), fonctionne hors ligne, ne nécessite pas d\u0026rsquo;abonnement récurrent et évite les limites de requêtes des API cloud."

Q: "Quel matériel est requis pour exécuter des modèles d'IA localement\u0026nbsp;?"

"Vous avez besoin d\u0026rsquo;un GPU performant avec suffisamment de VRAM (au moins 8 à 12 Go pour les petits modèles comme Llama 4 8B ou Gemma 4, et 16 à 24 Go ou plus pour les grands modèles comme Qwen 3.6 27B ou Gemma 4 31B) ou d\u0026rsquo;un Mac Apple Silicon avec mémoire unifiée (16 à 48 Go ou plus). L\u0026rsquo;exécution par CPU est très lente."

Q: "Quelle est la différence entre modèles open-source et open-weight\u0026nbsp;?"

"L\u0026rsquo;open-source réel inclut le jeu de données d\u0026rsquo;entraînement et le code. Les modèles open-weight (comme DeepSeek, Llama, Gemma) vous fournissent les poids pré-entraînés pour exécution locale, mais le jeu de données d\u0026rsquo;entraînement reste propriétaire."

Q: "Comment puis-je commencer à faire tourner un modèle d'IA local\u0026nbsp;?"

"Le plus simple est d\u0026rsquo;utiliser des applications gratuites comme Ollama, LM Studio ou AnythingLLM. Elles gèrent la configuration complexe du backend pour vous permettre de télécharger et discuter avec les modèles en un clic."

Voici une idée radicale : et si vous pouviez faire tourner une IA véritablement intelligente sur votre propre matériel, sans qu'aucune de vos données ne quitte jamais votre machine ? Pas de serveurs cloud. Pas de collecte de données. Pas de frais d'abonnement. Juste vous, votre portable et une intelligence qui respecte votre vie privée par conception. Bienvenue dans la révolution des modèles open-weight.

La décision d'abord

Notre classement

Commencez par le gagnant, puis comparez les compromis qui pourraient changer votre choix.

#1 IA Locale / Privée

GLM-5.2

Zhipu AI

Le modèle open-weight qui réécrit les règles de l'IA locale. Design Arena #1, SWE-bench Pro 62,1%, Terminal-Bench 82,7, AkitaOnRails 87/100 — et chaque aspect disponible sous licence MIT pour le télécharger, le quantifier et l'exécuter sur votre propre matériel. Une fenêtre de contexte de 1M tokens correctement entraînée, deux niveaux d'intensité de raisonnement, et le premier modèle ouvert à rivaliser véritablement avec les leaders fermés sur les tâches d'ingénierie à long horizon.

Pourquoi ça Gagne

Le modèle ouvert le plus puissant jamais publié pour le coding et le travail agentique — Design Arena #1 (Elo 1360), AkitaOnRails 87/100 Tier A (+41 depuis GLM-5.1), SWE-bench Pro 62,1% (SOTA open-weight), FrontierSWE 74,4% (1% derrière Opus 4.8). Licence MIT sans aucune restriction. 744B MoE (~40B actifs) — plus compact que les 1,6T de DeepSeek V4 avec des benchmarks vérifiés plus solides. Fonctionne sur vLLM, SGLang, ktransformers. Tient sur des Macs avec 256Go de mémoire unifiée avec une quantification agressive (~241Go en 2-bit dynamique).

L'Accroc

Le MoE 744B nécessite toujours du matériel sérieux — 256Go+ de mémoire unifiée ou clusters multi-GPU. Pas un modèle pour laptop. Aucune capacité de vision native. Plus lent par token que les modèles compacts comme Qwen 3.6 27B ou Gemma 4. L'outillage de l'écosystème occidental mûrit encore.

9.0 Note éditoriale

Lire l'avis

Idéal pour

Pourquoi ça Gagne

À surveiller

Kimi K3

Moonshot AI

Le premier modèle à poids ouverts qui ressemble à un cerveau fermé de pointe. 2,8 billions de paramètres en mixture-of-experts, vision native, un contexte complet d'un million de tokens et une licence qui autorise un usage commercial — le tout téléchargeable sur une machine que vous contrôlez. Le problème, c'est la machine : il faut un datacenter, pas un bureau.

8.5 Note éditoriale

Lire l'avis

Qwen3.6 — 27B

Alibaba (Qwen Team)

Le dernier modèle dense de 27B d'Alibaba ne se contente pas de succéder au précédent roi de l'IA locale — il surpasse son propre flagship de 397B sur chaque benchmark de codage agentique majeur tout en tournant sur un seul GPU grand public. SWE-bench Verified 77,2, Terminal-Bench 2.0 59,3, vision et vidéo natifs, Apache 2.0.

8.3 Note éditoriale

Lire l'avis

Gemma 4

Google DeepMind

Pas un modèle — cinq. Gemma 4 de Google DeepMind est une famille couvrant tout, d'un modèle de 2 milliards de paramètres qui tourne sur votre téléphone à un mastodonte dense de 31 milliards de paramètres pour serveurs. Chaque membre a une architecture différente, des forces différentes et des besoins matériels différents. Le E2B tient dans 1 Go de RAM. Le 12B Unified fait tourner une IA multimodale complète sur un GPU de laptop. Le 26B MoE n'active que 3,8B de paramètres par token. Tous Apache 2.0, tous open-weight, tous à vous. Ce guide passe en revue chacun pour que vous sachiez exactement quel Gemma correspond à votre matériel et votre utilisation.

8.2 Note éditoriale

Lire l'avis

Questions et réponses

Foire aux questions

Pourquoi exécuter des modèles d'IA localement plutôt que dans le cloud ?

Quel matériel est requis pour exécuter des modèles d'IA localement ?

Quelle est la différence entre modèles open-source et open-weight ?

Comment puis-je commencer à faire tourner un modèle d'IA local ?