IA locale / privée — Votre cerveau, votre machine, vos règles

Voici une idée radicale : et si vous pouviez faire tourner une IA véritablement intelligente sur votre propre matériel, sans qu'aucune de vos données ne quitte jamais votre machine ? Pas de serveurs cloud. Pas de collecte de données. Pas de frais d'abonnement. Juste vous, votre portable et une intelligence qui respecte votre vie privée par conception. Bienvenue dans la révolution des modèles open-weight.

Filtre Tous Écosystème Quotidien Génération d'Images Programmation Créateurs d'Applications Recherche Architectes Numériques Mentors Académiques Vidéo Musique et Voix IA Locale / Privée Agents IA

Qwen3.5 — 27B

IA Locale / Privée

Le monstre hybride de 27B d'Alibaba tourne sur un seul GPU de 24 Go et rivalise véritablement avec les modèles cloud frontier — vision, codage, contexte de 262K et 201 langues, le tout sous licence Apache 2.0.

Leader des benchmarks dans sa catégorie (GPQA 85,5, SWE-Bench 72,4, LiveCodeBench 80,7). Premier modèle local avec un véritable multimodal (vision + vidéo + OCR). Excellentes capacités agentiques et d'appel d'outils. Le subreddit r/LocalLLaMA le surnomme déjà « le nouveau compagnon quotidien ».

Nécessite ~17-18 Go de VRAM en 4 bits (parfait sur les cartes 24 Go, serré pour les configs 16 Go). Mode raisonnement activé par défaut — facile à désactiver mais surprenant au début.


Multimodal Open Weight Apache 2.0 Reasoning Vision Free Offline

GLM-5.1

IA Locale / Privée

La puissance agentique open-weight de Z.ai — conçue pour coder huit heures d'affilée sans perdre le fil. Même licence MIT, même liberté ouverte, mais désormais avec une exécution autonome soutenue qui rivalise avec les meilleurs modèles fermés sur les tâches d'ingénierie réelles.

Nouveau SOTA sur SWE-Bench Pro (58,4), bond massif sur CyberGym à 68,7, et démos réelles de sessions de codage de 655+ itérations sur 8+ heures. Fonctionne sur le même matériel que GLM-5 — remplacez les poids et c'est parti.

Toujours un très grand modèle (~754B paramètres totaux). Même avec 40B paramètres actifs par token et une quantification intensive, attendez-vous à des besoins élevés en VRAM. Texte uniquement — pas d'entrée visuelle ni multimodale. Le mode réflexion peut ajouter de la latence sur les requêtes simples.


Open Weight MIT Agentic Coding Free

Gemma 4

IA Locale / Privée

La réponse de Google à « et si une IA de pointe tournait sur votre téléphone ? » Gemma 4 n'est pas un modèle — c'est une famille de quatre, d'un modèle edge de 2 milliards de paramètres tenant dans 1,5 Go de RAM à un monstre dense de 31 milliards. Les variantes E2B et E4B apportent l'intelligence multimodale — texte, images et audio — sur smartphones, sans connexion internet.

E4B obtient 42,5 % sur AIME 2026, doublant le modèle 27B de la génération précédente. Licence Apache 2.0 complète. Entrée audio native sur les modèles edge. Support de 140+ langues. Quatre tailles distinctes couvrant chaque scénario, du Raspberry Pi à la station de travail.

Les petits modèles edge (E2B, E4B) n'ont pas la profondeur de raisonnement des modèles de bureau. Pas d'entrée vidéo sur les variantes edge (uniquement 26B et 31B). L'outillage de l'écosystème Google est privilégié — moins de compatibilité native avec les stacks non-Google.


Multimodal Open Weight Apache 2.0 On-Device Free