Lokale / Private KI — Ihr Gehirn, Ihre Maschine, Ihre Regeln

Hier eine radikale Idee: Was wäre, wenn Sie eine wirklich intelligente KI auf Ihrer eigenen Hardware betreiben könnten, und nichts, was Sie ihr sagen, jemals Ihre Maschine verlässt? Keine Cloud-Server. Keine Datensammlung. Keine Abogebühren. Nur Sie, Ihr Laptop und eine Intelligenz, die Ihre Privatsphäre von vornherein respektiert. Willkommen zur Open-Weight-Revolution.

Filter Alle Alltags-Ökosystem Bildgenerierung Programmierung App-Builder Recherche Digitale Architekten Akademische Mentoren Video Musik & Stimme Lokale / Private KI KI-Agenten

Qwen3.5 — 27B

Lokale / Private KI

Alibabas 27B-Hybridmonster läuft auf einer einzigen 24-GB-GPU und konkurriert ernsthaft mit Cloud-Frontier-Modellen — Vision, Coding, 262K Kontext und 201 Sprachen, alles unter Apache 2.0. Das erste lokale Modell ohne Kompromisse.

Benchmark-führend in seiner Klasse (GPQA 85.5, SWE-Bench 72.4, LiveCodeBench 80.7). Erstes lokales Modell mit echter Multimodalität — Vision, Video, OCR. Exzellentes Agent- und Tool-Calling. r/LocalLLaMA nennt es „den neuen täglichen Begleiter.“

Braucht ~17–18 GB VRAM in 4-Bit — super auf 24-GB-Karten, eng auf 16-GB-Setups. Denk-Modus standardmäßig aktiv (leicht abschaltbar). Bei den absolut härtesten Multi-Turn-Agent-Aufgaben noch nicht ganz Frontier-Niveau.


Multimodal Open Weight Apache 2.0 Reasoning Vision Free Offline

GLM-5.1

Lokale / Private KI

Z.ais agentisches Open-Weight-Kraftpaket — gebaut, um acht Stunden am Stück zu programmieren, ohne den Faden zu verlieren. Gleiche MIT-Lizenz, gleiche offene Freiheit, aber jetzt mit ausdauernder autonomer Ausführung, die es mit den besten geschlossenen Modellen bei realen Ingenieuraufgaben aufnimmt.

Neuer SOTA auf SWE-Bench Pro (58,4), massiver CyberGym-Sprung auf 68,7 und reale Demos mit 655+ Iterations-Coding-Sessions über 8+ Stunden. Läuft auf derselben Hardware wie GLM-5 — Gewichte tauschen und loslegen.

Immer noch ein sehr großes Modell (~754B Gesamtparameter). Selbst mit 40B aktiven Parametern pro Token und starker Quantisierung hoher VRAM-Bedarf zu erwarten. Nur Text — kein Bild oder multimodaler Input. Denkmodus kann bei einfachen Anfragen Latenz verursachen.


Open Weight MIT Agentic Coding Free

Gemma 4

Lokale / Private KI

Googles Antwort auf die Frage: ‚Was wäre, wenn eine Frontier-KI auf dem Handy liefe?' Gemma 4 ist nicht ein Modell — es ist eine Familie von vieren, vom 2-Milliarden-Parameter-Edge-Modell, das in 1,5 GB RAM passt, bis zum 31-Milliarden-Parameter dichten Kraftpaket. Die E2B- und E4B-Varianten bringen multimodale Intelligenz — Text, Bilder und Audio — auf Smartphones, ohne Internetverbindung.

E4B erreicht 42,5 % bei AIME 2026 — verdoppelt das 27B-Modell der Vorgängergeneration. Volle Apache 2.0-Lizenz. Nativer Audio-Input bei Edge-Modellen. 140+ Sprachen. Vier verschiedene Größen für jedes Deployment-Szenario, vom Raspberry Pi bis zur Workstation.

Kleinere Edge-Modelle (E2B, E4B) haben nicht die volle Reasoning-Tiefe der Desktop-Klasse. Kein Video-Input bei Edge-Varianten (nur 26B und 31B). Google-Ökosystem-Tooling bevorzugt — weniger Out-of-the-Box-Kompatibilität mit Nicht-Google-Stacks.


Multimodal Open Weight Apache 2.0 On-Device Free