Das Erbe und die Metamorphose des Meta-AI-Ökosystems: Llama (2023-2026)

Meta AI: Die Dämmerung der persönlichen Superintelligenz und das Ende der Unschuld

Im Januar 2026 hat die KI-Industrie den Rubikon überschritten. Was 2023 noch ein rasendes Rennen um die Modellgröße war, hat sich in einen Grabenkrieg auf infrastruktureller, wirtschaftlicher und geopolitischer Ebene verwandelt. Meta Platforms unter der Führung von Mark Zuckerberg hat in dieser Entwicklung eine zentrale, fast paradoxe Rolle gespielt. Mit der anfänglichen Wahl des Open-Source-Ansatzes (bzw. der „Open Weights“-Strategie) mit der Llama-Familie hat das Unternehmen die generative KI kommodifiziert und die Margen proprietärer Konkurrenten wie OpenAI und Google untergraben. Doch das Jahr 2026 markiert einen kritischen Wendepunkt: Mit prognostizierten Kapitalaufwendungen (CAPEX) zwischen 115 und 135 Milliarden Dollar für das laufende Geschäftsjahr war der Druck zur Rentabilisierung dieser titanesken Infrastrukturen noch nie so hoch.

Dieser Bericht zielt darauf ab, das Meta-AI-Ökosystem akribisch zu dekonstruieren. Wir begnügen uns nicht mit einer linearen Chronologie. Wir analysieren die tiefen architektonischen Brüche – vom Übergang monolithischer dichter Modelle zu spärlichen Mixture-of-Experts-Architekturen (MoE) mit Llama 4 – sowie die software- und hardwaretechnischen Herausforderungen, die jede Iteration begleitet haben. Von der öffentlichen Debakel von Galactica 2022 bis zu den persistenten Gerüchten um das geschlossene „Avocado“-Projekt 2026 untersuchen wir, wie Meta zwischen akademischem Ideal, Open-Source-Pragmatismus und kommerziellen Imperativen navigierte.

Diese Analyse stützt sich auf eine Vielzahl technischer Quellen, Finanzberichte und Community-Feedbacks, um eine 360-Grad-Perspektive auf eines der einflussreichsten technologischen Phänomene des 21. Jahrhunderts zu bieten.

Kapitel 1: Die Anfänge und die zufällige Genesis (2022–2023)

1.1 Die vergessene Avantgarde: Galactica und OPT-175B

Bevor der Name „Llama“ zum Synonym für Open-Source-KI wurde, erforschte Meta AI (damals FAIR) bereits die Grenzen großer Sprachmodelle – jedoch mit einem streng akademischen Ansatz, der bald auf die Marktrealität stoßen sollte.

Im Mai 2022 veröffentlichte Meta OPT-175B (Open Pretrained Transformer). Dieses Modell, entwickelt, um die Fähigkeiten von GPT-3 zu replizieren, war eine direkte Antwort auf die zunehmende Undurchsichtigkeit von OpenAI. Trainiert auf 992 bzw. 1024 NVIDIA A100 80GB-GPUs über fast zwei Monate, zielte OPT darauf ab, Forschern eine zugängliche Alternative zu bieten. Allerdings war seine Leistung ungleichmäßig und seine Architektur, obwohl standardkonform, litt unter bemerkenswerten numerischen Instabilitäten während des Trainings. OPT diente als entscheidende Lektion in der Verwaltung großskaliger Infrastrukturen – eine Kompetenz, die für zukünftige Generationen unerlässlich werden sollte.

Tragischer verlief das Schicksal von Galactica, das Ende 2022 lanciert wurde. Dieses 120-Milliarden-Parameter-Modell war auf wissenschaftliche Literatur spezialisiert, trainiert auf einem massiven Korpus von 106 Milliarden Tokens, der Artikel, Enzyklopädien und Proteinsequenzen umfasste. Anders als generalistische Modelle nutzte Galactica eine spezialisierte Tokenisierung für chemische Formeln (SMILES) und Aminosäuresequenzen. Sein öffentlicher Launch jedoch geriet zum PR-Desaster. In der Lage, überzeugend klingende, aber halluzinierte wissenschaftliche Artikel zu generieren, wurde es innerhalb weniger Tage unter dem Druck der wissenschaftlichen Community zurückgezogen.

Dieses Scheitern prägte die Kultur von Meta nachhaltig und vermittelte eine Vorsicht, die die Veröffentlichung zukünftiger Chatbots für die breite Öffentlichkeit verzögern würde, aber paradoxerweise den Boden für eine andere Strategie bereitete: den Motor (das Modell) statt das Auto (das fertige Produkt) zu liefern.

1.2 Llama 1: Der „Netscape-Moment“ der lokalen KI

Der Februar 2023 wird als der Moment in Erinnerung bleiben, als das Monopol der geschlossenen Labore Risse bekam. Meta kündigte Llama (Large Language Model Meta AI) an, eine Sammlung von Modellen mit Größen von 7 bis 65 Milliarden Parametern.

Die technische Innovation: Das Chinchilla-Gesetz

Der fundamentale Beitrag von Llama 1 war nicht architektonisch (es war ein klassischer Decoder-Transformer), sondern empirisch. Gestützt auf die Skalierungsgesetze von Hoffmann (bekannt als Chinchilla-Gesetze) demonstrierten die Meta-Forscher, dass ein kleineres Modell, trainiert auf deutlich mehr Daten, größere untertrainierte Modelle übertreffen kann. Das 65B-Modell, trainiert auf 1,4 Billionen Tokens, konkurrierte mit GPT-3 (175B), während es deutlich kostengünstiger in der Inferenz war.

Das Leck und die Kambrium-Explosion

Ursprünglich akkreditierten Forschern vorbehalten, wurden die Modellgewichte auf 4chan geleakt und verbreiteten sich innerhalb einer Woche via BitTorrent. Was ein intellektuelles Eigentums-Desaster hätte sein können, verwandelte sich in einen unbeabsichtigten Meisterstreich. Eine globale Entwickler-Community eignete sich das Modell an. Innerhalb weniger Wochen veröffentlichte Georgi Gerganov llama.cpp, das Inferenz auf Apple Silicon CPUs über 4-Bit-Quantisierung ermöglichte.

Es war die Geburt der „lokalen KI“. Plötzlich konnte ein MacBook Air ein kompetentes Sprachmodell ausführen. Diese erzwungene Demokratisierung schuf ein Ökosystem von Tools (Ollama, LM Studio, LoRA), das heute die Schutzgraben (Moat) von Meta bildet: Warum ein anderes Modell nutzen, wenn alle Tools der Welt für Llama optimiert sind?

Kapitel 2: Industrialisierung und Standardisierung (2023–2024)

2.1 Llama 2: Kommerzielle Akzeptanz und RLHF-Ausrichtung

Im Juli 2023 wurde Llama 2 lanciert, was den Übergang vom Experimentieren zur Produktion markierte. Der Hauptunterschied lag in der Lizenz: Llama 2 erlaubte kommerzielle Nutzung (mit einer Restriktionsklausel für Unternehmen mit mehr als 700 Millionen aktiven Nutzern), was Startups und Fortune-500-Unternehmen die Integration dieser Modelle ermöglichte.

Architektur und Sicherheit

Llama 2 verdoppelte das Kontextfenster auf 4096 Tokens und führte die Grouped-Query Attention (GQA) bei den größeren Modellen ein, um den KV-Cache zu optimieren. Doch das Hauptaugenmerk lag auf der Ausrichtung. Durch massiven Einsatz von RLHF (Reinforcement Learning from Human Feedback) schuf Meta sehr sichere „Chat“-Modelle, manchmal zu sicher, was zu Kritik führte, dass sie berechtigte Anfragen ablehnten.

2.2 Llama 3: Das Streben nach dichter Spitzenleistung

Das Jahr 2024 war darauf ausgerichtet, die Grenzen dichter Architekturen zu verschieben. Mit der Serie Llama 3 (und seinen 3.1-Varianten) strebte Meta an zu beweisen, dass ein Open-Weights-Modell den Referenz-„Frontier-Model“ GPT-4 erreichen konnte.

Das 405B-Monster

Im Juli 2024 wurde Llama 3.1 405B freigegeben. Es war eine technische Meisterleistung:

Massives Training: Trainiert auf mehr als 15 Billionen multilingualen Tokens.
Infrastruktur: Erforderte ein Cluster von 16.000 H100-GPUs, verwaltet mit komplexen 4D-Parallelisierungstechniken, um häufige Hardware-Ausfälle in diesem Maßstab zu vermeiden.
Fähigkeiten: Es wurde das erste Open-Modell, das in komplexem mathematischen Reasoning und High-Level-Codegenerierung exzellierte und in öffentlichen Benchmarks mit GPT-4o konkurrierte.

Die Kontexterweiterung (128k)

Version 3.1 führte ein Kontextfenster von 128.000 Tokens ein. Diese Fähigkeit hat die Unternehmensnutzung von Llama-Modellen transformiert und ermöglichte die Analyse langer Dokumente (RAG) ohne übermäßige Fragmentierung. Dies wurde durch präzise Anpassungen der Frequenzen der Rotary Embeddings (RoPE) ermöglicht, was dem Modell erlaubte, über seine ursprüngliche Trainingslänge hinaus zu generalisieren.

2.3 Llama 3.2: Der multimodale Übergang

Ende 2024 schloss Llama 3.2 die letzte große Lücke: Vision.

11B- und 90B-Modelle: Diese Modelle integrierten visuelle Adapter und ermöglichten Reasoning über Bilder (Diagramme, Fotos) mit wettbewerbsfähiger Leistung.
Edge-Modelle (1B und 3B): Unter Verwendung von Distillation (Wissenstransfer vom 405B-Modell zu kleineren Architekturen) und strukturiertem Pruning ermöglichte Meta die Ausführung generativer KI direkt auf Smartphones, was die zukünftige Integration in Ray-Ban-Brillen antizipierte.

Kapitel 3: Die architektonische Revolution 2025 – Llama 4 und das Mixture of Experts

Das Jahr 2025 wird als das Jahr in Erinnerung bleiben, in dem Meta das Dogma dichter Architekturen aufgab und die Komplexität der Mixture of Experts (MoE) umarmte. Angesichts der explodierenden Energiekosten und Latenz war es nicht mehr tragbar, Modelle monolithisch wachsen zu lassen.

3.1 Anatomie von Llama 4: Scout und Maverick

Veröffentlicht im April 2025, führten die Llama-4-Modelle einen Bruch in Nomenklatur und Technik ein.

Eigenschaft	Llama 4 „Scout“	Llama 4 „Maverick“
Typ	MoE (Sparse)	MoE (Sparse)
Gesamtparameter	~109 Milliarden	~402 Milliarden
Aktive Parameter	~17 Milliarden	~17 Milliarden
Anzahl Experten	16 Experten	128 Experten (Feingranular)
Kontextfenster	10 Millionen (Theoretisch)	1 Million
Zielnutzung	Massives RAG, Dokumentenanalyse	Allgemeines Reasoning

Die Funktionsweise von MoE bei Meta

Im Gegensatz zum Mixtral-Ansatz (8 Experten) nutzt Llama 4 Maverick eine deutlich feinere Granularität mit 128 Experten.

Sparse Routing: Für jeden generierten Token wählt ein Routing-Netzwerk (Router Network) eine Handvoll Experten (top-k) aus den 128 aus. Dies ermöglicht dem Modell, eine immense Wissensbasis (400B Parameter) zu besitzen, während es nur die Energie eines bescheidenen Modells (17B aktiv) verbraucht.

Dichte/MoE-Alternanz: Um das Lernen zu stabilisieren, alterniert Maverick zwischen dichten (geteilten) Aufmerksamkeitsschichten und MoE-Schichten, eine Technik, die die Konsistenz des Reasonings verbessert.

3.2 Der Durchbruch des „unendlichen“ Kontexts: iRoPE

Das Aushängeschild-Innovation von Llama 4 Scout ist sein Kontextfenster von 10 Millionen Tokens, angetrieben durch eine Technologie namens iRoPE (Infinite Rotary Positional Embedding). Diese Technik ermöglicht die dynamische Manipulation positioneller Frequenzen, was dem Modell erlaubt, theoretisch ganze Bibliotheken in einem Durchgang zu verarbeiten. In der Praxis zielte dies darauf ab, komplexe RAG-Architekturen (Vektordatenbanken) für viele Anwendungsfälle obsolet zu machen, indem ein vollständiger „Dump“ von Dokumenten in den Prompt möglich wurde.

3.3 Kritische Rezeption: Das Leistungsparadoxon

Trotz dieser Fortschritte wurde der Launch von Llama 4 mit gemischten, sogar feindseligen Kritiken von der „LocalLLaMA“-Community und Unternehmensentwicklern aufgenommen.

1. Der Rückschritt beim Code

Benchmarks und Nutzerfeedback zeigten, dass Maverick oft schlechter abschnitt als das ältere Llama 3.1 405B bei reinen Codegenerierungsaufgaben (Python, C++). Die dominante Hypothese ist, dass die Fragmentierung des Wissens über 128 Experten es erschwert, die strikte logische Konsistenz aufrechtzuerhalten, die für das Programmieren notwendig ist – im Gegensatz zum vereinheitlichten „Muskelgedächtnis“ eines dichten Modells.

2. Die VRAM-Wand

Die MoE-Architektur stellt eine große hardwaretechnische Herausforderung dar: den Speicher. Obwohl die Berechnung günstig ist (17B aktiv), müssen alle Gewichte (400B) im VRAM residieren.

Selbst bei 4-Bit-Quantisierung (Q4_K_M) benötigt das Modell etwa 250 GB, was Consumer-Konfigurationen (wie RTX 4090) und sogar bescheidene Workstations außer Gefecht setzt. Nur Nutzer von Mac Studio Ultra (mit 192GB Unified Memory) oder Multi-GPU-Servern konnten es lokal nutzen.

Kapitel 4: Das brodelnde Ökosystem (2025–2026)

Die Stärke von Llama liegt nicht nur in den von Meta bereitgestellten Gewichten, sondern in der Armee von Open-Source-Tools, die sie umgeben. 2025 war ein Jahr des Stresstests für dieses Ökosystem.

4.1 Die llama.cpp-Saga und die MoE-Unterstützung

Das Projekt llama.cpp, Eckpfeiler der lokalen Inferenz, kämpfte mit der Integration von Llama 4. GitHub-Diskussionen offenbaren Monate der Instabilität:

RoPE-Bugs: Fehler in der ersten iRoPE-Implementierung verursachten Leistungsdegradationen (Perplexity-Spikes) bei langen Kontexten.
Quantisierungs-Herausforderungen: Die feine MoE-Struktur von Maverick (128 Experten) war schlecht für bestehende Quantisierungsalgorithmen (GGUF, EXL2) geeignet und erzeugte Generierungsartefakte („Garbage Output“) bei niedriger Präzision. Es bedurfte des Eingreifens externer Mitwirkender und des Unsloth-Teams, um „Dynamic GGUF“ zu stabilisieren, die in der Lage waren, selektive Quantisierung der Experten intelligent zu verwalten.

4.2 Unsloth: Der Retter des Fine-Tunings

Angesichts der Unmöglichkeit für die meisten Forscher, ein 400B-Parameter-Modell zu fine-tunen, wurde das Tool Unsloth kritisch. Durch Optimierung der Rückwärtspropagation und Implementierung der Unterstützung für QLoRA (Quantized Low-Rank Adaptation) für MoE-Architekturen ermöglichte Unsloth das Fine-Tuning von Llama 4 Scout auf einer einzigen H100 80GB-Karte. Ohne dieses Tool wäre Llama 4 ein „Spielzeug“ für Hyperscaler geblieben, unzugänglich für akademische Innovation oder KMU.

4.3 vLLM und das industrielle Serving

Für den Produktionseinsatz hat sich vLLM als Standard etabliert. Die vLLM-Roadmap 2025–2026 zeigt eine totale Fokussierung auf die Optimierung von MoE-Architekturen und „Scale-out“. Die Einführung von Prefix Caching (Zwischenspeicherung gemeinsamer Prompt-Teile) war entscheidend, um agentenbasierte Systeme auf Basis von Llama 4 wirtschaftlich tragbar zu machen, was die Wiederverwendung von 10M-Tokens-Kontext zwischen mehreren Anfragen ohne kostspielige Neuberechnung ermöglichte.

Kapitel 5: Der Infrastruktur- und Siliziumkrieg

2026 kann die Strategie von Meta nicht ohne Analyse ihres materiellen Substrats verstanden werden. KI ist kein ätherischer Code; sie ist Elektrizität, die durch Silizium fließt.

5.1 MTIA: Die strategische Unabhängigkeit

Die Abhängigkeit von Meta von NVIDIA (und seinen H100/Blackwell-GPUs) stellte ein existenzielles und finanzielles Risiko dar. Das MTIA-Programm (Meta Training and Inference Accelerator) ist die Antwort.

MTIA v1/v2 (Inferenz): Ab 2025 wurde ein Großteil der Produktionsinferenz (Instagram-Empfehlungen, leichte Llama-Modelle) auf diese hauseigenen Chips umgestellt, die für Routineaufgaben energieeffizienter sind.
MTIA Training (2026): Die wahre Revolution ist die bevorstehende Ankunft von Chips, die in der Lage sind, massive Modelle zu trainieren. Basierend auf der offenen RISC-V-Architektur ermöglichen diese Chips Meta, den Befehlssatz für transformer-spezifische Operationen (Attention, MoE-Routing) anzupassen. Wenn Meta diese Wette gewinnt, könnte sie ihren KI-CAPEX um mehrere Milliarden Dollar reduzieren – ein entscheidender Wettbewerbsvorteil gegenüber Google (TPU) und Microsoft (Maia/NVIDIA).

5.2 Die Energieökonomie

Mit Modellen wie Llama 4 Maverick, die massive Energiemengen für Training und Inferenz verbrauchen, musste Meta massiv in Rechenzentren der nächsten Generation investieren. Die Ankündigung von Verträgen für Glasfaserkabel mit Corning (6 Milliarden Dollar) und die Entwicklung fortschrittlicher Flüssigkeitskühlsysteme zeugen von diesem Wettlauf um die physische Infrastruktur.

Kapitel 6: Die Wettbewerbslandschaft 2026

Llama existiert nicht im luftleeren Raum. 2026 ist das Jahr, in dem sich der Open-Weights-Wettbewerb strukturierte und die Hegemonie von Meta bedrohte.

6.1 Mistral Large 3: Der europäische Rivale

Veröffentlicht im Dezember 2025, positionierte sich Mistral Large 3 als die „saubere“ Alternative zu Llama 4.

Architektur: MoE mit 41B aktiven und 675B Gesamtparametern.
Differenzierung: Anders als Maverick excelliert Mistral Large 3 in Code und europäischem Multilingualismus und kapitalisiert die Schwächen von Llama 4. Darüber hinaus beruhigt seine Apache-2.0-Lizenz (echt Open-Source) vorsichtige Rechtsabteilungen angesichts der maßgeschneiderten Community-Lizenzen von Meta.

6.2 DeepSeek und die chinesische Bedrohung

Das Aufkommen von DeepSeek mit seinen V3- und „Next“-Modellen hat den Markt durch ihr Leistungs-Kosten-Verhältnis aufgewühlt. Oft beschuldigt, sich von Llama inspirieren zu lassen, haben diese Modelle dennoch innoviert (MoE-Architekturen mit Ultra-Niedrig-Latenz) und Meta zum Handeln gezwungen. Berichte deuten sogar darauf hin, dass Llama 4 bestimmte Expert-Routing-Techniken von DeepSeek übernommen hat, um seinen Effizienzrückstand zu schließen.

6.3 GPT-5 und Gemini 2.5: Die geschlossene Grenze

Auf der proprietären Seite haben GPT-5 (August 2025) und Gemini 2.5 die Lücke bei „agentischen“ Fähigkeiten (Langzeitplanung, autonome Tool-Nutzung) vergrößert. Llama 4 bleibt ein ausgezeichneter Textgenerator, hat aber noch Schwierigkeiten, ohne schwere Prompt-Engineering (RAG, Chain-of-Thought) ein zuverlässiger autonomer Agent zu sein.

Kapitel 7: Die strategische Wende 2026 – Projekt Avocado

Es ist in diesem Kontext erbitterten Wettbewerbs und explodierender Kosten, dass sich die Zukunft von Meta AI abzeichnet.

7.1 „Avocado“: Die Schließung des Gartens?

Berichte vom Anfang 2026 deuten auf einen großen Kurswechsel mit dem Projekt „Avocado“ hin.

Geschlossenes Modell: Im Gegensatz zur Llama-Linie wäre Avocado ein proprietäres Modell, das nicht verteilt wird.
Ziel: Eine monetarisierbare „persönliche Superintelligenz“ zu schaffen, exklusiv in Meta-Produkten (WhatsApp, Instagram, Ray-Ban) integriert.
Rechtfertigung: Die Meta-Führung, unter Druck der Aktionäre, sucht nach direkter Kapitalrendite. Die kostenlose Bereitstellung von Llama hat den Markt kommodifiziert, aber keine direkten Einnahmen vergleichbar mit ChatGPT-Plus- oder Gemini-Advanced-Abonnements generiert.

7.2 Interne und kulturelle Spannungen

Diese Wende hat Reibungen innerhalb des Meta-AI-Teams geschaffen. Die Integration von „Produkt“-Profilen wie Alexandr Wang (ex-Scale AI) und der Abgang historischer FAIR-Forscher signalisieren einen kulturellen Übergang: von der offenen Forschung hin zur aggressiven Entwicklung kommerzieller Produkte. Die Verzögerung von Avocado aufgrund anfänglich enttäuschender Leistungen hat diese Spannungen nur verschärft.

Kapitel 8: Die Auswirkungen auf SEO und Informationsrecherche (2026)

Die Allgegenwart von Modellen wie Llama hat die Natur des Webs selbst und damit des SEO (Search Engine Optimization) grundlegend verändert.

8.1 Von der Keyword-Suche zur Entitätsautorität

2026 haben traditionelle Suchmaschinen an Boden gegenüber generativen „Antwortmaschinen“ (Google AI Overviews, SearchGPT, Meta AI) verloren.

Der Tod des Klicks

Nutzer erhalten ihre Antworten direkt in der Chat-Oberfläche. Der Traffic zu informativen Websites ist eingebrochen.

Die neue SEO-Strategie

Wie SEO-Experten 2026 hervorheben, ist das Ziel nicht mehr, Keywords zu ranken, sondern als verlässliche Quelle vom LLM zitiert zu werden.

8.2 Llama als Hüter der Information

Mit der Integration von Llama in Facebook, Instagram und WhatsApp ist Meta zu einer der größten Suchmaschinen der Welt geworden. Wenn ein Nutzer Meta AI fragt „Was ist die beste Kfz-Versicherung?“, wird die Antwort von Llama 4 generiert. Im Trainingsset von Meta oder in seinem Echtzeit-RAG-Index präsent zu sein, ist zum Heiligen Gral des digitalen Marketings 2026 geworden.

Fazit: Eine Revolution im Übergang

Die Geschichte von Llama, von 2023 bis 2026, ist die einer Anomalie, die zur Norm wurde. Durch die Freigabe ihrer Modelle hat Meta die globale KI-Innovation um mehrere Jahre beschleunigt und ein lebendiges, resilientes Ökosystem geschaffen, das Zentralisierungsvorhersagen widersprach.

Doch 2026 markiert das Ende der Unschuld. Physikalische (Energie, Silizium), wirtschaftliche (CAPEX) und wettbewerbliche (Mistral, DeepSeek) Zwänge erzwingen eine Rationalisierung. Mit Llama 4 und seiner komplexen MoE-Architektur hat Meta die Grenzen dessen erreicht, was der durchschnittliche Nutzer hosten kann. Mit Projekt Avocado scheint Meta eine Zukunft vorzubereiten, in der die fortschrittlichste KI wieder zu einem kostenpflichtigen, zentralisierten Dienst wird.

Wird das Llama-Ökosystem diese Wende überleben? Die Antwort liegt wahrscheinlich in der Open-Source-Community, die es hervorgebracht hat. Sollte Meta morgen seine Türen schließen, werden die Tools, das Wissen und die abgeleiteten Modelle weiterentwickeln. Der Dämon ist aus der Flasche, und keine restriktive Lizenz kann ihn wieder hineinbringen.

Technischer Anhang: Vergleichende Modellspezifikationen der Llama-Familie

Die folgende Tabelle fasst die technische Evolution der Llama-Familie zusammen und beleuchtet den exponentiellen Fortschritt der Fähigkeiten und Hardware-Anforderungen.

Modell	Veröffentlichung	Architektur	Parameter (Gesamt / Aktiv)	Kontextfenster	Training (Tokens)	Multimodale Fähigkeit	VRAM-Anforderung (FP16)
Llama 1 65B	Februar 2023	Dicht	65B	2k	1,4T	Nein	~130 GB
Llama 2 70B	Juli 2023	Dicht (GQA)	70B	4k	2T	Nein	~140 GB
Llama 3.1 405B	Juli 2024	Dicht	405B	128k	15T+	Nein (Text-only)	~800 GB
Llama 3.2 90B	September 2024	Dicht + Vision	90B	128k	Unbekannt	Ja (Bild)	~180 GB
Llama 4 Scout	April 2025	MoE (Sparse)	109B / ~17B	10M (iRoPE)	~40T	Ja (Nativ)	~220 GB
Llama 4 Maverick	April 2025	MoE (Sparse)	402B / ~17B	1M	~22T	Ja (Nativ)	~800 GB

Hinweis zu VRAM: Die FP16-Werte stellen den Idealzustand für maximale Präzision dar. Die Verwendung von 4-Bit-Quantisierung (über llama.cpp oder bitsandbytes) ermöglicht es normalerweise, diese Anforderungen durch 3 oder 4 zu dividieren, was Modelle bis zu 70B-90B auf Consumer-Multi-GPU-Konfigurationen zugänglich macht.