Ugrás a főtartalomra
Back to Insights
Meta AI Llama Mesterséges Intelligencia Nyílt Forráskód MoE Mélytanulás NVIDIA Mark Zuckerberg

A Meta AI Ökoszisztéma Öröksége és Átalakulása: Llama (2023-2026)

By Mordehai Attia 25 min read

Meta AI: A Személyes Szuperintelligencia Hajnala és az Ártatlanság Vége

2026 januárjában a mesterséges intelligencia ipara átlépett egy Rubikont. Ami 2023-ban még csupán egy őrült verseny volt a modellek méretéért, 2026-ra infrastrukturális, gazdasági és geopolitikai árokharccá változott. A Meta Platforms, Mark Zuckerberg irányítása alatt, központi és meglehetősen paradox szerepet játszott ebben az átalakulásban. Azzal, hogy kezdetben a nyitottság (vagyis a „nyílt súlyok”) útját választotta a Llama családdal, a vállalat árucikké tette a generatív mesterséges intelligenciát, kioltva versenytársai – mint az OpenAI és a Google – profitkulcsát. 2026 azonban egy kritikus fordulópontot jelöl: a tervezett tőkeberuházások (CAPEX) 115-135 milliárd dollár között mozognak a folyó pénzügyi évben, és a titanikus infrastruktúra megtérülésének nyomása még soha nem volt ilyen erős.

Ez a jelentés aprólékosan elemzi a Meta AI ökoszisztémáját. Nem elégszünk meg egy lineáris idővonallal. Elemezzük a mély architekturális töréseket – a monolitikus sűrű modellektől a ritka Mixture of Experts (MoE) architektúráig a Llama 4-gyel –, valamint a szoftver- és hardvermérnöki kihívásokat, amelyek minden iterációt kísértek. A 2022-es Galactica botránytól a 2026-os zárt „Avocado” projekt tartós pletykáiig megvizsgáljuk, hogyan navigált a Meta az akadémiai ideál, a nyílt forráskódú pragmatizmus és a kereskedelmi imperatívusok között.

Ez az elemzés számos technikai forrásra, pénzügyi jelentésre és közösségi visszajelzésre támaszkodik, hogy 360 fokos perspektívát nyújtson a 21. század egyik legbefolyásosabb technológiai jelenségéről.

1. Fejezet: A Kezdetek és a Véletlen Születés (2022-2023)

1.1 Az Elfeledett Előretörés: Galactica és OPT-175B

Mielőtt a „Llama” név szinonimája lett a nyílt forráskódú MI-nek, a Meta AI (akkor FAIR) már a nagy nyelvi modellek határait feszegette, ám szigorúan akadémiai megközelítéssel, amely hamarosan ütközött a piaci valósággal.

2022 májusában a Meta kiadta az OPT-175B-t (Open Pretrained Transformer). Ez a modell, amelyet a GPT-3 képességeinek reprodukálására terveztek, közvetlen válasz volt az OpenAI növekvő átláthatatlanságára. 992 vagy 1024 darab NVIDIA A100 80GB GPU-n közel két hónapig képezve, az OPT célja, hogy hozzáférést biztosítson a kutatóknak. Teljesítménye azonban egyenetlen volt, és architektúrája, bár szabványos, jelentős numerikus instabilitásokkal küzdött a képzés során. Az OPT kulcsfontosságú leckét adott a nagy léptékű infrastruktúra kezeléséről – egy olyan képességről, amely elengedhetetlenné vált a következő generációk számára.

Az OPT-175B tanulsága: A nagy léptékű elosztott képzés kifinomult párhuzamosítási technikákat és szigorú hardverhiba-kezelést igényel – olyan készségeket, amelyeket a Meta a Llama modellekkel fog tökélyre fejleszteni.

Tragikusabb sors várt a Galactica modellre, amelyet 2022 végén indítottak el. Ez a 120 milliárd paraméteres modell tudományos irodalomra specializálódott, egy hatalmas, 106 milliárd tokenből álló korpusszal képzve, amely cikkeket, enciklopédiákat és fehérjeseekvenciákat tartalmazott. Az általános modellektől eltérően a Galactica specializált tokenizálást használt a kémiai képletekhez (SMILES) és aminosav-szekvenciákhoz. Nyilvános bemutatkozása azonban PR-katasztrófába torkollt. Meggyőző, de hallucinált tudományos cikkek generálására volt képes, így a tudományos közösség nyomására néhány nap alatt visszavonták.

Ez a kudarc mélyen bevésődött a Meta kultúrájába, óvatosságot tanítva, amely késleltette a jövőbeni chatbotjainak nyilvános megjelenését, ugyanakkor paradox módon az alapokat teremtette meg egy másik stratégiához: adjuk el a motort (a modellt), ne az autót (a kész terméket).

1.2 Llama 1: A „Netscape-pillanat" a Helyi MI-ben

2023 februárja örökre bevonul a történelembe, mint az a pillanat, amikor a zárt laboratóriumok monopóliuma megrepedt. A Meta bejelentette a Llama-t (Large Language Model Meta AI), egy 7 és 65 milliárd paraméter közötti modellek gyűjteményét.

A Technikai Innováció: A Csincsilla-törvény

A Llama 1 alapvető hozzájárulása nem architekturális volt (klasszikus dekóder Transformer), hanem empirikus. A Hoffmann-féle skálázási törvényekre (ismertebb nevén Csincsilla-törvényekre) támaszkodva a Meta kutatói bebizonyították, hogy egy kisebb modell, amelyet sokkal több adaton képeznek, felülmúlhatja a nagy, alulképzett modelleket. A 65B modellt 1,4 trillió tokenen képezték, és versenyképes volt a GPT-3-mal (175B), miközben jóval olcsóbb volt az inferencia.

Llama 1 65B teljesítménye

  • Paraméterek: 65 milliárd (175B a GPT-3-hoz képest)
  • Képzési tokenek: 1,4 trillió
  • Inferencia: ~3x olcsóbb, mint a GPT-3

A Kifolyás és a Kambriumi Robbanás

Kezdetben csak akkreditált kutatók számára volt elérhető, de a modell súlyai kiszivárogtak a 4chan-re, és egy héten belül BitTorrenten keresztül elterjedtek. Ami szellemi tulajdon-katasztrófa lehetett volna, véletlenszerű bravúrrá vált. Egy globális fejlesztői közösség ragadta meg a modellt. Néhány héten belül Georgi Gerganov közzétette a llama.cpp-t, lehetővé téve az inferenciát Apple Silicon CPU-kon 4 bites kvantálással.

Ez volt a „helyi MI" születése. Hirtelen egy MacBook Air képes volt kompetens nyelvi modellt futtatni. Ez a kényszerű demokratizálás létrehozott egy eszközökoszisztémát (Ollama, LM Studio, LoRA), amely ma a Meta védőárokja: miért használna bárki más modellt, amikor a világ összes eszköze a Llama-hoz van optimalizálva?

2. Fejezet: Az Iparosítás és a Szabványosítás (2023-2024)

2.1 Llama 2: A Kereskedelmi Elfogadás és az RLHF Illesztés

2023 júliusa hozta el a Llama 2 bemutatkozását, amely az kísérletezéstől a termelésig terelte a fejlesztést. A fő különbség a licencben rejlett: a Llama 2 lehetővé tette a kereskedelmi felhasználást (700 millió aktív felhasználónál nagyobb vállalatokra vonatkozó korlátozással), így a startupok és a Fortune 500 vállalatok is integrálhatták ezeket a modelleket.

Architektúra és Biztonság

A Llama 2 megduplázta a kontextusablakot 4096 tokenre, és bevezette a Csoportosított Lekérdezési Figyelmet (GQA) a nagyobb modellekben a KV cache optimalizálására. De a legnagyobb erőfeszítés az illesztésre (alignment) irányult. Masszív RLHF (Reinforcement Learning from Human Feedback) alkalmazásával a Meta nagyon biztonságos „Chat" modelleket hozott létre, amelyek olykor túlzottan is visszautasítottak ártalmatlan kéréseket.

2.2 Llama 3: A Sűrű Modell Csúcsának Keresése

2024-et a sűrű architektúra határainak feszegetése jellemezte. A Llama 3 sorozattal (és 3.1-es változataival) a Meta azt akarta bebizonyítani, hogy egy nyílt súlyú modell képes felvenni a versenyt a referencia „frontier modellel", a GPT-4-gyel.

A 405B Szörnyeteg

2024 júliusában kiadták a Llama 3.1 405B-t. Ez technikai bravúr volt:

  • Masszív Képzés: Több mint 15 trillió multilingvális tokenen képezték.
  • Infrastruktúra: 16 000 H100 GPU-ból álló klasztert igényelt, komplex 4D párhuzamosítási technikákkal a gyakori hardverhibák elkerülésére.
  • Képességek: Ez lett az első nyílt modell, amely kiválóan teljesített komplex matematikai következtetésben és magas szintű kódgenerálásban, versenyképes volt a GPT-4o-val a nyilvános benchmarkokon.

A Kontextus Kiterjesztése (128k)

A 3.1-es verzió bevezette a 128 000 tokenes kontextusablakot. Ez a képesség forradalmasította a Llama modellek vállalati felhasználását, lehetővé téve hosszú dokumentumok (RAG) elemzését túlzott darabolás nélkül. Ezt a Rotary Embeddings (RoPE) frekvenciáinak pontos hangolásával érték el, lehetővé téve a modell számára, hogy túlgeneralizáljon a kezdeti képzési hosszon.

2.3 Llama 3.2: A Multimodális Átmenet

2024 végén a Llama 3.2 pótolta az utolsó nagy hiányosságot: a látást.

  • 11B és 90B modellek: Ezek a modellek vizuális adaptereket integráltak, lehetővé téve képek (diagramok, fotók) elemzését versenyképes teljesítménnyel.
  • Edge modellek (1B és 3B): Distillation (tudásátadás a 405B modellből kisebb architektúrákra) és strukturált metszés (pruning) alkalmazásával a Meta lehetővé tette a generatív MI futtatását okostelefonokon, előrevetítve a jövőbeli Ray-Ban integrációt.

3. Fejezet: Az Architekturális Forradalom 2025-ben – Llama 4 és a Szakértői Keverék

2025 az az év, amikor a Meta elhagyta a sűrű architektúra dogmáját, és elfogadta a MoE (Mixture of Experts – Szakértői Keverék) bonyolultságát. Az energia- és késleltetési költségek robbanásával már nem volt fenntartható a modellek monolitikus növelése.

3.1 A Llama 4 Anatómiája: Scout és Maverick

2025 áprilisában megjelentek a Llama 4 modellek, amelyek név- és technikai törést hoztak.

Jellemző Llama 4 „Scout" Llama 4 „Maverick"
Típus MoE (Ritka) MoE (Ritka)
Összes Paraméter ~109 Milliárd ~402 Milliárd
Aktív Paraméterek ~17 Milliárd ~17 Milliárd
Szakértők Száma 16 Szakértő 128 Szakértő (Finom szemcsézettség)
Kontextusablak 10 Millió (Elméleti) 1 Millió
Célfelhasználás Masszív RAG, Dokumentumelemzés Általános Következtetés

A MoE Működése a Metánál

A Mixtral megközelítésétől (8 szakértő) eltérően a Llama 4 Maverick sokkal finomabb szemcsézettséget használ 128 szakértővel.

Ritka Útválasztás: Minden token generálásakor egy útválasztó hálózat választ ki néhány szakértőt (top-k) a 128-ból. Ez lehetővé teszi a modell számára, hogy hatalmas tudásbázissal rendelkezzen (400B paraméter), miközben csak egy szerény modell (17B aktív) számítási energiáját használja.

Sűrű/MoE Váltakozás: A tanulás stabilizálása érdekében a Maverick sűrű (megosztott) figyelemrétegek és MoE rétegek között váltakozik, egy olyan technika, amely javítja a következtetés koherenciáját.

3.2 A „Végtelen" Kontextus Áttörése: iRoPE

A Llama 4 Scout zászlóshajó innovációja a 10 millió tokenes kontextusablak, amelyet az iRoPE (Infinite Rotary Positional Embedding) technológia hajt. Ez a technika lehetővé teszi a pozicionális frekvenciák dinamikus manipulálását, elméletileg lehetővé téve a modell számára, hogy egész könyvtárakat kezeljen egyetlen áthaladásban. Gyakorlatban ez azt célozta, hogy sok felhasználási esetben elavulttá tegye a bonyolult RAG architektúrákat (vektoradatbázisok), lehetővé téve a dokumentumok teljes „dumpolását" a promptba.

3.3 Kritikai Fogadtatás: A Teljesítmény Paradoxona

Ezek ellenére az előrehaladások ellenére a Llama 4 megjelenését vegyes, sőt ellenséges kritikák fogadták a „LocalLLaMA" technikai közösség és a vállalati fejlesztők részéről.

1. A Kód Visszaesése

A benchmarkok és felhasználói visszajelzések azt mutatták, hogy a Maverick gyakran rosszabbul teljesített tiszta kódgenerálási feladatokon (Python, C++), mint a régi Llama 3.1 405B. A domináns hipotézis szerint a tudás 128 szakértő közötti fragmentálása megnehezíti a programozáshoz szükséges szigorú logikai koherencia fenntartását, szemben a sűrű modell „izommemóriájával".

2. A VRAM Fal

A MoE architektúra komoly hardveres kihívást jelent: a memória. Bár a számítás könnyű (17B aktív), az összes súlynak (400B) VRAM-ban kell lennie.

Llama 4 Maverick VRAM követelményei:

  • FP16: ~800 GB VRAM (10-12 H100)
  • Q4_K_M (4-bit): ~250 GB VRAM
  • Hardverköltség: ~500 000 $ FP16 konfigurációhoz

Még 4 bites kvantálással (Q4_K_M) is a modell körülbelül 250 GB-ot igényel, kizárva a fogyasztói konfigurációkat (mint az RTX 4090), sőt a szerény munkaállomásokat is. Csak a Mac Studio Ultra (192GB egyesített memóriával) vagy a multi-GPU szerverek felhasználói tudták helyben futtatni.

4. Fejezet: A Forrongó Ökoszisztéma (2025-2026)

A Llama ereje nem csak a Meta által biztosított súlyokban rejlik, hanem a körülötte lévő nyílt forráskódú eszközök hadseregében is. 2025 a stresszteszt éve volt ebben az ökoszisztémában.

4.1 A llama.cpp Saga és a MoE Támogatás

A llama.cpp projekt, a helyi inferencia sarokköve, küzdött a Llama 4 integrálásával. A GitHub beszélgetések hónapokig tartó instabilitásról tanúskodnak:

  • RoPE hibák: Az iRoPE kezdeti implementációjának hibái teljesítménydegradációt (perplexity spikes) okoztak hosszú kontextusokon.
  • Kvantálási kihívások: A Maverick finom MoE szerkezete (128 szakértő) nem illett jól a meglévő kvantálási algoritmusokhoz (GGUF, EXL2), „szemétkimeneti" (garbage output) artefaktokat okozva alacsony pontosságon. Külső közreműködőknek és az Unsloth csapatának kellett beavatkoznia a „Dynamic GGUF" stabilizálásához, amely intelligensen kezelte a szakértők szelektív kvantálását.

4.2 Unsloth: A Finomhangolás Megmentője

Annak a ténynek a tükrében, hogy a legtöbb kutató nem tudott finomhangolni egy 400B paraméteres modellt, az Unsloth eszköz kritikussá vált. A visszaterjesztés optimalizálásával és a QLoRA (Quantized Low-Rank Adaptation) MoE architektúrákhoz való támogatásának implementálásával az Unsloth lehetővé tette a Llama 4 Scout finomhangolását egyetlen H100 80GB kártyán. Ez az eszköz nélkül a Llama 4 „játékszer" maradt volna a hyperscalerek számára, elérhetetlen az akadémiai vagy KKV innováció számára.

4.3 vLLM és az Ipari Szolgáltatás

A termelési telepítéshez a vLLM szabvánnyá vált. A vLLM 2025-2026-os ütemterve teljesen a MoE architektúrák optimalizálására és a „Scale-out"-ra összpontosít. A prefix caching (a prompt közös részeinek gyorsítótárazása) bevezetése elengedhetetlen volt a Llama 4 alapú ügynökök gazdaságos működéséhez, lehetővé téve a 10M tokenes kontextus újrafelhasználását több kérés között költséges újraszámítás nélkül.

5. Fejezet: Az Infrastruktúra és a Szilícium Háborúja

2026-ban a Meta stratégiáját nem lehet megérteni anélkül, hogy elemezzük hardveralapját. A MI nem éteri kód; ez áram, amely szilíciumon áramlik.

5.1 MTIA: A Stratégiai Függetlenség

A Meta függősége az NVIDIA-tól (és H100/Blackwell GPU-itól) létezési és pénzügyi kockázatot jelentett. A MTIA (Meta Training and Inference Accelerator) program a válasz.

  • MTIA v1/v2 (Inferencia): Már 2025-től a termelési inferencia nagy része (Instagram ajánlások, könnyű Llama modellek) ezekre a házon belüli chipekre került, amelyek energiahatékonyabbak a rutinfeladatokhoz.
  • MTIA Training (2026): Az igazi forradalom a hatalmas modellek képzésére képes chipek közelgő megjelenése. A nyílt RISC-V architektúrára épülve ezek a chipek lehetővé teszik a Meta számára, hogy testreszabja az utasításkészletet a Transformer-specifikus műveletekhez (Figyelem, MoE Routing). Ha a Meta sikerrel jár ebben a fogadásban, több milliárd dollárral csökkentheti MI CAPEX-ét, döntő versenyelőnyt szerezve a Google (TPU) és a Microsoft (Maia/NVIDIA) előtt.

5.2 Az Energia-gazdaságtan

A Llama 4 Maverickhez hasonló modellek, amelyek hatalmas energiát fogyasztanak képzéshez és inferenciához, arra kényszerítették a Metát, hogy hatalmas összegeket fektessenek be új generációs adatközpontokba. A Corninggal kötött 6 milliárd dolláros optikai kábelszerződés bejelentése és a fejlett folyadékhűtési rendszerek fejlesztése tanúbizonysága ennek a fizikai infrastruktúra-versenynek.

6. Fejezet: A Versenytársak 2026-os Térképe

A Llama nem vákuumban létezik. 2026 az az év, amikor a nyílt súlyú verseny strukturálódott, fenyegetve a Meta hegemóniáját.

6.1 Mistral Large 3: Az Európai Rivális

2025 decemberében megjelent a Mistral Large 3, amely a „tiszta" alternatívaként pozicionálta magát a Llama 4-gyel szemben.

  • Architektúra: MoE 41B aktív és 675B összes paraméterrel.
  • Differenciálás: A Maverickkel ellentétben a Mistral Large 3 kiválóan teljesít kódolásban és európai multilingvizmusban, kihasználva a Llama 4 gyengeségeit. Ráadásul Apache 2.0 licencje (valódi nyílt forráskód) megnyugtatja a Meta egyedi közösségi licenceivel szemben bizalmatlan jogi osztályokat.

6.2 DeepSeek és a Kínai Fenyegetés

A DeepSeek V3 és „Next" modelljeinek megjelenése felforgatta a piacot a teljesítmény/költség aránnyal. Gyakran vádolták azzal, hogy a Llama-ból merítenek, de ezek a modellek mégis innováltak (ultra-alacsony késleltetésű MoE architektúrák), és arra kényszerítették a Metát, hogy reagáljon. Jelentések szerint a Llama 4 is átvett néhány szakértő-útválasztási technikát a DeepSeek-től, hogy próbálja behozni hatékonysági lemaradását.

6.3 GPT-5 és Gemini 2.5: A Zárt Határ

A zárt oldalon a GPT-5 (2025 augusztus) és a Gemini 2.5 nagyobb távolságra került az „ügynöki" képességekben (hosszú távú tervezés, autonóm eszközhasználat). A Llama 4 továbbra is kiváló szöveggenerátor, de még mindig nehezen válik megbízható autonóm ügynökké nehéz promptmérnöki munka (RAG, Chain-of-Thought) nélkül.

7. Fejezet: A 2026-os Stratégiai Fordulat – Avocado Projekt

Ebben a heves versenyben és robbanó költségek között rajzolódik ki a Meta AI jövője.

7.1 „Avocado": A Kert Bezárása?

2026 eleji jelentések jelentős irányváltást jeleznek az „Avocado" projekttel.

  • Zárt Modell: A Llama vonallal ellentétben az Avocado zárt, proprietáris modell lehet, amelyet nem terjesztenek.
  • Cél: Egy monetizálható „Személyes Szuperintelligencia" létrehozása, amely kizárólag a Meta termékeibe (WhatsApp, Instagram, Ray-Ban) van integrálva.
  • Indoklás: A Meta vezetése, a részvényesek nyomása alatt, közvetlen megtérülést keres. A Llama „ingyenes" felkínálása lehetővé tette a piac árucikké tételét, de nem hozott közvetlen bevételt, amely összehasonlítható lenne a ChatGPT Plus vagy Gemini Advanced előfizetésekkel.

7.2 Belső Feszültségek és Kulturális Konfliktusok

Ez a fordulat belső feszültségeket okozott a Meta MI-csapatában. Alexandr Wang (ex-Scale AI) és más „termék" profilok integrálása, valamint a FAIR történelmi kutatóinak távozása kulturális átmenetet jelez: a nyílt kutatástól a kereskedelmi termékfejlesztésig. Az Avocado késése, az eleinte csalódást keltő teljesítmény miatt, csak fokozta ezeket a feszültségeket.

8. Fejezet: A SEO és az Információkeresés Átalakulása (2026)

A Llama-szerű modellek mindenütt jelenléte alapvetően megváltoztatta a web természetét, és ezzel együtt a SEO-t (Search Engine Optimization).

8.1 A Kulcsszó-kereséstől az Entitás-hitelességig

2026-ra a hagyományos keresőmotorok teret engedtek a generatív „Válaszmotoroknak" (Google AI Overviews, SearchGPT, Meta AI).

A Klikk Halála

A felhasználók közvetlenül a chat felületén kapják meg válaszaikat. Az információs weboldalak forgalma összeomlott.

Az Új SEO Stratégia

Ahogy a 2026-os szakértők hangsúlyozzák, a cél már nem a kulcsszavak rangsorolása, hanem hogy megbízható forrásként idézzenek minket az LLM-ek.

Márka-idézetek vs Backlinkek: A Llama-szerű modellek az entitások hitelességére vannak képezve. Egy márkát szakértői kontextusban kell említeni (szakmai fórumok, újságok, fehér könyvek), hogy beépüljön a modell „világnézetébe". A hagyományos backlinkek elveszítik értéküket a kontextuális „márka-idézetekkel" szemben.

8.2 A Llama mint Információ-őr

A Llama Facebookba, Instagramba és WhatsAppba történő integrálásával a Meta az egyik legnagyobb keresőmotorrá vált a világon. Ha egy felhasználó azt kérdezi a Meta AI asszisztenstől: „Mi a legjobb autóbiztosítás?", a választ a Llama 4 generálja. Jelen lenni a Meta képzési adatkészletében vagy valós idejű RAG indexében a digitális marketing Szent Gráljává vált 2026-ban.

Következtetés: Egy Átalakulóban Lévő Forradalom

A Llama története 2023-tól 2026-ig egy anomáliából normává válás története. A modelljeinek kiadásával a Meta évekkel felgyorsította a világ MI-innovációját, egy vibráló és ellenálló ökoszisztémát hozva létre, amely megcáfolta a centralizációs előrejelzéseket.

2026 azonban az ártatlanság végét jelöli. A fizikai (energia, szilícium), gazdasági (CAPEX) és versenytársi (Mistral, DeepSeek) korlátok racionalizálásra kényszerítenek. A bonyolult MoE architektúrájú Llama 4-gyel a Meta elérte, amit az átlagos felhasználó képes otthon futtatni. Az Avocado Projekttel a Meta egy olyan jövőre készül, ahol a legfejlettebb MI ismét fizetős és centralizált szolgáltatássá válik.

Túléli-e az ökoszisztéma ezt a fordulatot? A válasz valószínűleg a létrehozott nyílt forráskódú közösségben rejlik. Még ha a Meta holnap bezárja is a kapuit, az eszközök, a tudás és a származtatott modellek tovább fejlődnek. A szellem kiszabadult a palackból, és semmilyen korlátozó licenc nem tudja visszazárni.

Technikai Függelék: A Llama Modellek Összehasonlító Specifikációi

Az alábbi táblázat összefoglalja a Llama család technikai fejlődését, kiemelve a képességek és a hardverkövetelmények exponenciális növekedését.

Modell Megjelenés Dátuma Architektúra Paraméterek (Összes / Aktív) Kontextusablak Képzés (Tokenek) Multimodális Képesség VRAM Követelmény (FP16)
Llama 1 65B 2023 Február Sűrű 65B 2k 1.4T Nem ~130 GB
Llama 2 70B 2023 Július Sűrű (GQA) 70B 4k 2T Nem ~140 GB
Llama 3.1 405B 2024 Július Sűrű 405B 128k 15T+ Nem (Csak szöveg) ~800 GB
Llama 3.2 90B 2024 Szeptember Sűrű + Látás 90B 128k Ismeretlen Igen (Kép) ~180 GB
Llama 4 Scout 2025 Április MoE (Ritka) 109B / ~17B 10M (iRoPE) ~40T Igen (Natív) ~220 GB
Llama 4 Maverick 2025 Április MoE (Ritka) 402B / ~17B 1M ~22T Igen (Natív) ~800 GB

Megjegyzés a VRAM-ról: Az FP16 értékek a maximális pontosság ideális esetét jelölik. A 4 bites kvantálás (llama.cpp vagy bitsandbytes segítségével) általában 3-4-szeresére csökkenti ezeket a követelményeket, így a 70B-90B modellek multi-GPU fogyasztói konfigurációkon is elérhetővé válnak.