Meta AI Ekosistēmas Mantojums un Metamorfoze: Llama (2023-2026)

Meta AI: Personīgās Superintelekta Rītausma un Nevainības Beigas

2026. gada janvārī mākslīgā intelekta nozare pārcēla Rubikonu. Tas, kas 2023. gadā bija neprātīga sacensība par modeļa lielumu, pārvērtās par infrastrukturālu, ekonomisku un ģeopolitisku tranšu karu. Meta Platforms, Marka Zuckerberga vadībā, šajā evolūcijā spēlēja centrālu, gandrīz paradoksālu lomu. Izvēloties sākotnēji doties pa atvērto ceļu (jeb "open weights") ar Llama modeļu ģimeni, uzņēmums padarīja ģeneratīvo mākslīgo intelektu par preci, izēdot konkurentu slēgto modeļu, piemēram, OpenAI un Google, peļņu. Tomēr 2026. gads ir kritiskais pagrieziena punkts: ar projektētajiem kapitālieguldījumiem (CAPEX) starp 115 un 135 miljardiem dolāru pašreizējā finanšu gadā, spiediens atmaksāt šos titāniskos infrastruktūras ieguldījumus nekad nav bijis tik liels.

Šis ziņojums piedāvā detalizētu Meta AI ekosistēmas dekonstrukciju. Mēs neaprobežosimies ar lineāru hronoloģiju. Mēs analizēsim dziļās arhitektūras pārmaiņas — no monolītiskiem blīviem modeļiem uz "Mixture of Experts" (MoE) izkliedētām arhitektūrām ar Llama 4 — kā arī programmatūras inženierijas un aparatūras izaicinājumus, kas pavadīja katru iterāciju. No Galactica publiskās fiasko 2022. gadā līdz noturīgajām baumām par slēgto "Avocado" projektu 2026. gadā mēs pārbaudīsim, kā Meta ir manevrējusi starp akadēmisko ideālu, atvērtā koda pragmatismu un komerciālām nepieciešamībām.

Šī analīze balstās uz daudzām tehniskām avotiem, finanšu pārskatiem un kopienas atsauksmēm, lai piedāvātu 360 grādu perspektīvu par vienu no ietekmīgākajiem XXI gadsimta tehnoloģiskajiem fenomēniem.

1. nodaļa: Pirmsākumi un Nejaušā Dzimšana (2022–2023)

1.1 Aizmirstais Avangards: Galactica un OPT-175B

Pirms nosaukums "Llama" kļuva par atvērtā koda MI sinonīmu, Meta AI (tolaik FAIR) jau izpētīja lielo valodas modeļu robežas, bet ar stingru akadēmisku pieeju, kas drīz saskarsies ar tirgus realitāti.

2022. gada maijā Meta publicēja OPT-175B (Open Pretrained Transformer). Šis modelis, kas radīts, lai atdarinātu GPT-3 spējas, bija tieša atbilde uz pieaugošo OpenAI neskaidrību. Apmācīts uz 992 vai 1024 NVIDIA A100 80GB GPU gandrīz divus mēnešus, OPT mērķēja sniegt pētniekiem pieejamu alternatīvu. Tomēr tā veiktspēja bija nevienmērīga, un tā arhitektūra, lai gan standarta, cieta no ievērojamām skaitliskām nestabilitātēm apmācības laikā. OPT kalpoja par svarīgu mācību par liela mēroga infrastruktūras pārvaldību — prasmi, kas kļūs izšķiroša turpmākajām paaudzēm.

Vēl traģiskāks bija Galactica liktenis, kas tika palaists 2022. gada beigās. Šis 120 miljardu parametru modelis bija specializējies zinātniskajā literatūrā, apmācīts uz masīvu 106 miljardu tokenu korpusu, kas ietvēra rakstus, enciklopēdijas un olbaltumvielu secības. Atšķirībā no vispārējiem modeļiem, Galactica izmantoja specializētu tokenu veidošanu ķīmiskajām formulām (SMILES) un aminoskābju secībām. Tomēr tā publiskā palaišana pārvērtās par sabiedrisko attiecību katastrofu. Spējīgs ģenerēt pārliecinošus, bet halucinētus zinātniskus rakstus, tas tika atsaukts dažu dienu laikā zinātniskās kopienas spiediena dēļ.

Šis neveiksmīgais mēģinājums dziļi ieskāva Meta kultūrā, ieaudinot piesardzību, kas aizkavētu viņu turpmāko patērētāju tērzēšanas robotu izlaišanu, bet paradoksālā kārtā sagatavos augsni citādākai stratēģijai: nodrošināt dzinēju (modeli), nevis automašīnu (gatavo produktu).

1.2 Llama 1: Vietējās MI "Netscape Moments"

2023. gada februāris paliks atmiņā kā brīdis, kad slēgto laboratoriju monopols sāka plaisāt. Meta paziņoja par Llama (Large Language Model Meta AI) — modeļu kolekciju no 7 līdz 65 miljardiem parametru.

Tehniskā Inovācija: Chinchilla Likums

Llama 1 fundamentālais ieguldījums nebija arhitektūrā (tas bija klasiskais dekodera Transformers), bet empirisks. Balstoties uz Hofmane mērogošanas likumiem (sauktiem par Chinchilla likumiem), Meta pētnieki pierādīja, ka mazāks modelis, apmācīts uz daudz vairāk datiem, var pārspēt nepietiekami apmācītus milzu modeļus. 65B modelis, apmācīts uz 1,4 triljona tokenu, konkurēja ar GPT-3 (175B), vienlaikus esot daudz lētāks izsecināšanai.

Noplūde un Kambrija Sprādziens

Sākotnēji paredzēts tikai akreditētiem pētniekiem, modeļa svari noplūda uz 4chan un izplatījās caur BitTorrent mazāk nekā nedēļas laikā. Tas, kas varēja būt intelektuālā īpašuma katastrofa, pārvērtās par nejaušu meistardarbu. Pasaules izstrādātāju kopiena satvēra modeli. Dažu nedēļu laikā Georgi Gerganovs publicēja llama.cpp, kas ļāva izsecināšanu uz Apple Silicon CPU, izmantojot 4-bitu kvantizāciju.

Tas bija "vietējās MI" dzimšanas brīdis. Pēkšņi MacBook Air varēja darbināt kompetentu valodas modeli. Šī piespiedu demokratizācija radīja rīku ekosistēmu (Ollama, LM Studio, LoRA), kas šodien veido Meta aizsarggrāvju: kāpēc izmantot citu modeli, kad visi pasaules rīki ir optimizēti Llama?

2. nodaļa: Industrializācija un Standartizācija (2023–2024)

2.1 Llama 2: Komerciālā Iespējošana un RLHF Līdzināšana

2023. gada jūlijs redzēja Llama 2 palaišanu, kas iezīmēja pāreju no eksperimentēšanas uz ražošanu. Galvenā atšķirība bija licence: Llama 2 atļāva komerciālu izmantošanu (ar ierobežojošu klauzulu uzņēmumiem ar vairāk nekā 700 miljoniem aktīvu lietotāju), ļaujot jaunuzņēmumiem un Fortune 500 uzņēmumiem integrēt šos modeļus.

Arhitektūra un Drošība

Llama 2 dubultoja konteksta logu līdz 4096 tokeniem un ieviesa Grupēto Vaicājumu Uzmanību (GQA) lielākajos modeļos KV kešatmiņas optimizācijai. Bet vislielākās pūles tika veltītas līdzināšanai. Masveidā izmantojot RLHF (Pastiprināto Mācīšanos no Cilvēku Atgriezeniskās Saites), Meta radīja ļoti drošus "Chat" modeļus, dažkārt pārāk drošus, izraisot kritiku par viņu tendenci atteikties no nevainīgiem pieprasījumiem.

2.2 Llama 3: Cīņa par Blīvā Modeļa Virsotni

2024. gads tika veltīts blīvās arhitektūras robežu paplašināšanai. Ar Llama 3 sēriju (un tās 3.1 variantiem) Meta centās pierādīt, ka atvērtā svara modelis var līdzināties atskaites "frontier model" GPT-4.

Monstrs 405B

2024. gada jūlijā tika atbrīvots Llama 3.1 405B. Tas bija tehnisks tour de force:

Masīvā Apmācība: Apmācīts uz vairāk nekā 15 triljoniem daudzvalodu tokenu.
Infrastruktūra: Necessitēja 16 000 H100 GPU klasteri, pārvaldīts ar sarežģītām 4D paralēlisma metodēm, lai izvairītos no biežajām aparatūras kļūdām šajā mērogā.
Spējas: Tas kļuva par pirmo atvērto modeli, kas izcili veicās sarežģītā matemātiskā spriešanā un augstas kvalitātes koda ģenerēšanā, konkurējot ar GPT-4o publiskajos testos.

Konteksta Paplašinājums (128k)

3.1 versija ieviesa 128 000 tokenu konteksta logu. Šī spēja transformēja Llama modeļu izmantošanu uzņēmumos, ļaujot analizēt garus dokumentus (RAG) bez pārmērīgas sadalīšanas. Tas tika panākts, precīzi pielāgojot Rotary Embeddings (RoPE) biežumu, ļaujot modelim vispārināt ārpus sākotnējās apmācības garuma.

2.3 Llama 3.2: Multimodalā Pāreja

2024. gada beigās Llama 3.2 aizpildīja pēdējo lielo plaisu: redzi.

11B un 90B modeļi: Šie modeļi integrēja vizuālos adapterus, ļaujot spriest par attēliem (diagrammām, fotogrāfijām) ar konkurētspējīgu veiktspēju.
Malas modeļi (1B un 3B): Izmantojot destilāciju (zināšanu pārnešana no 405B modeļa uz mazākām arhitektūrām) un strukturētu apgriešanu (pruning), Meta ļāva ģeneratīvās MI darbināt tieši viedtālruņos, gatavojoties nākotnes integrācijai Ray-Ban brillēs.

3. nodaļa: 2025. gada Arhitektūras Revolūcija – Llama 4 un Ekspertu Maisījums

2025. gads paliks atmiņā kā gads, kad Meta pārtrauca blīvās arhitektūras dogmu, lai aptvertu Ekspertu Maisījuma (MoE – Mixture of Experts) sarežģītību. Saskaroties ar enerģijas izmaksu un latentuma eksploziju, vairs nebija dzīvotspējīgi augt modeļus monolītiski.

3.1 Llama 4 Anatomija: Scout un Maverick

Llama 4 modeļi, kas iznāca 2025. gada aprīlī, ieviesa nomenklatūras un tehnisku pārtraukumu.

Īpašība	Llama 4 "Scout"	Llama 4 "Maverick"
Veids	MoE (Izkliedēts)	MoE (Izkliedēts)
Kopējie Parametri	~109 Miljardi	~402 Miljardi
Aktīvie Parametri	~17 Miljardi	~17 Miljardi
Ekspertu Skaits	16 Eksperti	128 Eksperti (Smalka granulācija)
Konteksta Logs	10 Miljoni (Teorētisks)	1 Miljons
Mērķa Lietojums	Masīvs RAG, Dokumentu Analīze	Vispārīgā Spriešana

MoE Darbība Meta Veidā

Atšķirībā no Mixtral pieejas (8 eksperti), Llama 4 Maverick izmanto daudz smalkāku granulāciju ar 128 ekspertiem.

Izkliedēts Maršrutēšana: Katram ģenerētajam tokenu maršrutēšanas tīkls (router network) izvēlas sauju ekspertu (top-k) no 128. Tas ļauj modelim būt milzīgai zināšanu bāzei (400B parametru), vienlaikus tērējot enerģiju tikai no pieticīga modeļa (17B aktīvu).

Blīvā/MoE Alternēšana: Lai stabilizētu mācīšanos, Maverick alternē starp blīvām uzmanības slāņiem (kopīgiem) un MoE slāņiem — metodi, kas uzlabo spriešanas koherenci.

3.2 "Bezgalīgā" Konteksta Pārkāpums: iRoPE

Llama 4 Scout galvenā inovācija ir tā 10 miljonu tokenu konteksta logs, kas virza iRoPE (Infinite Rotary Positional Embedding) tehnoloģiju. Šī metode ļauj dinamiski manipulēt pozicionālajām frekvencēm, ļaujot modelim teorētiski apstrādāt veselas bibliotēkas vienā caurlaidē. Praksē tas bija vērsts uz sarežģītu RAG arhitektūru (vektoru datubāžu) novecošanu daudzos lietošanas gadījumos, ļaujot pilnībā "izgāzt" dokumentus uzvednē.

3.3 Kritiskā Uzņemšana: Veiktspējas Paradokss

Neskatoties uz šiem sasniegumiem, Llama 4 palaišana tika sagaidīta ar sajauktu, pat naidīgu kritiku no "LocalLLaMA" tehniskās kopienas un uzņēmumu izstrādātāju puses.

1. Koda Regresija

Testi un lietotāju atsauksmes parādīja, ka Maverick bieži veicās sliktāk nekā vecākais Llama 3.1 405B tīrās koda ģenerēšanas uzdevumos (Python, C++). Dominējošā hipotēze ir tāda, ka zināšanu fragmentācija caur 128 ekspertiem apgrūtina stingrās loģiskās koherences uzturēšanu, kas nepieciešama programmēšanai, atšķirībā no vienotās "muskuļu atmiņas" blīvā modelī.

2. VRAM Siena

MoE arhitektūra rada galveno aparatūras izaicinājumu: atmiņu. Lai arī aprēķins ir viegls (17B aktīvi), visiem svariem (400B) jāatrodas VRAM.

Pat 4-bitu kvantizācijā (Q4_K_M) modelis prasa aptuveni 250 GB, izslēdzot patērētāju konfigurācijas (piemēram, RTX 4090) un pat pieticīgās darbstacijas. Tikai Mac Studio Ultra lietotāji (ar vienotu 192GB atmiņu) vai multi-GPU serveri varēja to izmantot lokāli.

4. nodaļa: Vārīšanās Ekosistēma (2025–2026)

Llama spēks slēpjas ne tikai Meta nodrošinātajos svaros, bet arī atvērtā koda rīku armijā, kas tos ieskauj. 2025. gads bija stresa tests šai ekosistēmai.

4.1 llama.cpp Sāga un MoE Atbalsts

Projekts llama.cpp, vietējās izsecināšanas stūrakmens, cīnījās, lai integrētu Llama 4. GitHub diskusijas atklāj mēnešus nestabilitātes:

RoPE Kļūdas: Kļūdas sākotnējā iRoPE implementācijā izraisīja veiktspējas pasliktināšanos (perplexity spikes) garos kontekstos.
Kvantizācijas Izaicinājumi: Maverick smalkā MoE struktūra (128 eksperti) nebija piemērota esošajiem kvantizācijas algoritmiem (GGUF, EXL2), radot ģenerēšanas artefaktus ("garbage output") zemā precizitātē. Nepieciešama bija ārējo līdzdibinātāju un Unsloth komandas iejaukšanās, lai stabilizētu "Dynamic GGUF", kas spēja gudri pārvaldīt selektīvu ekspertu kvantizāciju.

4.2 Unsloth: Fine-Tuning Glābējs

Saskaroties ar neiespējamību lielākajai daļai pētnieku fine-tunot 400B parametru modeli, rīks Unsloth kļuva kritiski svarīgs. Optimizējot atpakaļpropagāciju un implementējot QLoRA (Quantized Low-Rank Adaptation) atbalstu MoE arhitektūrām, Unsloth ļāva fine-tunot Llama 4 Scout uz vienas H100 80GB kartes. Bez šī rīka Llama 4 būtu palicis "rotaļlieta" tikai hiperskaleriem, nepieejams akadēmiskajai jaunradei vai mazajiem uzņēmumiem.

4.3 vLLM un Industriālais Servings

Ražošanas izvietošanai vLLM ir kļuvis par standartu. vLLM 2025–2026. gada ceļvedis parāda pilnīgu fokusu uz MoE arhitektūru optimizāciju un "Scale-out". Prefiksa kešatmiņas (kopīgo uzvednes daļu kešēšana) ieviešana bija izšķiroša, lai ekonomiski padarītu Llama 4 bāzētus aģentus, ļaujot atkārtoti izmantot 10M tokenu kontekstu starp vairākiem pieprasījumiem bez dārgiem pārrēķiniem.

5. nodaļa: Infrastruktūru un Silīcija Karš

2026. gadā Meta stratēģiju nevar saprast bez tās aparatūras pamata analīzes. MI nav etērs kods; tas ir elektrība, kas plūst caur silīciju.

5.1 MTIA: Stratēģiskā Neatkarība

Meta atkarība no NVIDIA (un tā H100/Blackwell GPU) pārstāvēja eksistenciālu un finansiālu risku. MTIA (Meta Training and Inference Accelerator) programma ir atbilde.

MTIA v1/v2 (Izsecināšana): Jau 2025. gadā liela daļa ražošanas izsecināšanas (Instagram ieteikumi, vieglie Llama modeļi) tika pārcelta uz šīm pašu ražotajām mikroshēmām, kas ir enerģētiski efektīvākas ikdienas uzdevumiem.
MTIA Training (2026): Īstā revolūcija ir tuvojošās mikroshēmas, kas spēj apmācīt masīvus modeļus. Bāzētas uz atvērto RISC-V arhitektūru, šīs mikroshēmas ļauj Meta pielāgot instrukciju kopu specifiskām Transformers operācijām (Uzmanība, MoE Maršrutēšana). Ja Meta izdosies šīs derības, tā varētu samazināt savu MI CAPEX par vairākiem desmitiem miljardu dolāru — izšķirošu konkurences priekšrocību pret Google (TPU) un Microsoft (Maia/NVIDIA).

5.2 Enerģijas Ekonomika

Ar modeļiem kā Llama 4 Maverick, kas patērē masīvu enerģiju apmācībai un izsecināšanai, Meta bija jāiegulda masīvi jaunās paaudzes datu centros. Līgumu paziņojumi par optiskās šķiedras kabeļiem ar Corning (6 miljardi dolāru) un progresīvu šķidruma dzesēšanas sistēmu attīstība liecina par šo fiziskās infrastruktūras sacīksti.

6. nodaļa: Konkurējošā Vide 2026. gadā

Llama neeksistē vakuumā. 2026. gads ir gads, kad atvērto svaru konkurence strukturējās, apdraudot Meta hegemoniju.

6.1 Mistral Large 3: Eiropas Pretinieks

Iznācis 2025. gada decembrī, Mistral Large 3 pozicionējās kā "tīrā" alternatīva Llama 4.

Arhitektūra: MoE ar 41B aktīvajiem un 675B kopējiem parametriem.
Diferenciācija: Atšķirībā no Maverick, Mistral Large 3 izceļas kodā un Eiropas daudzvalodībā, kapitulējot uz Llama 4 vājībām. Turklāt tā Apache 2.0 licence (patiesi atvērtais kods) nomierina juridiskos departamentus, kas ir piesardzīgi pret Meta pielāgotajām kopienas licencēm.

6.2 DeepSeek un Ķīnas Drauds

DeepSeek parādīšanās ar saviem V3 un "Next" modeļiem satricināja tirgu ar savu veiktspējas/izmaksu attiecību. Bieži apsūdzēti par Llama iedvesmošanos, šie modeļi tomēr inovēja (ultra-zema latentuma MoE arhitektūras) un piespieda Meta reaģēt. Ziņojumi pat liecina, ka Llama 4 aizņēmās dažas ekspertu maršrutēšanas tehnikas no DeepSeek, cenšoties aizpildīt efektivitātes atstarpi.

6.3 GPT-5 un Gemini 2.5: Slēgtā Robeža

Īpašumtiesību pusē GPT-5 (2025. gada augusts) un Gemini 2.5 padziļināja plaisu "aģentu" spējās (ilgtermiņa plānošana, autonoma rīku izmantošana). Llama 4 joprojām ir lielisks teksta ģenerators, bet joprojām grūti ir kļūt par uzticamu autonomu aģentu bez smagas inženierijas (RAG, Chain-of-Thought).

7. nodaļa: 2026. gada Stratēģiskais Pagrieziens – Project Avocado

Tieši šajā nežēlīgās konkurences un sprādzienbīstamo izmaksu kontekstā veidojas Meta AI nākotne.

7.1 "Avocado": Dārza Aizvēršana?

2026. gada sākuma ziņojumi norāda uz lielu virziena maiņu ar "Avocado" projektu.

Slēgtais Modelis: Atšķirībā no Llama līnijas, Avocado būtu īpašumtiesību modelis, kas netiek izplatīts.
Mērķis: Radīt monetizējamu "Personīgo Superintelektu", ekskluzīvi integrētu Meta produktos (WhatsApp, Instagram, Ray-Ban).
Pamats: Meta vadība, akcionāru spiediena ietekmē, meklē tiešu ieguldījumu atdevi. Llama "bezmaksas" piedāvāšana ļāva padarīt tirgu par preci, bet nenesa tiešus ienākumus, salīdzināmus ar ChatGPT Plus vai Gemini Advanced abonementiem.

7.2 Iekšējās un Kultūrālās Spriedzes

Šis pagrieziens radīja berzi Meta MI komandā. "Produkta" profilu integrācija, piemēram, Aleksandra Vanga (ex-Scale AI), un vēsturisko FAIR pētnieku aiziešana signalizē kultūras pāreju: no atvērtas pētniecības uz agresīvu komerciālu produktu izstrādi. Avocado kavēšanās, ko izraisīja sākotnēji vilinošā veiktspēja, tikai pastiprināja šīs spriedzes.

8. nodaļa: Ietekme uz SEO un Informācijas Meklēšanu (2026)

Llama modeļu visuresošība fundamentāli mainīja paša tīmekļa dabu un, līdz ar to, SEO (Meklētājoptimizāciju).

8.1 No Atslēgvārdu Meklēšanas līdz Entitātes Autoritātei

2026. gadā tradicionālie meklētājdzinēji zaudēja teritoriju ģeneratīvajiem "Atbilžu Dzinējiem" (Google AI Overviews, SearchGPT, Meta AI).

Klika Nāve

Lietotāji saņem atbildes tieši tērzēšanas interfeisā. Datplūsma uz informatīvajiem tīmekļa vietnēm sabruka.

Jaunā SEO Stratēģija

Kā 2026. gadā norāda eksperti, mērķis vairs nav rangēt atslēgvārdus, bet būt citētam kā uzticams avots no LLM.

8.2 Llama kā Informācijas Sargs

Ar Llama integrāciju Facebook, Instagram un WhatsApp, Meta ir kļuvis par vienu no lielākajiem meklētājdzinējiem pasaulē. Ja lietotājs Meta AI asistentam jautā "Kura ir labākā auto apdrošināšana?", atbildi ģenerē Llama 4. Būt klāt Meta apmācības datu kopā vai reālā laika RAG indeksā ir kļuvis par 2026. gada digitālā mārketinga Svēto Grālu.

Noslēgums: Revolūcija Pārejā

Llama stāsts no 2023. līdz 2026. gadam ir par anomāliju, kas kļuva par normu. Atbrīvojot savus modeļus, Meta paātrināja globālo MI jaunradi par vairākiem gadiem, radot dzīvotspējīgu un izturīgu atvērtā koda ekosistēmu, kas izaicināja centralizācijas prognozes.

Tomēr 2026. gads iezīmē nevainības beigas. Fiziskie ierobežojumi (enerģija, silīcijs), ekonomiskie (CAPEX) un konkurences (Mistral, DeepSeek) spiež uz racionalizāciju. Ar Llama 4 un tā sarežģīto MoE arhitektūru Meta ir sasniedzis robežas tam, ko vidējais lietotājs var uzņemties. Ar Project Avocado Meta šķiet gatavojas nākotnei, kur progresīvākā MI atkal kļūst par maksas un centralizētu pakalpojumu.

Vai Llama ekosistēma izdzīvos šo pagriezienu? Atbilde, iespējams, slēpjas atvērtā koda kopienā, ko tas ir radījis. Pat ja Meta aizvērs durvis rīt, rīki, zināšanas un atvasinātie modeļi turpinās attīstīties. Gēnijs ir iznācis no lampas, un neviens ierobežojošs licenzes papīrs to nevar atgriezt atpakaļ.

Tehniskā Pielikums: Llama Modeļu Salīdzinošās Specifikācijas

Turpmākā tabula sintezē Llama modeļu ģimenes tehnisko evolūciju, izceļot eksponenciālo spēju un aparatūras prasību attīstību.

Modelis	Izlaišanas Datums	Arhitektūra	Parametri (Kopā / Aktīvie)	Konteksta Logs	Apmācība (Tokenu)	Daudzmodālā Spēja	VRAM Prasība (FP16)
Llama 1 65B	2023. gada februāris	Blīvs	65B	2k	1.4T	Nē	~130 GB
Llama 2 70B	2023. gada jūlijs	Blīvs (GQA)	70B	4k	2T	Nē	~140 GB
Llama 3.1 405B	2024. gada jūlijs	Blīvs	405B	128k	15T+	Nē (tikai teksts)	~800 GB
Llama 3.2 90B	2024. gada septembris	Blīvs + Redze	90B	128k	Nezināms	Jā (Attēls)	~180 GB
Llama 4 Scout	2025. gada aprīlis	MoE (Izkliedēts)	109B / ~17B	10M (iRoPE)	~40T	Jā (Dzimis)	~220 GB
Llama 4 Maverick	2025. gada aprīlis	MoE (Izkliedēts)	402B / ~17B	1M	~22T	Jā (Dzimis)	~800 GB

Piezīme par VRAM: FP16 vērtības pārstāv ideālu gadījumu maksimālai precizitātei. 4-bitu kvantizācijas izmantošana (caur llama.cpp vai bitsandbytes) parasti ļauj dalīt šīs prasības ar 3 vai 4, padarot modeļus līdz 70B-90B pieejamus patērētāju multi-GPU konfigurācijām.