Meta AI: Personīgās Superintelekta Rītausma un Nevainības Beigas
2026. gada janvārī mākslīgā intelekta nozare pārcēla Rubikonu. Tas, kas 2023. gadā bija neprātīga sacensība par modeļa lielumu, pārvērtās par infrastrukturālu, ekonomisku un ģeopolitisku tranšu karu. Meta Platforms, Marka Zuckerberga vadībā, šajā evolūcijā spēlēja centrālu, gandrīz paradoksālu lomu. Izvēloties sākotnēji doties pa atvērto ceļu (jeb "open weights") ar Llama modeļu ģimeni, uzņēmums padarīja ģeneratīvo mākslīgo intelektu par preci, izēdot konkurentu slēgto modeļu, piemēram, OpenAI un Google, peļņu. Tomēr 2026. gads ir kritiskais pagrieziena punkts: ar projektētajiem kapitālieguldījumiem (CAPEX) starp 115 un 135 miljardiem dolāru pašreizējā finanšu gadā, spiediens atmaksāt šos titāniskos infrastruktūras ieguldījumus nekad nav bijis tik liels.
Šis ziņojums piedāvā detalizētu Meta AI ekosistēmas dekonstrukciju. Mēs neaprobežosimies ar lineāru hronoloģiju. Mēs analizēsim dziļās arhitektūras pārmaiņas — no monolītiskiem blīviem modeļiem uz "Mixture of Experts" (MoE) izkliedētām arhitektūrām ar Llama 4 — kā arī programmatūras inženierijas un aparatūras izaicinājumus, kas pavadīja katru iterāciju. No Galactica publiskās fiasko 2022. gadā līdz noturīgajām baumām par slēgto "Avocado" projektu 2026. gadā mēs pārbaudīsim, kā Meta ir manevrējusi starp akadēmisko ideālu, atvērtā koda pragmatismu un komerciālām nepieciešamībām.
Šī analīze balstās uz daudzām tehniskām avotiem, finanšu pārskatiem un kopienas atsauksmēm, lai piedāvātu 360 grādu perspektīvu par vienu no ietekmīgākajiem XXI gadsimta tehnoloģiskajiem fenomēniem.
1. nodaļa: Pirmsākumi un Nejaušā Dzimšana (2022–2023)
1.1 Aizmirstais Avangards: Galactica un OPT-175B
Pirms nosaukums "Llama" kļuva par atvērtā koda MI sinonīmu, Meta AI (tolaik FAIR) jau izpētīja lielo valodas modeļu robežas, bet ar stingru akadēmisku pieeju, kas drīz saskarsies ar tirgus realitāti.
2022. gada maijā Meta publicēja OPT-175B (Open Pretrained Transformer). Šis modelis, kas radīts, lai atdarinātu GPT-3 spējas, bija tieša atbilde uz pieaugošo OpenAI neskaidrību. Apmācīts uz 992 vai 1024 NVIDIA A100 80GB GPU gandrīz divus mēnešus, OPT mērķēja sniegt pētniekiem pieejamu alternatīvu. Tomēr tā veiktspēja bija nevienmērīga, un tā arhitektūra, lai gan standarta, cieta no ievērojamām skaitliskām nestabilitātēm apmācības laikā. OPT kalpoja par svarīgu mācību par liela mēroga infrastruktūras pārvaldību — prasmi, kas kļūs izšķiroša turpmākajām paaudzēm.
Vēl traģiskāks bija Galactica liktenis, kas tika palaists 2022. gada beigās. Šis 120 miljardu parametru modelis bija specializējies zinātniskajā literatūrā, apmācīts uz masīvu 106 miljardu tokenu korpusu, kas ietvēra rakstus, enciklopēdijas un olbaltumvielu secības. Atšķirībā no vispārējiem modeļiem, Galactica izmantoja specializētu tokenu veidošanu ķīmiskajām formulām (SMILES) un aminoskābju secībām. Tomēr tā publiskā palaišana pārvērtās par sabiedrisko attiecību katastrofu. Spējīgs ģenerēt pārliecinošus, bet halucinētus zinātniskus rakstus, tas tika atsaukts dažu dienu laikā zinātniskās kopienas spiediena dēļ.
Šis neveiksmīgais mēģinājums dziļi ieskāva Meta kultūrā, ieaudinot piesardzību, kas aizkavētu viņu turpmāko patērētāju tērzēšanas robotu izlaišanu, bet paradoksālā kārtā sagatavos augsni citādākai stratēģijai: nodrošināt dzinēju (modeli), nevis automašīnu (gatavo produktu).
1.2 Llama 1: Vietējās MI "Netscape Moments"
2023. gada februāris paliks atmiņā kā brīdis, kad slēgto laboratoriju monopols sāka plaisāt. Meta paziņoja par Llama (Large Language Model Meta AI) — modeļu kolekciju no 7 līdz 65 miljardiem parametru.
Tehniskā Inovācija: Chinchilla Likums
Llama 1 fundamentālais ieguldījums nebija arhitektūrā (tas bija klasiskais dekodera Transformers), bet empirisks. Balstoties uz Hofmane mērogošanas likumiem (sauktiem par Chinchilla likumiem), Meta pētnieki pierādīja, ka mazāks modelis, apmācīts uz daudz vairāk datiem, var pārspēt nepietiekami apmācītus milzu modeļus. 65B modelis, apmācīts uz 1,4 triljona tokenu, konkurēja ar GPT-3 (175B), vienlaikus esot daudz lētāks izsecināšanai.
Noplūde un Kambrija Sprādziens
Sākotnēji paredzēts tikai akreditētiem pētniekiem, modeļa svari noplūda uz 4chan un izplatījās caur BitTorrent mazāk nekā nedēļas laikā. Tas, kas varēja būt intelektuālā īpašuma katastrofa, pārvērtās par nejaušu meistardarbu. Pasaules izstrādātāju kopiena satvēra modeli. Dažu nedēļu laikā Georgi Gerganovs publicēja llama.cpp, kas ļāva izsecināšanu uz Apple Silicon CPU, izmantojot 4-bitu kvantizāciju.
Tas bija "vietējās MI" dzimšanas brīdis. Pēkšņi MacBook Air varēja darbināt kompetentu valodas modeli. Šī piespiedu demokratizācija radīja rīku ekosistēmu (Ollama, LM Studio, LoRA), kas šodien veido Meta aizsarggrāvju: kāpēc izmantot citu modeli, kad visi pasaules rīki ir optimizēti Llama?
2. nodaļa: Industrializācija un Standartizācija (2023–2024)
2.1 Llama 2: Komerciālā Iespējošana un RLHF Līdzināšana
2023. gada jūlijs redzēja Llama 2 palaišanu, kas iezīmēja pāreju no eksperimentēšanas uz ražošanu. Galvenā atšķirība bija licence: Llama 2 atļāva komerciālu izmantošanu (ar ierobežojošu klauzulu uzņēmumiem ar vairāk nekā 700 miljoniem aktīvu lietotāju), ļaujot jaunuzņēmumiem un Fortune 500 uzņēmumiem integrēt šos modeļus.
Arhitektūra un Drošība
Llama 2 dubultoja konteksta logu līdz 4096 tokeniem un ieviesa Grupēto Vaicājumu Uzmanību (GQA) lielākajos modeļos KV kešatmiņas optimizācijai. Bet vislielākās pūles tika veltītas līdzināšanai. Masveidā izmantojot RLHF (Pastiprināto Mācīšanos no Cilvēku Atgriezeniskās Saites), Meta radīja ļoti drošus "Chat" modeļus, dažkārt pārāk drošus, izraisot kritiku par viņu tendenci atteikties no nevainīgiem pieprasījumiem.
2.2 Llama 3: Cīņa par Blīvā Modeļa Virsotni
2024. gads tika veltīts blīvās arhitektūras robežu paplašināšanai. Ar Llama 3 sēriju (un tās 3.1 variantiem) Meta centās pierādīt, ka atvērtā svara modelis var līdzināties atskaites "frontier model" GPT-4.
Monstrs 405B
2024. gada jūlijā tika atbrīvots Llama 3.1 405B. Tas bija tehnisks tour de force:
- Masīvā Apmācība: Apmācīts uz vairāk nekā 15 triljoniem daudzvalodu tokenu.
- Infrastruktūra: Necessitēja 16 000 H100 GPU klasteri, pārvaldīts ar sarežģītām 4D paralēlisma metodēm, lai izvairītos no biežajām aparatūras kļūdām šajā mērogā.
- Spējas: Tas kļuva par pirmo atvērto modeli, kas izcili veicās sarežģītā matemātiskā spriešanā un augstas kvalitātes koda ģenerēšanā, konkurējot ar GPT-4o publiskajos testos.
Konteksta Paplašinājums (128k)
3.1 versija ieviesa 128 000 tokenu konteksta logu. Šī spēja transformēja Llama modeļu izmantošanu uzņēmumos, ļaujot analizēt garus dokumentus (RAG) bez pārmērīgas sadalīšanas. Tas tika panākts, precīzi pielāgojot Rotary Embeddings (RoPE) biežumu, ļaujot modelim vispārināt ārpus sākotnējās apmācības garuma.
2.3 Llama 3.2: Multimodalā Pāreja
2024. gada beigās Llama 3.2 aizpildīja pēdējo lielo plaisu: redzi.
- 11B un 90B modeļi: Šie modeļi integrēja vizuālos adapterus, ļaujot spriest par attēliem (diagrammām, fotogrāfijām) ar konkurētspējīgu veiktspēju.
- Malas modeļi (1B un 3B): Izmantojot destilāciju (zināšanu pārnešana no 405B modeļa uz mazākām arhitektūrām) un strukturētu apgriešanu (pruning), Meta ļāva ģeneratīvās MI darbināt tieši viedtālruņos, gatavojoties nākotnes integrācijai Ray-Ban brillēs.
3. nodaļa: 2025. gada Arhitektūras Revolūcija – Llama 4 un Ekspertu Maisījums
2025. gads paliks atmiņā kā gads, kad Meta pārtrauca blīvās arhitektūras dogmu, lai aptvertu Ekspertu Maisījuma (MoE – Mixture of Experts) sarežģītību. Saskaroties ar enerģijas izmaksu un latentuma eksploziju, vairs nebija dzīvotspējīgi augt modeļus monolītiski.
3.1 Llama 4 Anatomija: Scout un Maverick
Llama 4 modeļi, kas iznāca 2025. gada aprīlī, ieviesa nomenklatūras un tehnisku pārtraukumu.
| Īpašība | Llama 4 "Scout" | Llama 4 "Maverick" |
|---|---|---|
| Veids | MoE (Izkliedēts) | MoE (Izkliedēts) |
| Kopējie Parametri | ~109 Miljardi | ~402 Miljardi |
| Aktīvie Parametri | ~17 Miljardi | ~17 Miljardi |
| Ekspertu Skaits | 16 Eksperti | 128 Eksperti (Smalka granulācija) |
| Konteksta Logs | 10 Miljoni (Teorētisks) | 1 Miljons |
| Mērķa Lietojums | Masīvs RAG, Dokumentu Analīze | Vispārīgā Spriešana |
MoE Darbība Meta Veidā
Atšķirībā no Mixtral pieejas (8 eksperti), Llama 4 Maverick izmanto daudz smalkāku granulāciju ar 128 ekspertiem.
Izkliedēts Maršrutēšana: Katram ģenerētajam tokenu maršrutēšanas tīkls (router network) izvēlas sauju ekspertu (top-k) no 128. Tas ļauj modelim būt milzīgai zināšanu bāzei (400B parametru), vienlaikus tērējot enerģiju tikai no pieticīga modeļa (17B aktīvu).
Blīvā/MoE Alternēšana: Lai stabilizētu mācīšanos, Maverick alternē starp blīvām uzmanības slāņiem (kopīgiem) un MoE slāņiem — metodi, kas uzlabo spriešanas koherenci.
3.2 "Bezgalīgā" Konteksta Pārkāpums: iRoPE
Llama 4 Scout galvenā inovācija ir tā 10 miljonu tokenu konteksta logs, kas virza iRoPE (Infinite Rotary Positional Embedding) tehnoloģiju. Šī metode ļauj dinamiski manipulēt pozicionālajām frekvencēm, ļaujot modelim teorētiski apstrādāt veselas bibliotēkas vienā caurlaidē. Praksē tas bija vērsts uz sarežģītu RAG arhitektūru (vektoru datubāžu) novecošanu daudzos lietošanas gadījumos, ļaujot pilnībā "izgāzt" dokumentus uzvednē.
3.3 Kritiskā Uzņemšana: Veiktspējas Paradokss
Neskatoties uz šiem sasniegumiem, Llama 4 palaišana tika sagaidīta ar sajauktu, pat naidīgu kritiku no "LocalLLaMA" tehniskās kopienas un uzņēmumu izstrādātāju puses.
1. Koda Regresija
Testi un lietotāju atsauksmes parādīja, ka Maverick bieži veicās sliktāk nekā vecākais Llama 3.1 405B tīrās koda ģenerēšanas uzdevumos (Python, C++). Dominējošā hipotēze ir tāda, ka zināšanu fragmentācija caur 128 ekspertiem apgrūtina stingrās loģiskās koherences uzturēšanu, kas nepieciešama programmēšanai, atšķirībā no vienotās "muskuļu atmiņas" blīvā modelī.
2. VRAM Siena
MoE arhitektūra rada galveno aparatūras izaicinājumu: atmiņu. Lai arī aprēķins ir viegls (17B aktīvi), visiem svariem (400B) jāatrodas VRAM.
Pat 4-bitu kvantizācijā (Q4_K_M) modelis prasa aptuveni 250 GB, izslēdzot patērētāju konfigurācijas (piemēram, RTX 4090) un pat pieticīgās darbstacijas. Tikai Mac Studio Ultra lietotāji (ar vienotu 192GB atmiņu) vai multi-GPU serveri varēja to izmantot lokāli.
4. nodaļa: Vārīšanās Ekosistēma (2025–2026)
Llama spēks slēpjas ne tikai Meta nodrošinātajos svaros, bet arī atvērtā koda rīku armijā, kas tos ieskauj. 2025. gads bija stresa tests šai ekosistēmai.
4.1 llama.cpp Sāga un MoE Atbalsts
Projekts llama.cpp, vietējās izsecināšanas stūrakmens, cīnījās, lai integrētu Llama 4. GitHub diskusijas atklāj mēnešus nestabilitātes:
- RoPE Kļūdas: Kļūdas sākotnējā iRoPE implementācijā izraisīja veiktspējas pasliktināšanos (perplexity spikes) garos kontekstos.
- Kvantizācijas Izaicinājumi: Maverick smalkā MoE struktūra (128 eksperti) nebija piemērota esošajiem kvantizācijas algoritmiem (GGUF, EXL2), radot ģenerēšanas artefaktus ("garbage output") zemā precizitātē. Nepieciešama bija ārējo līdzdibinātāju un Unsloth komandas iejaukšanās, lai stabilizētu "Dynamic GGUF", kas spēja gudri pārvaldīt selektīvu ekspertu kvantizāciju.
4.2 Unsloth: Fine-Tuning Glābējs
Saskaroties ar neiespējamību lielākajai daļai pētnieku fine-tunot 400B parametru modeli, rīks Unsloth kļuva kritiski svarīgs. Optimizējot atpakaļpropagāciju un implementējot QLoRA (Quantized Low-Rank Adaptation) atbalstu MoE arhitektūrām, Unsloth ļāva fine-tunot Llama 4 Scout uz vienas H100 80GB kartes. Bez šī rīka Llama 4 būtu palicis "rotaļlieta" tikai hiperskaleriem, nepieejams akadēmiskajai jaunradei vai mazajiem uzņēmumiem.
4.3 vLLM un Industriālais Servings
Ražošanas izvietošanai vLLM ir kļuvis par standartu. vLLM 2025–2026. gada ceļvedis parāda pilnīgu fokusu uz MoE arhitektūru optimizāciju un "Scale-out". Prefiksa kešatmiņas (kopīgo uzvednes daļu kešēšana) ieviešana bija izšķiroša, lai ekonomiski padarītu Llama 4 bāzētus aģentus, ļaujot atkārtoti izmantot 10M tokenu kontekstu starp vairākiem pieprasījumiem bez dārgiem pārrēķiniem.
5. nodaļa: Infrastruktūru un Silīcija Karš
2026. gadā Meta stratēģiju nevar saprast bez tās aparatūras pamata analīzes. MI nav etērs kods; tas ir elektrība, kas plūst caur silīciju.
5.1 MTIA: Stratēģiskā Neatkarība
Meta atkarība no NVIDIA (un tā H100/Blackwell GPU) pārstāvēja eksistenciālu un finansiālu risku. MTIA (Meta Training and Inference Accelerator) programma ir atbilde.
- MTIA v1/v2 (Izsecināšana): Jau 2025. gadā liela daļa ražošanas izsecināšanas (Instagram ieteikumi, vieglie Llama modeļi) tika pārcelta uz šīm pašu ražotajām mikroshēmām, kas ir enerģētiski efektīvākas ikdienas uzdevumiem.
- MTIA Training (2026): Īstā revolūcija ir tuvojošās mikroshēmas, kas spēj apmācīt masīvus modeļus. Bāzētas uz atvērto RISC-V arhitektūru, šīs mikroshēmas ļauj Meta pielāgot instrukciju kopu specifiskām Transformers operācijām (Uzmanība, MoE Maršrutēšana). Ja Meta izdosies šīs derības, tā varētu samazināt savu MI CAPEX par vairākiem desmitiem miljardu dolāru — izšķirošu konkurences priekšrocību pret Google (TPU) un Microsoft (Maia/NVIDIA).
5.2 Enerģijas Ekonomika
Ar modeļiem kā Llama 4 Maverick, kas patērē masīvu enerģiju apmācībai un izsecināšanai, Meta bija jāiegulda masīvi jaunās paaudzes datu centros. Līgumu paziņojumi par optiskās šķiedras kabeļiem ar Corning (6 miljardi dolāru) un progresīvu šķidruma dzesēšanas sistēmu attīstība liecina par šo fiziskās infrastruktūras sacīksti.
6. nodaļa: Konkurējošā Vide 2026. gadā
Llama neeksistē vakuumā. 2026. gads ir gads, kad atvērto svaru konkurence strukturējās, apdraudot Meta hegemoniju.
6.1 Mistral Large 3: Eiropas Pretinieks
Iznācis 2025. gada decembrī, Mistral Large 3 pozicionējās kā "tīrā" alternatīva Llama 4.
- Arhitektūra: MoE ar 41B aktīvajiem un 675B kopējiem parametriem.
- Diferenciācija: Atšķirībā no Maverick, Mistral Large 3 izceļas kodā un Eiropas daudzvalodībā, kapitulējot uz Llama 4 vājībām. Turklāt tā Apache 2.0 licence (patiesi atvērtais kods) nomierina juridiskos departamentus, kas ir piesardzīgi pret Meta pielāgotajām kopienas licencēm.
6.2 DeepSeek un Ķīnas Drauds
DeepSeek parādīšanās ar saviem V3 un "Next" modeļiem satricināja tirgu ar savu veiktspējas/izmaksu attiecību. Bieži apsūdzēti par Llama iedvesmošanos, šie modeļi tomēr inovēja (ultra-zema latentuma MoE arhitektūras) un piespieda Meta reaģēt. Ziņojumi pat liecina, ka Llama 4 aizņēmās dažas ekspertu maršrutēšanas tehnikas no DeepSeek, cenšoties aizpildīt efektivitātes atstarpi.
6.3 GPT-5 un Gemini 2.5: Slēgtā Robeža
Īpašumtiesību pusē GPT-5 (2025. gada augusts) un Gemini 2.5 padziļināja plaisu "aģentu" spējās (ilgtermiņa plānošana, autonoma rīku izmantošana). Llama 4 joprojām ir lielisks teksta ģenerators, bet joprojām grūti ir kļūt par uzticamu autonomu aģentu bez smagas inženierijas (RAG, Chain-of-Thought).
7. nodaļa: 2026. gada Stratēģiskais Pagrieziens – Project Avocado
Tieši šajā nežēlīgās konkurences un sprādzienbīstamo izmaksu kontekstā veidojas Meta AI nākotne.
7.1 "Avocado": Dārza Aizvēršana?
2026. gada sākuma ziņojumi norāda uz lielu virziena maiņu ar "Avocado" projektu.
- Slēgtais Modelis: Atšķirībā no Llama līnijas, Avocado būtu īpašumtiesību modelis, kas netiek izplatīts.
- Mērķis: Radīt monetizējamu "Personīgo Superintelektu", ekskluzīvi integrētu Meta produktos (WhatsApp, Instagram, Ray-Ban).
- Pamats: Meta vadība, akcionāru spiediena ietekmē, meklē tiešu ieguldījumu atdevi. Llama "bezmaksas" piedāvāšana ļāva padarīt tirgu par preci, bet nenesa tiešus ienākumus, salīdzināmus ar ChatGPT Plus vai Gemini Advanced abonementiem.
7.2 Iekšējās un Kultūrālās Spriedzes
Šis pagrieziens radīja berzi Meta MI komandā. "Produkta" profilu integrācija, piemēram, Aleksandra Vanga (ex-Scale AI), un vēsturisko FAIR pētnieku aiziešana signalizē kultūras pāreju: no atvērtas pētniecības uz agresīvu komerciālu produktu izstrādi. Avocado kavēšanās, ko izraisīja sākotnēji vilinošā veiktspēja, tikai pastiprināja šīs spriedzes.
8. nodaļa: Ietekme uz SEO un Informācijas Meklēšanu (2026)
Llama modeļu visuresošība fundamentāli mainīja paša tīmekļa dabu un, līdz ar to, SEO (Meklētājoptimizāciju).
8.1 No Atslēgvārdu Meklēšanas līdz Entitātes Autoritātei
2026. gadā tradicionālie meklētājdzinēji zaudēja teritoriju ģeneratīvajiem "Atbilžu Dzinējiem" (Google AI Overviews, SearchGPT, Meta AI).
Klika Nāve
Lietotāji saņem atbildes tieši tērzēšanas interfeisā. Datplūsma uz informatīvajiem tīmekļa vietnēm sabruka.
Jaunā SEO Stratēģija
Kā 2026. gadā norāda eksperti, mērķis vairs nav rangēt atslēgvārdus, bet būt citētam kā uzticams avots no LLM.
8.2 Llama kā Informācijas Sargs
Ar Llama integrāciju Facebook, Instagram un WhatsApp, Meta ir kļuvis par vienu no lielākajiem meklētājdzinējiem pasaulē. Ja lietotājs Meta AI asistentam jautā "Kura ir labākā auto apdrošināšana?", atbildi ģenerē Llama 4. Būt klāt Meta apmācības datu kopā vai reālā laika RAG indeksā ir kļuvis par 2026. gada digitālā mārketinga Svēto Grālu.
Noslēgums: Revolūcija Pārejā
Llama stāsts no 2023. līdz 2026. gadam ir par anomāliju, kas kļuva par normu. Atbrīvojot savus modeļus, Meta paātrināja globālo MI jaunradi par vairākiem gadiem, radot dzīvotspējīgu un izturīgu atvērtā koda ekosistēmu, kas izaicināja centralizācijas prognozes.
Tomēr 2026. gads iezīmē nevainības beigas. Fiziskie ierobežojumi (enerģija, silīcijs), ekonomiskie (CAPEX) un konkurences (Mistral, DeepSeek) spiež uz racionalizāciju. Ar Llama 4 un tā sarežģīto MoE arhitektūru Meta ir sasniedzis robežas tam, ko vidējais lietotājs var uzņemties. Ar Project Avocado Meta šķiet gatavojas nākotnei, kur progresīvākā MI atkal kļūst par maksas un centralizētu pakalpojumu.
Vai Llama ekosistēma izdzīvos šo pagriezienu? Atbilde, iespējams, slēpjas atvērtā koda kopienā, ko tas ir radījis. Pat ja Meta aizvērs durvis rīt, rīki, zināšanas un atvasinātie modeļi turpinās attīstīties. Gēnijs ir iznācis no lampas, un neviens ierobežojošs licenzes papīrs to nevar atgriezt atpakaļ.
Tehniskā Pielikums: Llama Modeļu Salīdzinošās Specifikācijas
Turpmākā tabula sintezē Llama modeļu ģimenes tehnisko evolūciju, izceļot eksponenciālo spēju un aparatūras prasību attīstību.
| Modelis | Izlaišanas Datums | Arhitektūra | Parametri (Kopā / Aktīvie) | Konteksta Logs | Apmācība (Tokenu) | Daudzmodālā Spēja | VRAM Prasība (FP16) |
|---|---|---|---|---|---|---|---|
| Llama 1 65B | 2023. gada februāris | Blīvs | 65B | 2k | 1.4T | Nē | ~130 GB |
| Llama 2 70B | 2023. gada jūlijs | Blīvs (GQA) | 70B | 4k | 2T | Nē | ~140 GB |
| Llama 3.1 405B | 2024. gada jūlijs | Blīvs | 405B | 128k | 15T+ | Nē (tikai teksts) | ~800 GB |
| Llama 3.2 90B | 2024. gada septembris | Blīvs + Redze | 90B | 128k | Nezināms | Jā (Attēls) | ~180 GB |
| Llama 4 Scout | 2025. gada aprīlis | MoE (Izkliedēts) | 109B / ~17B | 10M (iRoPE) | ~40T | Jā (Dzimis) | ~220 GB |
| Llama 4 Maverick | 2025. gada aprīlis | MoE (Izkliedēts) | 402B / ~17B | 1M | ~22T | Jā (Dzimis) | ~800 GB |
Piezīme par VRAM: FP16 vērtības pārstāv ideālu gadījumu maksimālai precizitātei. 4-bitu kvantizācijas izmantošana (caur llama.cpp vai bitsandbytes) parasti ļauj dalīt šīs prasības ar 3 vai 4, padarot modeļus līdz 70B-90B pieejamus patērētāju multi-GPU konfigurācijām.