Meta AI: Asmeninės Superintelekto Aušra ir Nekaltybės Pabaiga
2026 m. sausį dirbtinio intelekto pramonė peržengė Rubikoną. Tai, kas 2023 m. buvo tik beprotiška varžybų dėl modelių dydžio, virto infrastruktūriniu, ekonominiu ir geopolitiniu apkasų karu. Meta Platforms, vadovaujama Mark Zuckerberg, atliko centrinį, beveik paradoksalų vaidmenį šioje evoliucijoje. Iš pradžių pasirinkusi atviro kodo (arba "atvirų svorių") kelią su Llama šeima, bendrovė pavertė generatyvinį dirbtinį intelektą bendru dalyku, veikdama konkurentų, tokių kaip OpenAI ir Google, nuosavybės modelių pelningumą. Tačiau 2026 m. žymi kritinį lūžio tašką: su prognozuojamomis kapitalo investicijomis (CAPEX) tarp 115 ir 135 milijardų dolerių einamaisiais finansiniais metais, spaudimas atsipirkti už šias titanines infrastruktūras niekada nebuvo toks didelis.
Šis pranešimas siūlo detaliai išnagrinėti Meta AI ekosistemą. Mes nesitenkinsime tiesine chronologija. Analizuosime gilias architektūrines pertraukas — nuo monolitinių tankių modelių perėjimo prie retų ekspertų mišinio (MoE) architektūrų su Llama 4 — taip pat programinės ir techninės įrangos inžinerijos iššūkius, lydėjusius kiekvieną iteraciją. Nuo viešos Galactica fiasko 2022 m. iki 2026 m. besitęsiančių gandų apie uždarą projektą "Avocado", nagrinėsime, kaip Meta narigavo tarp akademinio idealo, atviro kodo pragmatizmo ir komercinių imperatyvų.
Ši analizė remiasi daugybe techninių šaltinių, finansinių ataskaitų ir bendruomenės grįžtamojo ryšio, siekiant pasiūlyti 360 laipsnių perspektyvą į vieną įtakingiausių XXI a. technologinių reiškinių.
1 skyrius: Užuomazgos ir Atsitiktinė Gimtis (2022-2023)
1.1 Pamiršta Avangarda: Galactica ir OPT-175B
Prieš tai, kai "Llama" tapo atvirojo kodo DI sinonimu, Meta AI (tada FAIR) jau tyrinėjo didžiųjų kalbos modelių ribas, tačiau su griežtu akademiniu požiūriu, kuris netrukus susidurs su rinkos realybe.
2022 m. gegužę Meta paskelbė OPT-175B (Open Pretrained Transformer). Šis modelis, sukurtas atkartoti GPT-3 galimybes, buvo tiesioginis atsakas į didėjančią OpenAI nepermatomumą. Treniruotas 992 arba 1024 NVIDIA A100 80GB GPU beveik du mėnesius, OPT siekė pasiūlyti tyrėjams prieinamą alternatyvą. Tačiau jo našumas buvo nevienodas, o architektūra, nors ir standartinė, kentėjo nuo pastebimų skaitinių nestabilumų treniravimo metu. OPT buvo svarbi pamoka apie didelio masto infrastruktūros valdymą — įgūdis, kuris taps gyvybiškai svarbus ateities kartoms.
Tragiškesnė buvo Galactica lemtis, išleista 2022 m. pabaigoje. Šis 120 milijardų parametrų modelis buvo specializuotas mokslinėje literatūroje, treniruotas ant masinio 106 milijardų žetonų korpuso, apimančio straipsnius, enciklopedijas ir baltymų sekų duomenis. Skirtingai nuo bendrosios paskirties modelių, Galactica naudojo specializuotą tokenizaciją chemijos formulėms (SMILES) ir aminorūgščių sekoms. Tačiau viešas paleidimas virto viešųjų ryšių katastrofa. Gebėdamas generuoti įtikinamus, bet haliucinuotus mokslinius straipsnius, jis buvo pašalintas per kelias dienas po mokslinės bendruomenės spaudimu.
Šis nesėkmė giliai paveikė Meta kultūrą, įdiegdama atsargumą, kuris atidėtų jų būsimų plačiosios visuomenės pokalbių robotų išleidimą, tačiau paradoksaliai paruošė dirvą kitai strategijai: teikti variklį (modelį), o ne automobilį (baigtą produktą).
1.2 Llama 1: Vietinės DI "Netscape" Momentas
2023 m. vasaris liks įrašytas kaip momentas, kai uždarų laboratorijų monopolys pradėjo trūkinėti. Meta paskelbė Llama (Large Language Model Meta AI) — modelių kolekciją nuo 7 iki 65 milijardų parametrų.
Technologinė Inovacija: Činčilos Įstatymas
Llama 1 fundamentalus įnašas nebuvo architektūrinis (tai buvo klasikinis dekoderio Transformer), bet empirinis. Remdamiesi Hoffmano skaliavimo įstatymais (vadinamais Činčilos įstatymais), Meta tyrėjai parodė, kad mažesnis modelis, treniruotas ant daug daugiau duomenų, gali pranokti milžiniškus nepakankamai treniruotus modelius. 65B modelis, treniruotas ant 1,4 trilijono žetonų, varžėsi su GPT-3 (175B), tuo pačiu būdamas daug pigesnis išvados metu.
Nuotėkis ir Kambro Sprogimas
Iš pradžių skirtas tik akredituotiems tyrėjams, modelio svoriai nutekėjo į 4chan ir per savaitę išplito per BitTorrent. Tai, kas galėjo būti intelektinės nuosavybės katastrofa, virto netyčiniu meistriškumo smūgiu. Pasaulinė kūrėjų bendruomenė įsisavino modelį. Per kelias savaites Georgi Gerganov paskelbė llama.cpp, leidžiantį išvadą Apple Silicon CPU per 4-bitų kvantavimą.
Tai buvo vietinės DI gimimas. Staiga MacBook Air galėjo paleisti pajėgų kalbos modelį. Ši priverstinė demokratizacija sukūrė įrankių ekosistemą (Ollama, LM Studio, LoRA), kuri šiandien yra Meta gynybos griovis: kodėl naudoti kitą modelį, kai visi pasaulio įrankiai optimizuoti Llama?
2 skyrius: Industrializacija ir Standartizacija (2023-2024)
2.1 Llama 2: Komercinis Priėmimas ir RLHF Derinimas
2023 m. liepa atnešė Llama 2 išleidimą, žymintį perėjimą nuo eksperimentavimo prie produkcijos. Pagrindinis skirtumas buvo licencijoje: Llama 2 leido komercinį naudojimą (su apribojimo sąlyga įmonėms, turinčioms daugiau nei 700 milijonų aktyvių vartotojų), leidžiant startuoliams ir Fortune 500 įmonėms integruoti šiuos modelius.
Architektūra ir Saugumas
Llama 2 padvigubino konteksto langą iki 4096 žetonų ir įdiegė Grupuotų Užklausų Dėmesį (GQA) didžiuosiuose modeliuose, siekiant optimizuoti KV talpyklą. Tačiau didžiausios pastangos buvo skirtos derinimui. Masyviai naudojant RLHF (Pastiprinimo Mokymasis iš Žmogaus Grįžtamojo Ryšio), Meta sukūrė labai saugius "Pokalbių" modelius, kartais per daug, sukeldami kritiką dėl jų polinkio atsisakyti nekenksmingų užklausų.
2.2 Llama 3: Tankaus Modelio Viršūnės Siekis
2024 m. buvo skirta stumti tankios architektūros ribas. Su Llama 3 serija (ir jos 3.1 variantais), Meta siekė įrodyti, kad atvirų svorių modelis gali lygintis su etaloniniu "pasienio modeliu" — GPT-4.
405B Monstras
2024 m. liepą buvo išleistas Llama 3.1 405B. Tai buvo techninis tour de force:
- Masinis Treniravimas: Treniruotas ant daugiau nei 15 trilijonų daugiakalbių žetonų.
- Infrastruktūra: Reikalavo 16 000 H100 GPU klasterio, valdomo sudėtingomis 4D lygiagretumo technikomis, siekiant išvengti dažnų techninės įrangos gedimų šiame mastelyje.
- Galimybės: Tapo pirmuoju atviru modeliu, išskirtinai besiverčiančiu sudėtingu matematiniu samprotavimu ir aukšto lygio kodo generacija, varžytis su GPT-4o viešuose benchmarkuose.
Konteksto Išplėtimas (128k)
3.1 versija įdiegė 128 000 žetonų konteksto langą. Ši galimybė pakeitė Llama modelių naudojimą įmonėse, leisdama analizuoti ilgus dokumentus (RAG) be per didelio skaidymo. Tai buvo įmanoma dėl tikslių Rotacinių Įterpinių (RoPE) dažnio koregavimų, leidžiančių modeliui apibendrinti už pradinio treniravimo ilgio.
2.3 Llama 3.2: Daugiakryptė Transformacija
2024 m. pabaigoje Llama 3.2 užpildė paskutinę didžiąją spragą: regėjimą.
- 11B ir 90B modeliai: Šie modeliai integravo vaizdo adapterius, leidžiančius samprotauti apie vaizdus (diagramas, nuotraukas) su konkurencingu našumu.
- Edge modeliai (1B ir 3B): Naudodami distiliaciją (žinių perdavimą iš 405B modelio į mažesnes architektūras) ir struktūrinį genėjimą (pruning), Meta leido paleisti generatyvinį DI tiesiogiai išmaniuosiuose telefonuose, numatydama būsimą integraciją į Ray-Ban akinius.
3 skyrius: 2025 m. Architektūrinė Revoliucija – Llama 4 ir Ekspertų Mišinys
2025 m. liks metais, kai Meta atsisakė tankios architektūros dogmos ir priėmė Ekspertų Mišinio (MoE – Mixture of Experts) sudėtingumą. Susidūrusi su energijos sąnaudų ir delsos sprogimu, nebebuvo įmanoma monolitiškai didinti modelių.
3.1 Llama 4 Anatomija: Scout ir Maverick
Išleisti 2025 m. balandį, Llama 4 modeliai įvedė nomenklatūros ir techninę pertrauką.
| Charakteristika | Llama 4 "Scout" | Llama 4 "Maverick" |
|---|---|---|
| Tipas | MoE (Retas) | MoE (Retas) |
| Visi Parametrai | ~109 Milijardai | ~402 Milijardai |
| Aktyvūs Parametrai | ~17 Milijardų | ~17 Milijardų |
| Ekspertų Skaičius | 16 Ekspertų | 128 Ekspertų ( smulki grūdėtumas) |
| Konteksto Langas | 10 Milijonų (Teorinis) | 1 Milijonas |
| Tikslinis Naudojimas | Didžiulis RAG, Dokumentų Analizė | Bendrasis Samprotavimas |
MoE Veikimas pas Meta
Skirtingai nuo Mixtral požiūrio (8 ekspertai), Llama 4 Maverick naudoja daug smulkesnę grūdėtumą su 128 ekspertais.
Retas Maršrutizavimas: Kiekvienam generuojamam žetonui maršrutizavimo tinklas (router network) renka saują ekspertų (top-k) iš 128. Tai leidžia modeliui turėti didžiulę žinių bazę (400B parametrų), tuo pačiu išleidžiant skaičiavimo energiją tik kukliam modeliui (17B aktyvių).
Tankus/MoE Kaitaliojimas: Siekiant stabilizuoti mokymąsi, Maverick kaitalioja tarp tankių dėmesio sluoksnių (bendrų) ir MoE sluoksnių — technika, gerinanti samprotavimo nuoseklumą.
3.2 "Begalinio" Konteksto Proveržis: iRoPE
Llama 4 Scout vėliavinė naujovė yra jos 10 milijonų žetonų konteksto langas, varomas iRoPE (Infinite Rotary Positional Embedding) technologija. Ši technika leidžia dinamiškai manipuliuoti padėties dažniais, leidžiant modeliui teoriškai apdoroti ištisas bibliotekas vienu pravažiavimu. Praktiškai tai siekė padaryti pasenusias sudėtingas RAG architektūras (vektorines duomenų bazes) daugeliui naudojimo atvejų, leisdama pilną dokumentų "išmetimą" į promptą.
3.3 Kritinis Priėmimas: Našumo Paradoksas
Nepaisant šių pažangų, Llama 4 išleidimas buvo sutiktas mišriomis, netgi priešiškomis techninės "LocalLLaMA" bendruomenės ir įmonių kūrėjų kritikomis.
1. Kodo Regresija
Benchmarkai ir vartotojų atsiliepimai parodė, kad Maverick dažnai našiau veikė už senesnį Llama 3.1 405B gryno kodo generavimo (Python, C++) užduotyse. Dominuojanti hipotezė yra tai, kad žinių fragmentavimas per 128 ekspertus apsunkina griežtos loginės nuoseklumo palaikymą, būtiną programavimui, skirtingai nuo vieningos "raumenų atminties" tankiame modelyje.
2. VRAM Siena
MoE architektūra pateikia didžiulį techninės įrangos iššūkį: atmintį. Nors skaičiavimas yra lengvas (17B aktyvių), visi svoriai (400B) turi būti VRAM.
Net naudojant 4-bitų kvantavimą (Q4_K_M), modelis reikalauja apie 250 GB, pašalinant iš žaidimo plačiosios visuomenės konfigūracijas (pvz., RTX 4090) ir net kuklias darbo stotis. Tik Mac Studio Ultra vartotojai (su 192GB vieninga atmintimi) arba daugiagpu serveriai galėjo jį eksploatuoti vietoje.
4 skyrius: Burbuliuojanti Ekosistema (2025-2026)
Llama jėga neslypi tik Meta teikiamuose svoriuose, bet atvirojo kodo įrankių armijoje juos supančioje. 2025 m. buvo įtempimo testo metai šiai ekosistemai.
4.1 llama.cpp Saga ir MoE Palaikymas
Projektas llama.cpp, vietinės išvados kertinis akmuo, kovojo integruodamas Llama 4. GitHub diskusijos atskleidžia mėnesius nestabilumo:
- RoPE klaidos: Pradinės iRoPE įgyvendinimo klaidos sukėlė našumo degradacijas (perplexity spikes) ilguose kontekstuose.
- Kvantavimo Iššūkiai: Maverick smulki MoE struktūra (128 ekspertų) blogai derėjo su esamais kvantavimo algoritmais (GGUF, EXL2), kurdama generavimo artefaktus ("šiukšlių išvestį") žemoje tikslume. Reikėjo išorinių bendradarbių ir Unsloth komandos įsikišimo, kad stabilizuotų "Dinamiškus GGUF", galinčius protingai valdyti ekspertų selektyvų kvantavimą.
4.2 Unsloth: Derinto Derinimo Išgelbėtojas
Atsidūrus daugumos tyrėjų negalėjime derinti 400B parametrų modelį, įrankis Unsloth tapo kritinis. Optimizuodamas atvirkštinį sklidimą ir įgyvendindamas QLoRA (Kvantuotos Žemos Eilės Adaptacijos) palaikymą MoE architektūroms, Unsloth leido derinti Llama 4 Scout viename H100 80GB. Be šio įrankio, Llama 4 būtų likęs "žaislas" hiperskaleriams, nepasiekiamas akademinei inovacijai ar MVĮ.
4.3 vLLM ir Pramoninis Servavimas
Produkcijos diegimui vLLM įsitvirtino kaip standartas. vLLM 2025-2026 m. kelrodė rodo visišką sutelkimą į MoE architektūrų optimizavimą ir "Scale-out". Prefix caching įvedimas (bendrų prompt dalių talpinimas) buvo būtinas, kad Llama 4 pagrįsti agentai taptų ekonomiškai gyvybingi, leidžiant pakartotinai naudoti 10M žetonų kontekstą tarp kelių užklausų be brangaus perskaičiavimo.
5 skyrius: Infrastruktūrų ir Silicio Karas
2026 m. Meta strategija negali būti suprasta be jos techninės įrangos substrato analizės. DI nėra eterinis kodas; tai elektra, tekanti per silicį.
5.1 MTIA: Strateginė Nepriklausomybė
Meta priklausomybė nuo NVIDIA (ir jos H100/Blackwell GPU) atstovavo egzistencinę ir finansinę riziką. MTIA (Meta Training and Inference Accelerator) programa yra atsakas.
- MTIA v1/v2 (Išvada): Nuo 2025 m. didelė produkcijos išvados dalis (Instagram rekomendacijos, lengvi Llama modeliai) buvo perkelta į šias namines lustas, energiškai efektyvesnes rutininėms užduotims.
- MTIA Training (2026): Tikroji revoliucija yra artėjantys lustai, galintys treniruoti masinius modelius. Pagrįsti atvira RISC-V architektūra, šie lustai leidžia Meta pritaikyti instrukcijų rinkinį specifinėms Transformer operacijoms (Dėmesys, MoE Maršrutizavimas). Jei Meta pavyks šis statymas, ji galėtų sumažinti DI CAPEX dešimtimis milijardų dolerių, lemiamas konkurencinis pranašumas prieš Google (TPU) ir Microsoft (Maia/NVIDIA).
5.2 Energetikos Ekonomika
Su modeliais, tokiais kaip Llama 4 Maverick, sunaudojančiais masines energijos kiekius treniravimui ir išvadai, Meta turėjo masiškai investuoti į naujos kartos duomenų centrus. Kontraktų su Corning (6 milijardai dolerių) dėl optinių pluošto kabelių ir pažangių skysčiu aušinimo sistemų plėtojimas liudija šias fizinės infrastruktūros varžybas.
6 skyrius: Konkurencinis Kraštovaizdis 2026 m.
Llama neegzistuoja vakuume. 2026 m. yra metai, kai atvirų svorių konkurencija susiformavo, grasindama Meta hegemonijai.
6.1 Mistral Large 3: Europos Rivalas
Išleistas 2025 m. gruodį, Mistral Large 3 pozicionavosi kaip "švari" alternatyva Llama 4.
- Architektūra: MoE su 41B aktyvių ir 675B visų parametrų.
- Diferenciacija: Skirtingai nuo Maverick, Mistral Large 3 išsiskiria kode ir europiniame daugiakalbystėje, pasinaudodamas Llama 4 silpnybėmis. Be to, jo Apache 2.0 licencija (tikrai atvira) ramina atsargius teisės skyrius, bijančius Meta pritaikytų bendruomenės licencijų.
6.2 DeepSeek ir Kinų Grėsmė
DeepSeek iškilimas su V3 ir "Next" modeliais sukrėtė rinką savo našumo ir kainos santykiu. Dažnai kaltinami kopijavimu iš Llama, šie modeliai vis dėlto inovavo (ultra-mažos delsos MoE architektūros) ir privertė Meta reaguoti. Pranešimai netgi rodo, kad Llama 4 pasiskolino kai kurias ekspertų maršrutizavimo technikas iš DeepSeek, bandydamas pasivyti efektyvumo atsilikimą.
6.3 GPT-5 ir Gemini 2.5: Uždaroji Pasienio Linija
Iš nuosavybės pusės GPT-5 (2025 m. rugpjūtis) ir Gemini 2.5 išsiskyrė "agentinėmis" galimybėmis (ilgalaikis planavimas, savarankiškas įrankių naudojimas). Llama 4 išlieka puikiu teksto generatoriumi, tačiau vis dar vargiai tampa patikimu savarankišku agentu be sunkios inžinerijos (RAG, Chain-of-Thought).
7 skyrius: 2026 m. Strateginis Pivotas – Projektas Avocado
Būtent šiame žiaurios konkurencijos ir sprogstančių sąnaudų kontekste brėžiamas Meta AI ateities kontūras.
7.1 "Avocado": Sodo Uždarymas?
Pranešimai iš 2026 m. pradžios rodo didelį krypties pasikeitimą su "Avocado" projektu.
- Uždaras Modelis: Skirtingai nuo Llama linijos, Avocado būtų nuosavybės modelis, neplatinamas.
- Tikslas: Sukurti monetizuojamą "Asmeninę Superintelektą", integruotą išskirtinai į Meta produktus (WhatsApp, Instagram, Ray-Ban).
- Pateisinimas: Meta vadovybė, spaudžiama akcininkų, ieško tiesioginės investicijų grąžos. Nemokamas Llama teikimas leido sukurti rinkos bendrą dalyką, tačiau neatnešė tiesioginių pajamų, palyginamų su ChatGPT Plus ar Gemini Advanced prenumeratomis.
7.2 Vidinės ir Kultūrinės Įtampos
Šis pivotas sukėlė trintį Meta DI komandoje. "Produktų" profilių, tokių kaip Alexandr Wang (buvęs Scale AI), integravimas ir istorinių FAIR tyrėjų pasitraukimas signalizuoja kultūrinį virsmą: nuo atviros mokslinių tyrimų link agresyvaus komercinių produktų kūrimo. Avocado vėlavimas dėl pradinių nuviliančių našumo rezultatų tik pablogino šias įtampas.
8 skyrius: Poveikis SEO ir Informacijos Paieškai (2026 m.)
Llama visurbė fundamentaliai pakeitė paties žiniatinklio prigimtį ir, išplėtus, SEO (Paieškos Sistemų Optimizavimą).
8.1 Nuo Raktažodžių Paieškos prie Entiteto Autoriteto
2026 m. tradicinės paieškos sistemos užleido vietą generatyviems "Atsakymų Paieškos Varikliams" (Google AI Overviews, SearchGPT, Meta AI).
Spustelėjimo Mirtis
Vartotojai gauna atsakymus tiesiogiai pokalbių sąsajoje. Srautas į informacinius svetainius žlugo.
Naujoji SEO Strategija
Kaip 2026 m. pabrėžia ekspertai, tikslas nebe raktažodžių reitingavimas, o būti cituojamam kaip patikimas šaltinis LLM.
8.2 Llama kaip Informacijos Sargybinis
Su Llama integracija į Facebook, Instagram ir WhatsApp, Meta tapo vienu didžiausių paieškos variklių pasaulyje. Jei vartotojas klausia "Kokia geriausia automobilio draudimo kompanija?" savo Meta AI asistentui, atsakymą generuoja Llama 4. Buvimas treniravimo duomenų rinkinyje ar Meta realiuoju laiku RAG indekse tapo 2026 m. skaitmeninio rinkodaros Šventuoju Graliu.
Išvada: Revoliucija Transformacijoje
Llama istorija, nuo 2023 iki 2026 m., yra anomalijos virtusios norma istorija. Išleisdama savo modelius, Meta pagreitino pasaulinę DI inovaciją keliais metais, sukurdama gyvybingą ir atsparią ekosistemą, kuri nuginčijo centralizacijos prognozes.
Tačiau 2026 m. žymi nekaltybės pabaigą. Fiziniai (energija, silicis), ekonominiai (CAPEX) ir konkurenciniai (Mistral, DeepSeek) apribojimai verčia racionalizuoti. Su Llama 4 ir jos sudėtinga MoE architektūra, Meta pasiekė ribą, ką vidutinis vartotojas gali prieglobsti. Su Avocado projektu, Meta atrodo rengiasi ateičiai, kur pažangiausia DI vėl tampa mokama ir centralizuota paslauga.
Ar Llama ekosistema išgyvens šį pivotą? Atsakymas tikriausiai slypi atvirojo kodo bendruomenėje, kurią ji sukūrė. Net jei Meta uždarys duris rytoj, įrankiai, žinios ir išvestiniai modeliai ir toliau evoliucionuos. Genijus išėjo iš butelio, ir jokia ribojanti licencija jo nebesulaikys.
Techninė Priedėlis: Lyginamosios Llama Modelių Specifikacijos
Žemiau esanti lentelė apibendrina Llama šeimos techninę evoliuciją, pabrėždama eksponentinį galimybių ir techninės įrangos reikalavimų progresą.
| Modelis | Išleidimo Data | Architektūra | Parametrai (Visi / Aktyvūs) | Konteksto Langas | Treniravimas (Žetonai) | Daugiakryptė Galimybė | VRAM Reikalavimas (FP16) |
|---|---|---|---|---|---|---|---|
| Llama 1 65B | 2023 m. vasaris | Tankus | 65B | 2k | 1.4T | Ne | ~130 GB |
| Llama 2 70B | 2023 m. liepa | Tankus (GQA) | 70B | 4k | 2T | Ne | ~140 GB |
| Llama 3.1 405B | 2024 m. liepa | Tankus | 405B | 128k | 15T+ | Ne (Tik tekstas) | ~800 GB |
| Llama 3.2 90B | 2024 m. rugsėjis | Tankus + Regėjimas | 90B | 128k | Nežinoma | Taip (Vaizdas) | ~180 GB |
| Llama 4 Scout | 2025 m. balandis | MoE (Retas) | 109B / ~17B | 10M (iRoPE) | ~40T | Taip (Įgimta) | ~220 GB |
| Llama 4 Maverick | 2025 m. balandis | MoE (Retas) | 402B / ~17B | 1M | ~22T | Taip (Įgimta) | ~800 GB |
Pastaba dėl VRAM: FP16 reikšmės atstovauja idealiam atvejui maksimaliam tikslumui. 4-bitų kvantavimo (per llama.cpp ar bitsandbytes) naudojimas paprastai leidžia padalinti šiuos reikalavimus iš 3 ar 4, padarant modelius iki 70B-90B pasiekiamus plačiosios visuomenės daugiagpu konfigūracijose.