Naslijeđe i Metamorfoza Meta AI Ekosustava: Llama (2023-2026)

Meta AI: Zora Osobne Superinteligencije i Kraj Nevinošću

Siječanj 2026. godine označio je trenutak kada je industrija umjetne inteligencije prešla Rubikon. Ono što je 2023. bilo bijesna utrka za veličinom modela pretvorilo se u rovnjički rat infrastrukturni, ekonomski i geopolitički. Meta Platforms, pod vodstvom Marka Zuckerberga, odigrala je centralnu, gotovo paradoksalnu ulogu u ovoj evoluciji. Odabirom puta otvorenosti ("open weights") s obitelji Llama, tvrtka je učinila generativnu umjetnu inteligenciju robnom, erodirajući margine svojih vlasničkih konkurenata poput OpenAI-a i Googlea. Međutim, godina 2026. označava kritičnu točku infleksije: s projiciranim investicijama u kapital (CAPEX) između 115 i 135 milijardi dolara za tekuću fiskalnu godinu, pritisak za isplativost ovih titanskih infrastruktura nikada nije bio veći.

Ovaj izvještaj ima za cilj metodički dekonstuirati Meta AI ekosustav. Nećemo se zadovoljiti linearnom kronologijom. Analizirat ćemo duboke arhitekturne prekretnice — od prijelaza s monolitnih gustih modela na rijetke arhitekture mješavine stručnjaka (MoE) s Llama 4 — kao i inženjerske izazove softvera i hardvera koji su pratili svaku iteraciju. Od javne katastrofe Galactice 2022. do upornih glasina o zatvorenom projektu "Avocado" 2026., istražit ćemo kako se Meta snašla između akademskog ideala, pragmatizma open-sourcea i komercijalnih imperativa.

Ova analiza temelji se na mnoštvu tehničkih izvora, financijskih izvještaja i povratnih informacija zajednice kako bi ponudila 360-stupanjsku perspektivu jednog od najutjecajnijih tehnoloških fenomena 21. stoljeća.

Poglavlje 1: Pretpostavke i Slučajna Geneza (2022.-2023.)

1.1 Zaboravljena Avangarda: Galactica i OPT-175B

Prije nego što je "Llama" postala sinonim za open-source UI, Meta AI (tada FAIR) već je istraživala granice velikih jezičnih modela, ali s rigoroznim akademskim pristupom koji će se uskoro sudariti s tržišnom stvarnošću.

U svibnju 2022. Meta je objavila OPT-175B (Open Pretrained Transformer). Ovaj model, dizajniran za replikaciju sposobnosti GPT-3, bio je izravni odgovor na rastuću neprozirnost OpenAI-a. Treniran na 992 ili 1024 GPU-jeva NVIDIA A100 80GB tijekom gotovo dva mjeseca, OPT je ciljao pružiti istraživačima pristupačnu alternativu. Međutim, njegova izvedba bila je neujednačena, a arhitektura, iako standardna, patila od značajnih numeričkih nestabilnosti tijekom treninga. OPT je poslužio kao ključna lekcija o upravljanju infrastrukturom u velikom mjerilu, vještina koja će postati vitalna za buduće generacije.

Tragičnija je bila sudbina Galactice, lansirane krajem 2022. Ovaj model od 120 milijardi parametara bio je specijaliziran za znanstvenu literaturu, treniran na masivnom korpusu od 106 milijardi tokena uključujući članke, enciklopedije i proteinske sekvence. Za razliku od generalističkih modela, Galactica je koristila specijaliziranu tokenizaciju za kemijske formule (SMILES) i sekvence aminokiselina. Međutim, njezino javno lansiranje pretvorilo se u PR katastrofu. Sposobna generirati uvjerljive, ali halucinirane znanstvene članke, povučena je u nekoliko dana pod pritiskom znanstvene zajednice.

Ovaj neuspjeh duboko je označio kulturu Mete, usadivši oprez koji će odgoditi izlazak njihovih budućih chatbotova za širu javnost, ali koji je, paradoksalno, pripremao teren za drugačiju strategiju: pružiti motor (model) umjesto auta (gotovog proizvoda).

1.2 Llama 1: "Netscape Moment" Lokalne UI

Veljača 2023. ostati će zabilježena kao trenutak kada se monopol zatvorenih laboratorija počeo pucati. Meta je objavila Llamu (Large Language Model Meta AI), kolekciju modela od 7 do 65 milijardi parametara.

Tehnička Inovacija: Zakon Chinchille

Temeljni doprinos Llami 1 nije bio arhitekturni (radi se o klasičnom Transformer dekoderu), već empirijski. Oslanjajući se na zakone skaliranja Hoffmanna (tzv. zakoni Chinchille), istraživači Mete pokazali su da manji model treniran na mnogo više podataka može nadmašiti divovske modele s nedovoljnim treningom. Model 65B, treniran na 1,4 bilijuna tokena, nadmetao se s GPT-3 (175B) dok je bio znatno jeftiniji za inferenciju.

Curenje i Kambrijska Eksplozija

Inicijalno rezervirana za akreditirane istraživače, težine modela curele su na 4chan i širile se putem BitTorrenta u manje od tjedan dana. Ono što bi mogla biti katastrofa intelektualnog vlasništva pretvorilo se u nehotični majstorski potez. Globalna zajednica programera prigrabila je model. U nekoliko tjedana, Georgi Gerganov objavio je llama.cpp, omogućujući inferenciju na Apple Silicon CPU-ovima putem 4-bitne kvantizacije.

To je bilo rođenje "lokalne UI". Odjednom, MacBook Air mogao je pokrenuti sposoban jezični model. Ova prisilna demokratizacija stvorila je ekosustav alata (Ollama, LM Studio, LoRA) koji danas čini obrambeni rov Mete: zašto koristiti bilo koji drugi model kada su svi alati na svijetu optimizirani za Llamu?

Poglavlje 2: Industrializacija i Standardizacija (2023.-2024.)

2.1 Llama 2: Komercijalna Adopcija i RLHF Poravnanje

Srpanj 2023. vidio je lansiranje Llame 2, označavajući prijelaz s eksperimentiranja na produkciju. Glavna razlika bila je u licenci: Llama 2 dopuštala komercijalnu upotrebu (s restriktivnom klauzulom za tvrtke s više od 700 milijuna aktivnih korisnika), omogućujući startupima i Fortune 500 tvrtkama integraciju ovih modela.

Arhitektura i Sigurnost

Llama 2 je udvostručila kontekstni prozor na 4096 tokena i uvela Grupirano Upiti Pažnju (GQA) na većim modelima za optimizaciju KV cachea. Ali to je na poravnanju bio najveći napor. Koristeći masovno RLHF (Reinforcement Learning from Human Feedback), Meta je stvorila vrlo sigurne "Chat" modele, ponekad previše, što je dovelo do kritika o njihovoj sklonosti odbijanju bezazlenih zahtjeva.

2.2 Llama 3: Potraga za Gustim Vrhom

Godina 2024. posvećena je guranju granica guste arhitekture. S serijom Llama 3 (i njezinim varijantama 3.1), Meta je pokušala dokazati da model s otvorenim težinama može izjednačiti referentni "frontier model", GPT-4.

Čudovište 405B

U srpnju 2024., Llama 3.1 405B je puštena u slobodu. Bio je to tehnički podvig:

Masivni Trening: Trenirana na više od 15 bilijuna višejezičnih tokena.
Infrastruktura: Zahtijevala je klaster od 16 000 GPU-jeva H100, upravljan složenim tehnikama 4D paralelizma kako bi se izbjegli česti hardverski kvarovi u ovom mjerilu.
Sposobnosti: Postao je prvi otvoreni model koji izvrsno radi u složenom matematičkom zaključivanju i generaciji koda visoke razine, nadmećući se s GPT-4o u javnim benchmarkovima.

Proširenje Konteksta (128k)

Verzija 3.1 uvela je kontekstni prozor od 128 000 tokena. Ova sposobnost transformirala je korporativnu upotrebu modela Llama, omogućujući analizu dugih dokumenata (RAG) bez pretjeranog rezanja. To je omogućeno preciznim podešavanjima frekvencija Rotary Embeddings (RoPE), omogućujući modelu generalizaciju izvan njegove početne duljine treninga.

2.3 Llama 3.2: Multimodalni Prijelaz

Krajem 2024., Llama 3.2 ispunila je posljednju veliku prazninu: vid.

Modeli 11B i 90B: Ovi modeli integrirali su vizualne adaptere, omogućujući zaključivanje o slikama (grafikoni, fotografije) s konkurentnom izvedbom.
Edge Modeli (1B i 3B): Koristeći destilaciju (prijenos znanja s modela 405B na manje arhitekture) i strukturno podrezivanje (pruning), Meta je omogućila izvršavanje generativne UI izravno na pametnim telefonima, anticipirajući buduću integraciju u naočale Ray-Ban.

Poglavlje 3: Arhitekturna Revolucija 2025. – Llama 4 i Mješavina Stručnjaka

Godina 2025. ostati će zapamćena kao godina kada je Meta napustila dogmu guste arhitekture i prihvatila složenost Mješavine Stručnjaka (MoE – Mixture of Experts). Suočena s eksplozijom energetskih troškova i latencije, više nije bilo održivo rasti modele na monolitičan način.

3.1 Anatomija Llamе 4: Scout i Maverick

Lansirani u travnju 2025., modeli Llama 4 uveli su prekid u nomenklaturi i tehnici.

Karakteristika	Llama 4 "Scout"	Llama 4 "Maverick"
Tip	MoE (Rijetki)	MoE (Rijetki)
Ukupno Parametara	~109 Milijardi	~402 Milijarde
Aktivni Parametri	~17 Milijardi	~17 Milijardi
Broj Stručnjaka	16 Stručnjaka	128 Stručnjaka (Fina granularnost)
Kontekstni Prozor	10 Milijuna (Teoretski)	1 Milijun
Ciljana Upotreba	Masivni RAG, Analiza Dokumenata	Općenito Zaključivanje

Funkcioniranje MoE-a kod Mete

Za razliku od pristupa Mixtrala (8 stručnjaka), Llama 4 Maverick koristi puno finiju granularnost s 128 stručnjaka.

Rijetko Usmeravanje: Za svaki generirani token, usmeravajuća mreža (router network) bira šaku stručnjaka (top-k) od 128. To omogućuje modelu da posjeduje ogromnu bazu znanja (400B parametara) dok troši energiju računanja samo skromnog modela (17B aktivnih).

Alterniranje Gusto/MoE: Za stabilizaciju učenja, Maverick alternira između gustih slojeva pažnje (dijeljenih) i MoE slojeva, tehnika koja poboljšava koherentnost zaključivanja.

3.2 Proboj "Beskonačnog" Konteksta: iRoPE

Ključna inovacija Llama 4 Scout je njezin kontekstni prozor od 10 milijuna tokena, pokrenut tehnologijom nazvanom iRoPE (Infinite Rotary Positional Embedding). Ova tehnika omogućuje dinamičko manipuliranje pozicijskim frekvencijama, omogućujući modelu teoretski obradu cijelih knjižnica u jednom prolazu. U praksi, to je ciljalo učiniti zastarjelim složene RAG arhitekture (vektorske baze podataka) za mnoge slučajeve upotrebe, omogućujući potpuno "izbacivanje" dokumenata u prompt.

3.3 Kritički Prijem: Paradoks Izvedbe

Unatoč ovim napretcima, lansiranje Llamе 4 dočekano je miješanim, pa čak i neprijateljskim kritikama tehničke zajednice "LocalLLaMA" i korporativnih programera.

1. Regresija Koda

Benchmarkovi i korisničke povratne informacije pokazali su da Maverick često slabije radi od starije Llamе 3.1 405B na zadacima čiste generacije koda (Python, C++). Dominantna hipoteza je da fragmentacija znanja kroz 128 stručnjaka otežava održavanje stroge logičke koherentnosti potrebne za programiranje, za razliku od "mišićne memorije" ujedinjenog modela.

2. Zid VRAM-a

MoE arhitektura predstavlja veliki hardverski izazov: memoriju. Iako je računanje lagano (17B aktivnih), cjelokupni skup težina (400B) mora biti u VRAM-u.

Čak i u 4-bitnoj kvantizaciji (Q4_K_M), model zahtijeva oko 250 GB, izbacujući iz igre potrošačke konfiguracije (poput RTX 4090) i čak skromne radne stanice. Samo korisnici Mac Studio Ultra (s ujedinjenom memorijom od 192GB) ili multi-GPU poslužitelji mogli su ga eksploatirati lokalno.

Poglavlje 4: Ekosustav u Vrelu (2025.-2026.)

Snaga Llamе ne leži samo u težinama koje Meta pruža, već u vojsci open-source alata koji ih okružuju. 2025. bila je godina stres testa za taj ekosustav.

4.1 Saga llama.cpp i Podrška za MoE

Projekt llama.cpp, temelj lokalne inferencije, borio se s integracijom Llamе 4. GitHub rasprave otkrivaju mjesece nestabilnosti:

RoPE Bugovi: Greške u početnoj implementaciji iRoPE-a uzrokovale su degradaciju izvedbe (perplexity spikes) na dugim kontekstima.
Izazovi Kvantizacije: Finija MoE struktura Mavericka (128 stručnjaka) nije se dobro prilagođavala postojećim algoritmima kvantizacije (GGUF, EXL2), stvarajući artefakte generacije ("garbage output") u niskoj preciznosti. Trebalo je intervencije vanjskih suradnika i tima Unsloth za stabilizaciju "Dynamic GGUF" sposobnih inteligentno upravljati selektivnom kvantizacijom stručnjaka.

4.2 Unsloth: Spasitelj Fine-Tuninga

Suočen s nemogućnošću za većinu istraživača da fine-tuneaju model od 400B parametara, alat Unsloth postao je kritičan. Optimizirajući backpropagation i implementirajući podršku za QLoRA (Quantized Low-Rank Adaptation) za MoE arhitekture, Unsloth je omogućio fine-tuning Llama 4 Scout na jednoj H100 80GB kartici. Bez ovog alata, Llama 4 bi ostala "igračka" za hyperscalere, nedostupna akademskoj inovaciji ili MSP-ovima.

4.3 vLLM i Industrijski Serving

Za produkcijski deployment, vLLM nametnuo se kao standard. vLLM roadmapa 2025.-2026. pokazuje potpunu fokusiranost na optimizaciju MoE arhitektura i "Scale-out". Uvođenje prefix cachinga (cacheiranje zajedničkih dijelova prompta) bilo je ključno za ekonomsku isplativost agenata temeljenih na Llama 4, omogućujući ponovnu upotrebu konteksta od 10M tokena između više zahtjeva bez skupog ponovnog računanja.

Poglavlje 5: Rat Infrastruktura i Silicija

2026. strategija Mete ne može se razumjeti bez analize njezinog hardverskog supstrata. UI nije eterski kod; to je električna struja koja prolazi kroz silicij.

5.1 MTIA: Strateška Neovisnost

Ovisnost Mete o NVIDIA-u (i njegovim H100/Blackwell GPU-ovima) predstavljala je egzistencijalni i financijski rizik. Program MTIA (Meta Training and Inference Accelerator) je odgovor.

MTIA v1/v2 (Inferencija): Od 2025., velik dio produkcijske inferencije (preporuke Instagrama, lagani modeli Llama) prebačen je na ove kućne čipove, energetski učinkovitije za rutinske zadatke.
MTIA Training (2026): Prava revolucija je nadolazeći dolazak čipova sposobnih trenirati masivne modele. Temeljeni na otvorenoj RISC-V arhitekturi, ovi čipovi omogućuju Meti prilagodbu instrukcijskog seta za specifične Transformer operacije (Attention, MoE Routing). Ako Meta uspije ovu okladu, mogla bi smanjiti svoj UI CAPEX za nekoliko desetaka milijardi dolara, odlučujuća konkurentska prednost pred Googleom (TPU) i Microsoftom (Maia/NVIDIA).

5.2 Ekonomija Energije

S modelima poput Llama 4 Maverick koji troše masivne količine energije za trening i inferenciju, Meta je morala masivno ulagati u nove generacije podatkovnih centara. Najava ugovora za optička vlakna s Corningom (6 milijardi dolara) i razvoj naprednih sustava tekućeg hlađenja svjedoče o ovoj utrci u fizičku infrastrukturu.

Poglavlje 6: Konkurentski Pejzaž 2026.

Llama ne evoluira u vakuumu. 2026. je godina kada se open-weights konkurencija strukturirala, prijeteći hegemoniji Mete.

6.1 Mistral Large 3: Europski Rival

Lansiran u prosincu 2025., Mistral Large 3 pozicionirao se kao "čista" alternativa Llama 4.

Arhitektura: MoE s 41B aktivnih i 675B ukupnih parametara.
Diferencijacija: Za razliku od Mavericka, Mistral Large 3 izvrsno radi u kodu i europskom višejezičnosti, kapitalizirajući slabosti Llamе 4. Osim toga, njegova Apache 2.0 licenca (stvarno open-source) smiruje pravne odjele oprezne prema prilagođenim zajedničkim licencama Mete.

6.2 DeepSeek i Kineska Prijetnja

Emergencija DeepSeeka s modelima V3 i "Next" preokrenula je tržište svojim omjerom izvedbe/cijene. Često optuživani da se inspiriraju Llamaom, ovi modeli su ipak inovirali (MoE arhitekture s ultra-niskom latencijom) i prisilili Metu na reakciju. Izvještaji sugeriraju čak da je Llama 4 posudila neke tehnike usmeravanja stručnjaka od DeepSeeka pokušavajući nadoknaditi svoj zaostatak u učinkovitosti.

6.3 GPT-5 i Gemini 2.5: Zatvorena Granica

Na vlasničkoj strani, GPT-5 (kolovoz 2025.) i Gemini 2.5 produbili su jaz u "agenskim" sposobnostima (dugoročno planiranje, autonomna upotreba alata). Llama 4 ostaje izvrstan generator teksta, ali se još uvijek muči biti pouzdan autonomni agent bez teške inženjerije prompta (RAG, Chain-of-Thought).

Poglavlje 7: Strateški Pivot 2026. – Projekt Avocado

U ovom kontekstu žestoke konkurencije i eksplozivnih troškova ocrtava se budućnost Meta AI.

7.1 "Avocado": Zatvaranje Vrta?

Izvještaji s početka 2026. ukazuju na veliku promjenu smjera s projektom "Avocado".

Zatvoreni Model: Za razliku od loze Llama, Avocado bi bio vlasnički model, ne distribuiran.
Cilj: Stvoriti monetizabilnu "Osobnu Superinteligenciju", ekskluzivno integriranu u Meta proizvode (WhatsApp, Instagram, Ray-Ban).
Obrazloženje: Meta uprava, pod pritiskom dioničara, traži izravni povrat ulaganja. Nuditi Llamu "besplatno" omogućilo je komoditizaciju tržišta, ali nije generiralo izravne prihode usporedive s pretplatama ChatGPT Plus ili Gemini Advanced.

7.2 Unutarnje Napetosti i Kulturni Sukobi

Ovaj pivot stvorio je trenja unutar UI tima Mete. Integracija "proizvodnih" profila poput Alexandr Wanga (bivši Scale AI) i odlazak povijesnih istraživača iz FAIR-a signaliziraju kulturni prijelaz: od otvorenog istraživanja prema agresivnom razvoju komercijalnih proizvoda. Kašnjenje Avocadoa, uzrokovano početno razočaravajućim izvedbama, samo je pogoršalo ove napetosti.

Poglavlje 8: Utjecaj na SEO i Informacijsko Pretraživanje (2026.)

Sveprisutnost modela poput Llamе temeljito je promijenila prirodu samog Weba i, prošireno, SEO-a (Search Engine Optimization).

8.1 Od Pretraživanja Ključnih Riječi do Autoriteta Entiteta

2026. tradicionalni tražilice ustupile su teren "Answer Engines" generativnim (Google AI Overviews, SearchGPT, Meta AI).

Smrt Klika

Korisnici dobivaju svoje odgovore izravno u chat sučelju. Promet prema informativnim web stranicama srušio se.

Nova SEO Strategija

Kako ističu stručnjaci 2026., cilj više nije rangirati ključne riječi, već biti citiran kao pouzdan izvor od strane LLM-a.

8.2 Llama kao Čuvar Informacija

S integracijom Llamе u Facebook, Instagram i WhatsApp, Meta postala je jedan od najvećih tražilica na svijetu. Ako korisnik pita "Koja je najbolja auto osiguranje?" svom Meta AI asistentu, odgovor generira Llama 4. Biti prisutan u trening datasetu ili u real-time RAG indeksu Mete postao je Sveti Gral digitalnog marketinga 2026.

Zaključak: Revolucija u Prijelazu

Priča o Llama, od 2023. do 2026., priča je o anomaliji koja je postala norma. Oslobađajući svoje modele, Meta ubrzala je globalnu UI inovaciju za nekoliko godina, stvarajući vibrantan i otporni ekosustav koji je izazvao predviđanja o centralizaciji.

Međutim, 2026. označava kraj nevinosti. Fizička ograničenja (energija, silicij), ekonomska (CAPEX) i konkurentska (Mistral, DeepSeek) prisiljavaju na racionalizaciju. S Llamom 4 i njezinom složenom MoE arhitekturom, Meta dosegnula je granice onoga što prosječni korisnik može hostirati. S Projektom Avocado, Meta se čini priprema za budućnost gdje najnaprednija UI ponovno postaje plaćena i centralizirana usluga.

Hoće li Llama ekosustav preživjeti ovaj pivot? Odgovor vjerojatno leži u open-source zajednici koju je porodila. Čak i ako Meta sutra zatvori svoja vrata, alati, znanja i izvedeni modeli nastavit će evoluirati. Duh je izašao iz boce, i nijedna restriktivna licenca ga ne može vratiti natrag.

Tehnička Dodatak: Komparativne Specifikacije Modela Llama

Tablica u nastavku sintetizira tehničku evoluciju obitelji Llama, ističući eksponencijalni napredak sposobnosti i hardverskih zahtjeva.

Model	Datum Izlaska	Arhitektura	Parametri (Ukupno / Aktivni)	Kontekstni Prozor	Trening (Tokeni)	Multimodalna Sposobnost	VRAM Zahtjev (FP16)
Llama 1 65B	Veljača 2023.	Gusta	65B	2k	1.4T	Ne	~130 GB
Llama 2 70B	Srpanj 2023.	Gusta (GQA)	70B	4k	2T	Ne	~140 GB
Llama 3.1 405B	Srpanj 2024.	Gusta	405B	128k	15T+	Ne (Samo tekst)	~800 GB
Llama 3.2 90B	Rujan 2024.	Gusta + Vid	90B	128k	Nepoznato	Da (Slika)	~180 GB
Llama 4 Scout	Travanj 2025.	MoE (Rijetka)	109B / ~17B	10M (iRoPE)	~40T	Da (Nativno)	~220 GB
Llama 4 Maverick	Travanj 2025.	MoE (Rijetka)	402B / ~17B	1M	~22T	Da (Nativno)	~800 GB

Napomena o VRAM-u: FP16 vrijednosti predstavljaju idealni slučaj za maksimalnu preciznost. Upotreba 4-bitne kvantizacije (putem llama.cpp ili bitsandbytes) obično omogućuje dijeljenje ovih zahtjeva s 3 ili 4, čineći modele do 70B-90B dostupnima na potrošačkim multi-GPU konfiguracijama.