Kakvostni preskok na področju AI
V svetu umetne inteligence, kjer trenutno prevladujejo dragi in energetsko potratni grafični procesorji (GPU), se napoveduje revolucija, ki bi lahko korenito spremenila pravila igre. Kanadsko zagonsko podjetje Taalas je predstavilo svojo vizijo prihodnosti, v kateri namesto programabilnih čipov uporabljajo namenske, v strojno opremo dobesedno "vkovane" modele umetne inteligence.

Njihov prvi dosežek, čip HC1, je na testih dosegel osupljivih 17.000 žetonov na sekundo pri poganjanju modela Llama 3.1 8B, kar predstavlja kvantni skok v zmogljivosti in učinkovitosti.
Za primerjavo: pri neposredni interakciji, kjer je pomembna hitrost generiranja besedila za enega uporabnika, današnji vrhunski procesorji dosegajo med 100 in 200 žetoni na sekundo za manjše modele (8B). Pri večjih modelih (70B+) se ta hitrost pogosto zniža na 30 do 80 žetonov na sekundo.
V produkcijskih okoljih, kjer strežnik obdeluje na stotine poizvedb hkrati (batching), se skupna zmogljivost poveča. Sodobni strežniki, optimizirani s programsko opremo, kot sta vLLM ali TensorRT-LLM, lahko na enem vozlišču z osmimi GPU-ji dosežejo skupno prepustnost okoli 2.000 do 5.000 žetonov na sekundo za modele srednje velikosti.
Zakaj je podatek podjetja Taalas (17.000 žetonov) tako presenetljiv? Taalas HC1 doseže to zmogljivost na enem samem čipu. To pomeni, da je en sam tak namenski čip po surovi moči izvajanja (inference) enakovreden celotnemu grozdu grafičnih procesorjev, hkrati pa sta njegova poraba energije in cena izdelave le majhen delež tistega, kar stane NVIDIA H100.
Glavna težava današnje infrastrukture za umetno inteligenco je tako imenovani spominski zid. Standardni grafični procesorji morajo nenehno prenašati podatke med računskimi jedri in zunanjim pomnilnikom, kar porabi ogromno energije in omejuje hitrost delovanja.
Taalas je to težavo rešil tako, da je parametre modela vgradil neposredno v čip. Ker so uteži modela fiksno povezane s strojno opremo, čip ne potrebuje dragega in kompleksnega pomnilnika HBM ali naprednih sistemov za hlajenje. Rezultat je naprava, ki je po trditvah podjetja do tisočkrat učinkovitejša glede porabe energije.
Čeprav se fiksiranje modela v silicij zdi omejujoče, Taalas stavi na svojo avtomatizirano livarno. Razvili so sistem, ki deluje kot prevajalnik in omogoča, da se načrt za nov namenski čip ustvari v pičlih nekaj dneh. Celoten proces od programske kode do končnega silicija traja manj kot dva meseca, kar je v polprevodniški industriji izjemno hitro.

