Objavljeno: 29.11.2022 | Avtor: Jurij Kristan | Monitor December 2022

Grafične kartice - Hitrejše, dražje, večje

Najnovejše grafične kartice iz Nvidie navdušijo z izjemnim skokom v zmogljivosti, podobne pribitke v primerjavi s prejšnjo generacijo izdelkov pa za december obljublja tudi AMD. Kakšno magijo so inženirji ubrali tokrat?

Pri Nvidii je tokrat še bolj opazno osredotočanje na sledenje žarkom (ray tracing), ki iz generacije v generacijo kartic postaja vse bolj porabna in razširjena tehnologija.

Pri testiranju novih grafičnih kartic Geforce, še posebno pri RTX 4090, se je bilo treba ob pogledu na rezultate testov kar uščipniti, tako nenormalno dobre vrednosti so pokazali. Rast v zmogljivostih med generacijami takšnih naprav običajno merimo v nekaj deset odstotkih, tokrat pa pri nekaterih testih znaša celo dvakratnik preteklih meritev. Na AMD Radeone bomo žal čakali vsaj do srede decembra, zato neposrednega dvoboja še ni bilo mogoče uprizoriti. Ob predstavitvi v začetku novembra je podjetje za prihajajočega paradnega konja, RX 7900 XTX, na papirju navajalo dokaj podobne številke: pospeške v okolici 70 odstotkov. Kot bomo videli, dogajanje ni posledica kakšnih norih prebojev v grafični tehnologiji, temveč kombinacije strateškega izkoriščanja izboljšav v proizvodnji in izpopolnitve nekaterih aktualnih orodij.

Milijarde tranzistorjev

Med pristopoma inženirjev Nvidie in AMD sicer obstajajo pomembne razlike, toda obe družbi tokratno jesen stavita na prehod na nov proizvodni proces. Radeoni RX 6000 so narejeni v TSMC 7-nanometrskem načinu, RX 7000 pa v kombinaciji 5- in 6-nanometrskega. V zelenem taboru je preskok še večji, z 8-nanometrskega Samsungovega na TSMC 4N, kar je izboljšana proizvodnja 5 nm. Takšno pomanjšanje gradnikov čipov pomeni, da jih na enoto površine lahko stlačijo več, obenem pa zaradi krajših povezav med njimi omogoči tudi višje takte ali varčnejše delovanje. Običajno se podjetja v takih primerih odločijo za neko ravnotežje med povečanjem števila tranzistorjev in frekvenc ter zmanjšanjem porabe, tokrat pa sta tako Nvidia kot AMD očitno šla v neposredni napad in svoje čipe močno »poredila«. Radeon RX 7900 XTX ima 58 milijard tranzistorjev, v primerjavi s slabimi 27 milijardami v starejšem RX 6950 XT. Geforce RTX 4090 pa jih ima kar 76 milijard, trikrat več od RTX 3090!

Arhitektura Ada Lovelace nosi več optimizacijskih prijemov za sledenje žarkom. Displaced micro-mesh kompleksno geometrijo prevede v poenostavljen model, ki ga žarki hitreje obdelajo.

Velik del novih tranzistorjev dejansko odpade na računske enote. Medtem ko ima Geforce RTX 3090 10.752 senčilnih enot, ki jim Nvidia sicer pravi »jedrca CUDA«, jih ima RTX 4090 kar 18.432 – pri čemer so ta seveda še izboljšana. Tudi pri radeonih je številka praktično podvojena, le da na bolj samosvoj način. Rdeči tabor je namreč izvedel zanimivo potezo in se vnovič oklenil ukaznega paralelizma, ki se mu je bil sicer pred tremi leti odrekel na prehodu med starejšo vrsto grafičnih arhitektur GCN in pa aktualno serijo arhitektur RDNA. Po domače povedano, lahko rečemo, da se poskuša tok ukazov v posamezni senčilni enoti (ki jim AMD pravi »stream procesor«) usmeriti skozi dva vzporedna cevovoda. Fizično to pomeni, da so v radeonih RX 7000 senčilniki podvojene velikosti, toda ker v praksi ni mogoče vselej učinkovito razdeliti ukazov na dve enaki veji, zmogljivost s tem ni podvojena, zato zgolj prej omenjenih 70 odstotkov v pribitku. Hkrati je to razlog za razhajanja v navajanju števila procesorjev stream; medtem ko podjetje za Radeon RX 7900 XTX navaja 6.144 senčilnikov podvojene širine, jih nekateri viri omenjajo kar 12.288. Pod črto pa gre pri obeh igralcih za rast surove strojne računske moči, kakršne doslej še nismo videli.

Vzporedni žarki

Pri izpopolnitvah strojnega drobovja nove arhitekture Ada Lovelace v Nvidii izpostavljajo SER ali shader execution reordering, kar je nekakšna grafična različica zunajserijskega izvajanja ukazov, ki ga že dolgo poznamo v centralnih procesorjih (out-of-order execution). Naloge, ki prihajajo do senčilnih enot, zna vezje prerazporejati na način, da jih je čim več nenehno zaposlenih in jih torej čim manj »spi«. Nvidijin šef Jensen Huang je pompozno oznanil, da bo imel prijem tudi pri grafičnih tehnologijah podobno prelomen učinek kot pri glavnih procesorjih, ki si jih brez tega ne predstavljamo več. Toda trditev zahteva razlago in je nekam pretirana. Obstaja razlog, da zunajserijsko izvajanje te sorte v GPU doslej ni bilo razširjeno: vektorsko računanje, ki je podlaga 3D-grafiki, je namreč že samo po sebi močno paralelno, zaradi česar je v takšnih čipih ogromno število manjših jedrc oziroma splošnih senčilnikov. Malo verjetno je, da bi SER v klasičnih nalogah lahko pomenil tako bistveno izboljšanje.

Drugače pa je pri novejših tipih izvajanja, kot je sledenje žarkov oziroma ray tracing. Prijemu, ki simulira naravno pot svetlobe po virtualni sceni in zato pomeni prelomnico predvsem v ponazarjanju realistične osvetlitve ter odsevov, je Nvidia dokončno utrla pot z rojstvom tehnologije RTX pred dvema generacijama geforceov. Še vedno pa je strojno zahteven in njegov vklop število sličic na sekundo običajno pošlje v strmoglav upad. Čeprav so računanju gibanja žarkov namenjene specializirane enote – RT cores, pomeni coklo tudi v siceršnjem cevovodu, ker proces ni tako paralelen kot računanje geometrije. Tu pa pride do izraza SER. Ta očitno zna podatke o žarkih, ki pridejo iz RT-enot, razporediti tako, da čim bolj skladno potujejo proti jedrcem CUDA. Tudi zato rast zmogljivosti ob vklopljenem ray tracingu merimo v večkratnikih. Poleg so inženirji vdelali še nekaj izboljšav, ki se tičejo soočanja žarkov s prosojnimi površinami, in kompleksno geometrijo.

Pomnilniških čipletov v čipih arhitekture RDNA 3 je več in količino pomnilnika določajo s svojim številom ali delovanjem. Radeon RX 7900 TX jih ima šest in 24 GB pomnilnika, v RX 7900 XT pa je en »ugasnjen«, kar pomeni 20 GB.

Pomembno noviteto je z različico 3.0 pridobila tudi Nvidijina superločljivost DLSS. Medtem ko prejšnje različice in pa tiste, ki jih uporabljajo tekmeci – FSR (AMD) in XeSS (Intel), v sliko ob pomoči strojnega učenja dodajajo slikovne pike in jo tako raztegujejo na višjo ločljivost, pa DLSS 3.0 ob tem pozna še povsem samosvoj način Frame Generation. Kot pove ime, zna FG generirati celotno sličico, ki jo vrine med dve siceršnji. Poteza se izvede v poprocesni fazi in torej ne obremenjuje ne senčilnikov ne procesorja. To pomeni, da se je mogoče na ta način boriti proti zastojem, ki jih povzroča centralni procesor, kar sploh ni smešna zamisel, ker so pač novi geforcei tako noro zmogljivi, da jih CPU dejansko lahko zavira. Prijem sicer povzroči nekaj zamika, zato bo treba še videti, kako se bodo z njim soočili resni igralci online streljačin. Prav tako velja omemba, da morajo biti igre DLSS namensko prirejene, ker funkcija od njih zahteva podatke o gibanju objektov na sceni, toda gre za zanimiv kazalnik, kam se premika prijem superločljivosti, ki je postal eno ključnih orodij za soočanje z zahtevami monitorjev resolucije 4K.

Prvi »čipletni GPU«

Za RDNA 3, kar je nova arhitektura v radeonih, smo se doslej najbolj spraševali, ali bodo v AMD naposled začeli slediti Nvidii z dodajanjem specializiranih vezij, namenjenih strojnemu učenju, ki jih v geforceih sicer najdemo pod nazivom tensor cores. Tokrat so naposled potegnili to potezo in RDNA 3 pozna »pospeševalce AI«, ki pa jih podjetje še ni dobro razložilo. V tem hipu je videti, da bodo namenjeni čisto klasičnim nalogam strojnega učenja, se pravi namenskemu programju in ne igram. To je zanimivo, ker Nvidia tenzorska jedrca pridoma izkorišča tudi za nekatere pomembne grafične naloge, med drugim za glajenje šuma v signalu enot RT pa podporo izračunavanju superločljivosti DLSS.

Poenostavljena shema prerazporejanja nalog za senčilne enote v tehnologiji shader execution reordering. Uporabna je za tokove ukazov, ki sami po sebi niso visoko paralelni. Sem sodijo tudi podatki o sledenju žarkom.

Tako je v tehničnem smislu pozornost v RDNA 3 ukradla povsem drugačna podrobnost: prehod na čipletno tehnologijo, kakršno smo doslej videli v procesorjih Ryzen. GPU v novih radeonih je namreč sestavljen iz dveh vrst manjših kosov – čipletov. Računski graphics compute die (GCD) nosi stream procesorje, do šest pomnilniških čipletov memory cache die (MCD) pa vsebuje predpomnilnik L3 in kontrolerje za grafični pomnilnik GDDR6. Medtem ko so prvi narejeni v 5 nanometrih, so drugi v cenejšem, 6-nanometrskem proizvodnem načinu. To inženirjem omogoči nekaj dodatne gibkosti v oblikovanju čipa, toda prave koristi se bodo verjetno pokazale šele na daljši rok, v ekonomičnosti pri sestavljanju različnih drugih modelov te družine kartic. Vsekakor pa velja, da gre za prve grafične čipe takšnega tipa in tej smeri bodo skoraj gotovo sledili tudi tekmeci.

Igričarska ekstrapolacija

Tako Nvidia kot AMD sta opisano rast zmogljivosti zrežirala na zelo neposreden način z odločnim povečevanjem grafičnih čipov. Novi geforcei zato niso samo hitri, temveč tudi veliki in dragi, radeoni pa ne bodo kaj dosti zaostajali. Očitno smo obsojeni na čase, ko bo treba za spodobno grafično kartico pogledati kar globoko v denarnico, kajti tudi z upoštevanjem inflacije so cene še vedno zaznavno višje kot v preteklosti. To hkrati otežuje napovedi za prihodnje leto, ko prispejo cenejši modeli obeh družin kartic.

Za vrh trga sta se obe podjetji zelo izprsili, za kar se lahko zahvalimo konkurenci, ki jo je z vrnitvijo na čelo napredka prispeval AMD. Za srednji del tržišča pa ostaja ključno vprašanje, ali bomo tudi tam videli takšno množenje tranzistorjev ali ne – in predvsem za kakšno ceno. Na to žal odgovora še ni.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!