Nova metoda za učenje LLM-ov obljublja velike prihranke
Raziskovalci pri Nvidia so naredili pomemben korak na področju usposabljanja velikih jezikovnih modelov (LLM). Razvili so nov pristop po imenu NVFP4, ki omogoča usposabljanje modelov z 4-bitno kvantizacijo, pri čemer ohranja stabilnost in natančnost modelov, primerljivi z 8-bitnim formatom FP8.

Kvantizacija modelov pomeni pretvorbo njihovega števila parametrov iz visoko natančnih formatov, kot sta FP16 in FP32, v formate z manj podatki, kar zmanjša potrebo po (GPU) pomnilniku in računskih zmogljivostih. Tradicionalno je industrijski standard za takšno optimizacijo 8-bitni plavajoči format (FP8), ki že znatno zniža stroške brez velikega padca kakovosti. Uporaba kvantizacije NVFP4 te stroške še precej zmanjša.
Vendar prehod na 4-bitni format (FP4) prinaša izzive: omejen razpon vrednosti (le 16 možnih vrednosti) pomeni, da lahko ekstremne vrednosti popačijo rezultate in ogrozijo učno stabilnost. Testiranja pri ustvarjanju kode so pokazala rahlo zaostajanje v kasnejših fazah učenja, kar nakazuje, da 4-bitna preciznost še ni povsem optimalna za vse vrste nalog.
NVFP4 rešuje te izzive s kombinacijo pametnega skaliranja in mešane natančnosti. Večina plasti modela se kvantizira v 4-bitno obliko, medtem ko se numerično občutljivejše plasti ohranijo v višji preciznosti, na primer v BF16. Prav tako so prilagodili način izračuna gradientov v procesu vzvratne propagacije, da zmanjšajo pristranskosti, ki izhaja iz nizke preciznosti.
V praksi so raziskovalci s pomočjo pristopa NVFP4 usposobili model s približno 12 milijardami parametrov, ki je bil treniran na približno 10 bilijonih tokenov, in ga primerjali z modelom v FP8. Rezultati kažejo, da se učna izguba in natančnost pri nalogah uspešno približujeta FP8 verziji — tako na področju znanja, logičnega sklepanja in splošnih nalog kot tudi matematičnih izzivov.
Kar to odkritje naredi posebej zanimivo za industrijo, je možnost znatnega zmanjšanja stroškov zmogljivosti: manjša potreba po hitrosti pomnilnika in procesne moči pomeni, da tudi srednje velika podjetja ali start-upi lahko razmišljajo o lastnem usposabljanju zmogljivih jezikovnih modelov, namesto da le prilagajajo obstoječe.

