Nova odprta modela umetne inteligence iz OpenAI
Imenu navkljub OpenAI že vse od prastarega modela GPT-2 ni izdal nobenega zares odprtega modela, ki bi mu lahko pogledali pod pokrov, ga spreminjali in seveda lokalno pognali. Zato smo toliko bolj presenečeni, da so te dni izdali gpt-oss-120b in gpt-oss-20b, oba z odprto licenco Apache 2.0.
Odprtost pomeni, da ju lahko poganjamo lokalno, ni pa to nujno. Kdor nima ustrezno zmogljive strojne opreme ali dovolj znanja, si bo lahko pomagal tudi s storitvami, kot so Hugging Face, Ollama, llamaa.cpp in vLLM. Modela sta različno zahtevna. Šibkejši model potrebuje 16 GB pomnilnika na grafični kartici, kar je dostopno tudi v domačih okoljih, medtem ko močnejši model zahteva vsaj 80 GB pomnilnika.
Nova modela uporabljata nov način "razmišljanja", ki ga je OpenAi predstavil v modelu o1 lani in se imenuje chain-of-thought reasoning. Poleg golega odgovora model zapiše tudi več korakov, kaj se je dogajalo v njegovem drobovju, ko je iskal odgovor. Nova modela sta zgolj besedilna, sta pa sposobna brskati po spletu, pisati kodo in rokovati s strojno opremo.
- Evropski odprtokodni jezikovni model Mixtral dohiteva GPT-4
- Jezikovni model Llama močno prispeva k razcvetu generativne umetne inteligence
Ni težko ugotoviti, da je bila močna vzpodbuda za njun nastanek kitajski model DeepSeek, pa seveda tudi Qwen in Mistral, ki sta takisto dostopna pod Apache 2.0. Nova modela iz OpenAI bi bila morala iziti že pred meseci, a so ju raje še malce testirali in pilili. Ko model namreč odprejo, zaživi svoje življenje. Lepo je, da vsaj iz tovarne pride spodoben, dasiravno ga more kasneje vsakdo pokvariti.