Lokální provozování otevřených modelů

Na lepších spotřebitelských počítačích ("herní dělo") lze rozběhnout zveřejněné modely cca do 9B (9 miliard parametrů), rozhodující:

Model grafické karty
Velikost paměti GPU
RAM paměti počítače
Propustnost (rychlost) paměti GPU
Případné NPU (Jednotka neurálního zpracování) - koprocesor

Orientační kalkulačka

Velký rozmach zažívá i specializovaný hardware, určený pouze na provozování modelů. Ceny začínají tam kde ceny nejdražších herních počítačů končí.

Provozování otevřených modelů v cloudu

Existuje spousta služeb, které vám na nějakou dobu "půjčí" hardware pro inferenci.

Velké cloudy

Poměrně drahé a složitější na konfiguraci.

AWS g5.xlarge či g5.2xlarge
GCP (google)
Azure

Menší hráči

Komerční modely

Claude, Gemini i ChatGPT lze napojit na ledasjaké nástroje pomocí API. Platí se buď fixní částka (s limitem) a nebo za vstupní a výstupní tokeny.

Propojení

OpenAI API je de facto standard, kterým se spolu dorozumí většina toolů s LLM, ať už těmi komerčními nebo těmi provozovanými na vlastním/pronajatém hardware.