Lokální provozování otevřených modelů

Na lepších spotřebitelských počítačích ("herní dělo") lze rozběhnout zveřejněné modely cca do 9B (9 miliard parametrů), rozhodující:

  • Model grafické karty
  • Velikost paměti GPU
  • RAM paměti počítače
  • Propustnost (rychlost) paměti GPU
  • Případné NPU (Jednotka neurálního zpracování) - koprocesor

Orientační kalkulačka

Velký rozmach zažívá i specializovaný hardware, určený pouze na provozování modelů. Ceny začínají tam kde ceny nejdražších herních počítačů končí.

Provozování otevřených modelů v cloudu

Existuje spousta služeb, které vám na nějakou dobu "půjčí" hardware pro inferenci.

Velké cloudy

Poměrně drahé a složitější na konfiguraci.

  • AWS g5.xlarge či g5.2xlarge
  • GCP (google)
  • Azure

Menší hráči

Komerční modely

Claude, Gemini i ChatGPT lze napojit na ledasjaké nástroje pomocí API. Platí se buď fixní částka (s limitem) a nebo za vstupní a výstupní tokeny.

Propojení

OpenAI API je de facto standard, kterým se spolu dorozumí většina toolů s LLM, ať už těmi komerčními nebo těmi provozovanými na vlastním/pronajatém hardware.