Lokální provozování otevřených modelů
Na lepších spotřebitelských počítačích ("herní dělo") lze rozběhnout zveřejněné modely cca do 9B (9 miliard parametrů), rozhodující:
- Model grafické karty
- Velikost paměti GPU
- RAM paměti počítače
- Propustnost (rychlost) paměti GPU
- Případné NPU (Jednotka neurálního zpracování) - koprocesor
Velký rozmach zažívá i specializovaný hardware, určený pouze na provozování modelů. Ceny začínají tam kde ceny nejdražších herních počítačů končí.
Provozování otevřených modelů v cloudu
Existuje spousta služeb, které vám na nějakou dobu "půjčí" hardware pro inferenci.
Velké cloudy
Poměrně drahé a složitější na konfiguraci.
- AWS
g5.xlargečig5.2xlarge - GCP (google)
- Azure
Menší hráči
Komerční modely
Claude, Gemini i ChatGPT lze napojit na ledasjaké nástroje pomocí API. Platí se buď fixní částka (s limitem) a nebo za vstupní a výstupní tokeny.
Propojení
OpenAI API je de facto standard, kterým se spolu dorozumí většina toolů s LLM, ať už těmi komerčními nebo těmi provozovanými na vlastním/pronajatém hardware.