Jak to funguje
Reálné otázky
Vybrané ze skutečných produkčních konverzací zákaznického servisu v e-commerce.
Stejný prompt
Všechny modely dostanou identický systémový prompt, znalostní bázi a otázku.
Slepé hodnocení
Hodnotitelé vidí pouze ‚Odpověď A', ‚Odpověď B' — nevědí, který model ji napsal.
Křížové hodnocení
Špičkové modely od každého poskytovatele hodnotí odpovědi. Žádný model nehodnotí svou vlastní odpověď.
Kritéria hodnocení
Každá odpověď je hodnocena 0–100 v šesti kritériích s následujícími váhami:
Pro zachování férovosti se veřejné skóre počítá pouze z otázek, na které odpověděly všechny modely zahrnuté ve vybrané srovnávací sadě. To brání tomu, aby novější nebo vyřazené modely těžily z jednoduššího mixu otázek.