Ako to funguje
Reálne otázky
Vybrané zo skutočných konverzácií zákazníckej podpory v e-commerce.
Rovnaký prompt
Všetky modely dostanú rovnaký systémový prompt, znalostnú bázu a otázku.
Slepé hodnotenie
Hodnotitelia vidia iba ‚Odpoveď A', ‚Odpoveď B' — nevedia, ktorý model ju napísal.
Krížové hodnotenie
Špičkové modely od každého poskytovateľa hodnotia odpovede. Žiadny model nehodnotí svoju vlastnú odpoveď.
Kritériá hodnotenia
Každá odpoveď je hodnotená 0 – 100 podľa šiestich kritérií s nasledujúcimi váhami:
Aby bolo porovnanie spravodlivé, verejné skóre sa počíta iba z otázok zodpovedaných každým modelom zahrnutým vo vybranej porovnávacej sade. To zabraňuje novším alebo vyradeným modelom ťažiť z jednoduchšej zostavy otázok.