So funktioniert es
Echte Fragen
Ausgewählt aus realen Kundenservice-Gesprächen im E-Commerce-Produktivbetrieb.
Gleicher Prompt
Alle Modelle erhalten denselben System-Prompt, dieselbe Wissensbasis und dieselbe Frage.
Blindbewertung
Die Bewerter sehen nur ‚Antwort A', ‚Antwort B' — sie wissen nicht, welches Modell die Antwort verfasst hat.
Kreuzbewertung
Spitzenmodelle jedes Anbieters bewerten die Antworten. Kein Modell bewertet seine eigene Antwort.
Bewertungskriterien
Jede Antwort wird auf einer Skala von 0–100 nach sechs Kriterien mit folgender Gewichtung bewertet:
Um den Vergleich fair zu halten, werden die öffentlichen Bewertungen nur aus Fragen berechnet, die von jedem Modell im ausgewählten Vergleichsset beantwortet wurden. So wird verhindert, dass neuere oder eingestellte Modelle von einem einfacheren Fragenmix profitieren.