Come funziona
Domande reali
Selezionate da conversazioni reali di assistenza clienti e-commerce in produzione.
Stesso prompt
Tutti i modelli ricevono lo stesso prompt di sistema, la stessa base di conoscenza e la stessa domanda.
Valutazione cieca
I valutatori vedono solo 'Risposta A', 'Risposta B' — non sanno quale modello l'ha scritta.
Valutazione incrociata
I modelli di punta di ogni provider valutano le risposte. Nessun modello giudica la propria risposta.
Criteri di punteggio
Ogni risposta riceve un punteggio da 0 a 100 su sei criteri con i seguenti pesi:
Per mantenere il confronto equo, i punteggi pubblici vengono calcolati solo dalle domande a cui hanno risposto tutti i modelli inclusi nel set di confronto selezionato. Questo impedisce ai modelli più recenti o ritirati di beneficiare di un mix di domande più semplice.