Como Funciona
Perguntas Reais
Selecionadas de conversas reais de atendimento ao cliente em e-commerce em produção.
Mesmo Prompt
Todos os modelos recebem o mesmo prompt de sistema, base de conhecimento e pergunta.
Avaliação Cega
Os avaliadores veem apenas 'Resposta A', 'Resposta B' — eles não sabem qual modelo escreveu.
Avaliação Cruzada
Modelos de primeira linha de cada provedor avaliam as respostas. Nenhum modelo julga sua própria resposta.
Critérios de Pontuação
Cada resposta recebe uma nota de 0 a 100 em seis critérios com os seguintes pesos:
Para manter a comparação justa, as pontuações públicas são calculadas apenas a partir de perguntas respondidas por todos os modelos incluídos no conjunto de comparação selecionado. Isso evita que modelos mais novos ou descontinuados se beneficiem de um conjunto de perguntas mais fácil.