Cómo funciona
Preguntas reales
Seleccionadas de conversaciones reales de atención al cliente en producción en e-commerce.
Mismo prompt
Todos los modelos reciben el mismo prompt del sistema, base de conocimiento y pregunta.
Evaluación ciega
Los evaluadores solo ven 'Respuesta A', 'Respuesta B' — no saben qué modelo la escribió.
Evaluación cruzada
Modelos de primer nivel de cada proveedor evalúan las respuestas. Ningún modelo juzga su propia respuesta.
Criterios de puntuación
Cada respuesta se puntúa de 0 a 100 en seis criterios con los siguientes pesos:
Para mantener la comparación justa, las puntuaciones públicas se calculan solo a partir de preguntas respondidas por todos los modelos incluidos en el conjunto de comparación seleccionado. Esto evita que modelos más nuevos o retirados se beneficien de una combinación de preguntas más fácil.