Benchmark de modelos de IA

Escenarios reales de atención al cliente en e-commerce, evaluación ciega por múltiples jueces de IA

Este benchmark compara ChatGPT, Claude, Gemini y Grok en preguntas reales de atención al cliente en e-commerce. Está diseñado para equipos que buscan el mejor modelo de IA para chat de soporte, automatización de mesa de ayuda y flujos de asistente de ventas con IA.

Líder actual: ChatGPT 4.1 mini con una puntuación media de 62,7 en 30 preguntas compartidas y 656 evaluaciones ciegas.

30 preguntas evaluadas 656 evaluaciones realizadas Última actualización: Jun 05, 2026

Clasificación general entre todos los snapshots

Clasificación de media ponderada entre snapshots; la columna "rondas" muestra en cuántos snapshots ha participado cada modelo.
# Modelo Proveedor Puntuación general Rondas Evaluaciones totales
1 ChatGPT 5.4 mini OpenAI
63,1
3/3 218
3 Claude Sonnet 4.6 Anthropic
62,5
3/3 218
4 ChatGPT 5.4 OpenAI
62,2
3/3 137
5 ChatGPT 4.1 mini OpenAI
62,2
3/3 218
6 ChatGPT 4.1 OpenAI
60,3
3/3 218
10 Claude Haiku 4.5 Anthropic
58,1
3/3 218
11 Gemini 3.1 Pro Preview Google
57,9
3/3 137
12 Claude Opus 4.7 Anthropic
56,4
3/3 131
13 ChatGPT 5.5 OpenAI
56,4
2/3 106
15 Grok 4.3 xAI
54,8
2/3 106
16 Gemini 3.1 Flash-Lite Google
54,6
2/3 106
18 Gemini 3.5 Flash Google
47,6
2/3 106

Última ronda — Jun 05, 2026

Clasificación de modelos de IA ordenados por puntuaciones de evaluación ciega en preguntas compartidas de atención al cliente en e-commerce.
# Modelo Proveedor Puntuación general Respuesta media
1 ChatGPT 4.1 mini OpenAI
62,7
4.4s
2 Claude Sonnet 4.6 Anthropic
61,0
8.3s
3 ChatGPT 5.4 mini OpenAI
59,9
3.6s
4 ChatGPT 5.5 OpenAI
58,3
7.5s
5 Grok 4.3 xAI
57,7
4.7s
6 ChatGPT 4.1 OpenAI
57,2
4.4s
7 Claude Opus 4.7 Anthropic
56,4
11.5s
8 Gemini 3.1 Flash-Lite Google
55,5
1.7s
9 Claude Haiku 4.5 Anthropic
53,5
4.9s
10 Gemini 3.1 Pro Preview Google
53,1
15.4s
11 ChatGPT 5.4 OpenAI
52,2
8.5s
12 Gemini 3.5 Flash Google
50,5
9.5s

Desglose de puntuación

Puntuaciones del benchmark por criterio que muestran el rendimiento de cada modelo en precisión, relevancia, completitud, utilidad, tono y concisión.
Modelo Precisión (30%) Relevancia (20%) Completitud (15%) Utilidad (15%) Tono (10%) Concisión (10%)
ChatGPT 4.1 mini 48,0 74,1 59,2 54,0 82,6 82,1
Claude Sonnet 4.6 44,0 74,5 59,6 51,7 83,0 79,0
ChatGPT 5.4 mini 44,6 70,8 56,6 51,3 80,9 80,9
ChatGPT 5.5 40,0 71,2 57,5 48,0 82,8 79,6
Grok 4.3 42,9 70,5 49,4 47,3 78,1 84,0
ChatGPT 4.1 38,1 72,1 55,8 47,9 82,0 76,3
Claude Opus 4.7 36,3 70,5 56,2 45,2 83,6 78,6
Gemini 3.1 Flash-Lite 40,3 65,7 54,8 45,5 83,2 69,4
Claude Haiku 4.5 33,2 67,4 52,3 42,8 81,6 76,0
Gemini 3.1 Pro Preview 47,4 62,3 39,6 42,3 75,8 65,3
ChatGPT 5.4 32,5 66,7 57,2 37,0 79,3 70,8
Gemini 3.5 Flash 43,6 61,2 41,3 39,0 71,2 60,6

Cómo funciona

Preguntas reales

Seleccionadas de conversaciones reales de atención al cliente en producción en e-commerce.

Mismo prompt

Todos los modelos reciben el mismo prompt del sistema, base de conocimiento y pregunta.

Evaluación ciega

Los evaluadores solo ven 'Respuesta A', 'Respuesta B' — no saben qué modelo la escribió.

Evaluación cruzada

Modelos de primer nivel de cada proveedor evalúan las respuestas. Ningún modelo juzga su propia respuesta.

Criterios de puntuación

Cada respuesta se puntúa de 0 a 100 en seis criterios con los siguientes pesos:

Precisión 30%
Relevancia 20%
Completitud 15%
Utilidad 15%
Tono 10%
Concisión 10%

Para mantener la comparación justa, las puntuaciones públicas se calculan solo a partir de preguntas respondidas por todos los modelos incluidos en el conjunto de comparación seleccionado. Esto evita que modelos más nuevos o retirados se beneficien de una combinación de preguntas más fácil.

Results over time

Each round uses a different set of questions, so trends are indicative, not a controlled comparison.

Round-by-round average scores (all models)
Modelo Round 1Round 2Round 3
Claude Haiku 4.5 64,349,153,5
Claude Opus 4.6 63,0
Claude Opus 4.7 65,051,156,4
Claude Sonnet 4.6 66,754,561,0
Gemini 3 Flash 54,2
Gemini 3.1 Flash-Lite 53,455,5
Gemini 3.1 Flash-Lite 60,2
Gemini 3.1 Pro Preview 61,251,953,1
Gemini 3.5 Flash 43,850,5
ChatGPT 4.1 63,257,157,2
ChatGPT 4.1 mini 62,660,862,7
ChatGPT 5.4 69,548,752,2
ChatGPT 5.4 mini 65,960,659,9
ChatGPT 5.5 53,958,3
Grok 4 59,6
Grok 4.1 Fast 58,4
Grok 4.20 55,5
Grok 4.3 51,257,7

Preguntas frecuentes

Este benchmark mide cómo los principales modelos de IA gestionan tareas reales de atención al cliente en tiendas online. Se centra en la calidad práctica del soporte — precisión, utilidad, tono y concisión — en lugar de pruebas de programación, matemáticas o razonamiento genérico.

El mejor modelo depende de su tienda, combinación de idiomas, complejidad de productos y requisitos de velocidad. Esta página muestra qué modelos tienen mejor rendimiento actualmente en nuestro benchmark ciego, ayudándole a preseleccionar candidatos para sus propias pruebas en vivo.

Cada proveedor tiene sus fortalezas. Los modelos ChatGPT suelen ser rápidos y ampliamente compatibles. Los modelos Claude a menudo destacan en respuestas matizadas y con mucho contexto. Los modelos Gemini ofrecen sólidas capacidades multilingües. Los modelos Grok proporcionan un rendimiento competitivo con menor latencia. Consulte la clasificación anterior para la última comparación ciega.

Cada modelo recibe la misma pregunta, prompt del sistema y base de conocimiento. Sus respuestas se etiquetan de forma anónima (Respuesta A, Respuesta B, etc.) y son puntuadas por jueces de IA de primer nivel de cada proveedor — OpenAI, Anthropic, Google y xAI. Ningún modelo evalúa su propia respuesta, eliminando el sesgo de autoevaluación.

Sí. Las preguntas provienen de conversaciones reales en producción en tiendas online, incluyendo Shopify, Shoptet, WooCommerce y otras. Use la clasificación como punto de partida y luego pruebe los mejores modelos con su propio catálogo de productos y tono de marca antes de ponerlos en producción.

Use la clasificación como una ayuda para la decisión, no como el único factor decisivo. Comience con los modelos mejor clasificados y luego pruébelos con su propia base de conocimiento, tono de marca y requisitos de velocidad de respuesta antes de implementar en producción.

Añadimos nuevos modelos a medida que los proveedores los lanzan y ampliamos periódicamente el conjunto de preguntas con escenarios reales nuevos. Cuando se añade un nuevo modelo, se prueba con las mismas preguntas compartidas que todos los modelos existentes para mantener la comparación justa.

Copyright © Chaterimo

about-icon