INTELIGENCIA ARTIFICIAL
Fuentes de Información
Empresas y organizaciones que impulsan la revolución de la IA
EVALUACIÓN Y RENDIMIENTO
Benchmarks y rankings de modelos IA
Recursos para comparar modelos de inteligencia artificial por calidad, coste, velocidad, programación, embeddings y rendimiento general.
Agregadores y comparadores
| # | Nombre | Tipo | Descripción |
|---|---|---|---|
| 1 | Artificial Analysis | Agregador y comparador | Comparador muy completo de modelos IA con métricas de calidad, velocidad, precio, latencia, contexto y proveedores. |
| 2 | BenchLM | Agregador de benchmarks | Reúne resultados de distintos benchmarks para comparar modelos, costes, contexto y rendimiento. |
| 3 | LLM Stats | Agregador de métricas | Agrega rankings, precios, velocidad, contexto y puntuaciones públicas de modelos de lenguaje. |
| 4 | Vellum LLM Leaderboard | Comparador práctico | Ranking visual orientado a comparar modelos recientes en benchmarks relevantes. |
| 5 | LM Market Cap Benchmarks | Agregador visual | Centraliza resultados de benchmarks como MMLU, GPQA, SWE-bench, HumanEval y Arena Elo. |
| 6 | CodeSOTA | Agregador técnico | Permite localizar modelos líderes por benchmark, tarea, métrica, fecha y fuente. |
Benchmarks especializados
| # | Nombre | Tipo | Descripción |
|---|---|---|---|
| 7 | Arena / LMArena | Benchmark por preferencia humana | Ranking basado en comparaciones entre respuestas de modelos votadas por usuarios. Muy conocido para medir percepción real de calidad. |
| 8 | LiveBench | Benchmark dinámico | Evalúa modelos con preguntas actualizadas periódicamente para reducir contaminación de datos. |
| 9 | HELM Stanford | Benchmark académico | Evaluación holística de modelos desde Stanford, con métricas de capacidades, robustez, seguridad y dominios especializados. |
| 10 | Open LLM Leaderboard | Benchmark de modelos abiertos | Referencia popular para comparar modelos abiertos y open weights dentro de Hugging Face. |
| 11 | SWE-bench | Benchmark de programación | Evalúa modelos resolviendo issues reales de repositorios de GitHub. Muy relevante para agentes de código. |
| 12 | Aider LLM Leaderboards | Benchmark de edición de código | Mide la capacidad de los modelos para modificar código en tareas prácticas de programación. |
| 13 | BigCodeBench | Benchmark de generación de código | Benchmark especializado en generación de código y resolución de tareas de programación más completas. |
| 14 | EvalPlus | Benchmark de código riguroso | Extiende HumanEval y MBPP con más tests para detectar soluciones incorrectas. |
| 15 | MTEB Leaderboard | Benchmark de embeddings | Referencia para evaluar embeddings, búsqueda semántica, clasificación, recuperación y RAG. |
| 16 | Epoch AI Benchmarks | Base de datos de capacidades | Repositorio analítico sobre evolución de capacidades de modelos y benchmarks de IA. |
| 17 | Papers with Code | Repositorio de benchmarks | Referencia general para papers, datasets, tareas, métodos y rankings de estado del arte. |