INTELIGENCIA ARTIFICIAL

Fuentes de Información

Empresas y organizaciones que impulsan la revolución de la IA

EVALUACIÓN Y RENDIMIENTO

Benchmarks y rankings de modelos IA

Recursos para comparar modelos de inteligencia artificial por calidad, coste, velocidad, programación, embeddings y rendimiento general.

Agregadores y comparadores
# Nombre Tipo Descripción
1 Artificial Analysis Agregador y comparador Comparador muy completo de modelos IA con métricas de calidad, velocidad, precio, latencia, contexto y proveedores.
2 BenchLM Agregador de benchmarks Reúne resultados de distintos benchmarks para comparar modelos, costes, contexto y rendimiento.
3 LLM Stats Agregador de métricas Agrega rankings, precios, velocidad, contexto y puntuaciones públicas de modelos de lenguaje.
4 Vellum LLM Leaderboard Comparador práctico Ranking visual orientado a comparar modelos recientes en benchmarks relevantes.
5 LM Market Cap Benchmarks Agregador visual Centraliza resultados de benchmarks como MMLU, GPQA, SWE-bench, HumanEval y Arena Elo.
6 CodeSOTA Agregador técnico Permite localizar modelos líderes por benchmark, tarea, métrica, fecha y fuente.
Benchmarks especializados
# Nombre Tipo Descripción
7 Arena / LMArena Benchmark por preferencia humana Ranking basado en comparaciones entre respuestas de modelos votadas por usuarios. Muy conocido para medir percepción real de calidad.
8 LiveBench Benchmark dinámico Evalúa modelos con preguntas actualizadas periódicamente para reducir contaminación de datos.
9 HELM Stanford Benchmark académico Evaluación holística de modelos desde Stanford, con métricas de capacidades, robustez, seguridad y dominios especializados.
10 Open LLM Leaderboard Benchmark de modelos abiertos Referencia popular para comparar modelos abiertos y open weights dentro de Hugging Face.
11 SWE-bench Benchmark de programación Evalúa modelos resolviendo issues reales de repositorios de GitHub. Muy relevante para agentes de código.
12 Aider LLM Leaderboards Benchmark de edición de código Mide la capacidad de los modelos para modificar código en tareas prácticas de programación.
13 BigCodeBench Benchmark de generación de código Benchmark especializado en generación de código y resolución de tareas de programación más completas.
14 EvalPlus Benchmark de código riguroso Extiende HumanEval y MBPP con más tests para detectar soluciones incorrectas.
15 MTEB Leaderboard Benchmark de embeddings Referencia para evaluar embeddings, búsqueda semántica, clasificación, recuperación y RAG.
16 Epoch AI Benchmarks Base de datos de capacidades Repositorio analítico sobre evolución de capacidades de modelos y benchmarks de IA.
17 Papers with Code Repositorio de benchmarks Referencia general para papers, datasets, tareas, métodos y rankings de estado del arte.