INTELIGENCIA ARTIFICIAL

Fuentes de Información

Empresas y organizaciones que impulsan la revolución de la IA

Activa

OpenAI

ChatGPT

CEO Sam Altman

Web Blog Noticias Papers

Activa

Google Gemini

Gemini

CEO Sundar Pichai

Web Blog Noticias Papers

Activa

Anthropic

Claude

CEO Dario Amodei

Web Blog Noticias Papers

Activa

xAI

Grok

CEO Elon Musk

Web Noticias

Activa

DeepSeek

CEO Liang Wenfeng

Web Noticias Papers

Activa

Perplexity AI

Perplexity

CEO Aravind Srinivas

Web Blog Noticias Papers

Activa

Alibaba Cloud

Qwen

CEO Eddie Wu

Web Blog Noticias Papers

Activa

Moonshot AI

Kimi

CEO Yang Zhilin

Web Noticias Papers

Activa

Manus

CEO Xiao Hong

Web Blog Noticias

Activa

Meta Platforms

Meta AI

CEO Mark Zuckerberg

Web Blog Noticias Papers

EVALUACIÓN Y RENDIMIENTO

Benchmarks y rankings de modelos IA

Recursos para comparar modelos de inteligencia artificial por calidad, coste, velocidad, programación, embeddings y rendimiento general.

Agregadores y comparadores

#	Nombre	Tipo	Descripción
1	Artificial Analysis	Agregador y comparador	Comparador muy completo de modelos IA con métricas de calidad, velocidad, precio, latencia, contexto y proveedores.
2	BenchLM	Agregador de benchmarks	Reúne resultados de distintos benchmarks para comparar modelos, costes, contexto y rendimiento.
3	LLM Stats	Agregador de métricas	Agrega rankings, precios, velocidad, contexto y puntuaciones públicas de modelos de lenguaje.
4	Vellum LLM Leaderboard	Comparador práctico	Ranking visual orientado a comparar modelos recientes en benchmarks relevantes.
5	LM Market Cap Benchmarks	Agregador visual	Centraliza resultados de benchmarks como MMLU, GPQA, SWE-bench, HumanEval y Arena Elo.
6	CodeSOTA	Agregador técnico	Permite localizar modelos líderes por benchmark, tarea, métrica, fecha y fuente.

Benchmarks especializados

#	Nombre	Tipo	Descripción
7	Arena / LMArena	Benchmark por preferencia humana	Ranking basado en comparaciones entre respuestas de modelos votadas por usuarios. Muy conocido para medir percepción real de calidad.
8	LiveBench	Benchmark dinámico	Evalúa modelos con preguntas actualizadas periódicamente para reducir contaminación de datos.
9	HELM Stanford	Benchmark académico	Evaluación holística de modelos desde Stanford, con métricas de capacidades, robustez, seguridad y dominios especializados.
10	Open LLM Leaderboard	Benchmark de modelos abiertos	Referencia popular para comparar modelos abiertos y open weights dentro de Hugging Face.
11	SWE-bench	Benchmark de programación	Evalúa modelos resolviendo issues reales de repositorios de GitHub. Muy relevante para agentes de código.
12	Aider LLM Leaderboards	Benchmark de edición de código	Mide la capacidad de los modelos para modificar código en tareas prácticas de programación.
13	BigCodeBench	Benchmark de generación de código	Benchmark especializado en generación de código y resolución de tareas de programación más completas.
14	EvalPlus	Benchmark de código riguroso	Extiende HumanEval y MBPP con más tests para detectar soluciones incorrectas.
15	MTEB Leaderboard	Benchmark de embeddings	Referencia para evaluar embeddings, búsqueda semántica, clasificación, recuperación y RAG.
16	Epoch AI Benchmarks	Base de datos de capacidades	Repositorio analítico sobre evolución de capacidades de modelos y benchmarks de IA.
17	Papers with Code	Repositorio de benchmarks	Referencia general para papers, datasets, tareas, métodos y rankings de estado del arte.