Cuál es el mejor modelo de inteligencia artificial según el benchmarks
Los conjuntos de pruebas que miden la capacidad de la IA han determinado que Gemeni Pro es por ahora el mejor modelo, sin embargo, en este análisis de sitio especializado Xataka se pone en duda la efectividad de estas pruebas.
Según la clasificación de Chatbot Arena, una plataforma en la que se ejecutan diversas pruebas o benchmarks para tratar de medir la capacidad global de los modernos modelos de IA, Gemini Pro es el mejor modelo de IA conocido hasta el momento.
Según esas pruebas, Gemini 2.5 Pro tiene una puntuación de 1.440 puntos, bastante por encima de GPT-4o (1.406), Grok 3 (1.404), GPT 4.5 (1.398) y DeepSeek R1 está en séptimo lugar con una puntuación de 1.359 puntos.
Pero, es cierto que probablemente esta puntuación no dure mucho ya que todos los modelos son experimentales y cambian todo el tiempo.
Por ahora, Google aprovechó y salió a presumir la capacidad de Gemini 2.5 Pro Experimental en el anuncio oficial. Como suele ocurrir en estos anuncios, las empresas muestran una tabla en las que comparan su rendimiento con el de otros modelos equiparables en distintas pruebas.
En casi todas ellas Google aplastaba a sus rivales en pruebas muy conocidas en este segmento. Está por ejemplo el Humanity's Last Exam (conocimientos generales y razonamiento), GPQA diamond (ciencia), AIME 2025 (matemáticas), LiveCodeBench v5 y SWE-bench verified (programación) o MMMU (razonamiento visual).
Todos esos benchmarks tratan de medir la capacidad de estos modelos en ámbitos más o menos específicos, y todos ayudan a demostrar que los modelos, efectivamente, van mejorando. Y sin embargo ninguno de ellos responde a la pregunta fundamental:
¿Es la IA tan inteligente como el ser humano?
Ahí está lo realmente complicado, porque la definición de inteligencia tampoco es del todo clara. Hay distintos tipos de inteligencia, de hecho, y medirlas en humanos tampoco es sencillo o siquiera posible. Y comparar la capacidad de una IA con la capacidad de una inteligencia humana tampoco suele ser nada fácil.
Algunos expertos se preguntan si los laboratorios de IA no estarán haciendo trampas con los benchmarks
Hay de hecho quien argumenta que el progreso de los modelos de IA es engañoso. Lo hacía recientemente Dean Valentine, del startup ZeroPath. Él y su equipo crearon un sistema de IA que analiza grandes proyectos de código en busca de problemas de seguridad. Con Claude 3.5 Sonnet notaron un gran salto, pero a partir de ahí las posteriores versiones les han parecido mucho menos llamativas.
De hecho, este experto apuntaba a que hoy en día muchas de las empresas que lanzan estos modelos se centran demasiado en salir bien en la foto de los benchmarks existentes y más populares y en "sonar inteligentes" en las conversaciones con los seres humanos. Se pregunta si los laboratorios de IA están haciendo trampas y mintiendo: para él la evolución que muestran los benchmarks no se corresponde con los beneficios reales al usarlos.
Pero hay intentos de responder a esa pregunta. Uno de ellos proviene del equipo que desarrolla el proyecto ARC-AGI2, un conjunto de pruebas que se derivan de la paradoja de Moravec: son relativamente fáciles para el ser humano, pero muy difíciles para los modelos de IA.
Dichas pruebas miden la capacidad de generalización y razonamiento abstracto con puzzles visuales, y sin duda son parte interesante de ese esfuerzo por valorar hasta dónde hemos llegado en cada momento con los modelos de IA.
Otra de las pruebas más llamativas de los últimos tiempos es FrontierMath. Este benchmark creado por la empresa EpochAI consiste en unos 300 problemas matemáticos de distinto nivel.
Han sido diseñados por un equipo de más de 60 matemáticos entre los cuales está Terence Tao, ganador de la medalla Fields. Aunque hay algunos problemas más asequibles, el 25% de ellos están calificados como especialmente complejos. De hecho, solo los mejores expertos podrían resolverlos, y tardarían incluso días en hacerlo.
Este conjunto de pruebas es además especial por otro aspecto: se trata de problemas no publicados y que por tanto no han sido parte de los conjuntos de entrenamiento de ningún modelo de IA. Para resolverlos las máquinas necesitan desde luego ser capaces de mostrar una "inteligencia matemática" especial. Una que ayuda precisamente a algo cada vez más díficil: valorar la evolución de estos modelos.
Jaime Sevilla CEO de EpochAI tiene una visión muy clara y personal sobre cómo deben ser las pruebas para medir la capacidad de un modelo de IA.
Para empezar, señala, "necesitas tener una manera de medir como esta avanzando la IA. Interactuar con ella te puede dar perspectiva, pero no tienes una impresión rigurosa de hasta dónde va a llegar y en qué dominios es más experta".