IA | Costes elevados

Costos altos del benchmarking limitan la investigación en IA

jue, 10 de abril de 2025

El alto coste del benchmarking en modelos de inteligencia artificial

En la era actual, la inteligencia artificial (IA) ha pasado de ser un concepto futurista a una herramienta omnipresente en diversas industrias. Sin embargo, a medida que esta tecnología avanza, también lo hacen los desafíos asociados a su evaluación y comparación. Un aspecto crucial de este proceso es el benchmarking, que se refiere a la práctica de medir el rendimiento de un modelo de IA frente a un conjunto de estándares predefinidos. Este proceso ha revelado una tendencia alarmante: los modelos de IA que incorporan capacidades de razonamiento son significativamente más caros de evaluar que sus homólogos que no lo hacen.

La disparidad de costes en la evaluación

Los datos recientes de Artificial Analysis, una firma independiente dedicada a la evaluación de IA, destacan esta problemática. Por ejemplo, evaluar el modelo de razonamiento o1 de OpenAI costó la asombrosa cifra de $2,767.05, mientras que el modelo Claude 3.7 Sonnet de Anthropic, considerado un modelo "híbrido" de razonamiento, tuvo un coste de $1,485.35 en pruebas similares. En comparación, los modelos de IA que no utilizan razonamiento, como el o3-mini de OpenAI, resultaron mucho más asequibles, con un coste de $344.59.

Este desajuste en los costes plantea interrogantes sobre la accesibilidad y la equidad en el desarrollo de IA.

La tendencia se mantiene incluso entre modelos de razonamiento más pequeños. El modelo o1-mini de OpenAI, por ejemplo, costó $141.22 para su evaluación, una cifra relativamente baja en comparación con otros modelos de razonamiento. Sin embargo, cuando se observa el panorama general, la evaluación de los modelos de razonamiento resulta ser casi el doble de cara que la de los modelos no razonantes. Este aumento en los costes no solo afecta a las empresas de IA, sino que también limita la capacidad de los investigadores académicos para replicar resultados y avanzar en el campo.

¿Por qué son tan caros los modelos de razonamiento?

La razón principal detrás de los altos costes de evaluación de los modelos de razonamiento se encuentra en la cantidad de tokens que generan durante las pruebas. Los tokens son fragmentos de texto que un modelo produce, y cada palabra o parte de una palabra cuenta como un token. Según los datos de Artificial Analysis, el modelo o1 de OpenAI generó más de 44 millones de tokens durante las pruebas, en comparación con los aproximadamente 5.5 millones de tokens producidos por el modelo GPT-4o. Este incremento en la generación de tokens implica un mayor coste para las empresas, ya que la mayoría cobra por el uso del modelo en función de la cantidad de tokens procesados.

La complejidad de las pruebas también juega un papel crucial en el coste. Los benchmarks modernos suelen involucrar tareas que requieren múltiples pasos y habilidades complejas, como escribir y ejecutar código, navegar por Internet y utilizar ordenadores. Jean-Stanislas Denain, investigador sénior en Epoch AI, menciona que, aunque el número de preguntas por benchmark ha disminuido, la complejidad de las preguntas ha aumentado, lo que provoca que los modelos generen más tokens y, por lo tanto, incurra en costes más elevados.

Impacto en la investigación y el desarrollo

El elevado coste del benchmarking no solo afecta a las empresas de IA, sino que también plantea serias dificultades para la comunidad académica. Ross Taylor, CEO de la startup General Reasoning, compartió su experiencia al gastar $580 evaluando el modelo Claude 3.7 Sonnet en alrededor de 3,700 prompts únicos. Además, estima que realizar una única evaluación completa de MMLU Pro, un conjunto de preguntas diseñado para medir las habilidades de comprensión del lenguaje, habría costado más de $1,800.

La creciente brecha entre los recursos disponibles para las empresas y los académicos podría llevar a una falta de reproducibilidad en los resultados de investigación.

Taylor advierte que estamos avanzando hacia un mundo donde las evaluaciones de los laboratorios no se pueden replicar debido a los altos costes asociados. Este fenómeno podría crear una desigualdad en el acceso a la tecnología y limitar la capacidad de los investigadores para validar y construir sobre el trabajo de otros. La pregunta que surge es: ¿cómo se puede garantizar que los resultados de la IA sean accesibles y verificables por todos?

El dilema de la transparencia

Otro aspecto crítico relacionado con los altos costes de benchmarking es la transparencia. Muchas empresas de IA, incluyendo OpenAI, ofrecen acceso gratuito o subvencionado a sus modelos para fines de evaluación. Sin embargo, este enfoque puede influir en los resultados de las pruebas, lo que genera dudas sobre la integridad de los datos obtenidos. Taylor plantea una cuestión fundamental: "Desde un punto de vista científico, si publicas un resultado que nadie puede replicar con el mismo modelo, ¿es realmente ciencia?" Esta incertidumbre pone en jaque la validez de las evaluaciones y podría dañar la credibilidad de la comunidad científica.

La necesidad de un cambio

Ante esta situación, la comunidad de IA se enfrenta a un dilema: la necesidad de equilibrar el progreso tecnológico con la accesibilidad y la reproducibilidad. George Cameron, cofundador de Artificial Analysis, ha declarado que la organización planea aumentar su presupuesto para el benchmarking a medida que más laboratorios de IA desarrollen modelos de razonamiento. Este aumento en la inversión es un indicativo de la creciente importancia de la evaluación rigurosa en el campo de la IA.

A medida que se desarrollan modelos más complejos y sofisticados, es esencial que las organizaciones encuentren maneras de mitigar los costes de evaluación. La implementación de estándares más accesibles y la creación de colaboraciones entre empresas y académicos podrían ser un paso en la dirección correcta. La comunidad debe trabajar unida para garantizar que el desarrollo de la IA sea inclusivo y sostenible, permitiendo que tanto investigadores como empresas avancen en este campo emocionante y en constante evolución.

Un futuro incierto

A medida que los modelos de IA continúan evolucionando, también lo hará el paisaje del benchmarking. Es probable que surjan nuevos modelos y enfoques de evaluación, lo que podría alterar la dinámica actual de costes y accesibilidad. Sin embargo, la pregunta permanece: ¿será suficiente esta evolución para garantizar que la IA sea una herramienta accesible y verificable para todos?

El futuro del benchmarking en inteligencia artificial está lleno de desafíos y oportunidades. Si bien los costes actuales pueden ser prohibitivos, la comunidad de IA tiene la capacidad de adaptarse y encontrar soluciones que beneficien a todos. La clave estará en la colaboración, la innovación y el compromiso con la transparencia en el desarrollo y la evaluación de estos modelos.

Otras noticias • IA

Inteligencia artificial

Helios revoluciona la política pública con inteligencia artificial Proxi

11 jul

Helios, cofundada por Joe Scheidler y Joseph Farsakh, integra inteligencia artificial en la política pública con su producto Proxi. Este sistema optimiza la toma de...

Sesgo ético

Grok 4 de xAI: ¿Sesgo de Elon Musk en inteligencia artificial?

11 jul

Grok 4, de xAI, refleja la influencia de las opiniones de Elon Musk en su funcionamiento, lo que cuestiona su objetividad y capacidad para buscar...

Marketplace IA

AWS lanza marketplace de IA para democratizar soluciones personalizadas

10 jul

El lanzamiento del marketplace de agentes de IA de AWS el 15 de julio promete democratizar el acceso a la inteligencia artificial, permitiendo a empresas...

Creación audiovisual

Google lanza Veo 3, revolucionando la creación de videos

10 jul

Google ha lanzado Veo 3, una herramienta de inteligencia artificial que permite generar videos a partir de imágenes. Esta innovación democratiza la creación de contenido...

Certificación ágil

Knox acelera certificación FedRAMP y democratiza contratos gubernamentales

10 jul

Knox, fundada por Irina Denisenko, busca acelerar el proceso de certificación FedRAMP para software como servicio en el sector público, reduciendo el tiempo y coste....

Análisis geoespacial

LGND revoluciona análisis geoespacial con 9 millones en financiación

10 jul

LGND es una startup que transforma el análisis de datos geoespaciales mediante embebidos vectoriales, mejorando la eficiencia en la interpretación de imágenes satelitales. Con una...

Innovación sostenible

Google impulsa startups de IA con nueva Academia Americana

10 jul

Google lanza la segunda cohorte de su Academia de Infraestructura Americana, apoyando startups de IA en áreas críticas como ciberseguridad y salud. El programa, sin...

Expansión sanitaria

Diligent Robotics expande flota Moxi para mejorar atención sanitaria

10 jul

Diligent Robotics, con la incorporación de Rashed Haq y Todd Brugger en su liderazgo, busca expandir su flota de robots Moxi en el sector sanitario....

Costos altos del benchmarking limitan la investigación en IA

El alto coste del benchmarking en modelos de inteligencia artificial

La disparidad de costes en la evaluación

¿Por qué son tan caros los modelos de razonamiento?

Impacto en la investigación y el desarrollo

El dilema de la transparencia

La necesidad de un cambio

Un futuro incierto

Otras noticias • IA

Lo más reciente

OpenAI retrasa lanzamiento de IA por pruebas de seguridad

Firefly Aerospace busca crecer en el competitivo sector espacial

Google DeepMind ficha líderes de Windsurf tras ruptura con OpenAI

Paragon enfrenta dilemas éticos tras escándalo de software espía

IA en programación: herramientas pueden reducir productividad según estudio

Torch adquiere Praxis Labs y revoluciona la formación empresarial

Expertos desmienten rumores sobre siembra de nubes en Texas