IA | Progreso limitado

Inteligencia artificial avanza lentamente en trabajos del conocimiento

La evolución de la inteligencia artificial en el trabajo del conocimiento

La inteligencia artificial (IA) ha sido una de las áreas más revolucionarias en la tecnología en las últimas décadas. Desde que Satya Nadella, CEO de Microsoft, pronosticara que la IA podría reemplazar trabajos del conocimiento, como los de abogados, banqueros de inversión, bibliotecarios y contables, ha pasado casi un bienio. Sin embargo, a pesar de los avances significativos en modelos de IA, la transformación del trabajo del conocimiento ha sido sorprendentemente lenta.

A pesar de que los modelos de IA han demostrado habilidades en investigación profunda y planificación, el impacto en el trabajo de oficina ha sido mínimo. La razón detrás de esta aparente desconexión es uno de los misterios más intrigantes en el campo de la inteligencia artificial. Nuevas investigaciones realizadas por Mercor, una empresa líder en datos de entrenamiento, están comenzando a arrojar luz sobre esta situación.

Nuevas investigaciones sobre el rendimiento de la IA

El estudio más reciente de Mercor se centra en cómo los modelos de IA más avanzados realizan tareas específicas de trabajo del conocimiento, derivadas de sectores como la consultoría, la banca de inversión y el derecho. El resultado de esta investigación es un nuevo estándar de referencia llamado Apex-Agents. Sin embargo, los resultados son alarmantes: todos los laboratorios de IA han obtenido una calificación de suspenso. Cuando se enfrentaron a consultas de profesionales reales, los modelos más avanzados apenas lograron responder correctamente a más de una cuarta parte de las preguntas. La mayoría de las veces, las respuestas fueron incorrectas o, en el mejor de los casos, no hubo respuesta.

Brendan Foody, uno de los investigadores que participó en el estudio, destaca que el mayor obstáculo que enfrentaron los modelos de IA fue la capacidad de rastrear información a través de múltiples dominios. Esta habilidad es fundamental para la mayoría de las tareas que realizan los humanos en el ámbito del conocimiento. “Una de las grandes innovaciones de este benchmark es que hemos construido un entorno completo, modelado según cómo funcionan realmente los servicios profesionales,” explica Foody. La realidad del trabajo no se basa en que un solo individuo te dé todo el contexto en un único lugar.

La complejidad de las tareas del conocimiento

Las tareas que se evaluaron en el benchmark Apex-Agents fueron diseñadas por profesionales reales que colaboran con Mercor. Estos expertos establecieron las consultas y definieron lo que constituía una respuesta exitosa. Al examinar las preguntas, que están disponibles públicamente en Hugging Face, se puede apreciar la complejidad de las tareas que se les presentan a los modelos de IA.

Por ejemplo, una de las preguntas en la sección de "Derecho" preguntaba sobre la exportación de datos personales durante un apagón de producción en la UE. La consulta requería una evaluación profunda de las políticas internas de la empresa y de las leyes de privacidad de la UE. Esta complejidad es precisamente lo que puede frustrar a un ser humano bien informado, y los investigadores intentaban modelar el trabajo que realmente realizan los profesionales en este campo. Si un modelo de IA pudiera responder de manera confiable a estas preguntas, podría reemplazar a muchos abogados en el futuro.

La evaluación realizada por Mercor resalta que la IA aún tiene un largo camino por recorrer para poder igualar las capacidades humanas en el ámbito del conocimiento.

Comparativa con otros benchmarks

OpenAI también ha intentado medir las habilidades profesionales a través de su benchmark GDPVal. Sin embargo, la prueba de Apex Agents se diferencia en aspectos cruciales. Mientras que GDPVal evalúa el conocimiento general en una amplia gama de profesiones, Apex Agents mide la capacidad de los sistemas para llevar a cabo tareas sostenidas en un conjunto reducido de profesiones de alto valor. Este enfoque no solo resulta más difícil para los modelos, sino que también está más estrechamente relacionado con la posibilidad de automatizar estos trabajos.

Aunque ninguno de los modelos demostró estar listo para asumir el papel de banquero de inversión, algunos se acercaron más a la meta. El modelo Gemini 3 Flash obtuvo el mejor rendimiento con un 24% de precisión, seguido de cerca por GPT-5.2 con un 23%. Modelos como Opus 4.5, Gemini 3 Pro y GPT-5 lograron aproximadamente un 18%.

Estos resultados iniciales, aunque insatisfactorios, son parte de la historia de la IA, que ha demostrado la capacidad de superar benchmarks desafiantes.

La rápida evolución de la IA

A pesar de los resultados decepcionantes del benchmark Apex-Agents, Foody es optimista sobre el futuro. “La mejora está ocurriendo a un ritmo realmente rápido,” afirma. “En este momento, es justo decir que es como un becario que acierta una de cada cuatro veces, pero el año pasado era como un becario que acertaba solo el 5 o el 10 por ciento de las veces. Ese tipo de mejora año tras año puede tener un impacto muy rápido”.

Los modelos de IA han mostrado una tendencia a mejorar rápidamente, y muchos en la comunidad de IA esperan que los laboratorios se enfrenten al desafío de Apex-Agents con la intención de superar estos resultados. La competencia entre las empresas de IA para alcanzar la excelencia en estas tareas complejas podría resultar en avances significativos en el campo.

El futuro del trabajo del conocimiento

Con la creciente sofisticación de la inteligencia artificial, es probable que las profesiones del conocimiento se enfrenten a un cambio significativo en la forma en que se llevan a cabo. Si bien actualmente los modelos de IA no están listos para reemplazar a los profesionales humanos, la presión por mejorar y adaptar estos sistemas será inminente.

Las empresas que adopten la IA como herramienta complementaria pueden descubrir nuevas formas de optimizar su trabajo y mejorar la eficiencia. La colaboración entre humanos y máquinas puede ser el camino hacia el futuro del trabajo del conocimiento, donde la inteligencia artificial actúe como un asistente que ayuda a los profesionales a tomar decisiones más informadas y rápidas.

En última instancia, la capacidad de los modelos de IA para aprender y adaptarse a nuevas situaciones será crucial para su éxito en el ámbito del trabajo del conocimiento. A medida que continúan desarrollándose y refinándose, será fascinante observar cómo la inteligencia artificial transforma la manera en que se realizan estas funciones críticas en la sociedad.


Crear Canciones Personalizadas
Publicidad


Otras noticias • IA

Búsqueda personalizada

Google lanza búsqueda conversacional con inteligencia personalizada y privacidad

Google ha lanzado la función de búsqueda conversacional AI Mode, que incorpora la "Inteligencia Personal", permitiendo a la IA ofrecer respuestas personalizadas al acceder a...

Inteligencia emocional

Google DeepMind adquiere Hume AI para potenciar IA emocional

La adquisición de Hume AI por Google DeepMind destaca la importancia de la inteligencia emocional en la IA de voz. Este movimiento refleja la tendencia...

Optimización IA

RadixArk optimiza la inferencia de IA con velocidad y eficiencia

RadixArk, surgida de SGLang, se centra en optimizar la inferencia de modelos de IA, prometiendo velocidad y eficiencia en costos. Fundada por Ying Sheng, la...

Ética responsable

Anthropic presenta nueva Constitución de Claude para inteligencia artificial ética

Anthropic ha lanzado una versión revisada de la Constitución de Claude, un marco ético para su chatbot. Este documento enfatiza la seguridad, la ética en...

Gestión inteligente

Todoist Ramble transforma el habla en tareas organizadas eficientemente

Todoist Ramble es una innovadora herramienta de gestión de tareas que utiliza inteligencia artificial para convertir el habla en tareas organizadas. Disponible en múltiples plataformas...

Citación falsa

Escándalo en NeurIPS revela 100 citaciones ficticias en investigaciones

La startup GPTZero ha descubierto 100 citaciones ficticias en 51 trabajos de la conferencia NeurIPS, lo que plantea serias dudas sobre la integridad del proceso...

Inteligencia artificial

YouTube Shorts integra IA para revolucionar la creación de contenido

YouTube Shorts, con 200 mil millones de visualizaciones diarias, integra inteligencia artificial para permitir a los creadores usar su imagen y voz. Esto plantea retos...

Auriculares inteligentes

OpenAI lanza auriculares "Sweet Pea" con inteligencia artificial integrada

OpenAI se prepara para lanzar su primer dispositivo, unos auriculares inalámbricos llamados "Sweet Pea". Con un procesador de 2 nanómetros, busca integrar inteligencia artificial localmente....