IA | Datos diversos

Datos de calidad impulsan la innovación en inteligencia artificial

jue, 16 de octubre de 2025

La nueva era de la recopilación de datos para la inteligencia artificial

La inteligencia artificial (IA) ha avanzado a pasos agigantados en los últimos años, pero su evolución no se debe únicamente a los algoritmos sofisticados que alimentan sus modelos. En el corazón de este progreso se encuentra un elemento fundamental: los datos. Sin embargo, la manera en que se recopilan y se utilizan estos datos ha cambiado drásticamente. Empresas como Turing Labs están liderando esta transformación, explorando nuevas formas de obtener datos de alta calidad para entrenar modelos de visión artificial.

Innovación en la recopilación de datos

Durante una semana de verano, Taylor, una artista freelance, y su compañera de piso se convirtieron en las protagonistas de un experimento innovador. Equipadas con cámaras GoPro en sus frentes, documentaron sus actividades cotidianas: desde la preparación del desayuno hasta la creación de obras de arte. Este esfuerzo no era solo un ejercicio de creatividad; estaba destinado a entrenar un modelo de visión artificial para mejorar su capacidad de razonamiento visual y resolución de problemas secuenciales.

La recopilación manual de datos es esencial para construir un conjunto diverso y representativo. La importancia de este enfoque radica en que permite a los modelos de IA aprender de múltiples perspectivas y situaciones, lo que es crucial para su desempeño en tareas del mundo real. La artista, que prefirió no revelar su apellido, explicó que el trabajo era arduo y exigente, requiriendo no solo creatividad, sino también una considerable dedicación de tiempo. Aunque se le había asignado un objetivo de cinco horas de grabación al día, pronto se dio cuenta de que necesitaba al menos siete horas para manejar el cansancio físico y mental que implicaba el uso constante de las cámaras.

Un cambio en la industria de la IA

Turing Labs, la empresa que contrató a Taylor, no se limita a trabajar con artistas. Su enfoque se extiende a una variedad de profesiones que requieren habilidades manuales, como chefs, electricistas y trabajadores de la construcción. El Chief AGI Officer de Turing, Sudarshan Sivaraman, destacó que la recopilación manual de datos es la única manera de obtener un conjunto de datos lo suficientemente variado para entrenar modelos de IA eficaces.

"Estamos recopilando datos de diferentes tipos de trabajos manuales para asegurarnos de que la fase de preentrenamiento sea lo más diversa posible."

Este enfoque no solo tiene sentido desde el punto de vista de la calidad de los datos, sino que también representa un cambio en la forma en que las empresas de IA abordan la recopilación de datos. Históricamente, muchas de estas compañías se han basado en conjuntos de datos obtenidos de manera más económica, a menudo a través de la web o de trabajadores mal remunerados que etiquetan datos. Sin embargo, ahora están dispuestas a invertir en la creación de conjuntos de datos curados que proporcionen una ventaja competitiva.

El valor de los datos de calidad

La evolución en la forma de recopilar datos también se refleja en la experiencia de otras empresas del sector. Fyxer, una compañía que utiliza modelos de IA para gestionar correos electrónicos, es un ejemplo claro de esta tendencia. Su fundador, Richard Hollingsworth, descubrió que el enfoque más eficaz era utilizar una serie de modelos pequeños con conjuntos de datos de entrenamiento altamente específicos. Aunque Fyxer se basa en un modelo de base ya existente, la premisa de la calidad sobre la cantidad es universal.

La calidad de los datos es lo que realmente define el rendimiento de un modelo de IA. Esta filosofía ha llevado a Fyxer a priorizar conjuntos de datos más pequeños y mejor curados en lugar de depender de grandes volúmenes de datos menos relevantes. En sus primeros días, la empresa dependía en gran medida de asistentes ejecutivos experimentados para entrenar el modelo en los fundamentos de la gestión de correos electrónicos.

"Encontrar personas capacitadas para ayudar a entrenar el modelo es un desafío considerable," menciona Hollingsworth. "La naturaleza de este trabajo es muy orientada a las personas."

La recolección de datos no se ha ralentizado, pero con el tiempo, Hollingsworth ha sido más selectivo en cuanto a los conjuntos de datos que utiliza, enfatizando que la calidad de los datos es esencial para el éxito de un modelo de IA.

La importancia de la calidad en la IA sintética

El uso de datos sintéticos es otra área donde la calidad se convierte en un factor crítico. Turing Labs estima que entre el 75 y el 80 por ciento de sus datos son sintéticos, generados a partir de las grabaciones originales de GoPro. Esto implica que el valor de los datos originales es aún más crucial, ya que cualquier defecto en los datos iniciales se amplificará en los conjuntos de datos sintéticos.

Sivaraman advierte sobre la importancia de mantener altos estándares de calidad en los datos de preentrenamiento: si los datos originales no son de buena calidad, cualquier intento de mejorar con datos sintéticos estará condenado al fracaso. Esto subraya la necesidad de que las empresas de IA mantengan un control riguroso sobre sus procesos de recopilación de datos.

Una estrategia competitiva

La lógica detrás de mantener la recopilación de datos dentro de la empresa va más allá de la calidad; también se trata de establecer una ventaja competitiva en un mercado cada vez más saturado. Hollingsworth señala que, aunque cualquier empresa puede construir un modelo de código abierto, no todas pueden acceder a expertos en anotación de datos que ayuden a convertir esos modelos en productos utilizables.

La recopilación de datos se ha convertido en una de las mejores estrategias defensivas contra la competencia. En un entorno donde la tecnología de IA está evolucionando rápidamente, la capacidad de una empresa para ofrecer modelos de IA bien entrenados y eficientes se traduce directamente en su éxito en el mercado.

La combinación de un enfoque meticuloso en la recopilación de datos, el uso de técnicas de anotación expertas y la integración de datos sintéticos ha permitido a empresas como Turing y Fyxer destacar en un paisaje tecnológico cada vez más competitivo. La inversión en datos de alta calidad no solo mejora el rendimiento de los modelos, sino que también establece un estándar en la industria, incentivando a otras empresas a adoptar prácticas similares.

El futuro de la recopilación de datos en IA

A medida que la inteligencia artificial continúa su evolución, la manera en que se recopilan y utilizan los datos será fundamental para determinar el éxito de las aplicaciones futuras. La tendencia hacia la recopilación manual y la curaduría de datos se espera que se mantenga, con más empresas reconociendo la necesidad de invertir en la calidad de los datos.

El camino hacia un futuro donde la IA pueda operar de manera más eficaz en una variedad de contextos dependerá en gran medida de cómo se manejen los datos en el presente. La capacidad de las empresas para adaptarse a estas nuevas exigencias determinará no solo su éxito, sino también el avance de la inteligencia artificial como un todo.

En este sentido, la historia de Taylor y su compañera de piso es solo una de las muchas que ilustran la creciente importancia de la calidad en la recopilación de datos. La creatividad humana, combinada con la tecnología, tiene el potencial de revolucionar la forma en que interactuamos con el mundo digital y físico, llevando a la IA a nuevas alturas de eficacia y relevancia.

Otras noticias • IA

Inversión cambiante

El cambio en inversiones de startups genera dudas sobre sostenibilidad

03 dic

El ecosistema de inversión en startups está cambiando, con un enfoque en la financiación masiva en etapas tempranas. Ejemplos como DualEntry reflejan valoraciones infladas y...

Recuerdos destacados

Google Photos presenta Recap 2024 para revivir tus recuerdos

03 dic

Google Photos lanza su Recap 2024, una funcionalidad que permite a los usuarios revivir sus momentos más destacados del año mediante inteligencia artificial. Incluye estadísticas...

Control datos

Amazon lanza "Fábricas de IA" para controlar datos locales

03 dic

Amazon ha lanzado las "Fábricas de IA", permitiendo a empresas y gobiernos gestionar inteligencia artificial en sus propios centros de datos, garantizando control sobre sus...

Agentes autónomos

Amazon lanza Kiro, agente autónomo para desarrolladores innovador

02 dic

Amazon Web Services ha lanzado agentes autónomos como Kiro, que aprende y se adapta a las necesidades de los desarrolladores. Estos agentes prometen automatizar tareas...

Competencia intensificada

Google lanza "Modo IA" y redefine la búsqueda conversacional

02 dic

La competencia en inteligencia artificial se intensifica con el lanzamiento del "Modo IA" de Google, que permite interacciones conversacionales en su motor de búsqueda. Esto...

Actualización innovadora

Google actualiza Android 16 con inteligencia artificial y personalización

02 dic

Google ha transformado Android con la actualización 16, introduciendo mejoras continuas y funcionalidades centradas en inteligencia artificial, personalización, control parental y accesibilidad. Estas innovaciones buscan...

Modelos IA

AWS lanza Nova 2, modelos de IA para todas las empresas

02 dic

AWS ha lanzado la nueva gama de modelos de IA, Nova 2, que incluye versiones como Nova 2 Lite, Pro, Sonic y Omni, adaptadas a...

Comercio desigual

ChatGPT impulsa comercio, pero pequeños minoristas siguen rezagados

02 dic

La influencia de ChatGPT en el comercio electrónico está creciendo, especialmente durante eventos como el Black Friday. Sin embargo, este aumento beneficia principalmente a gigantes...

Datos de calidad impulsan la innovación en inteligencia artificial

La nueva era de la recopilación de datos para la inteligencia artificial

Innovación en la recopilación de datos

Un cambio en la industria de la IA

El valor de los datos de calidad

La importancia de la calidad en la IA sintética

Una estrategia competitiva

El futuro de la recopilación de datos en IA

Otras noticias • IA

Lo más reciente

Nexus Venture Partners invierte 700 millones en sectores diversificados en India

Google 2025: La curiosidad colectiva impulsa nuevas tendencias globales

Alan Dye se une a Meta para impulsar inteligencia artificial

Roblox prohibido en Rusia: censura y resistencia gamer crecen

MrBeast podría revolucionar la economía de los creadores digitales

Amazon lanza Trainium3 para competir con Nvidia en IA

Telex revoluciona WordPress con bloques Gutenberg y AI accesible