IA | Datos diversos

Datos de calidad impulsan la innovación en inteligencia artificial

La nueva era de la recopilación de datos para la inteligencia artificial

La inteligencia artificial (IA) ha avanzado a pasos agigantados en los últimos años, pero su evolución no se debe únicamente a los algoritmos sofisticados que alimentan sus modelos. En el corazón de este progreso se encuentra un elemento fundamental: los datos. Sin embargo, la manera en que se recopilan y se utilizan estos datos ha cambiado drásticamente. Empresas como Turing Labs están liderando esta transformación, explorando nuevas formas de obtener datos de alta calidad para entrenar modelos de visión artificial.

Innovación en la recopilación de datos

Durante una semana de verano, Taylor, una artista freelance, y su compañera de piso se convirtieron en las protagonistas de un experimento innovador. Equipadas con cámaras GoPro en sus frentes, documentaron sus actividades cotidianas: desde la preparación del desayuno hasta la creación de obras de arte. Este esfuerzo no era solo un ejercicio de creatividad; estaba destinado a entrenar un modelo de visión artificial para mejorar su capacidad de razonamiento visual y resolución de problemas secuenciales.

La recopilación manual de datos es esencial para construir un conjunto diverso y representativo. La importancia de este enfoque radica en que permite a los modelos de IA aprender de múltiples perspectivas y situaciones, lo que es crucial para su desempeño en tareas del mundo real. La artista, que prefirió no revelar su apellido, explicó que el trabajo era arduo y exigente, requiriendo no solo creatividad, sino también una considerable dedicación de tiempo. Aunque se le había asignado un objetivo de cinco horas de grabación al día, pronto se dio cuenta de que necesitaba al menos siete horas para manejar el cansancio físico y mental que implicaba el uso constante de las cámaras.

Un cambio en la industria de la IA

Turing Labs, la empresa que contrató a Taylor, no se limita a trabajar con artistas. Su enfoque se extiende a una variedad de profesiones que requieren habilidades manuales, como chefs, electricistas y trabajadores de la construcción. El Chief AGI Officer de Turing, Sudarshan Sivaraman, destacó que la recopilación manual de datos es la única manera de obtener un conjunto de datos lo suficientemente variado para entrenar modelos de IA eficaces.

"Estamos recopilando datos de diferentes tipos de trabajos manuales para asegurarnos de que la fase de preentrenamiento sea lo más diversa posible."

Este enfoque no solo tiene sentido desde el punto de vista de la calidad de los datos, sino que también representa un cambio en la forma en que las empresas de IA abordan la recopilación de datos. Históricamente, muchas de estas compañías se han basado en conjuntos de datos obtenidos de manera más económica, a menudo a través de la web o de trabajadores mal remunerados que etiquetan datos. Sin embargo, ahora están dispuestas a invertir en la creación de conjuntos de datos curados que proporcionen una ventaja competitiva.

El valor de los datos de calidad

La evolución en la forma de recopilar datos también se refleja en la experiencia de otras empresas del sector. Fyxer, una compañía que utiliza modelos de IA para gestionar correos electrónicos, es un ejemplo claro de esta tendencia. Su fundador, Richard Hollingsworth, descubrió que el enfoque más eficaz era utilizar una serie de modelos pequeños con conjuntos de datos de entrenamiento altamente específicos. Aunque Fyxer se basa en un modelo de base ya existente, la premisa de la calidad sobre la cantidad es universal.

La calidad de los datos es lo que realmente define el rendimiento de un modelo de IA. Esta filosofía ha llevado a Fyxer a priorizar conjuntos de datos más pequeños y mejor curados en lugar de depender de grandes volúmenes de datos menos relevantes. En sus primeros días, la empresa dependía en gran medida de asistentes ejecutivos experimentados para entrenar el modelo en los fundamentos de la gestión de correos electrónicos.

"Encontrar personas capacitadas para ayudar a entrenar el modelo es un desafío considerable," menciona Hollingsworth. "La naturaleza de este trabajo es muy orientada a las personas."

La recolección de datos no se ha ralentizado, pero con el tiempo, Hollingsworth ha sido más selectivo en cuanto a los conjuntos de datos que utiliza, enfatizando que la calidad de los datos es esencial para el éxito de un modelo de IA.

La importancia de la calidad en la IA sintética

El uso de datos sintéticos es otra área donde la calidad se convierte en un factor crítico. Turing Labs estima que entre el 75 y el 80 por ciento de sus datos son sintéticos, generados a partir de las grabaciones originales de GoPro. Esto implica que el valor de los datos originales es aún más crucial, ya que cualquier defecto en los datos iniciales se amplificará en los conjuntos de datos sintéticos.

Sivaraman advierte sobre la importancia de mantener altos estándares de calidad en los datos de preentrenamiento: si los datos originales no son de buena calidad, cualquier intento de mejorar con datos sintéticos estará condenado al fracaso. Esto subraya la necesidad de que las empresas de IA mantengan un control riguroso sobre sus procesos de recopilación de datos.

Una estrategia competitiva

La lógica detrás de mantener la recopilación de datos dentro de la empresa va más allá de la calidad; también se trata de establecer una ventaja competitiva en un mercado cada vez más saturado. Hollingsworth señala que, aunque cualquier empresa puede construir un modelo de código abierto, no todas pueden acceder a expertos en anotación de datos que ayuden a convertir esos modelos en productos utilizables.

La recopilación de datos se ha convertido en una de las mejores estrategias defensivas contra la competencia. En un entorno donde la tecnología de IA está evolucionando rápidamente, la capacidad de una empresa para ofrecer modelos de IA bien entrenados y eficientes se traduce directamente en su éxito en el mercado.

La combinación de un enfoque meticuloso en la recopilación de datos, el uso de técnicas de anotación expertas y la integración de datos sintéticos ha permitido a empresas como Turing y Fyxer destacar en un paisaje tecnológico cada vez más competitivo. La inversión en datos de alta calidad no solo mejora el rendimiento de los modelos, sino que también establece un estándar en la industria, incentivando a otras empresas a adoptar prácticas similares.

El futuro de la recopilación de datos en IA

A medida que la inteligencia artificial continúa su evolución, la manera en que se recopilan y utilizan los datos será fundamental para determinar el éxito de las aplicaciones futuras. La tendencia hacia la recopilación manual y la curaduría de datos se espera que se mantenga, con más empresas reconociendo la necesidad de invertir en la calidad de los datos.

El camino hacia un futuro donde la IA pueda operar de manera más eficaz en una variedad de contextos dependerá en gran medida de cómo se manejen los datos en el presente. La capacidad de las empresas para adaptarse a estas nuevas exigencias determinará no solo su éxito, sino también el avance de la inteligencia artificial como un todo.

En este sentido, la historia de Taylor y su compañera de piso es solo una de las muchas que ilustran la creciente importancia de la calidad en la recopilación de datos. La creatividad humana, combinada con la tecnología, tiene el potencial de revolucionar la forma en que interactuamos con el mundo digital y físico, llevando a la IA a nuevas alturas de eficacia y relevancia.


Crear Canciones Personalizadas
Publicidad


Otras noticias • IA

Amistad tóxica

Kim Kardashian advierte sobre riesgos de ChatGPT en estudios legales

Kim Kardashian comparte su experiencia con ChatGPT, revelando una "amistad tóxica" que le costó el fracaso en sus exámenes de derecho. Su interacción resalta la...

Liderazgo tecnológico

OpenAI proyecta 20.000 millones en ingresos para 2025

OpenAI se posiciona como líder en inteligencia artificial, proyectando ingresos anuales de 20.000 millones de dólares para 2025. Con innovaciones en dispositivos, robótica y exploración...

Lanzamiento exitoso

Sora de OpenAI arrasa en Android con 470,000 descargas

Sora, la innovadora app de creación de vídeos de OpenAI, ha tenido un lanzamiento exitoso en Android con 470,000 descargas en su primer día, superando...

Desafíos financieros

OpenAI enfrenta retos financieros en su expansión tecnológica y ética

OpenAI enfrenta desafíos financieros significativos en su expansión, con un crecimiento proyectado de 20.000 millones de dólares y una inversión de 1,4 billones en centros...

Traducciones automáticas

Kindle Translate transforma la auto-publicación con traducciones automáticas gratuitas

La llegada de Kindle Translate de Amazon promete revolucionar la auto-publicación al ofrecer traducciones automáticas gratuitas para autores. Aunque facilita el acceso a mercados internacionales,...

Aislamiento vocal

Subtle Computing revoluciona la comunicación con su aislamiento de voz

Subtle Computing, una startup californiana, ha desarrollado un innovador modelo de aislamiento de voz para entornos ruidosos, mejorando la interacción humano-máquina. Fundada por emprendedores de...

Vídeos cortos

Meta lanza Vibes en Europa tras recepción mixta en EE. UU

Vibes, la nueva plataforma de vídeos cortos generados por IA de Meta, se lanza en Europa tras una recepción mixta en EE. UU. A pesar...

Innovación tecnológica

Inception revoluciona desarrollo de software con IA y financiación millonaria

Inception, una startup de IA respaldada por figuras destacadas y con 50 millones de dólares en financiación, explora modelos de difusión para el desarrollo de...