IA | Datos públicos

EleutherAI lanza conjunto de datos público para entrenar IA

vie, 6 de junio de 2025

La revolución de los datasets en la inteligencia artificial

En un mundo donde la inteligencia artificial (IA) está cada vez más presente en nuestras vidas, la calidad y la legalidad de los datos utilizados para entrenar estos modelos son temas de creciente relevancia. Recientemente, EleutherAI, una organización de investigación en IA, ha hecho un anuncio que podría cambiar las reglas del juego en este ámbito. La organización ha lanzado un nuevo conjunto de datos, conocido como The Common Pile v0.1, que promete ofrecer una alternativa legítima y extensa para el entrenamiento de modelos de IA. Este dataset de 8 terabytes se ha desarrollado a lo largo de dos años y se considera uno de los más grandes en su tipo.

La creación de The Common Pile v0.1 ha sido el resultado de una colaboración entre EleutherAI y varias startups de IA, como Poolside y Hugging Face, así como diversas instituciones académicas. Esta colaboración ha permitido a EleutherAI compilar un conjunto de datos que no solo es masivo en términos de volumen, sino que también es legalmente sólido, lo que representa una respuesta directa a las crecientes preocupaciones sobre el uso de datos con derechos de autor en el entrenamiento de modelos de IA.

La batalla legal en el mundo de la IA

Las empresas de inteligencia artificial, incluidas algunas de las más grandes del sector, se encuentran actualmente en medio de una serie de demandas relacionadas con sus prácticas de entrenamiento. Estas empresas a menudo utilizan técnicas de "scraping" para extraer datos de la web, incluyendo materiales protegidos por derechos de autor, como libros y artículos de revistas. Aunque algunas de estas empresas han establecido acuerdos de licencia con ciertos proveedores de contenido, muchas se amparan en la doctrina legal del "uso justo" en EE. UU., que les permite argumentar que su uso de material protegido no es ilegal.

Las demandas por derechos de autor han generado un clima de incertidumbre y falta de transparencia en el sector, lo que ha llevado a una disminución en la confianza por parte de investigadores y desarrolladores. Stella Biderman, directora ejecutiva de EleutherAI, ha señalado que estas acciones legales han perjudicado a la comunidad de investigación en IA al dificultar la comprensión de cómo funcionan los modelos y cuáles son sus limitaciones.

Las demandas por derechos de autor han generado un clima de incertidumbre y falta de transparencia en el sector, lo que ha llevado a una disminución en la confianza por parte de investigadores y desarrolladores.

Biderman enfatiza que, a pesar de las controversias legales, las prácticas de adquisición de datos en el entrenamiento de modelos no han cambiado significativamente. Sin embargo, las empresas se han vuelto más reservadas en cuanto a compartir sus investigaciones y metodologías, lo que ha generado un estancamiento en el avance del conocimiento en el campo.

El impacto de The Common Pile v0.1

The Common Pile v0.1 se presenta como una solución viable a los problemas mencionados. Este conjunto de datos ha sido diseñado con la consulta de expertos legales, lo que garantiza que todos los materiales utilizados sean de dominio público o licenciados adecuadamente. Entre las fuentes utilizadas para su creación se encuentran 300,000 libros de dominio público digitalizados por la Biblioteca del Congreso y el Internet Archive. Además, EleutherAI ha empleado Whisper, un modelo de transcripción de voz a texto de código abierto de OpenAI, para convertir contenido de audio en texto.

EleutherAI sostiene que los modelos Comma v0.1-1T y Comma v0.1-2T, desarrollados utilizando The Common Pile v0.1, son prueba de que un conjunto de datos cuidadosamente curado puede competir con los modelos que se entrenan con datos no licenciados. Estos modelos, que cuentan con 7 mil millones de parámetros cada uno, han demostrado un rendimiento comparable a otros modelos reconocidos, como el Llama AI de Meta, en tareas que incluyen programación, comprensión de imágenes y matemáticas.

La creación de The Common Pile v0.1 ha sido el resultado de una colaboración entre EleutherAI y varias startups de IA, así como diversas instituciones académicas.

Los parámetros, que a veces se conocen como pesos, son componentes internos de un modelo de IA que guían su comportamiento y respuestas. En este contexto, la capacidad de EleutherAI para demostrar que los modelos pueden ser efectivos sin recurrir a datos no licenciados representa un avance significativo en la discusión sobre la ética y la legalidad en el entrenamiento de IA.

Un cambio de paradigma

La presentación de The Common Pile v0.1 y sus modelos asociados marca un posible cambio de paradigma en la manera en que las empresas de IA abordan la recopilación y el uso de datos. Biderman sostiene que la idea de que el texto no licenciado es el único impulsor del rendimiento de los modelos es "injustificada". A medida que aumenta la cantidad de datos abiertos y licenciados disponibles, también se espera que mejore la calidad de los modelos entrenados con este tipo de contenido.

Este cambio de enfoque hacia un uso más responsable y ético de los datos podría influir en la manera en que otras empresas del sector se desarrollan y se posicionan en el mercado. La posibilidad de crear modelos de IA competitivos sin recurrir a materiales protegidos por derechos de autor puede abrir nuevas oportunidades para la innovación y la colaboración en el ámbito de la investigación.

Compromiso con la transparencia y la colaboración

EleutherAI ha manifestado su compromiso de liberar conjuntos de datos abiertos de forma más frecuente en el futuro, en colaboración con sus socios de investigación e infraestructura. Este enfoque no solo responde a la creciente demanda de prácticas más transparentes, sino que también busca fomentar un entorno más colaborativo en la comunidad de investigación en IA. La transparencia es fundamental para permitir que otros investigadores comprendan y reproduzcan los resultados, lo que, a su vez, podría acelerar el avance en el campo.

La creación de The Common Pile v0.1 también puede ser vista como un intento de rectificar errores pasados. EleutherAI lanzó anteriormente The Pile, un conjunto de datos abierto que incluía material con derechos de autor, lo que atrajo críticas y presión legal. Ahora, con The Common Pile v0.1, la organización busca establecer un nuevo estándar en la forma en que se desarrollan y utilizan los datasets en la IA.

La importancia del acceso a datos

El acceso a conjuntos de datos de calidad es fundamental para el desarrollo de modelos de IA robustos y eficaces. A medida que el campo de la inteligencia artificial sigue evolucionando, la necesidad de datos bien curados y legalmente obtenidos se vuelve más urgente. La liberación de The Common Pile v0.1 representa un paso hacia la creación de un ecosistema de datos más saludable, donde los investigadores y desarrolladores pueden trabajar sin miedo a repercusiones legales.

Además, la creciente presión sobre las empresas para que actúen de manera ética y transparente podría llevar a un cambio más amplio en la industria. La adopción de prácticas responsables en la recopilación y uso de datos podría convertirse en un requisito no solo legal, sino también moral, a medida que la sociedad se vuelve más consciente de los problemas relacionados con la privacidad y los derechos de autor.

En definitiva, la llegada de The Common Pile v0.1 por parte de EleutherAI es un desarrollo significativo en el panorama de la inteligencia artificial. No solo representa una respuesta a las críticas y desafíos legales que enfrentan muchas empresas, sino que también ofrece un modelo a seguir para la creación de conjuntos de datos en el futuro. La capacidad de desarrollar modelos competitivos sin depender de datos no licenciados es un avance que podría beneficiar a toda la comunidad de investigación en IA.

Otras noticias • IA

Salud digital

Amazon lanza Health AI, mejora salud pero preocupa privacidad

10 mar

Amazon ha lanzado Health AI, un asistente de inteligencia artificial que facilita el acceso a información y servicios de salud. Aunque promete mejorar la atención...

IA problemática

IA en apps aumenta cancelaciones un 30% pese a conversiones

10 mar

El informe de RevenueCat revela que, a pesar del aumento de aplicaciones impulsadas por inteligencia artificial (IA), estas tienen una tasa de cancelación un 30%...

Educación interactiva

OpenAI revoluciona la educación con explicaciones visuales dinámicas

10 mar

OpenAI ha introducido explicaciones visuales dinámicas que transforman la educación, permitiendo a los estudiantes interactuar con conceptos matemáticos y científicos en tiempo real. Esta innovación...

Comunicación automatizada

AgentMail transforma la comunicación automatizada con 6 millones de dólares

10 mar

AgentMail ha revolucionado la comunicación automatizada al ofrecer un servicio de correo electrónico para agentes de inteligencia artificial. Con una financiación de 6 millones de...

Detección deepfakes

YouTube lanza herramienta para detectar deepfakes y combatir desinformación

10 mar

YouTube ha lanzado una herramienta para detectar deepfakes, permitiendo a funcionarios y periodistas solicitar la eliminación de contenido no autorizado. La compañía busca equilibrar la...

Valoración elevada

Legora alcanza valoración de 5.550 millones en financiación reciente

10 mar

Legora, plataforma de inteligencia artificial para el sector legal, ha alcanzado una valoración de 5.550 millones de dólares tras una ronda de financiación de 550...

Búsqueda mejorada

Google Photos lanza "Ask Photos" y permite búsqueda clásica

10 mar

Google Photos ha introducido la función "Ask Photos" para buscar imágenes mediante lenguaje natural, pero su recepción ha sido mixta. Ante las críticas, Google ahora...

Colaboración estratégica

Thinking Machines Lab y Nvidia impulsan la IA con nuevo acuerdo

10 mar

Thinking Machines Lab ha firmado un acuerdo estratégico con Nvidia para desarrollar infraestructura de IA, destacando su crecimiento y la creciente demanda en el sector....

EleutherAI lanza conjunto de datos público para entrenar IA

La revolución de los datasets en la inteligencia artificial

La batalla legal en el mundo de la IA

El impacto de The Common Pile v0.1

Un cambio de paradigma

Compromiso con la transparencia y la colaboración

La importancia del acceso a datos

Otras noticias • IA

Lo más reciente

Google compra Wiz por 32 mil millones para fortalecer ciberseguridad

TikTok y Apple Music ofrecen canciones completas en la app

Zoox y Uber impulsan robotaxis en Las Vegas ante desafíos regulatorios

Alan, la startup de salud, alcanza valoración de 5.000 millones

Anduril refuerza defensa espacial con compra de ExoAnalytic

Google lanza Gemini en nuevos mercados con innovadoras funcionalidades

Inteligencia artificial: retos en retención y satisfacción de usuarios