Miles de autores firman una carta instando a los creadores de IA a dejar de robar libros
La importancia de la transparencia en los conjuntos de datos de IA
Los modelos de lenguaje como GPT-4 y Claude son poderosos y útiles, pero los datos en los que se entrenan son un secreto muy bien guardado. El Instituto Allen de Inteligencia Artificial (AI2) tiene como objetivo revertir esta tendencia con un nuevo y enorme conjunto de datos de texto que es gratuito y está abierto a la inspección.
Dolma, como se llama el conjunto de datos, está destinado a ser la base del modelo de lenguaje abierto planificado por el grupo de investigación, conocido como OLMo (Dolma es la abreviatura de "Data to feed OLMo's Appetite"). Según los investigadores de AI2, si el modelo está destinado a ser utilizado y modificado de forma gratuita por la comunidad de investigación de IA, también debería serlo el conjunto de datos que utilizan para crearlo.
El problema de la opacidad en los conjuntos de datos de IA
Aunque empresas como OpenAI y Meta publican algunas de las estadísticas vitales de los conjuntos de datos que utilizan para construir sus modelos de lenguaje, mucha de esa información se trata como propiedad exclusiva. Aparte de las consecuencias conocidas de desalentar el escrutinio y la mejora a gran escala, se especula que este enfoque cerrado se debe a que los datos no se obtuvieron de manera ética o legal: por ejemplo, que se incluyeron copias pirateadas de libros de muchos autores.
La iniciativa de AI2 para fomentar la transparencia
AI2 está desarrollando Dolma como una alternativa a esta opacidad. En un gráfico creado por AI2, se puede observar que los modelos más grandes y recientes solo proporcionan parte de la información que un investigador probablemente querría conocer sobre un conjunto de datos determinado. ¿Qué información se eliminó y por qué? ¿Qué se consideró texto de alta o baja calidad? ¿Se eliminaron adecuadamente los detalles personales?
AI2 y su modelo de lenguaje optimizado para la ciencia
Dolma de AI2 no es el primer intento de crear un conjunto de datos abierto, pero es el más grande hasta ahora (3 mil millones de tokens, una medida nativa de IA para el volumen de contenido) y, según afirman, el más sencillo en términos de uso y permisos. Utiliza la "Licencia ImpACT para artefactos de riesgo medio", de la cual se pueden ver los detalles aquí. Básicamente, requiere que los usuarios potenciales de Dolma:
- Proporcionen información de contacto y casos de uso previstos.
- Revelen cualquier creación derivada de Dolma.
- Distribuyan esas creaciones derivadas bajo la misma licencia.
- Se comprometan a no aplicar Dolma a áreas prohibidas, como la vigilancia o la desinformación.
Para aquellos que se preocupan de que, a pesar de los mejores esfuerzos de AI2, algunos de sus datos personales hayan llegado a la base de datos, hay un formulario de solicitud de eliminación disponible aquí. Es para casos específicos, no solo una solicitud general de "no me uses".
Acceso a Dolma y su importancia para la comunidad de investigación de IA
Si todo esto te parece bien, el acceso a Dolma está disponible a través de Hugging Face. AI2 espera que este enfoque abierto y transparente fomente la colaboración y el avance en el campo de la IA, alentando a otros a seguir su ejemplo y a proporcionar conjuntos de datos abiertos y accesibles para la comunidad de investigación.
Otras noticias • IA
Steerling-8B: Modelo de IA que promueve transparencia y ética
Guide Labs ha desarrollado Steerling-8B, un modelo de lenguaje interpretable con 8 mil millones de parámetros, que permite rastrear decisiones y mejorar la transparencia en...
OpenAI lanza Frontier Alliance para impulsar la adopción de IA
OpenAI ha formado la Frontier Alliance con consultoras líderes para integrar eficazmente la inteligencia artificial en las estrategias empresariales. Este enfoque colaborativo busca superar obstáculos...
Spotify lanza Listas de Reproducción Promocionadas con IA
Spotify ha lanzado "Listas de Reproducción Promocionadas", permitiendo a los usuarios crear listas personalizadas mediante descripciones. Esta función, impulsada por inteligencia artificial, enriquece la experiencia...
Particle revoluciona el consumo de noticias con podcasts integrados
La app Particle ha innovado en la forma de consumir noticias al integrar clips de podcasts relevantes en su feed. Esta función, junto con la...
Altman defiende sostenibilidad en IA y aboga por energías renovables
Sam Altman, CEO de OpenAI, desmintió preocupaciones sobre el uso de agua en IA, destacando avances en sostenibilidad. Reconoció la validez de las inquietudes sobre...
Tiroteo en Tumbler Ridge evidencia riesgos de tecnología en violencia
El tiroteo masivo en Tumbler Ridge, perpetrado por Jesse Van Rootselaar, resalta el papel preocupante de la tecnología en la violencia. La falta de acción...
Sarvam lanza Indus, chat de IA para lenguas locales en India
Sarvam ha lanzado Indus, una aplicación de chat de IA adaptada a las lenguas locales de India, con el modelo Sarvam 105B. Enfocada en la...
InScope revoluciona la contabilidad con inteligencia artificial automatizada
InScope, una startup fundada por contables, transforma la preparación de estados financieros mediante la automatización impulsada por inteligencia artificial. Su plataforma reduce tareas manuales y...
Lo más reciente
- 1
Investigadora de Meta AI advierte sobre riesgos de la IA
- 2
Uber lanza soluciones autónomas para revolucionar la movilidad urbana
- 3
Inversores priorizan beneficios inmediatos en startups de IA
- 4
Acme Weather revoluciona predicciones meteorológicas con enfoque comunitario
- 5
Uber lanza soluciones autónomas para taxis y entregas robóticas
- 6
Controversia de Anthropic revela dudas sobre ética en IA
- 7
Crecen protestas contra cámaras de vigilancia en EE.UU

