IA | Transparencia

AI2 lanza Dolma, conjunto de datos gratuito para fomentar transparencia en la investigación de IA

Miles de autores firman una carta instando a los creadores de IA a dejar de robar libros

La importancia de la transparencia en los conjuntos de datos de IA

Los modelos de lenguaje como GPT-4 y Claude son poderosos y útiles, pero los datos en los que se entrenan son un secreto muy bien guardado. El Instituto Allen de Inteligencia Artificial (AI2) tiene como objetivo revertir esta tendencia con un nuevo y enorme conjunto de datos de texto que es gratuito y está abierto a la inspección.

Dolma, como se llama el conjunto de datos, está destinado a ser la base del modelo de lenguaje abierto planificado por el grupo de investigación, conocido como OLMo (Dolma es la abreviatura de "Data to feed OLMo's Appetite"). Según los investigadores de AI2, si el modelo está destinado a ser utilizado y modificado de forma gratuita por la comunidad de investigación de IA, también debería serlo el conjunto de datos que utilizan para crearlo.

El problema de la opacidad en los conjuntos de datos de IA

Aunque empresas como OpenAI y Meta publican algunas de las estadísticas vitales de los conjuntos de datos que utilizan para construir sus modelos de lenguaje, mucha de esa información se trata como propiedad exclusiva. Aparte de las consecuencias conocidas de desalentar el escrutinio y la mejora a gran escala, se especula que este enfoque cerrado se debe a que los datos no se obtuvieron de manera ética o legal: por ejemplo, que se incluyeron copias pirateadas de libros de muchos autores.

La iniciativa de AI2 para fomentar la transparencia

AI2 está desarrollando Dolma como una alternativa a esta opacidad. En un gráfico creado por AI2, se puede observar que los modelos más grandes y recientes solo proporcionan parte de la información que un investigador probablemente querría conocer sobre un conjunto de datos determinado. ¿Qué información se eliminó y por qué? ¿Qué se consideró texto de alta o baja calidad? ¿Se eliminaron adecuadamente los detalles personales?

AI2 y su modelo de lenguaje optimizado para la ciencia

Dolma de AI2 no es el primer intento de crear un conjunto de datos abierto, pero es el más grande hasta ahora (3 mil millones de tokens, una medida nativa de IA para el volumen de contenido) y, según afirman, el más sencillo en términos de uso y permisos. Utiliza la "Licencia ImpACT para artefactos de riesgo medio", de la cual se pueden ver los detalles aquí. Básicamente, requiere que los usuarios potenciales de Dolma:

  • Proporcionen información de contacto y casos de uso previstos.
  • Revelen cualquier creación derivada de Dolma.
  • Distribuyan esas creaciones derivadas bajo la misma licencia.
  • Se comprometan a no aplicar Dolma a áreas prohibidas, como la vigilancia o la desinformación.

Para aquellos que se preocupan de que, a pesar de los mejores esfuerzos de AI2, algunos de sus datos personales hayan llegado a la base de datos, hay un formulario de solicitud de eliminación disponible aquí. Es para casos específicos, no solo una solicitud general de "no me uses".

Acceso a Dolma y su importancia para la comunidad de investigación de IA

Si todo esto te parece bien, el acceso a Dolma está disponible a través de Hugging Face. AI2 espera que este enfoque abierto y transparente fomente la colaboración y el avance en el campo de la IA, alentando a otros a seguir su ejemplo y a proporcionar conjuntos de datos abiertos y accesibles para la comunidad de investigación.


Crear Canciones Personalizadas
Publicidad


Otras noticias • IA

Transparencia ética

Steerling-8B: Modelo de IA que promueve transparencia y ética

Guide Labs ha desarrollado Steerling-8B, un modelo de lenguaje interpretable con 8 mil millones de parámetros, que permite rastrear decisiones y mejorar la transparencia en...

Alianza estratégica

OpenAI lanza Frontier Alliance para impulsar la adopción de IA

OpenAI ha formado la Frontier Alliance con consultoras líderes para integrar eficazmente la inteligencia artificial en las estrategias empresariales. Este enfoque colaborativo busca superar obstáculos...

Nuevas funciones

Spotify lanza Listas de Reproducción Promocionadas con IA

Spotify ha lanzado "Listas de Reproducción Promocionadas", permitiendo a los usuarios crear listas personalizadas mediante descripciones. Esta función, impulsada por inteligencia artificial, enriquece la experiencia...

Innovación informativa

Particle revoluciona el consumo de noticias con podcasts integrados

La app Particle ha innovado en la forma de consumir noticias al integrar clips de podcasts relevantes en su feed. Esta función, junto con la...

Sostenibilidad tecnológica

Altman defiende sostenibilidad en IA y aboga por energías renovables

Sam Altman, CEO de OpenAI, desmintió preocupaciones sobre el uso de agua en IA, destacando avances en sostenibilidad. Reconoció la validez de las inquietudes sobre...

Violencia digital

Tiroteo en Tumbler Ridge evidencia riesgos de tecnología en violencia

El tiroteo masivo en Tumbler Ridge, perpetrado por Jesse Van Rootselaar, resalta el papel preocupante de la tecnología en la violencia. La falta de acción...

Inclusión digital

Sarvam lanza Indus, chat de IA para lenguas locales en India

Sarvam ha lanzado Indus, una aplicación de chat de IA adaptada a las lenguas locales de India, con el modelo Sarvam 105B. Enfocada en la...

Contabilidad automatizada

InScope revoluciona la contabilidad con inteligencia artificial automatizada

InScope, una startup fundada por contables, transforma la preparación de estados financieros mediante la automatización impulsada por inteligencia artificial. Su plataforma reduce tareas manuales y...