Introducción a Re-LAION-5B
LAION, una organización de investigación alemana, ha lanzado un nuevo conjunto de datos llamado Re-LAION-5B, el cual promete estar “minuciosamente depurado de vínculos conocidos a material de abuso sexual infantil (CSAM)”. Este conjunto de datos es una re-edición de un conjunto anterior, el LAION-5B, pero con mejoras implementadas siguiendo recomendaciones de varias organizaciones sin ánimo de lucro, como la Internet Watch Foundation y Human Rights Watch.
El nuevo conjunto de datos está disponible en dos versiones: Re-LAION-5B Research y Re-LAION-5B Research-Safe. Esta última no solo elimina enlaces a CSAM, sino que también se encarga de eliminar contenido adicional que podría considerarse NSFW (no seguro para el trabajo). Según LAION, ambas versiones han sido filtradas para eliminar miles de enlaces a contenido ilegal conocido y a contenido que podría ser considerado como tal.
Compromiso con la legalidad
Desde su creación, LAION ha mostrado un compromiso firme con la eliminación de contenido ilegal de sus conjuntos de datos. En un comunicado, la organización afirmó que “LAION se adhiere estrictamente al principio de que el contenido ilegal se elimina lo antes posible después de que se tiene conocimiento de él”. Esto refleja un esfuerzo por parte de la organización para ser responsable en el manejo de datos que pueden tener implicaciones éticas y legales.
Es importante destacar que los conjuntos de datos de LAION no contienen imágenes en sí, sino que son índices de enlaces a imágenes y texto alternativo que han sido curados a partir de otro conjunto de datos conocido como Common Crawl. Este último incluye información extraída de diversas páginas web, lo que significa que el trabajo de LAION implica una labor de selección y filtrado de contenidos.
Antecedentes y contexto
El lanzamiento de Re-LAION-5B llega tras una investigación realizada en diciembre de 2023 por el Stanford Internet Observatory. Este estudio encontró que LAION-5B, y en particular un subconjunto llamado LAION-5B 400M, incluía al menos 1,679 enlaces a imágenes ilegales. Estos enlaces se originaron en publicaciones de redes sociales y sitios web para adultos. Según el informe, este subconjunto también contenía una amplia gama de contenido inapropiado, que incluía imágenes pornográficas y estereotipos sociales dañinos.
A pesar de que los coautores del informe de Stanford señalaron que sería complicado eliminar el contenido ofensivo, LAION decidió retirar temporalmente el conjunto de datos LAION-5B de circulación. Esto pone de manifiesto la seriedad con la que LAION aborda la cuestión de la legalidad y la ética en el manejo de sus conjuntos de datos.
Recomendaciones y acciones posteriores
El informe de Stanford recomendó que los modelos entrenados con LAION-5B deberían ser descontinuados y que su distribución cesara donde fuera posible. Esta recomendación ha llevado a algunas organizaciones, como la startup de IA Runway, a retirar su modelo Stable Diffusion 1.5 de la plataforma de hospedaje Hugging Face. Runway se asoció en 2023 con Stability AI, la empresa detrás de Stable Diffusion, lo que indica la importancia de la integridad en los conjuntos de datos utilizados para entrenar modelos de inteligencia artificial.
LAION ha subrayado que el nuevo conjunto de datos, que contiene aproximadamente 5.5 mil millones de pares de texto-imagen, se libera bajo una licencia Apache 2.0. Esto significa que terceros pueden utilizar los metadatos para limpiar copias existentes de LAION-5B, eliminando el contenido ilegal que coincide con los enlaces.
Un enfoque en la investigación
LAION enfatiza que sus conjuntos de datos están destinados para fines de investigación y no para usos comerciales. Sin embargo, la historia muestra que esto no siempre detiene a algunas organizaciones que pueden aprovechar estos datos. En el pasado, Google ha utilizado conjuntos de datos de LAION para entrenar sus modelos generadores de imágenes, lo que plantea interrogantes sobre el uso responsable de datos que, aunque sean de investigación, pueden tener un impacto significativo en el mundo real.
LAION ha compartido que “2,236 enlaces [a CSAM sospechoso] fueron eliminados tras la coincidencia con las listas de enlaces y hashes de imágenes proporcionadas por nuestros socios”. Esta cifra incluye 1,008 enlaces identificados en el informe del Stanford Internet Observatory. La organización ha instado a todos los laboratorios de investigación y organizaciones que aún utilizan el antiguo LAION-5B a migrar al nuevo conjunto de datos Re-LAION-5B lo antes posible.
Reflexiones finales sobre la responsabilidad en la IA
La situación que rodea a LAION y sus conjuntos de datos subraya la importancia de la responsabilidad en la inteligencia artificial. La creación y uso de modelos de IA deben ser realizados con una consideración cuidadosa de los datos utilizados, especialmente cuando hay riesgos asociados con contenido ilegal o inapropiado. El compromiso de LAION de limpiar sus conjuntos de datos y asegurar su integridad es un paso positivo, pero también pone de relieve la necesidad de una vigilancia continua y un esfuerzo colaborativo en el campo de la IA.
Otras noticias • IA
Nvidia lanza DLSS 5, revolucionando gráficos y desarrollo de videojuegos
La presentación del DLSS 5 por Nvidia promete revolucionar los videojuegos mediante la inteligencia artificial, mejorando gráficos y reduciendo la carga computacional. Esta tecnología no...
Demanda a xAI revela explotación de menores por IA abusiva
La demanda contra xAI en California destaca la explotación de menores mediante IA que genera imágenes sexuales abusivas. Las demandantes exigen responsabilidad a la empresa...
Britannica demanda a OpenAI por uso indebido de artículos
La demanda de Britannica contra OpenAI por uso no autorizado de sus artículos para entrenar modelos de IA plantea serias cuestiones sobre derechos de autor...
Fuse revoluciona préstamos automotrices con inteligencia artificial y $25M
Fuse, fundada por Andres Klaric y Marc Escapa, moderniza el sistema de originación de préstamos automotrices utilizando inteligencia artificial. Con una financiación de 25 millones...
Nvidia GTC 2024: Innovaciones en inteligencia artificial y colaboración
La GTC de Nvidia, del 16 al 19 de marzo en San José, destaca la inteligencia artificial como protagonista, con innovaciones como la plataforma NemoClaw...
Ejército de EE. UU. firma contrato de 20.000 millones con Anduril
La firma de un contrato de diez años entre el Ejército de EE. UU. y la startup Anduril, valorado en 20.000 millones de dólares, destaca...
xAI de Elon Musk se reestructura ante desafíos del mercado
xAI, cofundada por Elon Musk, atraviesa una reestructuración significativa tras la salida de varios cofundadores. Musk busca revitalizar la empresa ante la competencia, mejorar herramientas...
Nyne revoluciona la IA para entender mejor a los consumidores
Nyne, cofundada por Michael y Emad Fanous, busca mejorar la comprensión de los consumidores por parte de la inteligencia artificial, utilizando datos de múltiples plataformas....
Lo más reciente
- 1
Amazon amplía entrega rápida en EE.UU. con más de 90,000 productos
- 2
Armada de EE.UU. moderniza mantenimiento naval con robots y sensores
- 3
Picsart lanza mercado de IA para optimizar la creatividad
- 4
Nvidia lanza NemoClaw, revolucionando la inteligencia artificial empresarial
- 5
Nvidia anticipa órdenes de chips de IA por $1 billón
- 6
Memories.ai revoluciona la IA con memoria visual innovadora
- 7
Senadora Warren exige regulación tras colaboración del Pentágono con xAI

