IA | Ética tecnológica

DeepSeek genera controversia por uso de datos de competidores

mar, 3 de junio de 2025

La Controversia del Entrenamiento de Modelos de IA en la Era de la Competencia

En la actualidad, el campo de la inteligencia artificial (IA) se encuentra en constante evolución, con empresas luchando por desarrollar modelos que superen a sus competidores. Recientemente, la compañía china DeepSeek ha lanzado una versión actualizada de su modelo de IA R1, que ha sido objeto de controversia debido a acusaciones sobre el uso de datos de otros modelos competidores, en particular del modelo Gemini de Google. Este desarrollo ha abierto un debate en la comunidad tecnológica sobre las prácticas de entrenamiento de modelos de IA y la ética que las rodea.

DeepSeek ha sido acusada en el pasado de utilizar datos de modelos rivales. Estas acusaciones no son nuevas, y el comportamiento de DeepSeek ha sido objeto de análisis por parte de diversos investigadores y desarrolladores. En diciembre pasado, se observó que su modelo V3 se identificaba a menudo como ChatGPT, el chatbot de OpenAI, lo que sugería que podría haber sido entrenado con registros de chat de ChatGPT. Esta situación ha generado desconfianza en el uso de la tecnología de DeepSeek, especialmente en un entorno donde la transparencia y la ética son esenciales para la credibilidad de la IA.

Las Pruebas de Entrenamiento y la Dificultad de la Verificación

El desarrollador Sam Paech, con sede en Melbourne, ha presentado lo que él considera evidencia de que el modelo R1-0528 de DeepSeek fue entrenado utilizando salidas del modelo Gemini. Paech señala que el modelo de DeepSeek tiende a preferir palabras y expresiones similares a las que utiliza Gemini 2.5 Pro. Este tipo de análisis sugiere una posible "contaminación" de los datos que se utilizan para entrenar modelos de IA, un fenómeno que se ha vuelto cada vez más común.

La comunidad de IA se enfrenta a un dilema: ¿cómo asegurar la originalidad y la ética en el entrenamiento de modelos sin caer en prácticas deshonestas?

La dificultad para filtrar los resultados de IA de los conjuntos de datos de entrenamiento es un desafío creciente. La proliferación de contenido generado por IA ha creado un entorno donde es cada vez más complicado distinguir entre datos originales y aquellos que han sido "contaminados". Las granjas de contenido utilizan IA para crear "clickbait", lo que contribuye a la saturación de información y a la confusión en torno a la autenticidad de los datos.

El Uso de la Destilación en Modelos de IA

Uno de los términos que ha surgido en esta discusión es el de "destilación", una técnica que permite entrenar modelos de IA extrayendo datos de modelos más grandes y capaces. Esta práctica no es infrecuente, pero OpenAI ha dejado claro que sus términos de servicio prohíben a los clientes utilizar las salidas de su modelo para construir modelos competidores.

Las implicaciones de esta práctica son significativas, ya que plantean cuestiones sobre la propiedad intelectual y la competencia justa en el mercado de IA. La detección de que DeepSeek podría estar utilizando esta técnica ha generado preocupación, especialmente considerando que Microsoft, un inversor cercano a OpenAI, ha advertido sobre la exfiltración de grandes cantidades de datos a través de cuentas de desarrollador asociadas con DeepSeek.

Reacciones de la Comunidad de IA

La reacción de la comunidad de IA ha sido variada. Algunos expertos, como Nathan Lambert, investigador del instituto de investigación AI2, no descartan la posibilidad de que DeepSeek haya utilizado datos de Gemini. Lambert señala que, si él fuera DeepSeek, "definitivamente crearía una gran cantidad de datos sintéticos del mejor modelo API disponible". Esta observación pone de manifiesto la competencia feroz que existe en el ámbito de la IA, donde cada empresa busca aprovechar al máximo sus recursos para obtener una ventaja competitiva.

La creación de datos sintéticos se ha convertido en una estrategia clave para muchas empresas, lo que plantea preguntas sobre la autenticidad y la ética en el desarrollo de modelos de IA.

Las medidas de seguridad que están implementando las empresas de IA también reflejan la creciente preocupación por el uso indebido de los datos. OpenAI ha comenzado a requerir que las organizaciones completen un proceso de verificación de identidad para acceder a ciertos modelos avanzados. Este proceso, que requiere una identificación emitida por el gobierno, excluye a países como China, lo que indica una clara intención de proteger su tecnología y sus datos.

Estrategias de Protección y Competencia en la IA

En un esfuerzo por prevenir la destilación y proteger sus ventajas competitivas, empresas como Google y Anthropic están tomando medidas para asegurar que sus modelos no sean utilizados indebidamente por rivales. Google, por ejemplo, ha comenzado a "resumir" las trazas generadas por los modelos disponibles en su plataforma de desarrollo AI Studio. Esta estrategia complica el entrenamiento de modelos rivales basados en las trazas de Gemini. Anthropic, por su parte, ha anunciado que también comenzará a resumir las trazas de su propio modelo, citando la necesidad de proteger sus "ventajas competitivas".

El enfoque proactivo de estas empresas subraya la importancia de la seguridad y la ética en el desarrollo de IA. En un mundo donde la tecnología avanza a pasos agigantados, la capacidad de una empresa para proteger su propiedad intelectual y su información puede ser un factor determinante en su éxito o fracaso.

El Futuro de la IA y la Necesidad de Regulación

A medida que la competencia entre empresas de IA se intensifica, también lo hace la necesidad de establecer regulaciones claras y efectivas que rijan el uso de datos en el entrenamiento de modelos. La falta de regulación en este ámbito podría llevar a un escenario en el que las prácticas deshonestas se normalicen, lo que perjudicaría a los desarrolladores honestos y a la industria en su conjunto.

Las autoridades y organismos reguladores deben prestar atención a las dinámicas del mercado de IA y considerar la implementación de normativas que garanticen la transparencia y la ética en el uso de datos. Sin estas medidas, el riesgo de que empresas como DeepSeek continúen operando en la sombra de la legalidad seguirá siendo alto.

La necesidad de una regulación efectiva en el campo de la IA es más urgente que nunca, ya que el futuro de la tecnología depende de prácticas éticas y responsables.

En conclusión, el desarrollo de modelos de IA en la actualidad está marcado por la competencia feroz y las controversias relacionadas con el uso de datos. La situación de DeepSeek pone de manifiesto la necesidad de un debate más amplio sobre la ética en la inteligencia artificial y la importancia de proteger la propiedad intelectual en un entorno en constante cambio. La comunidad de IA, los desarrolladores y los reguladores deben trabajar juntos para garantizar que el avance tecnológico se realice de manera responsable y sostenible.

Otras noticias • IA

IA productiva

Sundar Pichai: La IA impulsa productividad y nuevas oportunidades laborales

Sundar Pichai, CEO de Alphabet, destaca que la IA es una herramienta que puede aumentar la productividad y generar nuevas oportunidades laborales, a pesar de...

Inversión IA

América del Norte domina inversión en inteligencia artificial en 2023

América del Norte lidera la inversión en inteligencia artificial, atrayendo 69.700 millones de dólares en 2023, frente a los 6.400 millones de Europa y 3.000...

Robótica accesible

SmolVLA de Hugging Face revoluciona la robótica accesible para todos

04 jun

La introducción de SmolVLA por Hugging Face democratiza la robótica al permitir a desarrolladores crear proyectos sofisticados con hardware asequible. Este modelo, entrenado con datos...

Propiedad intelectual

Reddit demanda a Anthropic por uso indebido de datos

04 jun

Reddit ha demandado a Anthropic por el uso no autorizado de datos de su plataforma para entrenar modelos de IA, alegando violaciones de su acuerdo...

Creación democratizada

Snap democratiza la creación de Lentes de realidad aumentada

04 jun

Snap lanza Lens Studio para iOS y una herramienta web, democratizando la creación de Lentes de realidad aumentada (AR). Esta iniciativa permite a usuarios de...

Adquisición estratégica

AMD compra Brium para competir con Nvidia en IA

04 jun

AMD ha adquirido la startup Brium para fortalecer su posición en el mercado de inteligencia artificial, desafiando la dominancia de Nvidia. Esta estrategia busca fomentar...

Innovaciones empresariales

OpenAI lanza herramientas avanzadas de ChatGPT para empresas

04 jun

OpenAI ha lanzado nuevas funcionalidades de ChatGPT para empresas, incluyendo integración con servicios en la nube, grabación y transcripción de reuniones, y conectores para investigación...

Asistente codificación

Mistral lanza asistente de codificación IA para potenciar desarrolladores

04 jun

Mistral, una startup francesa, lanza Mistral Code, un asistente de codificación basado en IA que compite con herramientas como GitHub Copilot. Ofrece autocompletado, refactorización y...

DeepSeek genera controversia por uso de datos de competidores

La Controversia del Entrenamiento de Modelos de IA en la Era de la Competencia

Las Pruebas de Entrenamiento y la Dificultad de la Verificación

El Uso de la Destilación en Modelos de IA

Reacciones de la Comunidad de IA

Estrategias de Protección y Competencia en la IA

El Futuro de la IA y la Necesidad de Regulación

Otras noticias • IA

Lo más reciente

Bounce facilita migración de seguidores entre redes sociales descentralizadas

Snapchat lanza app para Apple Watch y mejora mensajería portátil

Anthropic lanza IA "Claude Gov" para seguridad nacional de EE.UU

El mercado de apps móviles alcanza 1.3 billones en 2024

Collibra adquiere Raito para potenciar gobernanza de datos AI

Toma revoluciona concesionarios de coches con inteligencia artificial

Layer transforma el arte digital con marco exclusivo de lujo