Amazon AWS lanza SageMaker HyperPod para entrenar y ajustar modelos de lenguaje de gran tamaño
Amazon AWS, el brazo de servicios en la nube de Amazon, ha anunciado hoy en su conferencia re:Invent el lanzamiento de SageMaker HyperPod, un nuevo servicio diseñado específicamente para entrenar y ajustar modelos de lenguaje de gran tamaño. SageMaker HyperPod ya está disponible de manera general.
Amazon ha apostado durante mucho tiempo por SageMaker, su servicio para construir, entrenar e implementar modelos de aprendizaje automático, como el pilar de su estrategia de aprendizaje automático. Ahora, con la llegada de la inteligencia artificial generativa, no es de extrañar que también se apoye en SageMaker como producto principal para facilitar a sus usuarios el entrenamiento y ajuste de modelos de lenguaje de gran tamaño (LLMs).
“SageMaker HyperPod te ofrece la capacidad de crear un clúster distribuido con instancias aceleradas optimizadas para el entrenamiento disputado”, me explicó Ankur Mehrotra, director general de SageMaker de AWS, en una entrevista antes del anuncio de hoy. “Te proporciona las herramientas para distribuir eficientemente modelos y datos en todo el clúster, lo que acelera el proceso de entrenamiento”.
También destacó que SageMaker HyperPod permite a los usuarios guardar puntos de control con frecuencia, lo que les permite pausar, analizar y optimizar el proceso de entrenamiento sin tener que empezar de nuevo. El servicio también incluye una serie de medidas de seguridad para que, en caso de que una GPU se caiga por alguna razón, todo el proceso de entrenamiento no se vea afectado.
“Para un equipo de aprendizaje automático, por ejemplo, que solo está interesado en entrenar el modelo, se convierte en una experiencia prácticamente sin intervención y el clúster se convierte en una especie de clúster de autocuración en cierto sentido”, explicó Mehrotra. “En general, estas capacidades pueden ayudarte a entrenar modelos base hasta un 40% más rápido, lo cual, si consideras el costo y el tiempo de comercialización, es una gran ventaja”.
Los usuarios pueden optar por entrenar en los chips personalizados Trainium de Amazon (y ahora Trainium 2) o en instancias de GPU basadas en Nvidia, incluidas aquellas que utilizan el procesador H100. La compañía promete que HyperPod puede acelerar el proceso de entrenamiento hasta un 40%.
La compañía ya tiene experiencia en esto utilizando SageMaker para construir LLMs. Por ejemplo, el modelo Falcon 180B fue entrenado en SageMaker, utilizando un clúster de miles de GPU A100. Mehrotra señaló que AWS pudo aprovechar lo que aprendió de eso y de su experiencia previa en el escalado de SageMaker para construir HyperPod.
Aravind Srinivas, cofundador y CEO de Perplexity AI, me dijo que su compañía tuvo acceso anticipado al servicio durante su versión beta privada. Señaló que su equipo inicialmente estaba escéptico sobre el uso de AWS para el entrenamiento y ajuste de sus modelos.
“No habíamos trabajado con AWS antes”, dijo. “Había un mito —un mito, no un hecho— de que AWS no tiene una gran infraestructura para el entrenamiento de modelos grandes y, obviamente, no teníamos tiempo para hacer una debida diligencia, así que lo creímos”. Sin embargo, el equipo se puso en contacto con AWS y los ingenieros les pidieron que probaran el servicio (gratis). También destacó que ha sido fácil obtener soporte de AWS y acceder a suficientes GPUs para el caso de uso de Perplexity. Obviamente, les ayudó que el equipo ya estaba familiarizado con la inferencia en AWS.
Srinivas también destacó que el equipo de HyperPod de AWS se centró en acelerar las interconexiones que enlazan las tarjetas gráficas de Nvidia. “Optimizaron las primitivas —las diversas primitivas de Nvidia— que te permiten comunicar estos gradientes y parámetros entre diferentes nodos”, explicó.
Otras noticias • IA
Midjourney lanza V1, revolucionando vídeos y desafiando derechos de autor
Midjourney ha lanzado V1, un modelo de generación de vídeos que transforma imágenes en secuencias de cinco segundos, ampliando las posibilidades creativas. Sin embargo, enfrenta...
OpenAI termina colaboración con Scale AI, incertidumbre en la industria
OpenAI ha finalizado su colaboración con Scale AI, buscando proveedores de datos más especializados. Esto genera incertidumbre en la industria del etiquetado de datos, mientras...
OpenAI revela hallazgos sobre comportamientos desalineados en IA
Investigadores de OpenAI han descubierto características ocultas en modelos de IA que corresponden a comportamientos desalineados, como la toxicidad. Este hallazgo permite ajustar y redirigir...
xAI en el ojo del huracán por turbinas sin permisos
La empresa xAI enfrenta controversia en Memphis por operar turbinas de gas natural sin permisos, lo que podría agravar la calidad del aire y la...
Google presenta "Search Live" para búsquedas interactivas y fluidas
Google ha lanzado "Search Live", una funcionalidad que permite a los usuarios interactuar con la IA de forma conversacional y fluida, facilitando la búsqueda de...
Digg renace con IA y recompensas para comunidades auténticas
La revitalización de Digg busca crear comunidades online auténticas, alejadas de bots y desinformación. Con una nueva aplicación en fase alpha, incorpora inteligencia artificial y...
Desafíos éticos en la búsqueda de inteligencia artificial general
La búsqueda de la inteligencia artificial general (AGI) plantea desafíos éticos y de gobernanza. Iniciativas como "The OpenAI Files" destacan la necesidad de transparencia y...
Meta ofrece hasta 100 millones por talento en IA
Meta compite ferozmente por talento en inteligencia artificial, ofreciendo hasta 100 millones de dólares en compensación. A pesar de sus esfuerzos, OpenAI retiene a sus...
Lo más reciente
- 1
Borderless impulsa inversiones de la diáspora africana en startups
- 2
Spotify aún no lanza audio sin pérdidas tras cuatro años
- 3
Wix adquiere Base44 por 80 millones, éxito en apps sin código
- 4
Paternidad y AI: desafíos y oportunidades en la crianza moderna
- 5
Multiplier revoluciona servicios profesionales con adquisición y AI
- 6
Base44, la startup israelí que brilla en el ecosistema tecnológico
- 7
Zoox inaugura planta en California para producir robotaxis autónomos