Alimentación y enfriamiento de la IA y la computación acelerada en la sala de datos
La inteligencia artificial (IA) está aquí, y está aquí para quedarse.
“Cada industria se convertirá en una industria tecnológica”, según Jensen
Huang, fundador y director ejecutivo de NVIDIA. Los casos de uso de la IA son
prácticamente ilimitados, desde avances en la medicina hasta la prevención del
fraude de alta precisión. La IA ya está transformando nuestras vidas de la
misma manera que está transformando cada industria. También está comenzando a
transformar fundamentalmente la infraestructura del centro de datos.
Las cargas de trabajo de IA están impulsando cambios significativos en la
forma en que impulsamos y enfriamos los datos procesados como parte de la
computación de alto rendimiento (HPC). Un rack de TI típico utilizado para
ejecutar cargas de trabajo de 5 a 10 kilovatios (kW) y racks que ejecutan
cargas superiores a 20 kW se consideraron de alta densidad, una visión rara
fuera de aplicaciones muy específicas con un alcance estrecho. La TI se está
acelerando con las GPU para satisfacer las necesidades de computación de los
modelos de IA, y estos chips de IA pueden requerir aproximadamente cinco veces
más potencia y cinco veces más capacidad de enfriamiento1 en el mismo espacio
que un servidor tradicional. Mark Zuckerberg anunció que, para fines de 2024,
Meta gastará miles de millones en implementar 350 000 GPU H100 de NVIDIA. Las
densidades de rack de 40 kW por rack ahora están en el extremo inferior de lo
que se requiere para facilitar las implementaciones de IA, con densidades de
rack superiores a 100 kW por rack que se vuelven comunes y a gran escala en un
futuro cercano.
Esto requerirá grandes aumentos de capacidad en todo el tren de potencia,
desde la red hasta los chips en cada bastidor. La introducción de tecnologías
de enfriamiento por líquido en el espacio blanco del centro de datos y,
finalmente, en las salas de servidores empresariales, será un requisito para la
mayoría de las implementaciones, ya que los métodos de enfriamiento
tradicionales no podrán manejar el calor generado por las GPU que ejecutan
cálculos de IA. Las inversiones para actualizar la infraestructura necesaria
para impulsar y enfriar el hardware de IA son sustanciales y navegar por estos nuevos
desafíos de diseño es fundamental.
La transición a la alta densidad
La transición a la computación acelerada no ocurrirá de la noche a la
mañana. Los diseñadores de centros de datos y salas de servidores deben buscar
formas de preparar la infraestructura de energía y refrigeración para el
futuro, teniendo en cuenta el crecimiento futuro de sus cargas de trabajo.
Obtener suficiente energía a cada rack requiere actualizaciones desde la red
hasta el rack. En el espacio blanco específicamente, esto probablemente
significa PDU de rack de alta densidad y entrada de bus de alto amperaje. Para
rechazar la enorme cantidad de calor generado por el hardware que ejecuta
cargas de trabajo de IA, están surgiendo dos tecnologías de enfriamiento
líquido como opciones principales:
Enfriamiento líquido directo al chip: Las placas frías se asientan sobre
los componentes generadores de calor (generalmente chips como CPU y GPU) para
extraer calor. El fluido monofásico o bifásico bombeado extrae calor de la
placa fría para enviarlo fuera del centro de datos, intercambiando calor pero
no fluidos con el chip. Esto puede eliminar aproximadamente entre el 70 y el 75
% del calor generado por el equipo en el bastidor, dejando entre el 25 y el 30
% que los sistemas de enfriamiento por aire deben eliminar.
Intercambiadores de calor de puerta trasera: Los intercambiadores de
calor pasivos o activos reemplazan la puerta trasera del bastidor de TI con
bobinas de intercambio de calor a través de las cuales el fluido absorbe el
calor producido en el bastidor. Estos sistemas a menudo se combinan con otros
sistemas de enfriamiento como una estrategia para mantener la neutralidad de la
sala o un diseño de transición que inicia el viaje hacia el enfriamiento
líquido.
Si bien el enfriamiento líquido directo al chip ofrece una capacidad de
enfriamiento de densidad significativamente mayor que el aire, es importante
tener en cuenta que aún hay exceso de calor que las placas frías no pueden
capturar. Este calor se rechazará en la sala de datos a menos que se contenga y
retire a través de otros medios, como intercambiadores de calor de la puerta
trasera o refrigeración por aire ambiente. Para obtener más detalles sobre las
soluciones de enfriamiento líquido para centros de datos, consulte nuestro informe
técnico.
Kits de inicio de IA para modernización y nuevas construcciones
La energía y la refrigeración se están convirtiendo en partes integrales
del diseño de la solución de TI en la sala de datos, lo que desdibuja las
fronteras entre los equipos de TI y de las instalaciones. Esto agrega un alto
grado de complejidad cuando se trata de diseño, implementación y operación. Las
asociaciones y la experiencia en soluciones completas se clasifican como los
principales requisitos para transiciones fluidas a densidades más altas.
Para simplificar el cambio a alta densidad, Vertiv ha introducido una
gama de diseños optimizados que incluyen tecnología de energía y refrigeración
capaz de soportar cargas de trabajo de hasta 100 kW por rack en un conjunto
diverso de configuraciones de implementación.
Estos diseños
ofrecen múltiples rutas para que los integradores de sistemas, proveedores de
colocación, proveedores de servicios en la nube o usuarios empresariales logren
el centro de datos del futuro, ahora. Cada instalación específica puede tener
matices con recuento de rack y densidad de rack dictados por la selección de
equipos de TI. Como tal, esta colección de diseños proporciona una forma
intuitiva de reducir definitivamente un diseño base y adaptarlo exactamente a
las necesidades de implementación.
Al
reacondicionar o reutilizar los entornos existentes para la IA, nuestros
diseños optimizados ayudan a minimizar la interrupción de las cargas de trabajo
existentes al aprovechar la infraestructura de enfriamiento disponible y el
rechazo del calor cuando sea posible. Por ejemplo, podemos integrar la
refrigeración líquida directa al chip con un intercambiador de calor de la
puerta trasera para mantener una solución de refrigeración neutra en la
habitación. En este caso, el intercambiador de calor de la puerta trasera evita
que el exceso de calor escape a la habitación. Para una instalación enfriada
por aire que busca agregar equipos de enfriamiento por líquido sin
modificaciones en el sitio en sí, tenemos opciones de diseño de líquido a aire
disponibles. Esta misma estrategia se puede implementar en un solo rack, en
fila o a escala en una implementación de HPC grande. Para los diseños de
múltiples bastidores, también hemos incluido PDU de bastidores de alta densidad
y conductos de bus de alto amperaje para distribuir energía a cada bastidor.
Estas opciones
son compatibles con una gama de diferentes opciones de rechazo de calor que
pueden combinarse con enfriamiento líquido. Esto establece una ruta de
transición limpia y rentable hacia el enfriamiento líquido de alta densidad sin
interrumpir otras cargas de trabajo en la sala de datos. Consulte nuestras
soluciones de sala de datos de IA para obtener más información.
Si bien muchas
instalaciones no están diseñadas para sistemas de alta densidad, Vertiv cuenta
con una amplia experiencia en ayudar a los clientes a desarrollar planes de
implementación para realizar una transición sin problemas a alta densidad para
IA y HPC.
Comentarios
Publicar un comentario
Gracias por tus comentarios, un abrazo.