Alimentación y enfriamiento de la IA y la computación acelerada en la sala de datos

 


La inteligencia artificial (IA) está aquí, y está aquí para quedarse. “Cada industria se convertirá en una industria tecnológica”, según Jensen Huang, fundador y director ejecutivo de NVIDIA. Los casos de uso de la IA son prácticamente ilimitados, desde avances en la medicina hasta la prevención del fraude de alta precisión. La IA ya está transformando nuestras vidas de la misma manera que está transformando cada industria. También está comenzando a transformar fundamentalmente la infraestructura del centro de datos.

Las cargas de trabajo de IA están impulsando cambios significativos en la forma en que impulsamos y enfriamos los datos procesados como parte de la computación de alto rendimiento (HPC). Un rack de TI típico utilizado para ejecutar cargas de trabajo de 5 a 10 kilovatios (kW) y racks que ejecutan cargas superiores a 20 kW se consideraron de alta densidad, una visión rara fuera de aplicaciones muy específicas con un alcance estrecho. La TI se está acelerando con las GPU para satisfacer las necesidades de computación de los modelos de IA, y estos chips de IA pueden requerir aproximadamente cinco veces más potencia y cinco veces más capacidad de enfriamiento1 en el mismo espacio que un servidor tradicional. Mark Zuckerberg anunció que, para fines de 2024, Meta gastará miles de millones en implementar 350 000 GPU H100 de NVIDIA. Las densidades de rack de 40 kW por rack ahora están en el extremo inferior de lo que se requiere para facilitar las implementaciones de IA, con densidades de rack superiores a 100 kW por rack que se vuelven comunes y a gran escala en un futuro cercano.

Esto requerirá grandes aumentos de capacidad en todo el tren de potencia, desde la red hasta los chips en cada bastidor. La introducción de tecnologías de enfriamiento por líquido en el espacio blanco del centro de datos y, finalmente, en las salas de servidores empresariales, será un requisito para la mayoría de las implementaciones, ya que los métodos de enfriamiento tradicionales no podrán manejar el calor generado por las GPU que ejecutan cálculos de IA. Las inversiones para actualizar la infraestructura necesaria para impulsar y enfriar el hardware de IA son sustanciales y navegar por estos nuevos desafíos de diseño es fundamental.

La transición a la alta densidad

La transición a la computación acelerada no ocurrirá de la noche a la mañana. Los diseñadores de centros de datos y salas de servidores deben buscar formas de preparar la infraestructura de energía y refrigeración para el futuro, teniendo en cuenta el crecimiento futuro de sus cargas de trabajo. Obtener suficiente energía a cada rack requiere actualizaciones desde la red hasta el rack. En el espacio blanco específicamente, esto probablemente significa PDU de rack de alta densidad y entrada de bus de alto amperaje. Para rechazar la enorme cantidad de calor generado por el hardware que ejecuta cargas de trabajo de IA, están surgiendo dos tecnologías de enfriamiento líquido como opciones principales:

Enfriamiento líquido directo al chip: Las placas frías se asientan sobre los componentes generadores de calor (generalmente chips como CPU y GPU) para extraer calor. El fluido monofásico o bifásico bombeado extrae calor de la placa fría para enviarlo fuera del centro de datos, intercambiando calor pero no fluidos con el chip. Esto puede eliminar aproximadamente entre el 70 y el 75 % del calor generado por el equipo en el bastidor, dejando entre el 25 y el 30 % que los sistemas de enfriamiento por aire deben eliminar.

Intercambiadores de calor de puerta trasera: Los intercambiadores de calor pasivos o activos reemplazan la puerta trasera del bastidor de TI con bobinas de intercambio de calor a través de las cuales el fluido absorbe el calor producido en el bastidor. Estos sistemas a menudo se combinan con otros sistemas de enfriamiento como una estrategia para mantener la neutralidad de la sala o un diseño de transición que inicia el viaje hacia el enfriamiento líquido.

Si bien el enfriamiento líquido directo al chip ofrece una capacidad de enfriamiento de densidad significativamente mayor que el aire, es importante tener en cuenta que aún hay exceso de calor que las placas frías no pueden capturar. Este calor se rechazará en la sala de datos a menos que se contenga y retire a través de otros medios, como intercambiadores de calor de la puerta trasera o refrigeración por aire ambiente. Para obtener más detalles sobre las soluciones de enfriamiento líquido para centros de datos, consulte nuestro informe técnico.

Kits de inicio de IA para modernización y nuevas construcciones

La energía y la refrigeración se están convirtiendo en partes integrales del diseño de la solución de TI en la sala de datos, lo que desdibuja las fronteras entre los equipos de TI y de las instalaciones. Esto agrega un alto grado de complejidad cuando se trata de diseño, implementación y operación. Las asociaciones y la experiencia en soluciones completas se clasifican como los principales requisitos para transiciones fluidas a densidades más altas.

Para simplificar el cambio a alta densidad, Vertiv ha introducido una gama de diseños optimizados que incluyen tecnología de energía y refrigeración capaz de soportar cargas de trabajo de hasta 100 kW por rack en un conjunto diverso de configuraciones de implementación.

Estos diseños ofrecen múltiples rutas para que los integradores de sistemas, proveedores de colocación, proveedores de servicios en la nube o usuarios empresariales logren el centro de datos del futuro, ahora. Cada instalación específica puede tener matices con recuento de rack y densidad de rack dictados por la selección de equipos de TI. Como tal, esta colección de diseños proporciona una forma intuitiva de reducir definitivamente un diseño base y adaptarlo exactamente a las necesidades de implementación.

Al reacondicionar o reutilizar los entornos existentes para la IA, nuestros diseños optimizados ayudan a minimizar la interrupción de las cargas de trabajo existentes al aprovechar la infraestructura de enfriamiento disponible y el rechazo del calor cuando sea posible. Por ejemplo, podemos integrar la refrigeración líquida directa al chip con un intercambiador de calor de la puerta trasera para mantener una solución de refrigeración neutra en la habitación. En este caso, el intercambiador de calor de la puerta trasera evita que el exceso de calor escape a la habitación. Para una instalación enfriada por aire que busca agregar equipos de enfriamiento por líquido sin modificaciones en el sitio en sí, tenemos opciones de diseño de líquido a aire disponibles. Esta misma estrategia se puede implementar en un solo rack, en fila o a escala en una implementación de HPC grande. Para los diseños de múltiples bastidores, también hemos incluido PDU de bastidores de alta densidad y conductos de bus de alto amperaje para distribuir energía a cada bastidor.

Estas opciones son compatibles con una gama de diferentes opciones de rechazo de calor que pueden combinarse con enfriamiento líquido. Esto establece una ruta de transición limpia y rentable hacia el enfriamiento líquido de alta densidad sin interrumpir otras cargas de trabajo en la sala de datos. Consulte nuestras soluciones de sala de datos de IA para obtener más información.

Si bien muchas instalaciones no están diseñadas para sistemas de alta densidad, Vertiv cuenta con una amplia experiencia en ayudar a los clientes a desarrollar planes de implementación para realizar una transición sin problemas a alta densidad para IA y HPC.

Comentarios

Entradas populares