Operación y Mantenimiento de Sistemas de Liquid Cooling: Continuidad Operativa en Data Centers de Misión Crítica
Introducción: El comisionamiento es el inicio, no el final
El comisionamiento de un sistema de liquid cooling —que cerramos en la entrega anterior de este ciclo— no es un punto de llegada. Es el momento en que comienza la pregunta más larga: cómo se sostiene el desempeño de la instalación durante los 15 o 20 años que dura su ciclo de vida.
ASHRAE Technical Committee 9.9 publicó en febrero de 2026 un boletín técnico sobre resiliencia de sistemas de liquid cooling, donde advierte que "la pérdida de enfriamiento puede ser catastrófica cuando se soportan cargas térmicas extremas" (ASHRAE TC 9.9, 2026). La advertencia no es retórica: en racks con densidades de 80 a 120 kW, una interrupción de circulación del refrigerante lleva al shutdown térmico de procesadores en menos de tres minutos, y el daño en componentes semiconductores por sobrecalentamiento puede ser permanente.
La inversión inicial en un sistema de liquid cooling para data center de hiperescala es de orden multimillonario y varía con la capacidad instalada, la densidad térmica y el nivel de redundancia. Lo que rentabiliza esa inversión —el PUE bajo, la densidad alta por rack, la reducción de costos operativos— no se logra el día del arranque: se logra todos los días durante la vida útil del sistema.
Reaclima ha participado en proyectos de climatización de misión crítica como Foxconn GDL Vesta 8 y Amazon AWS Querétaro, donde el estándar de disponibilidad supera 99.99% anual —un margen máximo de 52.6 minutos de interrupción al año—. Este artículo recoge los principios de operación y mantenimiento que sostienen esa exigencia.
Monitoreo continuo: lo que el BMS debe ver en todo momento
Los sistemas modernos integran instrumentación distribuida que alimenta plataformas BMS (Building Management System) o DCIM (Data Center Infrastructure Management). La función del monitoreo no es decorativa: es detectar la desviación cuando todavía es pequeña, antes de que escale a incidente.
Dominio térmico
La temperatura de suministro del refrigerante opera, según la tecnología, en un rango de 18 a 30 °C. La alarma de advertencia se programa a ±2 °C del valor de consigna de diseño, y la crítica a 35 °C —umbral asociado al inicio de throttling térmico en procesadores—. Cuando esta temperatura sube de forma sostenida, lo que suele estar detrás es fouling en los condensadores del chiller, insuficiencia de rechazo en la torre de enfriamiento, o un filtro obstruido en algún intercambiador.
El Delta T entre retorno y suministro vive entre 8 y 15 °C según configuración. Aquí los extremos cuentan: un Delta T menor a 5 °C indica bypass de flujo o caudal excesivo, mientras que un Delta T mayor a 20 °C revela caudal insuficiente y abre la puerta a hot spots localizados en los componentes que más calor generan. Una desviación del 20% respecto al diseño es razón suficiente para encender una alarma.
La temperatura de unión de los procesadores (junction temperature) se lee directamente mediante IPMI, Redfish o protocolos propietarios. En Xeon Scalable, EPYC o NVIDIA H100, los sensores internos permiten armar dos umbrales: advertencia a 75 °C (cuando empieza el throttling) y crítica a 95 °C (a 10 °C del shutdown de hardware).
Dominio hidráulico
El caudal volumétrico se mide en los puntos donde su variación tiene consecuencias: salida de CDUs, entrada a manifolds de rack y retorno a intercambiadores. La instrumentación habitual son medidores ultrasónicos no intrusivos, de turbina o electromagnéticos. Una caída del 10% respecto al valor de diseño abre alarma; por debajo del 70%, la alarma es crítica. La causa más frecuente de la pérdida gradual de caudal es el filtro obstruido. Después vienen el desgaste de impulsores en bombas y, con el tiempo, los depósitos en cold plates por precipitación de glicol degradado o crecimiento biológico.
La presión diferencial es el otro indicador hidráulico de cabecera. Se vigila en filtros, intercambiadores, cold plates y manifolds. Cuando sube un 25% sobre el valor inicial, hay obstrucción progresiva en curso. Por encima de 2 bar, el riesgo ya no es de eficiencia: es de daño mecánico o bypass. En filtros de 5 a 10 micrones, el reemplazo conviene programarlo cuando la presión diferencial alcanza el rango de 1.0 a 1.5 bar —antes de que el sistema empiece a sufrirlo—.
Calidad del refrigerante
Aquí la frecuencia de verificación importa tanto como el dato. La concentración de propilenglicol (o etilenglicol según especificación) debe mantenerse entre 30% y 50%. Se revisa cada trimestre en operación normal, y cada mes cuando hay reposiciones frecuentes o sospecha de fuga. La dilución con agua de reposición sube el punto de congelación y debilita la protección anticorrosiva; pasarse del 60%, en cambio, hace al fluido más viscoso y menos eficiente para transferir calor.
El pH se mantiene en rango ligeramente alcalino, entre 8.0 y 9.0, para minimizar corrosión. La conductividad eléctrica debe estar por debajo de 10 µS/cm en agua desionizada y por debajo de 500 µS/cm en agua tratada. La verificación mensual es suficiente. Si el pH cae por debajo de 7, los inhibidores de corrosión están agotados o hay productos metálicos disueltos en el fluido. Si la conductividad sube, entró contaminante o hay metal disolviéndose en algún punto del circuito.
La turbidez objetivo es menor a 10 NTU, con un conteo de partículas mayores a 10 micrones por debajo de 1,000 por cada 100 ml. Cuando estos indicadores se mueven, casi siempre la causa es una de cuatro: sellos de bomba en desgaste, corrosión interna, crecimiento biológico o filtración insuficiente.
Mantenimiento preventivo: la disciplina cotidiana que evita el incidente
El mantenimiento preventivo es la forma de pagar pequeñas facturas conocidas en lugar de una factura grande desconocida. La estructura habitual sigue una frecuencia escalonada según el componente y la criticidad de lo que vigila.
A diario, el personal de operaciones recorre CDUs y bombas en inspección visual —fugas, ruidos anormales, vibración—, revisa las alarmas activas en BMS/DCIM, verifica niveles en tanques de expansión y mira de cerca los manifolds de rack.
Semanalmente se registra en bitácora la presión diferencial de filtros, se pasa papel absorbente por los conectores rápidos críticos, se verifica el funcionamiento de las válvulas de venteo automático y se revisan los históricos de temperatura de componentes IT buscando tendencias graduales que en el día a día pasan inadvertidas.
Las inspecciones mensuales abren el frente analítico: pH, conductividad, glicol y turbidez del refrigerante; termografía en conexiones eléctricas de bombas, VFDs y CDUs; cotejo de sensores contra termómetros de referencia; y limpieza de los filtros de aire en los ventiladores de CDU, que el polvo va tapando sin que nadie lo note.
Cada trimestre conviene enviar muestras a laboratorio externo para el análisis extendido —metales disueltos, conteo microbiológico, residuales de inhibidores—, evaluar el fouling en intercambiadores, ensayar la respuesta de las válvulas de control y revisar el estado del aislamiento térmico.
Las inspecciones semestrales son más invasivas: apertura e inspección interna de CDUs (con limpieza química si la eficiencia degradó más del 10%), reemplazo programado de cartuchos de filtración, revisión de sellos mecánicos de bombas y, sobre todo, pruebas de redundancia N+1 mediante simulación de fallo. Si nunca se ha verificado que el sistema redundante toma la carga, la primera vez no debe ser durante un incidente real.
Anualmente toca el trabajo mayor: drenaje y limpieza química del sistema con ácido cítrico o fosfato trisódico; reemplazo del fluido refrigerante —cada 3 a 5 años según análisis, o antes si hay degradación clara—; recalibración de instrumentación crítica en laboratorio acreditado ISO 17025; y la prueba de presión hidrostática a 1.5× la presión de operación durante cuatro horas, que cierra el ciclo anual de validación.
Gestión de incidentes: tres escenarios que se entrenan antes de vivirlos
Ningún programa preventivo elimina la posibilidad del fallo. Lo que sí hace una operación madura es entrenar las respuestas antes de necesitarlas.
Fallo de bomba primaria. La detección suele llegar simultánea por tres vías: alarma de caudal bajo en el manifold afectado, incremento de temperatura de retorno y alarma de presión diferencial en el intercambiador. Bajo redundancia N+1, la respuesta automática activa la bomba de respaldo, sube velocidad en las bombas restantes para compensar y notifica al personal por SMS o correo. La parte humana viene después: aislar la bomba fallada con válvulas de bola, abrirla para inspeccionar sello mecánico, impulsor y rodamientos, reemplazar lo dañado y devolverla a servicio solo tras pruebas en carga parcial.
Fuga en conector rápido de servidor. Aquí la detección puede ser instrumental —sensor de humedad en el manifold, turbidez que sube de pronto en el fluido— o visual, cuando un técnico la encuentra de paso. La respuesta inmediata aísla el servidor con las válvulas del manifold; si el ambiente está virtualizado, se migran las VMs a servidores con enfriamiento operativo. Las acciones correctivas casi siempre pasan por lo mismo: revisar y reemplazar O-rings, aplicar el torque que indica el fabricante, limpiar las superficies de sellado con isopropílico y verificar durante 30 minutos que la reconexión no gotea.
Degradación de eficiencia en chiller. Este no se anuncia con alarma única. Se manifiesta como un patrón: la temperatura de suministro sube poco a poco, el Delta T en el intercambiador de CDU baja, el consumo eléctrico del chiller crece sin que la carga térmica lo justifique. El diagnóstico revisa presión y temperatura en el circuito de compresión, busca fouling en el condensador, comprueba que los ventiladores de torre trabajen bien y compara el kW/ton actual contra el de diseño. Las acciones correctivas habituales: limpieza química del condensador, remoción mecánica de algas y sedimentos en torre, ajuste de carga de refrigerante y, si aparece humedad, reemplazo de los filtros deshidratadores.
Migración de carga: ganarle minutos al incidente
ASHRAE TC 9.9 insiste en algo que en la práctica se subestima: la pérdida temporal de enfriamiento debe formar parte del diseño operativo, no tratarse como sorpresa. En ambientes virtualizados, la migración de máquinas virtuales entre servidores es la herramienta que permite descargar térmicamente un rack mientras se restaura el servicio.
La migración proactiva trabaja antes de que ocurra el fallo. Algoritmos predictivos cruzan tendencias de temperatura, vibración, consumo eléctrico y horas de operación para estimar la probabilidad de fallo de una CDU o una bomba. Cuando esa probabilidad cruza el umbral, el sistema baja la carga de procesamiento en los racks atendidos por el componente sospechoso, mueve las VMs críticas hacia racks con redundancia térmica disponible y agenda el mantenimiento correctivo para una ventana de bajo uso.
La migración reactiva es la respuesta al fallo súbito. Cuando un componente IT supera 85 °C, el throttling térmico empieza a bajar la frecuencia para producir menos calor, las VMs se trasladan a racks con enfriamiento sano —entre 30 y 60 segundos por VM— y si la temperatura sigue subiendo por encima de 95 °C, se ejecuta apagado ordenado vía IPMI antes de que el daño sea físico.
El margen que hace posible todo esto es la inercia térmica del sistema —volumen de refrigerante y masa térmica de componentes—, que ofrece entre 5 y 10 minutos entre la pérdida de circulación y el inicio del throttling. Ese margen no aparece por casualidad: se diseña desde el principio del proyecto, como detallamos en la primera entrega del ciclo.
Cumplimiento normativo en operación: NOM-035-ENER-2025
Las instalaciones de liquid cooling rara vez son puras: conviven con equipos de aire acondicionado convencional que atienden zonas periféricas, oficinas y salas auxiliares. Cuando esos equipos caen dentro del rango de la NOM-035-ENER-2025 —vigente desde el 15 de febrero de 2026, conforme a su publicación en el DOF del 20 de agosto de 2025—, deben verificar cumplimiento de los requisitos de Relación de Eficiencia Energética Integrada (REEI).
El mantenimiento preventivo contribuye al cumplimiento de forma muy directa. La limpieza de serpentines en evaporadores y condensadores recupera entre 15% y 30% de la eficiencia que el fouling se llevó. Ajustar los controles de temperatura y humedad evita gastar electricidad sin beneficio operativo. Y mantener operativos los economizadores —de aire o de agua— sostiene la reducción del trabajo de compresión mecánica, que es donde se juega buena parte del cumplimiento del umbral normativo.
Las auditorías energéticas, sean de terceros certificados o del equipo interno de facility management, comparan el PUE real contra el de diseño. Cuando la desviación supera el 10%, hay margen de mejora identificable: operación del enfriamiento, gestión del flujo de aire o configuración de servidores.
Ciclo de vida: planear los reemplazos antes de que se vuelvan urgentes
Cada componente del sistema tiene su propio reloj. Las bombas centrífugas dan 10 a 15 años con mantenimiento adecuado. Las CDUs llegan a 15 o 20 años si se les hace limpieza química cada 3 a 5 años. La tubería de cobre y acero inoxidable, en ambientes no corrosivos, supera los 25 años. Los conectores rápidos y O-rings duran 5 a 7 años por desgaste mecánico. Los sensores entre 5 y 10 años antes de que la deriva los inutilice. El fluido refrigerante, 3 a 5 años antes de que su química se degrade.
La gestión del ciclo de vida descansa en cuatro prácticas que se refuerzan entre sí. Lo primero es un registro de activos en CMMS (Computerized Maintenance Management System) con fechas de instalación y horas de operación —sin ese registro, el reemplazo siempre llega tarde—. Lo segundo es un presupuesto anual de CapEx para reemplazos programados, que evita que un fallo súbito imponga la decisión. Lo tercero es la evaluación trimestral de obsolescencia: revisar si los repuestos siguen disponibles y preparar alternativas compatibles antes de que un fabricante descontinúe una línea. Y lo cuarto, cuando el sistema llega al 60% o 70% de su vida útil, es preguntarse si conviene actualizar hacia tecnologías emergentes —inmersión bifásica, cold plates de nueva generación— que pueden reducir más el PUE y abrir capacidad para densidades mayores.
Documentación operativa: el activo que no se ve hasta que falta
Las instalaciones de misión crítica no se sostienen solo con equipos: se sostienen con documentación que permite saber qué se hizo, cuándo y por qué, durante toda la vida útil del sistema.
Tres frentes la cubren. Los manuales de operación traen procedimientos de arranque y paro, secuencias para condiciones normales y de emergencia, diagramas P&ID con válvulas de aislamiento identificadas, y especificaciones del fluido refrigerante. Las bitácoras operativas registran lo que pasa cada día —parámetros, alarmas activadas con su acción correctiva, reposiciones de fluido con volumen y lote, visitas de mantenimiento—. Los certificados y calibraciones documentan la instrumentación crítica con su vigencia de 12 meses, los análisis trimestrales de laboratorio, las pruebas hidrostáticas posteriores a mantenimientos mayores y la capacitación del personal operativo.
En instalaciones serias, esta documentación se entrega como paquete completo: manuales en español, planos as-built en CAD, archivos BIM nativos y plataforma digital de gestión. Es el activo que sostiene la continuidad cuando rota el personal a cargo. Si la documentación no existe, cada cambio de turno o de equipo empieza desde cero.
Conclusión: la operación como práctica continua
Un sistema de liquid cooling para data center de misión crítica no funciona en piloto automático. Sostener su desempeño durante 15 o 20 años exige las cuatro disciplinas que recorre este artículo: monitoreo continuo, mantenimiento preventivo, respuesta entrenada ante incidentes y gestión proactiva de obsolescencia.
ASHRAE TC 9.9 lo plantea con claridad: "la resiliencia de los sistemas de liquid cooling depende tanto del diseño como de la operación diaria" (ASHRAE TC 9.9, 2026). Las instalaciones que sostienen disponibilidades superiores al 99.99% lo logran porque combinan protocolos de prevención, análisis predictivo y capacitación continua del personal —no porque tengan el mejor equipo del mercado—.
¿Tu instalación de liquid cooling opera bajo protocolos preventivos estructurados, o se gestiona reactivamente cuando algo falla? Conversemos.