Según la investigación publicada por NVIDIA Blogs, estas nuevas instalaciones no son simples extensiones de los centros de datos tradicionales, sino entidades completamente nuevas, construidas alrededor de la orquestación de decenas o incluso cientos de miles de unidades de procesamiento gráfico (GPUs). La clave del éxito reside en la capacidad de conectar y coordinar estas GPUs de manera eficiente, transformando el centro de datos en una unidad de cómputo gigante. Esta orquestación implica un cambio fundamental en la forma en que se conciben las redes, requiriendo diseños en capas con tecnologías de vanguardia, como la óptica integrada, que antes se consideraban ciencia ficción.
La complejidad inherente a estas “fábricas de IA” no es un defecto, sino una característica definitoria. La infraestructura de IA se está diferenciando rápidamente de todo lo que la precedió, y la falta de una reconsideración de la conectividad amenaza con limitar la escalabilidad. Un diseño de red deficiente puede paralizar todo el sistema, mientras que una implementación exitosa desbloquea un rendimiento extraordinario. Este cambio de enfoque implica un aumento significativo en el tamaño y el peso del hardware. Los chips, que antes se diseñaban para ser delgados y ligeros, ahora incorporan componentes masivos, como disipadores de calor líquidos, barras de conexión personalizadas y espinas de cobre de varios cientos de kilogramos, reflejando la demanda de una infraestructura industrial a gran escala.
Un ejemplo notable de esta evolución es la tecnología NVLink de NVIDIA, cuya espina dorsal está construida con más de 5.000 cables coaxiales, meticulosamente enrollados y enrutados. Esta infraestructura es capaz de transferir más datos por segundo que toda la internet, alcanzando una velocidad de 130 TB/s de ancho de banda GPU a GPU, totalmente interconectada. Este avance no solo representa una mejora en la velocidad, sino que sienta las bases para una nueva era de computación. El entrenamiento de los modelos de lenguaje grandes (LLMs) modernos no se basa en el procesamiento cíclico en una sola máquina, sino en la coordinación del trabajo de miles de GPUs, que actúan como los caballos de batalla de la computación de IA. Este proceso se basa en la computación distribuida, dividiendo los cálculos masivos en nodos individuales, cada uno de los cuales maneja una porción de la carga de trabajo.
Sin embargo, la computación distribuida presenta desafíos únicos. Las porciones de cálculo, típicamente matrices numéricas masivas, deben fusionarse y actualizarse regularmente, un proceso que depende críticamente de la velocidad y la capacidad de respuesta de la red, es decir, de la latencia y el ancho de banda. Para la inferencia, el proceso de ejecutar modelos entrenados para generar respuestas o predicciones, los desafíos se invierten. Los sistemas de generación aumentada por recuperación, que combinan LLMs con búsquedas, exigen búsquedas y respuestas en tiempo real. En entornos de nube, la inferencia multi-inquilino requiere mantener el buen funcionamiento de las cargas de trabajo de diferentes clientes sin interferencias, lo que exige redes ultrarrápidas y de alto rendimiento con un estricto aislamiento entre usuarios. La Ethernet tradicional, diseñada para cargas de trabajo de un solo servidor, ya no es suficiente para satisfacer estas demandas.
Ante esta situación, tecnologías como InfiniBand, el estándar de oro para supercomputadoras y fábricas de IA, emergen como soluciones clave. NVIDIA Quantum InfiniBand, con su tecnología Scalable Hierarchical Aggregation and Reduction Protocol (SHARP), duplica el ancho de banda de datos para las reducciones, mientras que su enrutamiento adaptativo y control de congestión basado en telemetría garantizan un rendimiento determinista y aísla el ruido de la red. Para aquellos que ya han invertido fuertemente en infraestructura Ethernet, NVIDIA Spectrum-X ofrece una alternativa viable, reimaginando Ethernet para la IA con características como redes sin pérdidas, enrutamiento adaptativo y aislamiento de rendimiento. La estrategia de NVIDIA se centra en adaptar la red adecuada a cada nivel de la fábrica de IA, uniendo todo con software y silicio, marcando una nueva era en la infraestructura de computación.



