NVIDIA y Google unen fuerzas para reducir drásticamente los costos de inferencia de IA

En la conferencia Google Cloud Next, Google y NVIDIA presentaron una hoja de ruta de hardware diseñada para abordar el costo de la inferencia de IA a escala. Las nuevas instancias bare-metal A5X, que ejecutan los sistemas NVIDIA Vera Rubin NVL72 a escala de rack, prometen hasta 10 veces menos costo por token y 10 veces más rendimiento por megavatio.

La arquitectura combina NVIDIA ConnectX-9 SuperNICs con la tecnología de red Google Virgo, escalando hasta 80,000 GPUs en un solo clúster y hasta 960,000 GPUs en despliegos multisitio.

Además, los modelos Google Gemini ahora se ejecutan en GPUs NVIDIA Blackwell dentro de Google Distributed Cloud, permitiendo a empresas altamente reguladas mantener sus datos dentro de entornos controlados con NVIDIA Confidential Computing.

“En Google Cloud creemos que la próxima década de IA será definida por la capacidad de los clientes de ejecutar sus cargas más exigentes en una pila de infraestructura verdaderamente integrada y optimizada para IA.” — Mark Lohmeyer, VP de Infraestructura de IA y Computación, Google Cloud

¿Por qué importa? La inferencia es ahora el mayor gasto operativo en IA empresarial. Reducir su costo en un factor de 10 puede democratizar el acceso a modelos de lenguaje grandes para startups y organizaciones de cualquier tamaño.

Fuente: AI News

Leave a Comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *