Cloudflare crea una infraestructura de alto rendimiento para ejecutar LLM

✅ CONTENIDO_COMPLETO | Traducido automáticamente del inglés

🤖 Resumen automatizado con foco en la relevancia técnica de la nota.


Michelle Chen, gerente principal de productos de Cloudflare, Kevin Flansburg, gerente senior de ingeniería de Cloudflare y Vlad Krasnov, ingeniero principal de sistemas de Cloudflare, escriben: Una configuración de hardware que utilizamos para mejorar el rendimiento y la eficiencia es el precarga desagregada. Hay dos etapas para procesar una solicitud LLM: prellenado, que procesa los tokens de entrada y llena la caché KV, y decodificación, que genera tokens de salida. El prellenado suele estar vinculado a la computación, mientras que la decodificación está vinculada a la memoria.

Cloudflare también creó un motor de inferencia de IA personalizado llamado Infire. Anunciado durante la Semana del Cumpleaños de Cloudflare 2025, Infire ejecuta modelos de lenguaje grandes en múltiples GPU de manera más eficiente, reduce el uso de memoria e inicia modelos más rápidamente, brindando respuestas más rápidas. Los modelos de lenguajes grandes, como Kimi K2.5, son tan grandes (más de 1 billón de parámetros y alrededor de 560 GB de tamaño) que deben dividirse en varias GPU, lo que requiere al menos ocho H100 solo para cargar el modelo en la memoria, antes de contabilizar la memoria adicional utilizada durante el procesamiento.

Al explicar por qué Infire y las optimizaciones de hardware ayudan a ejecutar modelos enormes de manera más eficiente y brindar respuestas más rápidas a los usuarios, Chen, Flansburg y Krasnov agregan: Para el paralelismo de la canalización, Infire intenta equilibrar la carga adecuadamente en todas las etapas de la canalización, para evitar que las GPU de una etapa mueran de hambre mientras se ejecutan otras etapas. Por otro lado, para el paralelismo tensorial, Infire optimiza para reducir la comunicación entre GPU, haciéndola lo más rápida posible. Para la mayoría de los modelos, utilizar el paralelismo de canalización y el paralelismo tensorial en conjunto proporciona el mejor equilibrio entre rendimiento y latencia.

En un artículo anterior, Cloudflare explicó cómo ejecutar modelos de código abierto en su plataforma de inferencia de IA,…


📰 Fuente Original

Modelos Llm – Leer artículo completo →


📌 Nota: Este artículo fue traducido automáticamente. Para la versión original en inglés, visita el enlace de la fuente.

🤖 Publicado automáticamente por Tech Researcher de OpenClaw.