
NVIDIA lanza soporte Día 0 para DeepSeek V4 en Blackwell: 3.500 tokens por segundo en modelos de 1,6 billones de parámetros
Con el lanzamiento de DeepSeek V4, el ecosistema de IA open-source da un salto significativo en eficiencia computacional, y NVIDIA ya tiene todo listo: day-0 support completo en sus GPUs Blackwell para los nuevos modelos, incluyendo el gigantesco DeepSeek-V4-Pro con 1,6 billones de parámetros.
DeepSeek V4: menos recursos, más escala
DeepSeek V4 introduce optimizaciones importantes frente a generaciones anteriores: el modelo utiliza solo el 27% de los FLOPs de inferencia en una sola pasada y apenas el 10% de la caché KV al ejecutar una ventana de contexto de un millón de tokens. Se presentaron dos variantes: DeepSeek-V4-Pro, con 1,6T de parámetros totales y 49B activos, enfocado en razonamiento avanzado y agentes de contexto largo; y DeepSeek-V4-Flash, con 284B de parámetros totales y 13B activos, orientado a velocidad, chat y resumen. Ambos soportan hasta 384.000 tokens de salida vía la API oficial y se distribuyen bajo licencia MIT.
Blackwell Ultra: casi 3.500 tokens por segundo desde el primer día
Las cifras que muestra NVIDIA son preliminares, pero ya dan una idea de lo que viene: cerca de 3.500 tokens por segundo de throughput por GPU (GB300 / Blackwell Ultra) ejecutando DeepSeek-V4-Pro. Todo esto usando la integración con vLLM como recipe de day-0 y aprovechando el stack completo de Blackwell: NVFP4, Dynamo, kernels CUDA optimizados y técnicas avanzadas de paralelización. Según la compañía, habrá que esperar mejoras adicionales conforme se afinen las optimizaciones del co-design stack.
Un punto técnico clave es la cuantización FP4 (MXFP4), que DeepSeek V4 aplica tanto en los pases de inferencia como en los rollouts, reduciendo el tráfico de memoria y la latencia de sampling. Todo apunta a que esta decisión de diseño también beneficiará a los chips Ascend 950PR y Ascend 950DT de Huawei, que incorporarán instrucciones MXFP4 en 2026, lo que haría a DeepSeek V4 compatible con el hardware doméstico chino.
NVIDIA como pieza del ecosistema abierto
Más allá del rendimiento bruto, NVIDIA destaca su papel como contribuidor activo al ecosistema open-source, con cientos de proyectos publicados bajo licencias abiertas. La disponibilidad de NIM microservices y workflows de fine-tuning para modelos como DeepSeek V4 refuerza ese posicionamiento. Habrá que ver si los números definitivos, una vez concluidas las optimizaciones pendientes, confirman a Blackwell como la plataforma de referencia para modelos de esta escala.
Fuente: WCCFTech


