Abril 27, 2026
IANoticiasNVIDIA

NVIDIA lanza soporte Día 0 para DeepSeek V4 en Blackwell: 3.500 tokens por segundo en modelos de 1,6 billones de parámetros

Con el lanzamiento de DeepSeek V4, el ecosistema de IA open-source da un salto significativo en eficiencia computacional, y NVIDIA ya tiene todo listo: day-0 support completo en sus GPUs Blackwell para los nuevos modelos, incluyendo el gigantesco DeepSeek-V4-Pro con 1,6 billones de parámetros.

DeepSeek V4: menos recursos, más escala

DeepSeek V4 introduce optimizaciones importantes frente a generaciones anteriores: el modelo utiliza solo el 27% de los FLOPs de inferencia en una sola pasada y apenas el 10% de la caché KV al ejecutar una ventana de contexto de un millón de tokens. Se presentaron dos variantes: DeepSeek-V4-Pro, con 1,6T de parámetros totales y 49B activos, enfocado en razonamiento avanzado y agentes de contexto largo; y DeepSeek-V4-Flash, con 284B de parámetros totales y 13B activos, orientado a velocidad, chat y resumen. Ambos soportan hasta 384.000 tokens de salida vía la API oficial y se distribuyen bajo licencia MIT.

Esquema que muestra un bloque de transformador, detallando "Atención Híbrida" y sus componentes como CSA, DSA y HCA, con sus beneficios.

Blackwell Ultra: casi 3.500 tokens por segundo desde el primer día

Las cifras que muestra NVIDIA son preliminares, pero ya dan una idea de lo que viene: cerca de 3.500 tokens por segundo de throughput por GPU (GB300 / Blackwell Ultra) ejecutando DeepSeek-V4-Pro. Todo esto usando la integración con vLLM como recipe de day-0 y aprovechando el stack completo de Blackwell: NVFP4, Dynamo, kernels CUDA optimizados y técnicas avanzadas de paralelización. Según la compañía, habrá que esperar mejoras adicionales conforme se afinen las optimizaciones del co-design stack.

Gráfica mostrando el rendimiento del NVIDIA Blackwell Ultra DeepSeek-V4-Pro, con tasas de rendimiento en el eje Y y niveles de interactividad en el eje X.

Un punto técnico clave es la cuantización FP4 (MXFP4), que DeepSeek V4 aplica tanto en los pases de inferencia como en los rollouts, reduciendo el tráfico de memoria y la latencia de sampling. Todo apunta a que esta decisión de diseño también beneficiará a los chips Ascend 950PR y Ascend 950DT de Huawei, que incorporarán instrucciones MXFP4 en 2026, lo que haría a DeepSeek V4 compatible con el hardware doméstico chino.

NVIDIA como pieza del ecosistema abierto

Más allá del rendimiento bruto, NVIDIA destaca su papel como contribuidor activo al ecosistema open-source, con cientos de proyectos publicados bajo licencias abiertas. La disponibilidad de NIM microservices y workflows de fine-tuning para modelos como DeepSeek V4 refuerza ese posicionamiento. Habrá que ver si los números definitivos, una vez concluidas las optimizaciones pendientes, confirman a Blackwell como la plataforma de referencia para modelos de esta escala.

Fuente: WCCFTech