Icono de DeepSeek sobre un fondo oscuro, con el contorno de un pez en color azul y el texto "DeepSeek" en blanco.

NVIDIA lanza soporte Día 0 para DeepSeek V4 en Blackwell: 3.500 tokens por segundo en modelos de 1,6 billones de parámetros

abril 26, 2026 XanxoGaming

Con el lanzamiento de DeepSeek V4, el ecosistema de IA open-source da un salto significativo en eficiencia computacional, y NVIDIA ya tiene todo listo: day-0 support completo en sus GPUs Blackwell para los nuevos modelos, incluyendo el gigantesco DeepSeek-V4-Pro con 1,6 billones de parámetros.

DeepSeek V4: menos recursos, más escala

DeepSeek V4 introduce optimizaciones importantes frente a generaciones anteriores: el modelo utiliza solo el 27% de los FLOPs de inferencia en una sola pasada y apenas el 10% de la caché KV al ejecutar una ventana de contexto de un millón de tokens. Se presentaron dos variantes: DeepSeek-V4-Pro, con 1,6T de parámetros totales y 49B activos, enfocado en razonamiento avanzado y agentes de contexto largo; y DeepSeek-V4-Flash, con 284B de parámetros totales y 13B activos, orientado a velocidad, chat y resumen. Ambos soportan hasta 384.000 tokens de salida vía la API oficial y se distribuyen bajo licencia MIT.

Blackwell Ultra: casi 3.500 tokens por segundo desde el primer día

Las cifras que muestra NVIDIA son preliminares, pero ya dan una idea de lo que viene: cerca de 3.500 tokens por segundo de throughput por GPU (GB300 / Blackwell Ultra) ejecutando DeepSeek-V4-Pro. Todo esto usando la integración con vLLM como recipe de day-0 y aprovechando el stack completo de Blackwell: NVFP4, Dynamo, kernels CUDA optimizados y técnicas avanzadas de paralelización. Según la compañía, habrá que esperar mejoras adicionales conforme se afinen las optimizaciones del co-design stack.

Un punto técnico clave es la cuantización FP4 (MXFP4), que DeepSeek V4 aplica tanto en los pases de inferencia como en los rollouts, reduciendo el tráfico de memoria y la latencia de sampling. Todo apunta a que esta decisión de diseño también beneficiará a los chips Ascend 950PR y Ascend 950DT de Huawei, que incorporarán instrucciones MXFP4 en 2026, lo que haría a DeepSeek V4 compatible con el hardware doméstico chino.

NVIDIA como pieza del ecosistema abierto

Más allá del rendimiento bruto, NVIDIA destaca su papel como contribuidor activo al ecosistema open-source, con cientos de proyectos publicados bajo licencias abiertas. La disponibilidad de NIM microservices y workflows de fine-tuning para modelos como DeepSeek V4 refuerza ese posicionamiento. Habrá que ver si los números definitivos, una vez concluidas las optimizaciones pendientes, confirman a Blackwell como la plataforma de referencia para modelos de esta escala.

Fuente: WCCFTech

DeepSeek V4: menos recursos, más escala

Blackwell Ultra: casi 3.500 tokens por segundo desde el primer día

NVIDIA como pieza del ecosistema abierto

You May Also Like

Fortnite regala RTX 5080 cada semana en el nuevo sistema de rivalidades

Kaspersky alerta sobre campaña de malware que usa Wallpaper Engine en Steam para infectar Windows

Xiaomi presenta la Serie Xiaomi 15T combinando óptica excepcional con tecnología de vanguardia y diseño insignia