RTX 4090, 50-70% más rápida en rasterización y 100% o más en DLSS versus la 3090 Ti – NVIDIA Día del Editor – Parte I
RTX 4090, 50-70% más rápida en rasterización y 100% o más en DLSS versus la 3090 Ti – NVIDIA Día del Editor – Parte I
Este artículo va ser bastante extenso (y será actualizado durante el transcurso del día) y cubrirá la mayoría de lo que NVIDIA presentó ante la prensa en el día del editor (Editor’s Day) que se llevó a cabo en GTC 2022 el 21 de setiembre del 2022.
La parte más interesante para la mayoría de usuarios, es el performance que la nueva tarjeta tope de gama, ofrecerá, la NVIDIA GeForce RTX 4090 que desplazará a la tarjeta bandera de AMPERE, la RTX 3090 Ti.
Este artículo incluye información de la nueva arquitectura y las diferencias entre los tres primeros productos a lanzarse usando ADA Lovelace, usando el nuevo proceso de fabricación de TSMC 4N que eligió para sus tarjetas de video:
-NVIDIA GeForce RTX 4090
-NVIDIA GeForce RTX 4080 16GB
-NVIDIA GeForce RTX 4080 12GB
Queremos agregar que es importante esperar reseñas especializadas para confirmar la información que fue divulgada durante el día del editor por parte de NVIDIA y sus próximas tarjetas de video a lanzarse.
ADA Lovelace, la nueva arquitectura de NVIDIA para tarjetas de video GeForce RTX 40
ADA Lovelace es la nueva arquitectura de NVIDA y un nuevo avance en los tres núcleos que están presentes en tarjetas de video NVIDIA GeForce RTX:
-Shader Core (núcleo tradicional usado para rasterización)
-RT Core (núcleo especializado para acelerar trazados de rayos, Ray Tracing)
-Tensor Core (núcleo especializado para inferencia de inteligencia artificial, como DLSS)
La complejidad de Ray Tracing ha aumentado durante los años y el primer título que uso elementos de trazados de rayo (Battlefield V) usa 39 operaciones por pixel. A comparación, el nuevo modo que se lanzará próximamente en Cyberpunk 2077 llamado Overdrive Mode usa 635 operaciones de trazado de rayo por pixel.
Estos números son en promedio.
Cyberpunk 2077 Overdrive Mode será el primer juego en usar toda la biblioteca (SDK) disponible de trazado de rayos de NVIDIA. La versión disponible para el usuario final actualmente cuenta con modo Ultra y Psycho, que usan un modo híbrido de renderización, con técnica de rasterización tradicional con elementos de trazados de rayos.
El nuevo modo utiliza NVIDIA RTX Direct Illumination (RDXDI) y NVIDIA Real–Time Denoiser (NRD) el cual se encarga en renderear todos los efectos presentes en el juego, sin necesidad de programar individualmente por el desarrollador.
Para tener una idea, el nuevo modo Overdrive demanda dos veces la cantidad de rayos por pixel a comparación del modo Psycho actualmente disponible al público.
La relevancia de describir el nuevo modo de Cyberpunk 2077 es la demostración de los nuevos cambios que Ada Lovelace trae al usuario final:
-Aumento de shaders/núcleos CUDA y ejecución.
-Mejoras en Ray Tracing (nueva generación de RT Cores)
-DLSS 3.0 (nueva generación de Tensor Cores).
NVIDIA mostró lo que parece ser el full chip ADA Lovelace AD102 para mostrar los avances de su arquitectura (una probable RTX 4090 Ti o el regreso de una TITAN RTX) con hasta 144 SMs (streaming multiprocessors) a comparación de la RTX 3090 Ti que traía 84 SMs. Esto ha aumentado la cantidad de núcleos CUDA de 10752 a 18432, como también el aumento de núcleos RT y Tensor.
Fuera de los avances de arquitectura, la posibilidad de aumentar transistores viene gracias al nuevo proceso de fabricación de TSMC 4N lo cual aumenta la cantidad de billones de transistores, de 28 (RTX 3090 Ti) a 76 (full chip ADA Lovelace).
El nuevo proceso de fabricación ha permitido a NVIDIA aumentar los relojes de velocidad, de 1.9 GHz a 2.5 GHz manteniendo el consumo de 450W del TGP (Total Graphics Power).
Innovaciones en RTX (nueva generación de núcleos RT y Tensor)
Los cambios en cuanto a RTX (la suma de tecnologías relacionados con trazado de rayo e inferencia de inteligencia artificial) vienen en nuevas tecnologías agregadas a las tarjetas de video GeForce RTX 40 basados en ADA Lovelace.
-Shader Execution Reordering
-Displaced Micro-Meshes
-Opacity Micro-Masks
-FP8 Inferencing
-Optical Flow Accelerator
-DLSS 3.0
Shader Execution Reordering arregla ineficiencias que se presentan en el GPU pipeline al momento de renderizar juegos con trazados de rayos (problema que no se presenta en juegos con sólo rasterización) mejorando de un 20 a 40% de rendimiento según pruebas de NVIDIA a comparación de no optar con esta tecnología.
En AMPERE (RTX serie 30), la parte de geometría en trazado de rayos (BVH) tenía que tener la información completa (cada tríangulo) lo que consumía bastantes recursos para cada escena. Así que una técnica de rasterización ha sido añadida al pipeline de la GPU (para ser específico, en el núcleo RT de ADA Lovelace) llamada Displaced Micro-Meshes.
En la segunda generación de núcleos RT, es necesario que la objeto tenga toda la información compleja de triángulo para el objeto/superficie, ya que no sabe como interpretar esa información de manera sencilla, creando una sobre carga.
Con la tercera generación de núcleos RT, el núcleo RT sabe cómo interpretar la información de trazado de rayos con objetos geométricos con información simplificada, aumentando la eficiencia y eliminando la previa sobrecarga.
En pocas palabras, ocupa requiere menos información, por lo tanto, ocupa menos espacio y el resultado final de interpretación de un objeto usando trazado de rayos es más veloz, dando un framerate más alto.
Innovaciones en ADA RTX
Esta tecnología está disponible no sólo para trazado de rayos ya que también se aplica a juegos con full rasterización, así que dependerá del desarrollador en implementar, pero estará disponible para desarrolladores en diferentes programas.
Opacity Micro Maps simplifica la comunicación entre el SM y el RT Cores ya que la nueva generación sabe cómo interpretar máscaras alpha usando trazados de rayos, simplificando la generación de una escena en tiempo real sin que tenga que regresar al SM, aumentando rendimiento.
Con esta nueva opción, desarrolladores tendrán un tiempo más fácil en hacer escenas complejas, porque anteriormente la falta de interpretación de rayos con texturas, era un desafío e impacto en términos de performance para tarjetas de video. Escenas con partículas de humo de beneficiarán bastante de esta nueva tecnología.
Cuarta generación de núcleos RT (Optical Flow Accelerator y DLSS 3)
Con la cuarta generación de núcleos Tensor, se usa el nuevo motor de transformación de punto flotante de 8 bits (FP8 Transformer Engine) y por lo tanto, inferencia de FP8, adaptando el nuevo formato FP8 que será el estándar en la industria relacionado a ML (machine learning) e IA.
El resultado final es DLSS 3.0, una mejora de framerate que NVIDIA promete ser substancial a comparación de DLSS 2.0, ya que agrega nuevos elementos para mejorar performance.
Uno de los componentes clave es el AI Frame Generation (generación de frame completo por inteligencia artificial, aparte de super escalado por IA). Con ADA Lovelace, viene la nueva unidad de hardware llamada Optical Flow Accelerator, que ayuda acelerar todo el proceso.
El nombre oficial por parte de NVIDIA y la nueva opción dentro de DLSS 3.0 para mejorar el framerate se llama DLSS Frame Generation.
Con DLSS Frame Generation, se alterna frames rendereados tradicionalmente con frame totalmente generados. Los beneficios de usar esta tecnología (que viene con desafíos) es mayor suavidad en animaciones, como también puede sobrepasar cuello de botella en casos donde este sea el problema. La introducción de generación de frames puede traer varios problemas, ya que hay cambios constantes entre frame y frame.
La solución para estos problemas es la unidad previamente de hardware previamente mencionada, el Optical Flow Accelerator que viene en núcleos Tensor el cual busca y analiza los cambios entre frame y frame (que pixeles son diferentes entre dos frames).
Esto en combinación de información de vectores en movimiento del motor de juego es retroalimentada al núcleo IA para generar el frame alterno 100% generado por los núcleos Tensor (DLSS Frame Generation).
La combinación de todos esto, DLSS 3.0 también permite mejorar performance en escenarios donde el limitador es el procesador y NVIDIA lo demostró en Microsoft Flight Simulator, usando DLSS 3.0 modo performance con DLSS Frame Generation.
Resumen e información extra de DLSS 3.0
La nueva opción de DLSS Frame Generation (el cual aumenta más FPS por encima del super escalado tradicional) sólo estará disponible en las nuevas tarjetas de video NVIDIA GeForce RTX 40. El diagrama enseña que opciones tendrá cada generación anterior de tarjetas de video lanzadas por NVIDIA. La empresa prometió que las mejoras de reescalado por IA seguirán mejorando y tarjetas de video de anteriores generaciones se beneficiarán.
Soporte a nivel de hardware de las opciones dentro de DLSS 3.0
Como información adicional sobre el soporte de DLSS 3.0 en tarjetas RTX anteriores (para ser específico DLSS Frame Generation) el representante de NVIDIA no negó que podría implementarse en un futuro (como tampoco afirmó) aunque si subrayó que habría un desafío grande debido a la falta de hardware (Optical Flow Accelerator). En este supuesto caso, las mejoras no estarían a la par con tarjetas de video basadas en ADA Lovelace.
También, NVIDIA Reflex va ser un requisito necesario para reducir el tiempo total de latencia del sistema, que tendrá que ser implementado por el desarrollador del juego.
Para desarrolladores, la migración de DLSS 2.0 a 3.0 debería ser relativamente fácil, con tal que agreguen Reflex Markers a su juego (en el caso que no lo tengan).
Más de 35 juegos anunciados que tendrán adopción de DLSS 3
Finalmente, el performance de juegos usando DLSS 3 de juegos actuales en la siguiente gráfica. El beneficio de DLSS 3 será mayor en aquellos juegos con más efectos de trazado de rayo (como el próximo Cyberpunk 2077 Overdrive mode) debido a DLSS Frame Generation.
Performance de la NVIDIA GeForce RTX 4090, 4080 de 16GB y 12GB versus la RTX 3090 Ti
NVIDIA ofreció una mirada rápida de lo que ofrecerá las nuevas tarjetas de video basada en la nueva arquitectura ADA Lovelace. Uno de los cambios más radicales que ofrece la tarjeta de video son nuevas tecnologías que se apalancan en cambios de hardware con los RT Cores y Tensor Cores, ambos usados en Ray Tracing y DLSS (super escalado usando inteligencia artificial).
Tengo que indicarles que siempre tomen los números de performance por partes de las empresas con mucho recelo y esperen a las reseñas oficiales de medios de prensa para validar las afirmaciones, pero empecemos.
Según la video conferencia, en juegos como Assassin’s Creed: Valhalla y The Division 2, juegos que no tienen DLSS (sólo rasterización) NVIDIA midió que la mejora de performance de la GeForce RTX 4090 es de un 50 a 70% más a comparación de la RTX 3090 Ti.
Cabe notar que, durante la presentación, NVIDIA enfatizó que la RTX 4080 de 12GB (suponemos en rasterización y algunos escenarios más) será de similar performance a la GeForce RTX 3090 Ti). La versión de 16GB ofrecerá más performance (hablaremos de eso después) y en el tope está la RTX 4090, el cual estará en una escala mayor por encima de todas.
Warhammer 40,000: Darktide fue el primero título en mención que se comparó con DLSS 3.0, que será una de las grandes mejoras con ADA Lovelace. La RTX 4090 ofrece 100% más rendimiento que la GeForce RTX 3090 Ti (que usa DLSS 2.0) en este título en particular, que es uno de los cambios generacionales que ofrece la nueva arquitectura de NVIDIA, ADA Lovelace.
Otro título interesante y en el cual se demostró fue Microsoft Flight Simulator. Es difícil obtener FPS altos debido que el juego está limitado por la CPU, pero con los nuevos avances de DLSS 3.0, el cuello de botella en este tipo de títulos desaparece (si no del todo, parcialmente).
La GeForce RTX 4080 de 12GB, 16GB y RTX 4090 ofrece hasta 2 veces el rendimiento en FPS usando DLSS 3.0 a comparación de la RTX 3090 Ti.
Sobre creación de contenido
Una de las cosas más relevantes ayer en la presentación, son las mejoras de performance y nuevas herramientas que se vienen en un futuro para creadores de contenido (como también actualizaciones). Los que usan Arnold en Maya obtendrán un rendimiento de mayor con la RTX 4080 de 12GB a comparación de la RTX 3090 Ti y hasta dos veces con la RTX 4090.
Lo mismo ocurre con V-Ray y Octane Renderer, viendo mejoras de hasta 100% más, aunque la empresa no indico bajo que tarea (asumimos en menores tiempos de render).
Creación de contenido será uno de los fuertes de la nueva seria NVIDIA GeForce RTX 40, algo que hablaremos más a fondo en la segunda parte en conjunto de DLSS 3.0.
Juegos del futuro – Más Ray Tracing y apalancamiento de DLSS 3.0
Una de las cosas que se mostró durante el día, es el énfasis de NVIDIA en empujar a los desarrolladores de juegos en perseguir nuevas alturas usando Ray Tracing en tiempo real en video juegos. Con la introducción de Ray Tracing en la seria GeForce RTX 20, hubo varios que dijeron que no servía, pero fue el mismo empuje por la empresa y traer mayor fidelidad a los usuarios, que ha empujado a los desarrolladores de juegos en adoptar este nuevo estándar en juegos AAA.
Si bien la crítica original y válida hacia la empresa, en mostrar opciones (Ray Tracing) con Turing en cosas que aun no estaban disponibles al público, esta ha aprendido de sus errores.
En el futuro cercano y no tan cercano, la nueva valla aumenta y vendrán juegos con elementos más pesados en Ray Tracing. NVIDIA llamó a esto juegos de nueva generación usando Ray Tracing y DLSS 3.0.
Para demostrar esto, se usaron dos demos:
-Portal with RTX (basado en el popular juego de Valve, disponible próximamente como DLC)
-Racer RTX (demo con las nuevas opciones que desarrolladores de juegos pueden usar en sus producciones).
Todo esto es posible a las mejoras que vienen con la arquitectura Ada Lovelace y sus cambios en el performance que ofrece en Ray Tracing apalancado con DLSS 3.0 a comparación de generaciones anteriores.
El primer título que está bastante avanzado es el nuevo modo de Cyberpunk 2077, denominado Cyberpunk 2077 RT Overdrive. A comparación de lo que está disponible actualmente, esta actualización ofrece más efectos en Ray Tracing.
Usando DLSS 3.0 (DLSS Performance) hay una mejora de hasta 4 veces a comparación de la GeForce RTX 3090 Ti (también usando DLSS performance) en el nuevo modo de Cyberpunk.
Precios y lanzamiento de la NVIDIA GeForce RTX 40 series
Para reiterar nuevamente de la información que ya ha sido pública desde la presentación del CEO de NVIDIA, Jensen Huang, tenemos más información sobre las nuevas tarjetas de video ADA Lovelace, RTX serie 4000.
Founders Edition solo en RTX 4090 y RTX 4080 de 16GB
Esta vez, NVIDIA venderá directamente al usuario final, las tarjetas de video NVIDIA GeForce RTX 4090 24GB y GeForce RTX 4080 de 16GB en su presentación (Founders Edition). La GeForce RTX 4080 de 12GB sólo se ofrecerá mediante partners autorizados, algo que los AIBs tomen con bastante satisfacción en los Estados Unidos. Las Founders Edition competían directamente con ellos, al estar a un menor precio.
Reitero, la exclusividad de las Founders Edition sólo estarán presente en estos dos modelos (RTX 4090 24GB y 4080 16GB).
El precio de la NVIDIA GeForce RTX 4090 24GB estará desde los 1599 US$ y se lanzará el 12 de octubre. La GeForce RTX 4080 16GB estará disponible también en su presentación de Founders Edition y tendrá en un precio desde los 1199 US$ y finalmente, la GeForce RTX 4080 12GB tendrá un precio desde los 899 US$ exclusivamente en tarjetas de video de los partners (AIBs).
Todos los precios mencionados son MSRP US$ en los Estados Unidos.
Las dos versiones de tarjeta de video GeForce RTX 4080 estarán disponibles desde noviembre.
Bonus: Sesión de preguntas y respuestas con el CEO de NVIDIA, Jensen Huang
Hubo una sesión de preguntas y respuestas (Q&A) con el CEO de NVIDIA, Jensen Huang relacionado a GTC 2022 (todos los anuncios de gaming, IA, etc). No hicimos consultas (primera vez en un Q&A directamente con el CEO) pero el editor ejecutivo de PCWorld.com, Gordon Mah Ung hizo una pregunta relevante a los precios de las tarjetas de video GeForce RTX serie 40 y la retroalimentación del público (que las “sienten” más caras).
Jensen Huang, CEO de NVIDIA
La respuesta/opinión del CEO de NVIDIA en concreto, fueron dos:
-El costo de obleas han subido (esto ha sido documentado anteriormente en la industria).
-Que si uno compara el performance de lo que ofrece la RTX 4080 12GB escalado a un precio de 699 US$ (lo que fue el MSRP de la RTX 3080) uno va encontrar un mejor valor/performance en la nueva RTX 4080 (12GB).
Espero no haber malentendido su respuesta (o acordarme de forma incorrecta) pero no tenemos la repetición para corroborar otra vez.
Igual, hay varios puntos que la segunda parte de la respuesta puede ser tomada, ya que actualmente hay varios usos para tarjetas de video gamer.
-Full rasterización.
-Ray Tracing y DLSS.
-Creación de contenido (ligero y a nivel profesional demandante).
Esto será finalmente analizado una vez que las reseñas de las nuevas tarjetas de video salgan de embargo y se haga un análisis de costo por frame y rendimiento en los diferentes usos que puede hacer un usuario.
El artículo tendrá una actualización durante el día y estaremos hablando más a fondo de DLSS 3.0 y creación de contenido en la segunda parte. Que ofrece DLSS 3.0 y porque está limitado a sólo ADA Lovelace y otros detalles detrás de este controvertido tema.
Para más noticias de PC, visita el siguiente enlace.