Rendimiento IA 3 veces mayor en GPU RTX de NVIDIA con nuevo driver

La herramienta que se presentó ayer por parte de los ecologistas no tenía
mucha sustancia en realidad, al menos, viendo sus notas de lanzamiento.
Además de tres correcciones específicas de errores, dicho software
555.85 WHQL no era gran cosa. Sin embargo, aparte de dicho
documento, NVIDIA dejó caer lo verdaderamente importante
del mismo: una mejora de rendimiento de hasta 3 veces en IA
para sus RTX con este nuevo software.
¿En qué áreas
exactamente mejora?

Desde Microsoft Build, NVIDIA informa sobre
nuevas integraciones y optimizaciones de rendimiento para la IA y
en Windows dentro de sus GeForce RTX, así como estaciones de
trabajo con RTX. Lo interesante es que en dicho software no encontraremos
ninguna mención, pero sí en su blog, algo escondido la
verdad, y sorprende, porque las mejoras son realmente interesantes
para todos los que estén trabajando con IA en estos momentos.

NVIDIA logra incrementar el desempeño de sus GPU RTX en hasta 3
veces para algunos LLM de IA con su nueva aplicación

NVIDIA-rendimiento-IA-RTX-driver-inferencia

Son tres en particular muy conocidos por todos: ONNX
Runtime (ORT), DirectML y WebNN.
Todo giró en la
actualización de la extensión de IA generativa para ORT que lanzó
Microsoft, la cual es una biblioteca multiplataforma para
inferencia.

Al ser multiplataforma acepta DirectML y hardware variado, por lo que unir ORT y
esta API es un camino más sencillo para todo desarrollador de IA
dentro de Windows, y seguramente estemos hablando del inicio de un
sendero que, con ayuda de NVIDIA, sea clave en el futuro más
próximo. Tanto es así y sabiendo de antemano el empuje que tienen
los ecologistas en cuanto a software para IA (números 1 del mundo y por
mucho) este nuevo software logra unas optimizaciones basadas
en dicha extensión de IA para ORT
que engloba no solamente
estos Game Ready, sino que NVIDIA afirma que está
también implementada en Studio y RTX
Enterprise.

Por lo tanto, todas las GPU se benefician de estas
mejoras, y por ello, NVIDIA logra 3 veces más rendimiento en
IA con cualquier RTX si comparamos estos 555.85
WHQL
frente a los software anteriores.

Phi-3, Llama 3, Gemma y Mistral muestran las mejoras

NVIDIA-RTX-4090-vs-RTX-5080NVIDIA-RTX-4090-vs-RTX-5080

Son tres técnicas de optimización muy usadas, y bajo una RTX
4090 los ecologistas han mostrado el cambio en FP16 e
INT4
desde los software R550 hasta estos R555. Como viene
siendo habitual, la mayor mejora está en enteros, ya que
ONNX y DirectML es lo que más premian. Aunque
NVIDIA afirma que se logra hasta 3 veces más rendimiento, si
miramos bien la comparativa, realmente no vemos ningún valor que
llegue siquiera a duplicarse, pero puede que se refieran a un
rendimiento ganado gracias a las nuevas capacidades que se incluyen en
este nuevo software y que están por explotar:

  • Soporte para el metacomando DQ-GEMM para
    manejar la cuantificación de solo peso INT4 para
    LLM.
  • Nuevos métodos de normalización RMSNorm para
    los modelos Llama 2, Llama 3, Mistral y
    Phi-3
    .
  • Mecanismos de atención grupal, multiconsulta y ventana
    corrediza de atención para apoyo a Mistral.
  • Actualizaciones de KV in situ para mejorar el
    rendimiento de la atención.
  • Soporte para GEMM de tensores no múltiplos de
    8
    para mejorar el rendimiento de la fase de contexto.

Por último, en su blog, NVIDIA menciona a WebNN con DirectML
y ORT Web
, biblioteca de Javascript para LLM en
navegadores. Con ello, aseguran que la aceleración de modelos como
Stable Diffusion, SD Turbo y Whisper es de al
menos 4 veces más rápida frente a WebGPU, estando
ya disponible en estos software.

En definitiva, el aumento de rendimiento es significativo si
consideramos que «solo» son unos software, así que, si en algún
punto se puede lograr hasta 3 veces o 4 veces más rendimiento, es
sin duda un cambio dramático para las GPU RTX que hay que
considerar, y que pone tierra de por medio con sus máximos rivales
en este campo.

En Grupo MET podemos ayudarte a implementar esta y muchas mas herramienta para optimizar tu trabajo. ¡Contáctanos para saber más!

Contactanos