Google presenta Gemini 1.5 Pro, su modelo con capacidades de comprensión mejoradas

Google ha compartido un comunicado firmado de forma conjunta por Sundar Pichai, CEO de Alphabet y Google, y Demiss Hassabis, CEO de Google Deep Mind, en el que ha presentado el nuevo modelo Gemini 1.5.

Este anuncio se produce tan solo una semana después de que el gigante tecnológico lanzase Gemini Advanced y rebautizase a Bard como Gemini. Queda claro que Google no solo está realizando una gran apuesta por sus modelos de IA, sino que está avanzando a grandes pasos en una carrera en la que mantenerse a la vanguardia es clave. De acuerdo con Sundar Pichai, «Gemini 1.5. muestra mejoras espectaculares en varias dimensiones y 1.5 Pro logra una calidad comparable a la de 1.0 Ultra, mientras utiliza menos computación».

Así mismo, esta nueva generación introduce un avance notable en la comprensión de contextos largos. Este incremento en la capacidad de procesamiento abre la puerta a capacidades completamente nuevas, potenciando el desarrollo de modelos y aplicaciones mucho más útiles.

Gemini 1.5 Pro: eficiencia y rendimiento mejorados

Demis Hassabis destaca que «Gemini 1.5 ofrece un rendimiento dramáticamente mejorado. Representa un cambio radical en nuestro enfoque, basándose en innovaciones de investigación e ingeniería en casi todas las partes de nuestra infraestructura y desarrollo de modelos básicos. Esto incluye hacer que Gemini 1.5 sea más eficiente para capacitar y brindar servicios, con una nueva arquitectura de Mezcla de Expertos (MoE)».

La arquitectura altamente eficiente de Gemini 1.5, basada en la investigación de Google sobre la arquitectura Transformer y MoE, permite que el modelo aprenda tareas complejas más rápidamente y mantenga la calidad, siendo al mismo tiempo más eficiente en términos de entrenamiento y servicio. Estas eficiencias están ayudando a los equipos de Google a iterar, entrenar y entregar versiones más avanzadas de Gemini a un ritmo sin precedentes.

El primer modelo que lanzarán para efectuar las pruebas iniciales será el Gemini 1.5 Pro. Este es descrito como un modelo multimodal de tamaño medio, diseñado para escalar a través de una amplia gama de tareas y ofrecer un rendimiento similar al de 1.0 Ultra.

Mayores y mejores capacidades de comprensión de Gemini 1.5 Pro

El Gemini 1.5 Pro permitirá una ventana de contexto estándar de 128.000 tokens, pero se ha anunciado que un grupo limitado de desarrolladores y clientes empresariales podrán experimentar con una ventana de contexto de hasta 1 millón de tokens. «A medida que implementamos la ventana de contexto completa de 1 millón de tokens, estamos trabajando activamente en optimizaciones para mejorar la latencia, reducir los requisitos computacionales y mejorar la experiencia del usuario», ha explicado Hassabis.

Imagen que compara las capacidades de la ventana de contexto de 1millón de tokens de Gemini 1.5 Pro con otros modelos anteriores

La capacidad de Gemini 1.5 Pro para procesar grandes cantidades de información en una sola instancia es enorme, y más si hablamos de la versión, por ahora de acceso limitado, que presenta ventanas de contexto de hasta 1 millón de tokens. Esta puede manejar desde una hora de vídeo, 11 horas de audio, bases de código con más de 30.000 líneas, hasta más de 700.000 palabras. Esta habilidad para razonar sobre enormes cantidades de información de distintas modalidades abre nuevas posibilidades para el análisis, clasificación y resumen de contenidos dentro de un prompt dado.

Así mismo, desde Google han explicado que esta IA podrá ejecutar razonamientos complejos sobre estas grandes cantidades de información: «1.5 Pro puede analizar, clasificar y resumir sin problemas grandes cantidades de contenido dentro de un mensaje determinado. Por ejemplo, cuando se le dan las transcripciones de 402 páginas de la misión del Apolo 11 a la luna, puede razonar sobre conversaciones, eventos y detalles que se encuentran en el documento».

Pruebas de seguridad exhaustivas para garantizar el buen funcionamiento

En línea con los Principios de IA de Google y sus políticas de seguridad, Gemini 1.5 ha pasado por extensas pruebas de ética y seguridad. Estas pruebas están integradas en los procesos de gobernanza, desarrollo de modelos y evaluaciones para mejorar continuamente los sistemas de IA de Google.

Antes del lanzamiento de 1.5 Pro, se han realizado evaluaciones exhaustivas en áreas como la seguridad del contenido y los daños representacionales, y se continuarán expandiendo estas pruebas para incluir las capacidades de contexto largo de 1.5 Pro.

Google continuará construyendo y experimentando con modelos Gemini

Google se compromete a «llevar cada nueva generación de modelos Gemini a miles de millones de personas, desarrolladores y empresas de todo el mundo de manera responsable». A partir de hoy, se ofrece una vista previa gratuita limitada de 1.5 Pro a desarrolladores y clientes empresariales a través de AI Studio y Vertex AI. Si eres desarrollador o desarrolladora y tienes interés por probar este modelo, puedes registrarte en este enlace.

En cuanto a los planes de Google a futuro, explican que cuando el modelo esté listo para un lanzamiento más amplio lo presentarán al público general con una ventana de contexto estándar de 128.000 tokens. Tras esto, lanzarán distintos planes de pago que comprendan desde el modelo de 128.000 tokens hasta el de 1 millón.

Foto: Google

 

Mantente informado de las noticias más relevantes en nuestro canal de Telegram

Contactanos