Gemini, la inteligencia artificial más potente de Google, multimodal y generativa

Hoy Google da un nuevo paso con Gemini, modelo más capaz y con un rendimiento de última generación que representa uno de los mayores esfuerzos de ciencia e ingeniería que ha emprendido la empresa.

Hoy estamos un paso más cerca de esta visión con Gemini, el modelo de IA más capaz y generalista que jamás se haya construido. Gemini es el resultado de esfuerzos de colaboración a gran escala por parte de equipos de Google. Fue construido desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar diferentes tipos de información, incluidos texto, imágenes, audio, video y código.

Se trata de una nueva generación de modelos de Inteligencia Artificial, inspirados en la forma en que las personas entienden el mundo e interactúan con él. «La IA se sentiría menos como una pieza de software inteligente y aún más útil e intuitiva: un colaborador o compañero experto», según Demis Hassabis, CEO de Google DeepMind.

Gemini es también el modelo más flexible hasta el momento: capaz de ejecutarse de manera eficiente en centros de datos hasta en dispositivos móviles. Sus capacidades de vanguardia mejorarán significativamente la forma en que los desarrolladores y clientes empresariales construyen y escalan con IA.

Google ha optimizado Gemini 1.0, la primera versión del modelo, en tres tamaños diferentes:

Gemini Ultra: el modelo más grande y con mayor capacidad para tareas altamente complejas.
Gemini Pro: el mejor modelo para escalar en una amplia gama de tareas.
Gemini Nano: el modelo más eficiente para tareas en el dispositivo.

Rendimiento de última generación

Los expertos han estado probando rigurosamente los modelos Gemini y evaluando su rendimiento en una amplia variedad de tareas que abarcan texto, visión, audio, coding y más.

Desde la comprensión de imágenes naturales hasta el razonamiento matemático y la comprensión de audio y video, el rendimiento de Gemini Ultra supera a modelos de última generación en 30 de los 32 puntos de referencia utilizados ampliamente por la industria.

Con una puntuación del 90%, Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU (comprensión masiva de lenguajes multitarea, por sus siglas en inglés), que utiliza una combinación de 57 materias como matemáticas, física, historia, derecho, medicina y ética para evaluar tanto el conocimiento del mundo como su capacidad de resolución de problemas.

El nuevo enfoque de referencia para MMLU permite a Gemini utilizar sus capacidades de razonamiento para pensar más detenidamente antes de responder preguntas difíciles, lo que genera mejoras significativas con respecto al simple uso de su primera impresión.

Gemini supera el rendimiento de última generación en una variedad de puntos de referencia que incluyen texto y codificación.

Gemini supera el rendimiento en varios puntos de referencia multimodales.

Gemini Ultra también logró una puntuación de vanguardia del 59,4% en el nuevo punto de referencia MMMU, que consta de tareas multimodales que abarcan diferentes dominios y requieren un razonamiento deliberado. Con los puntos de referencia de imágenes que probamos, Gemini Ultra superó a los modelos de última generación anteriores sin la ayuda de sistemas de reconocimiento de caracteres de objetos (OCR). Estos puntos de referencia resaltan la multimodalidad nativa de Gemini e indican signos tempranos de las habilidades de razonamiento multimodal más complejos.

Gemini supera el rendimiento de última generación en una variedad de puntos de referencia que incluyen texto y codificación.

Ver más detalles en nuestro informe técnico Gemini.

Gemini supera el rendimiento de última generación en una variedad de puntos de referencia multimodales.

Capacidades de próxima generación

Hasta ahora, el enfoque estándar para crear modelos multimodales implicaba entrenar componentes separados para diferentes modalidades y luego unirlos para imitar aproximadamente parte de esta funcionalidad.

A veces, estos modelos pueden ser buenos para realizar determinadas tareas, como describir imágenes, pero tienen dificultades con un razonamiento más conceptual y complejo. Diseñaron Gemini para que sea multimodal de forma nativa y lo entrenaron desde el principio en diferentes modalidades.

Luego lo perfeccionaron con datos multimodales adicionales para perfeccionar aún más su eficacia. Esto ayuda a Gemini a comprender y razonar perfectamente sobre todo tipo de interacciones desde cero, mucho mejor que los modelos multimodales existentes y sus capacidades son de última generación en casi todos los dominios.

Pueden obtener más información sobre las capacidades de Gemini y ver cómo funciona aquí.

Razonamiento sofisticado

Las sofisticadas capacidades de razonamiento multimodal de Gemini 1.0 pueden ayudar a dar sentido a información visual y escrita compleja. Esto lo hace especialmente hábil para descubrir conocimientos que pueden ser difíciles de discernir en medio de grandes cantidades de datos.

Su notable capacidad para extraer información de cientos de miles de documentos mediante la lectura, el filtrado y la comprensión de la información ayudará a lograr nuevos avances a velocidades digitales en muchos campos, desde la ciencia hasta las finanzas.

Comprensión de texto, imágenes, audio y mucho más

Gemini 1.0 fue capacitado para reconocer y comprender texto, imágenes, audio y más al mismo tiempo, por lo que comprende mejor la información matizada y puede responder preguntas relacionadas con temas complicados. Esto lo hace especialmente bueno para explicar el razonamiento en matemáticas y física.

Programación avanzada

La primera versión de Gemini puede comprender, explicar y generar código de alta calidad en los lenguajes de programación más populares del mundo como Python, Java y Go. Su capacidad para trabajar en varios idiomas y razonar sobre información compleja lo convierte en uno de los modelos básicos de codificación líderes en el mundo.

Gemini Ultra se destaca en múltiples pruebas de comparación de código, incluyendo HumanEval, un importante estándar de la industria, y en Natural2Code, nuestro data set interno que utiliza fuentes generadas por autor en lugar de información basada en la web.

Gemini también se puede utilizar como motor para sistemas más avanzados. Hace dos años presentaron AlphaCode, el primer sistema de generación de código con IA que alcanza un nivel competitivo de rendimiento en competiciones de programación.

Cuando se evalúa en la misma plataforma que el AlphaCode original, AlphaCode 2 muestra mejoras masivas, resolviendo casi el doble de problemas. Y estiman que funciona mejor que el 85% de los participantes de la competencia, en comparación con casi el 50 % de AlphaCode. Cuando los programadores colaboran con AlphaCode 2 definiendo ciertas propiedades para los siguientes ejemplos de código, su rendimiento es aún mejor.

«Entusiasma que los programadores utilicen cada vez más modelos de IA de alta capacidad como herramientas colaborativas que puedan ayudarlos a razonar sobre los problemas, proponer diseños de código y ayudar con la implementación, para que puedan lanzar aplicaciones y diseñar mejores servicios, más rápido», explicó el CEO de la firma sobre el punto.

Más confiable, escalable y eficiente

Entrenaron Gemini 1.0 a escala en nuestra infraestructura optimizada para IA utilizando las Unidades de Procesamiento Tensor (TPU, por sus siglas en inglés) v4 y v5e diseñadas internamente por Google. Y lo diseñaron para que sea su modelo más confiable y escalable para capacitar, y el más eficiente para brindar servicio.

En los TPU, Gemini funciona significativamente más rápido que los modelos anteriores, más pequeños y con menos capacidades. Estos aceleradores de IA diseñados a medida han estado en el corazón de los productos impulsados por IA de Google que prestan servicios a miles de millones de usuarios como Search, YouTube, Gmail, Google Maps, Google Play y Android. También han permitido a empresas de todo el mundo entrenar modelos de IA a gran escala de forma rentable.

Esta TPU de próxima generación acelerará el desarrollo de Gemini y ayudará a los desarrolladores y clientes empresariales a entrenar modelos de IA generativa a gran escala más rápido, permitiendo que nuevos productos y capacidades lleguen antes a los clientes.

Una fila de supercomputadoras aceleradoras de IA Cloud TPU v5p en un centro de datos de Google.

Desarrollado con responsabilidad y seguridad

Google está comprometido a promover una IA audaz y responsable en todo lo que hacemos. Sobre la base de los principios de inteligencia artificial de Google y las sólidas políticas de seguridad de nuestros productos, estamos agregando nuevas protecciones para tener en cuenta las capacidades multimodales de Gemini. En cada etapa de desarrollo, consideramos los riesgos potenciales y trabajamos para probarlos y mitigarlos.

Gemini tiene las evaluaciones de seguridad más completas de cualquier modelo de IA de Google hasta la fecha, incluidas las de sesgo y toxicidad. Han llevado a cabo investigaciones novedosas en áreas de riesgo potencial como ciberataques, persuasión y autonomía, y aplicado las mejores técnicas de pruebas antagónicas de Google Research para ayudar a identificar problemas críticos de seguridad antes de la implementación de Gemini.

Para identificar puntos ciegos en el enfoque de evaluación interna, también trabajan con un grupo diverso de expertos y socios externos para probar nuestros modelos en una variedad de temas.

Para diagnosticar problemas de seguridad del contenido durante las fases de capacitación de Gemini y garantizar que su producción cumpla con nuestras políticas, utiliza puntos de referencia como Real Toxicity Prompts, un conjunto de 100.000 inputs con distintos grados de toxicidad extraídos de la web, desarrollados por expertos del Instituto Allen.

La responsabilidad y la seguridad siempre serán fundamentales para el desarrollo y la implementación. Este es un compromiso a largo plazo que requiere construir de manera colaborativa, por lo que se asociaron con la industria y el ecosistema más amplio para establecer puntos de referencia y mejores prácticas de seguridad a través de organizaciones como MLCommons, Frontier Model Forum y su AI Safety Fund, y el Secure AI Framework (SAIF), que fue diseñado para ayudar a mitigar los riesgos de seguridad específicos de los sistemas de IA en los sectores público y privado. Continuaremos trabajando con investigadores, gobiernos y grupos de la sociedad civil de todo el mundo a medida que desarrollamos Gemini.

Gemini a disposición del mundo

Bard utilizará una versión refinada de Gemini Pro que le permitirá comprender y resumir, razonar, generar ideas, escribir y planificar mucho mejor. Esta es la mayor actualización a Bard desde su lanzamiento, lo que lo convierte en uno de los modelos gratuitos más capaces.

En los próximos meses, Gemini estará disponible en más productos y servicios principales, como Chrome, los Anuncios y Duet AI. Y ya comienza a experimentar con Gemini en search donde está haciendo la Experiencia de Búsqueda Generativa más rápida para los usuarios, con una reducción del 40 por ciento en latencia en Inglés en EE.UU., además de mejoras de calidad.

Construyendo con Gemini

Desarrolladores y clientes corporativos pueden acceder a Germini a través de la Gemini API en Google AI Studio o a través de Google Cloud Vertex AI.

Google AI Studio es una herramienta de desarrollo gratuita y basada en la web que ayuda a programadores y clientes a prototipar y lanzar aplicaciones más rápido a través de una API key. Y al llegar al momento de una plataforma de AI administrada, Vertex AI permite la personalización de Gemini con control total de los datos y beneficios adicionales de Google Cloud, para la seguridad, privacidad, gobernanza de datos y compliance de las compañías.

Los desarrolladores de Android, por su parte, también podrán crear con Gemini Nani, el modelo más eficiente para tareas que se ejecutan en los dispositivos móviles, a través de AICore, una nueva capacidad de sistema disponible en Android 14, inicialmente en Pixel 8.

Palabras de Sundar Pichai CEO of Google and Alphabet:

Cada cambio tecnológico es una oportunidad para avanzar en los descubrimientos científicos, acelerar el progreso humano y mejorar vidas. la transición que estamos viendo en la actualidad con la Inteligencia Artificial será la más profunda de nuestras vidas. La IA tiene el potencial de crear oportunidades para personas de todo el mundo. Traerá olas de innovación y progreso económico e impulsará el conocimiento, el aprendizaje, la creatividad y la productividad a una escala nunca antes vista.

Casi ocho años después del comienzo de nuestro viaje como una empresa que puso foco en IA, el ritmo del progreso no hace más que acelerarse: millones de personas están utilizando la IA generativa en todos nuestros productos para hacer cosas que no podían ni siquiera imaginar hace un año, desde encontrar respuestas a las preguntas más soluciones más complejas hasta el el uso de nuevas herramientas para colaborar y crear.

Al mismo tiempo, los desarrolladores están utilizando nuestros modelos e infraestructura para crear nuevas aplicaciones de IA generativa, y las empresas y nuevos emprendimientos en todo el mundo están creciendo de la mano de nuestras herramientas de IA.

Si le interesa conocer y aplicar las últimas tendencias de Google, puede contactarse con nosotros a marketing@olam.com.py y vea todo lo que podemos ofrecerle desde el Grupo OLAM.

Capacidades de próxima generación

Desarrollado con responsabilidad y seguridad

Gemini a disposición del mundo

Relacionado

Sobre el Autor: Joel Barrios

Gemini, la inteligencia artificial más potente de Google, multimodal y generativa

Capacidades de próxima generación

Desarrollado con responsabilidad y seguridad

Gemini a disposición del mundo

Relacionado

Compartir

Sobre el Autor: Joel Barrios