Gemini, un modelo multimodal de Google DeepMind, es capaz de comprender prácticamente cualquier entrada gracias a la combinación de diferentes tipos de información, y de generar respuestas a todas ellas en base a los datos que cuenta internamente. Gracias al razonamiento avanzado y las funciones de generación de Gemini, los desarrolladores pueden probar peticiones de ejemplo para extraer texto de imágenes, convertir texto a imagen e incluso generar respuestas sobre imágenes subidas.

Gemini ahora está disponível para organizaciones y desarrolladores
Gemini en Google Cloud y AI Studio

Gemini es un modelo de lenguaje grande desarrollado por Google, en su paso por incorporar inteligencia artificial y posicionarse como líder frente a un competidor de la talla del GPT-4 de OpenAI.

Hoy presentaron una serie de nuevas capacidades importantes en las opciones de IA en apoyo de Gemini, el modelo más avanzado hasta el momento. El mismo fue construido desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar diferentes tipos de información, incluidos texto, código, audio, imagen y video, de la misma manera que los humanos ven, oyen, leen, escuchan y hablan sobre diferentes tipos de información en simultáneo.

Un portfolio de soluciones unificadas de inteligencia artificial en Google Cloud

A partir de hoy, Gemini es parte de una pila de tecnología de IA verticalmente integrada y optimizada que consta de varias piezas importantes, las cuales han sido diseñadas para funcionar juntas:

  • Infraestructura de IA súper escalable: Google Cloud ofrece para empresas una infraestructura líder optimizada para IA, la misma que utiliza Google, para entrenar y servir modelos. Ofrece esta infraestructura en las regiones de nube como servicio, para ejecutarla tanto en sus centros de datos con Google Distributed Cloud como en el perímetro. Toda nuestra infraestructura de IA fue creada, diseñada y codificada a nivel sistemas para aumentar la eficiencia y la productividad en la capacitación, el ajuste y el servicio de IA. 
  • Modelos de lenguaje de clase mundial: Ofrece una gama de modelos de IA con diferentes habilidades. A finales de 2022, lanzaron Pathways Language Model (PaLM), seguido rápidamente por PaLM 2, y ahora anuncian Gemini. También introdujeron modelos de dominio específicos como Med-PaLM y Sec-PaLM.
  • Vertex AI: plataforma de IA empresarial líder para desarrolladores: Para ayudar a los desarrolladores a crear agentes e integrar inteligencia artificial generativa en sus aplicaciones, han mejorado rápidamente Vertex AI, plataforma de desarrollo de IA. Vertex AI ayuda a los clientes a descubrir, personalizar, aumentar, implementar y administrar agentes creados con la API Gemini, así como una lista seleccionada de más de 130 modelos de IA de código abierto y de terceros que cumplen con los estrictos estándares de calidad y seguridad empresarial de Google. Vertex AI aprovecha los controles de privacidad y gobernanza de datos integrados de Google Cloud y también proporciona herramientas para ayudar a los desarrolladores a utilizar modelos de manera responsable y segura. Además, Vertex AI proporciona búsqueda y conversación, herramientas que utilizan un enfoque que requiere poca codificación para desarrollar agentes de búsqueda y conversación sofisticados que pueden funcionar en muchos canales.
  • Duet AI: asistentes de IA para Workspace y Google Cloud: Duet AI es nuestro agente colaborador impulsado por IA que brinda asistencia a los usuarios cuando usan Google Workspace y Google Cloud. Duet AI en Google Workspace, por ejemplo, ayuda a los usuarios a escribir, crear imágenes, analizar hojas de cálculo, redactar y resumir correos electrónicos, mensajes de chat y resumir reuniones. Duet AI en Google Cloud, por ejemplo, ayuda a los usuarios a codificar, implementar, escalar y monitorear aplicaciones, así como a identificar y acelerar la resolución de amenazas de ciberseguridad.

Google introdujo nuevas e increíbles innovaciones en IA para sus clientes y la más amplia comunidad de desarrolladores y usuarios, que incluyen: AI Hypercomputer para entrenar y servir modelos generativos de IA; Soporte de IA generativa en Vertex, plataforma de IA empresarial; Duet AI en Google Workspace; y Duet AI para Google Cloud. «Hemos enviado una serie de nuevas capacidades en nuestra infraestructura optimizada para IA con avances notables en GPU, TPU, software y compiladores de aprendizaje automático, gestión de cargas de trabajo y otros; muchas innovaciones en Vertex AI; y un conjunto completamente nuevo de capacidades con representantes Duet AI en Google Workspace y Google Cloud Platform», dijo Thomas Kurian, CEO de Google Cloud al respecto.

La compañía ha visto un enorme crecimiento de desarrolladores y usuarios. Por ejemplo, en el año 2023, la cantidad de proyectos de inteligencia artificial generativa activos en Vertex AI creció más de 7 veces. Marcas líderes como Forbes Formula E Spotify están utilizando Vertex AI para crear sus propios agentes de atención al cliente, y Anthropic AI21 Labs Cohere ya están entrenando sus modelos de aprendizaje. La amplitud y creatividad de las aplicaciones que los clientes están desarrollando es impresionante. Fox Sports está creando contenido más atractivo. Priceline Six Flags están construyendo sus propios conserjes de viaje digital. Y Estée Lauder está creando un gestor de marca digital.

Reforzando la infraestructura de clase mundial

A medida que los modelos de inteligencia artificial generativa han crecido en tamaño y complejidad, también lo han hecho sus requisitos de entrenamiento, ajuste e inferencia. Como resultado, la demanda de una infraestructura de IA de alto rendimiento, altamente escalable y rentable para entrenar y servir modelos está aumentando exponencialmente.

Esto no sólo es válido para nuestros clientes, sino también para Google. Las TPU han sido durante mucho tiempo la base para capacitar y ofrecer productos impulsados ​​por inteligencia artificial como YouTube, Gmail, Google Maps, Google Play y Android. De hecho, Gemini fue entrenado y recibe servicios utilizando TPU.

El mes pasado anunciaron Cloud TPU v5p, nuestro acelerador de IA más potente, escalable y flexible hasta la fecha. TPU v5p es 4 veces más escalable que TPU v4 en términos de FLOP totales disponibles por módulo. También anunciaron AI Hypercomputer, una arquitectura de supercomputadora innovadora que emplea un sistema integrado de hardware de rendimiento optimizado, software abierto, marcos de aprendizaje automático líderes y modelos de consumo flexibles. AI Hypercomputer tiene una amplia gama de opciones de acelerador, incluidas múltiples clases de TPU de quinta generación y GPU NVIDIA.

Brindando nuestros últimos modelos innovadores

Gemini es también el modelo más flexible hasta el momento: capaz de ejecutarse de manera eficiente en todo, desde centros de datos hasta dispositivos móviles. Gemini Ultra es nuestro modelo de mayor tamaño y capacidad para tareas muy complejas, mientras que Gemini Pro es nuestro mejor modelo para escalar una amplia gama de tareas, y Gemini Nano, nuestro modelo más eficiente para tareas en el dispositivo. Sus capacidades de vanguardia mejorarán significativamente la forma en que los desarrolladores y clientes empresariales construyen y escalan con IA.

Hoy presenta una versión mejorada de modelo de imagen, Imagen 2, tecnología de conversión de texto a imagen más avanzada. Esta última versión ofrece fotorrealismo mejorado, representación de texto y capacidades de generación de logotipos para que pueda crear fácilmente imágenes con superposiciones de texto y generar logotipos.

Además, aprovechando los esfuerzos en torno a modelos de dominio específico con Med-PaLM, nos complace anunciar la disponibilidad general de MedLM, conjunto de modelos optimizados médicamente. MedLM está disponible en Vertex AI, brindando a los clientes el poder de los modelos básicos de Google sintonizados con experiencia médica.

Si le interesa conocer y aplicar las últimas tendencias de Google, puede contactarse con nosotros a marketing@olam.com.py y vea todo lo que podemos ofrecerle desde el Grupo OLAM.