Mientras el público usuario parece estar satisfecho con la generación de texto e imagen en sus interacciones con sus chatbots favoritos, Google quiere apostarle a la voz como la interacción de preferencia en los modelos de IA generativa de próxima generación. Es por ello que Google Cloud anunció la incorporación de Chirp 3 a su plataforma de inteligencia synthetic, Vertex AI.
Chirp 3 es la más reciente versión del modelo de generación de audio de Google. Esta plataforma combina tecnologías de reconocimiento de voz (speech-to-text) y generación de voz en alta definición (HD text-to-speech), y ahora cuenta con ocho nuevas voces en 31 idiomas (es decir, 248 “hablantes”).
Equipado con “inflexiones emotivas” y “una entonación realista”, una representante de Google Cloud indicó que Chirp 3 es la herramienta perfecta para crear asistentes de voz, audiolibros y narración de podcasts, así como agentes de soporte y voz en off para contenidos de medios. Como parte de Vertex AI, Chirp 3 estará disponible a partir de la próxima semana.
Al agregar estas capacidades a Vertex AI, usuarios pueden incorporar funciones de voz avanzadas al desarrollo de sus aplicaciones; no obstante, Chirp 3 estará sujeto a ciertas restricciones por el momento, esto con el fin de evitar el uso inapropiado de la plataforma generadora de audio.
“Nuestra visión basic para la IA ha sido ofrecer una amplia gama de modelos; nos centraremos en Gemini, pero también ofrecemos Imagen, Veo y Chirp, junto con [otros] modelos científicos”, dijo Thomas Kurian, director ejecutivo de Google Cloud, en un evento en las oficinas de DeepMind en Londres.
A diferencia del más amigable y fácil de usar Gemini, una herramienta valiosa para usuarios casuales que simplemente desean mejorar su productividad, Vertex AI es una plataforma más compleja porque se centra en la creación y gestión de aplicaciones de IA personalizadas, más acorde a las necesidades de desarrolladores y científicos de datos.
X content material
This content material will also be seen on the location it originates from.
El fantasma en la máquina quiere hablar
Aunque los comandos a base de texto siguen siendo la manera recurring de interacción con los modelos de la IA generativa, las grandes empresas del Massive Tech, así como diversas start-ups, llevan tiempo experimentando con las interfaces de voz en sus plataformas.
En octubre de 2024, Google anunció que su chatbot, Gemini Reside, ya puede procesar consultas y respuestas en español a través de dispositivos Android. Ese mismo mes, Microsoft anunció que Copilot será capaz de conversar con los usuarios con varias voces similares a las humanas, gestionando las interrupciones y las pausas con naturalidad.
En enero de este año, el modo de voz de ChatGPT fue presentado como un chatbot que no tiene dificultades para interpretar intenciones y entonaciones de las consultas, el reconocimiento de objetos y la resolución de problemas matemáticos, además de permitir conversaciones más fluidas y naturales.
En la carrera por ofrecer un servicio más avanzado a los usuarios, uno de los enfoques consiste en acelerar la percepción basic de que estamos interactuando, no con una computadora o un robotic, sino con una persona, un amigo incluso, siempre dispuesto a ayudar; se trata de restarle lo “synthetic” a la inteligencia synthetic del asistente. Para muchas empresas, superar la barrera de voz parece ser el siguiente paso lógico en la progresiva humanización de la máquina.