27 Sep 2023

Chatbot de OpenAI, ChatGPT ahora puede "ver, escuchar y hablar"

Es importante destacar que, por el momento, este asistente de voz, que se asemeja a Alexa de Amazon y Siri de Apple, estará disponible en dispositivos iOS y Android, pero no en PC.

OpenAI, la compañía que desarrolló el chatbot de inteligencia artificial generativa llamado ChatGPT, ha presentado una versión mejorada de esta popular herramienta que ahora tiene la capacidad de interactuar con los usuarios a través de la voz, permitiéndoles "ver, escuchar y hablar" en tiempo real.

Hasta este momento, la interacción con las diversas versiones de ChatGPT se limitaba a la comunicación escrita. Sin embargo, dentro de aproximadamente dos semanas, los usuarios de pago tendrán la capacidad de mantener conversaciones verbales con la máquina y escuchar sus respuestas. Además, podrán enviar imágenes, fotos, capturas de pantalla y documentos al chat para obtener respuestas más precisas. En cuanto a los usuarios de la versión gratuita, podrán aprovechar estas nuevas actualizaciones poco después, según ha anunciado OpenAI.

"La voz y la imagen te brindan más formas de usar ChatGPT en tu vida. Cuando estés en casa, saca fotografías de tu refrigerador y despensa para saber qué hay para cenar (y haz preguntas para obtener una receta paso a paso)", escribió la empresa en un comunicado.

OpenAI ejemplifica el uso de la herramienta de voz al mencionar que se puede emplear para narrar historias o resolver debates. Sin embargo, es importante destacar que, por el momento, este asistente de voz, que se asemeja a Alexa de Amazon y Siri de Apple, estará disponible en dispositivos iOS y Android, pero no en PC.

Los usuarios tendrán la opción de seleccionar entre cinco voces diferentes para interactuar con la herramienta de voz. Sin embargo, es importante señalar que la voz predeterminada y la que se mostró en los ejemplos parece imitar la de una mujer joven y aparentemente de origen caucásico, lo cual es una elección común en este tipo de herramientas. El proceso de conversación con la máquina implica que mediante Whisper, una herramienta de OpenAI que utiliza la inteligencia artificial para transcribir audio, se convierte la voz del usuario en texto, y luego la compañía utiliza su nuevo modelo de conversión de texto a voz para generar la respuesta de la máquina.

"Nuestra nueva tecnología de voz es capaz de crear voces sintéticas realistas a partir de tan solo unos segundos de voz real. Esto abre las puertas a muchas aplicaciones creativas y da herramientas de accesibilidad. Sin embargo, estas capacidades también presentan nuevos riesgos, como la posibilidad de que actores maliciosos se hagan pasar por figuras públicas o cometan fraude", advierte la empresa.

Adicionalmente, OpenAI también reveló que la plataforma de música Spotify está aprovechando la capacidad de esta tecnología para traducir algunos de sus podcasts a otros idiomas, manteniendo las voces originales de los presentadores e invitados.

Recibe nuestro digest