Autor: ALEXIS IBARRA 0.
Google y OpenAI están en una dura batalla por dominar la IA
Google y OpenAI están en una dura batalla por dominar la IA La batalla de la inteligencia artificial está declarada: con un día de diferencia, OpenAI y Google presentaron lo nuevo de sus modelos y herramientas de IA para interactuar con los usuarios.
Las mejoras van de la mano de la multimodalidad, es decir, la capacidad tanto para entender como para crear textos, audio, fotografías e imágenes. "El modelo es capaz de entender el audio, imagen o el video directamente, sin tener que pasarlo a texto previamente.
Así puede interpretar la intencionalidad o las emociones, por ejemplo", dice Felipe Bravo, académico del Departamento de Ciencias de la Computación de la U. de Chile e investigador del Instituto Milenio Fundamentos de los Datos (IMFD). ChatGPT fue la encargada de abrir los fuegos al presentar ChatGPT-4o (la "o" es de omni) que está disponible en forma gratuita. "GPT-4o entrega la inteligencia de GPT-4 pero es mucho más rápido y mejora sus capacidades de texto, visión y audio.
Durante los últimos años nos hemos concentrado en mejorar la inteligencia de este modelo, pero por primera vez estamos dando un paso adelante en cuanto a la facilidad de uso", dijo Mira Murati, directora de Tecnología en OpenAI. En la demostración asombró la fluidez de la herramienta para relacionarse mediante la voz, incluso generando entonaciones muy realistas. La herramienta es capaz de leer las emociones en los rostros y voces de las personas a través de la cámara del teléfono. Así, fue capaz de percibir que un usuario estaba nervioso y le recomendó hacer ciertas respiraciones. Además mostró distintos tonos en su voz leyendo un cuento para niños.
También se demostró su potencial para realizar traducciones en vivo de dos personas hablando en distintos idiomas y exhibió cómo podía resolver problemas matemáticos, mostrando el paso a paso para su resolución. "Estos modelos requerirán mayor capacidad de cómputo (procesamiento de datos), lo que implica que el modelo puede funcionar más lento. Hicimos unas pruebas con ChatGPT-4o y el servicio para el celular tenía problemas y estaba caído", dice Marcelo Mendoza, académico de Computación UC e investigador de Cenia y el IMFD. Google, en tanto, presentó sus novedades en el evento Google I/O.
Entre lo más llamativo está la integración de la IA en las búsquedas: las respuestas a las consultas, generadas por la tecnología Gemini AI, proporcionarán un resumen explicativo y los links a las fuentes de las que se sacó la información. También se mostró la nueva búsqueda con video: grabaron con el celular un video de un tocadiscos que funcionaba mal ya que su brazo no funcionaba. Para hacer la búsqueda subieron el video y la pregunta "¿ Por qué no se queda en su lugar?". Google entregó un resumen con posibles soluciones y enlaces que podrían ayudar a resolverlo. La empresa también presentó Veo, modelo capaz de generar videos de un minuto de "alta definición" con distintos "estilos visuales y cinematográficos". La herramienta compite con Sora, de OpenAI. Además presentó Proyecto Astra, una IA con "habilidades humanas" que le permiten ver, oír, recordar, asimilar y hablar.
En la demo se le pidió que dijera qué apodo le pondría a una mascota, se le solicitó ayuda para resolver problemas matemáticos, y para encontrar unos lentes, tras mostrarle (con la cámara) una habitación. "Está diseñado para procesar información rápidamente mezclando la codificación continua de fotogramas de imágenes, videos y voz.
Aprovecha los modelos de voz de Google, para tener a disposición una gama más amplia de entonaciones, lo que le permite entender mejor el contexto en que se le ha hecho una pregunta y responder rápidamente en una conversación", dice Edgardo Frías, country director de Google en Chile y Perú. "Tanto Google como OpenAI están explorando nuevas formas de uso al incorporar servicios adicionales, pero la base de los modelos sigue siendo muy similar.
El principal desafío con cualquiera de estos modelos radica en cómo pasar de posibilidades y videos sorprendentes a casos de uso que aborden problemas del mundo real", comenta Rodrigo Stefanini, country manager de Stefanini Group para Chile y Argentina.
Ambos realizaron lanzamientos de sus desarrollos: Google y OpenAI están en una dura batalla por dominar la IA Ahora pueden realizarse búsquedas en internet a partir de un video, y además la tecnología es capaz de reconocer el estado de ánimo de una persona según su tono de voz. ALEXIS IBARRA O. Google mostró las búsquedas con video. El buscador interpretó lo que pasaba en el video para encontrar la solución de por qué el tocadiscos no funcionaba bien. YOUTUBE.