En una aparición reciente sobre Possible, un podcast co-anfitrión del cofundador de LinkedIn Reid Hoffman, el CEO de Google Deepmind, Demis Hassabis, dijo que Google planea eventualmente combinar sus modelos Gemini AI con sus modelos de video generador de VEO para mejorar la comprensión del mundo físico.
«Siempre hemos construido Géminis, nuestro modelo de base, para ser multimodales desde el principio», dijo Hassabis, «y la razón por la que hicimos eso [is because] Tenemos una visión de esta idea de un asistente digital universal, un asistente que … en realidad te ayuda en el mundo real «.
La industria de la IA se está moviendo gradualmente hacia los modelos «Omni», si lo desea, modelos que pueden comprender y sintetizar muchas formas de medios. Los modelos Gemini más nuevos de Google pueden generar audio, así como imágenes y texto, mientras que el modelo predeterminado de OpenAI en CHATGPT puede crear imágenes de forma nativa, incluida, por supuesto, el arte al estilo Studio Ghibli. Amazon también ha anunciado planes para lanzar un modelo de «cualquier otro» a finales de este año.
Estos modelos OMNI requieren muchos datos de capacitación: imágenes, videos, audio, texto, etc. Hassabis implicaba que los datos de video para VEO vienen principalmente de YouTube, una plataforma que posee Google.
“Básicamente, viendo videos de YouTube, muchos videos de YouTube – [Veo 2] Puede entender, ya sabes, la física del mundo ”, dijo Hassabis.
Google dijo previamente a Tecno que sus modelos «pueden estar» entrenados en «algunos» contenido de YouTube de acuerdo con su acuerdo con los creadores de YouTube. Según se informa, Google amplió sus términos de servicio el año pasado en parte para permitir que la compañía aproveche más datos para capacitar a sus modelos de IA.








