Sería fácil pensar que Apple llega tarde al juego de la IA. Desde finales de 2022, cuando ChatGPT arrasó en el mundo, la mayoría de los competidores de Apple se han esforzado por ponerse al día. Si bien Apple ciertamente ha hablado sobre la IA e incluso ha lanzado algunos productos con la IA en mente, parecía estar metiendo un pie en lugar de lanzarse de cabeza.
Pero en los últimos meses, rumores e informes han sugerido que Apple, de hecho, simplemente ha estado esperando el momento oportuno, esperando tomar su decisión. En las últimas semanas ha habido informes de que Apple está hablando con OpenAI y Google sobre la posibilidad de potenciar algunas de sus funciones de IA, y la compañía también ha estado trabajando en su propio modelo, llamado Ajax.
Si observa la investigación de IA publicada por Apple, comienza a desarrollarse una imagen de cómo el enfoque de Apple hacia la IA podría cobrar vida. Ahora bien, obviamente, hacer suposiciones sobre productos basadas en artículos de investigación es una ciencia profundamente inexacta: la línea que va desde la investigación hasta los estantes de las tiendas es ventosa y está llena de baches. Pero al menos puedes tener una idea de lo que es la empresa. pensamiento sobre y cómo podrían funcionar sus funciones de inteligencia artificial cuando Apple comience a hablar de ellas en su conferencia anual de desarrolladores, WWDC, en junio.
Modelos más pequeños y eficientes
Sospecho que tú y yo esperamos lo mismo aquí: una mejor Siri. ¡Y parece que viene Better Siri! En gran parte de las investigaciones de Apple (y en gran parte de la industria tecnológica, en el mundo y en todas partes) se supone que los grandes modelos de lenguaje harán que los asistentes virtuales sean mejores y más inteligentes de inmediato. Para Apple, llegar a Better Siri significa fabricar esos modelos lo más rápido posible y asegurarse de que estén en todas partes.
En iOS 18, Apple planea tener todas sus funciones de IA ejecutándose en un modelo en el dispositivo, completamente fuera de línea. Bloomberg recientemente informó. Es difícil construir un buen modelo multipropósito incluso cuando tienes una red de centros de datos y miles de GPU de última generación; es muchísimo más difícil hacerlo con solo las agallas dentro de tu teléfono inteligente. Así que Apple tiene que ser creativa.
En un artículo llamado “LLM in a flash: Efficient Large Language Model Inference with Limited Memory” (todos estos artículos tienen títulos realmente aburridos pero son realmente interesantes, ¡lo prometo!), los investigadores idearon un sistema para almacenar los datos de un modelo, que generalmente es almacenado en la RAM de su dispositivo, en su lugar en el SSD. “Hemos demostrado la capacidad de ejecutar LLM de hasta el doble de tamaño de DRAM disponible [on the SSD]”, escribieron los investigadores, “logrando una aceleración en la velocidad de inferencia de 4 a 5 veces en comparación con los métodos de carga tradicionales en la CPU y de 20 a 25 veces en la GPU”. Descubrieron que al aprovechar el almacenamiento más económico y disponible en su dispositivo, los modelos pueden funcionar más rápido y de manera más eficiente.
Los investigadores de Apple también crearon un sistema llamado EELBERT que esencialmente puede comprimir un LLM en un tamaño mucho más pequeño sin empeorarlo significativamente. Su versión comprimida del modelo Bert de Google era 15 veces más pequeña (sólo 1,2 megabytes) y experimentó sólo una reducción del 4 por ciento en la calidad. Sin embargo, vino con algunas compensaciones de latencia.
En general, Apple está presionando para resolver una tensión central en el mundo de los modelos: cuanto más grande se vuelve un modelo, mejor y más útil puede ser, pero también más difícil de manejar, más consumidor de energía y más lento puede volverse. Como tantas otras, la empresa está tratando de encontrar el equilibrio adecuado entre todas esas cosas y al mismo tiempo busca una manera de tenerlo todo.
siri pero bueno
Mucho de lo que hablamos cuando hablamos de productos de IA es de asistentes virtuales: asistentes que saben cosas, que pueden recordarnos cosas, que pueden responder preguntas y hacer cosas en nuestro nombre. Por lo tanto, no es exactamente sorprendente que gran parte de la investigación de IA de Apple se reduzca a una sola pregunta: ¿y si Siri fuera realmente, realmente, realmente buena?
Un grupo de investigadores de Apple ha estado trabajando en una forma de utilizar Siri sin necesidad de utilizar ninguna palabra de activación; En lugar de escuchar «Hey Siri» o «Siri», el dispositivo podría simplemente intuir si le estás hablando. «Este problema es significativamente más desafiante que la detección de un disparador de voz», reconocieron los investigadores, «ya que puede que no haya una frase desencadenante inicial que marque el comienzo de un comando de voz». Quizás esa sea la razón por la que otro grupo de investigadores desarrolló un sistema para detectar con mayor precisión las palabras de activación. Otro artículo entrenó a un modelo para comprender mejor palabras raras, que a menudo los asistentes no comprenden bien.
En ambos casos, el atractivo de un LLM es que, en teoría, puede procesar mucha más información y mucho más rápido. En el artículo sobre la palabra de activación, por ejemplo, los investigadores encontraron que al no Al tratar de descartar todos los sonidos innecesarios pero, en cambio, alimentándolos todos al modelo y dejándolo procesar lo que importa y lo que no, la palabra de activación funcionó de manera mucho más confiable.
Una vez que Siri te escuche, Apple estará trabajando mucho para asegurarse de que comprenda y se comunique mejor. En un artículo, desarrolló un sistema llamado STEER (que significa Reconocimiento de Extensión-Expansión de Giro Semántico, por lo que usaremos STEER) que tiene como objetivo mejorar su comunicación de ida y vuelta con un asistente al tratar de descubrir cuándo estás haciendo una pregunta de seguimiento y cuando haces una nueva. En otro, utiliza LLM para comprender mejor las «consultas ambiguas» y descubrir lo que quiere decir sin importar cómo lo diga. «En circunstancias inciertas», escribieron, «los agentes conversacionales inteligentes pueden necesitar tomar la iniciativa para reducir su incertidumbre haciendo buenas preguntas de manera proactiva, resolviendo así los problemas de manera más efectiva». Otro artículo también pretende ayudar con eso: los investigadores utilizaron LLM para hacer que los asistentes sean menos detallados y más comprensibles cuando generan respuestas.
IA en salud, editores de imágenes, en tus Memojis
Cada vez que Apple habla públicamente sobre la IA, tiende a centrarse menos en el poder tecnológico en bruto y más en las cosas del día a día que la IA realmente puede hacer por usted. Entonces, si bien hay mucha atención en Siri, especialmente porque Apple busca competir con dispositivos como Humane AI Pin, Rabbit R1 y la continua destrucción de Gemini por parte de Google en todo Android, hay muchas otras formas en que Apple parece ver La IA es útil.
Un lugar obvio para que Apple se concentre es en la salud: los LLM podrían, en teoría, ayudar a navegar a través de los océanos de datos biométricos recopilados por sus diversos dispositivos y ayudarle a darle sentido a todo. Por eso, Apple ha estado investigando cómo recopilar y cotejar todos sus datos de movimiento, cómo utilizar el reconocimiento de la marcha y sus auriculares para identificarlo, y cómo rastrear y comprender los datos de su frecuencia cardíaca. Apple también creó y lanzó “el mayor conjunto de datos de actividad humana basado en sensores de múltiples dispositivos y ubicaciones” disponible después de recopilar datos de 50 participantes con múltiples sensores en el cuerpo.
Apple también parece imaginar la IA como una herramienta creativa. Para un artículo, los investigadores entrevistaron a un grupo de animadores, diseñadores e ingenieros y construyeron un sistema llamado Keyframer que «permite[s] usuarios construir y refinar iterativamente los diseños generados”. En lugar de escribir un mensaje y obtener una imagen, y luego escribir otro mensaje para obtener otra imagen, comienza con un mensaje pero luego obtiene un conjunto de herramientas para modificar y refinar partes de la imagen a su gusto. Podrías imaginar este tipo de proceso artístico de ida y vuelta apareciendo desde el creador de Memoji hasta algunas de las herramientas artísticas más profesionales de Apple.
En otro artículo, Apple describe una herramienta llamada MGIE que te permite editar una imagen simplemente describiendo las ediciones que deseas realizar. (“Hacer el cielo más azul”, “hacer mi cara menos rara”, “agregar algunas piedras”, ese tipo de cosas). “En lugar de una guía breve pero ambigua, MGIE deriva una intención visual explícita y conduce a una edición de imágenes razonable. ”, escribieron los investigadores. Sus experimentos iniciales no fueron perfectos, pero sí impresionantes.
Incluso podríamos obtener algo de IA en Apple Music: para un artículo llamado «Cancelación de voz de canto estéreo con recursos limitados», los investigadores exploraron formas de separar las voces de los instrumentos en las canciones, lo que podría resultar útil si Apple quiere brindar a las personas herramientas para, por ejemplo, , remezcla canciones como puedas en TikTok o Instagram.
Con el tiempo, apuesto a que este es el tipo de cosas en las que Apple se apoyará, especialmente en iOS. Parte de esto Apple lo incorporará a sus propias aplicaciones; algunos los ofrecerá a desarrolladores externos como API. (La reciente función Sugerencias de diario es probablemente una buena guía sobre cómo podría funcionar). Apple siempre ha pregonado sus capacidades de hardware, particularmente en comparación con un dispositivo Android promedio; combinar toda esa potencia con una IA centrada en la privacidad en el dispositivo podría ser un gran diferenciador.
Pero si quieres ver la IA más grande y ambiciosa en Apple, necesitas saber sobre Ferret. Ferret es un modelo de lenguaje grande multimodal que puede recibir instrucciones, centrarse en algo específico que haya marcado con un círculo o seleccionado de otro modo y comprender el mundo que lo rodea. Está diseñado para el caso de uso ahora normal de IA de preguntarle a un dispositivo sobre el mundo que lo rodea, pero también podría comprender lo que hay en su pantalla. En el artículo de Ferret, los investigadores muestran que podría ayudarle a navegar por las aplicaciones, responder preguntas sobre las calificaciones de la App Store, describir lo que está viendo y más. Esto tiene implicaciones realmente interesantes para la accesibilidad, pero también podría cambiar por completo la forma en que usa su teléfono, y algún día su Vision Pro y/o sus gafas inteligentes.
Nos estamos adelantando mucho aquí, pero puedes imaginar cómo funcionaría esto con algunas de las otras cosas en las que Apple está trabajando. Un Siri que puede entender lo que quieres, combinado con un dispositivo que puede ver y comprender todo lo que sucede en tu pantalla, es un teléfono que literalmente puede usarse solo. Apple no necesitaría integraciones profundas con todo; simplemente podría ejecutar las aplicaciones y tocar los botones correctos automáticamente.
Una vez más, todo esto es sólo investigación, y que todo funcione bien a partir de esta primavera sería un logro técnico legítimamente inaudito. (Quiero decir, has probado los chatbots, sabes que no son geniales). Pero te apuesto cualquier cosa a que recibiremos grandes anuncios de IA en la WWDC. El CEO de Apple, Tim Cook, incluso se burló de ello en febrero y básicamente lo prometió en la conferencia telefónica sobre resultados de esta semana. Y dos cosas están muy claras: Apple está muy metida en la carrera de la IA y podría significar una revisión total del iPhone. ¡Diablos, incluso podrías comenzar a usar Siri voluntariamente! Y eso sería todo un logro.