Apple Research Just Unearthed A Forgotten Ai Technique And Is Using It To Generate Images
Apple Research Just Unearthed A Forgotten Ai Technique And Is Using It To Generate Images

Apple Research redescubre una técnica de IA olvidada y la emplea para la creación de imágenes.

La carrera por la innovación en inteligencia artificial generativa, específicamente en la creación de imágenes, está tomando un nuevo giro. Durante años, los modelos de difusión, como Stable Diffusion, y los modelos autorregresivos, como GPT-4o de OpenAI, han dominado el panorama. Sin embargo, Apple ha presentado recientemente dos investigaciones que sugieren un resurgimiento de una técnica previamente relegada: los Flujos Normalizadores (Normalizing Flows). Este enfoque, combinado con la potencia de los Transformers, podría ofrecer capacidades superiores a las de los métodos actuales, abriendo un nuevo capítulo en la síntesis de imágenes por IA. El mercado global de la IA generativa se estima en $10.2 mil millones en 2023 y se proyecta que alcance los $129.8 mil millones para 2032, según datos de Grand View Research, lo que subraya la importancia de estas innovaciones.

Según la investigación publicada por 9to5Mac, Apple ha revelado dos modelos, TarFlow y STARFlow, que exploran el potencial de los Flujos Normalizadores para la generación de imágenes de alta calidad. Estos modelos buscan superar las limitaciones que históricamente han impedido que esta técnica compita directamente con los enfoques basados en difusión y Transformers.

Los Flujos Normalizadores operan mediante el aprendizaje de transformaciones matemáticas que convierten datos del mundo real, como imágenes, en ruido estructurado. Posteriormente, invierten este proceso para generar nuevas muestras. Su principal ventaja reside en la capacidad de calcular la probabilidad exacta de cada imagen generada, una característica ausente en los modelos de difusión. Esta precisión es crucial en aplicaciones donde la evaluación de la probabilidad de un resultado es fundamental, como en el diagnóstico médico o la modelización financiera. No obstante, las primeras implementaciones de Flujos Normalizadores adolecían de imágenes borrosas y una falta de diversidad en comparación con las alternativas.

El primer estudio, denominado TarFlow (Transformer AutoRegressive Flow), introduce un nuevo modelo que reemplaza las capas tradicionales de los Flujos Normalizadores con bloques Transformer. Este enfoque divide las imágenes en pequeñas porciones y las genera de forma secuencial, prediciendo cada bloque basándose en los anteriores, un proceso conocido como autorregresivo, similar al utilizado por OpenAI. La diferencia clave radica en que TarFlow genera directamente los valores de los píxeles, evitando la tokenización de la imagen, un proceso que puede introducir pérdidas de calidad y rigidez. La tokenización, popularizada por modelos como DALL-E, implica la conversión de imágenes en secuencias de símbolos discretos, análogas a las palabras en un texto.

Sin embargo, TarFlow enfrentaba desafíos al escalar a imágenes de alta resolución. Para abordar esta limitación, Apple desarrolló STARFlow (Scaling Latent Normalizing Flows), que opera en un espacio latente comprimido. En lugar de predecir directamente millones de píxeles, STARFlow se centra en la estructura general de la imagen, delegando los detalles finos a un decodificador que amplía la imagen a su resolución original. Este cambio reduce significativamente la carga computacional y permite generar imágenes más complejas. Además, STARFlow integra modelos de lenguaje existentes, como Gemma de Google, para el procesamiento de indicaciones textuales, optimizando el rendimiento y la eficiencia. La adopción de modelos de lenguaje pre-entrenados es una tendencia creciente en el campo de la IA generativa, impulsada por la necesidad de reducir los costos de entrenamiento y mejorar la calidad de los resultados.

En comparación con GPT-4o de OpenAI, que también se aleja de los modelos de difusión, las estrategias de ambas compañías difieren fundamentalmente. GPT-4o trata las imágenes como secuencias de tokens discretos, similar a la forma en que procesa el texto, lo que le confiere una gran flexibilidad para generar texto, imágenes y audio con un único modelo. No obstante, esta generación token por token puede ser lenta y computacionalmente costosa, aunque OpenAI mitiga estas limitaciones al ejecutar sus modelos en la nube. Apple, por su parte, parece estar enfocada en desarrollar modelos que puedan funcionar de manera eficiente en dispositivos locales, como iPhones y iPads, aprovechando las capacidades de procesamiento integradas. El chip M4 de Apple, presentado recientemente, ofrece un rendimiento significativamente mejorado en tareas de IA, lo que podría facilitar la implementación de modelos como STARFlow en dispositivos móviles. La competencia entre Apple y OpenAI en el campo de la IA generativa se intensifica a medida que ambas compañías buscan ofrecer soluciones innovadoras y accesibles a los usuarios.