La carrera por democratizar la Inteligencia Artificial (IA) da un paso adelante con la colaboración entre OpenAI y NVIDIA, que ha resultado en la optimización de los nuevos modelos de código abierto gpt-oss para las GPUs de NVIDIA. Esta iniciativa busca llevar la inferencia inteligente y rápida desde la nube hasta el ordenador personal, abriendo nuevas posibilidades para aplicaciones de IA basadas en agentes, como la búsqueda web avanzada y la investigación en profundidad. El mercado global de IA se proyecta que alcanzará los 407 mil millones de dólares en 2027, según Statista, lo que subraya la importancia de este tipo de avances para impulsar la innovación y el crecimiento económico. Además, el aumento de la demanda de soluciones de IA personalizadas y accesibles está impulsando la necesidad de modelos de código abierto y hardware optimizado.
Según la investigación publicada por el blog de NVIDIA, la liberación de gpt-oss-20b y gpt-oss-120b representa un hito significativo al poner a disposición de millones de usuarios modelos de vanguardia que antes eran inaccesibles. Estos modelos optimizados pueden ser utilizados en PCs y estaciones de trabajo NVIDIA RTX a través de herramientas y frameworks populares como Ollama, llama.cpp y Microsoft AI Foundry Local, ofreciendo un rendimiento de hasta 256 tokens por segundo en la GPU NVIDIA GeForce RTX 5090. Este avance se produce en un contexto de creciente inversión en IA, con un aumento del 30% en la financiación global de startups de IA en el primer trimestre de 2024, según CB Insights.
Jensen Huang, fundador y CEO de NVIDIA, destacó la importancia de esta colaboración, afirmando que OpenAI ha demostrado el potencial de la IA construida sobre la plataforma NVIDIA y ahora está impulsando la innovación en software de código abierto. Huang enfatizó que los modelos gpt-oss permiten a los desarrolladores de todo el mundo construir sobre una base de código abierto de última generación, fortaleciendo el liderazgo tecnológico de Estados Unidos en el campo de la IA, todo ello impulsado por la infraestructura de computación de IA más grande del mundo. La arquitectura de NVIDIA, con su enfoque en la computación paralela, ha sido fundamental para el desarrollo y la implementación de modelos de IA a gran escala.
Los modelos gpt-oss-20b y gpt-oss-120b son modelos de razonamiento de código abierto y peso flexible, equipados con capacidades de “cadena de pensamiento” y niveles de esfuerzo de razonamiento ajustables mediante la popular arquitectura de mezcla de expertos. Están diseñados para soportar funciones como el seguimiento de instrucciones y el uso de herramientas, y fueron entrenados utilizando las GPUs NVIDIA H100. La capacidad de estos modelos para manejar longitudes de contexto de hasta 131,072 tokens, una de las más largas disponibles en la inferencia local, los hace ideales para tareas complejas como la búsqueda web, la asistencia para la codificación, la comprensión de documentos y la investigación en profundidad. El concepto de “longitud de contexto” se refiere a la cantidad de información que el modelo puede procesar simultáneamente, lo que afecta directamente su capacidad para comprender y generar texto coherente.
La forma más sencilla de probar estos modelos en PCs RTX AI, con GPUs que tengan al menos 24 GB de VRAM, es utilizando la nueva aplicación Ollama. Ollama es popular entre los entusiastas y desarrolladores de IA por su facilidad de integración, y su nueva interfaz de usuario incluye soporte integrado para los modelos de peso abierto de OpenAI. Además, Ollama está totalmente optimizado para RTX, lo que garantiza un rendimiento óptimo en PCs y estaciones de trabajo. La aplicación Ollama también ofrece nuevas funciones, como soporte fácil para archivos PDF o de texto dentro de los chats, soporte multimodal para incluir imágenes en las indicaciones y longitudes de contexto personalizables para trabajar con documentos o chats extensos.
Además de Ollama, los desarrolladores pueden utilizar los modelos gpt-oss en PCs RTX AI a través de otras aplicaciones y frameworks, como llama.cpp y Microsoft AI Foundry Local. NVIDIA continúa colaborando con la comunidad de código abierto para optimizar el rendimiento en las GPUs RTX, implementando gráficos CUDA para reducir la sobrecarga y añadiendo algoritmos que reducen la sobrecarga de la CPU. Microsoft AI Foundry Local, actualmente en vista previa pública, ofrece una solución de inferencia de IA en el dispositivo que se integra en los flujos de trabajo a través de la línea de comandos, el SDK o las interfaces de programación de aplicaciones. La iniciativa RTX AI Garage, a través de su blog, ofrece contenido y recursos para aquellos que buscan aprender más sobre los microservicios NVIDIA NIM y los Blueprints de IA, así como sobre la creación de agentes de IA, flujos de trabajo creativos y aplicaciones de productividad en PCs y estaciones de trabajo con IA.




