César Augusto kanashiro Castañeda
Las grandes discusiones del siglo pasado acerca de cómo interpretar la significación histórica de la inteligencia artificial enfrentaron a quienes imaginaban máquinas capaces de reemplazar a los humanos (MacCarthy), para bien o para mal, y quienes sostenían que se trataba de un mero aumento de la inteligencia humana (Licklider y Engelbart), como el famoso debate de los años sesenta en Stanford: el proyecto de construir máquinas inteligentes sustitutorias frente a quienes aspiraban a aumentar la inteligencia humana. Las posiciones de estos enfáticos debates fueron cristalizando en la contraposición entre una «inteligencia artificial general» (AGI) y una «inteligencia artificial restringida» (NAI). Si la primera tiene como objetivo emular a la inteligencia humana, la segunda simplemente la simularía.
Aunque la inteligencia artificial como sector tecnológico no deja de tener grandes avances desde 2012, fue hace cosa de cuatro o cinco años cuando entró en una fase diferente. Hubo cambios significativos en los modelos generativos que se dieron desde entonces que podrían resumirse en dos. El primero fue la multitarea, esto es, la aparición de modelos que no se dedicaban a una única cosa, sino que, como es el caso de ChatGPT, pueden crear texto, traducir, escribir código, entender funciones matemáticas, etc. Además, se produjo un cambio de perspectiva con respecto al entrenamiento de estos algoritmos: del entrenamiento supervisado por humanos, los cuales debían ir manualmente clasificando o etiquetando los datos que se le iban a introducir al programa, al modelo auto-supervisado. Estos modelos están diseñados para entrenarse a sí mismos con su propia base de datos; sólo en una segunda fase se añadirían correcciones humanas, las cuales pueden venir de trabajadores nigerianos mal pagados o de los propios usuarios.
En efecto, para ChatGPT o Bing Chat, los large language models o LLM más famosos, no existe la diferencia entre real y ficticio, ni tampoco entre verdadero y falso. Solo existe aquello que su propio entrenamiento ha definido como la respuesta con mayor probabilidad de ser cierta en un contexto dado, o que sus entrenadores humanos le han aclarado que quieren leer cuando se le he hace una pregunta determinada. Si se les hace una pregunta para la cual no cuentan con datos fiables, intentan producir una respuesta acorde al modelo de probabilidad que manejan.
Este problema entronca con varios de los debates fundamentales sobre internet. El primero de ellos es el mito de internet como archivo de la humanidad, como depósito de toda la miríada de culturas y producciones humanas. Se hacía referencia a ello en la nefasta película Avatar (2009), donde los nativos del planeta que los humanos colonizaban podían conectarse al “árbol de las voces”, el cual los ponía en contacto con todos sus antepasados y con el conocimiento agregado de su civilización.
Estos modelos generativos de lenguaje no responden exactamente a este mito. Para ellos, internet como un todo es solo un conjunto de datos sobre el cual correr su programa y extraer complejísimos algoritmos estadísticos que produzcan lenguaje — o imágenes, o vídeos, o secuencias de acordes, o lo que sea — parecido al que se les ha dado. En consecuencia, son la herramienta ideal para escribir un email en tono formal-pero-no-tanto a un posible cliente. No son para nada fiables, en cambio, si lo que quieres preguntarle es el nombre de todos los políticos acusados en la operación Kitchen o la lista de candidatos del PSOE al ayuntamiento de tu pueblo. Menos aún si, como la mayoría de la gente, estás usando la versión gratuita de ChatGPT, que sólo trabaja con datos subidos a internet hasta 2021. Para todo ello ya existen los buscadores convencionales, los cuales — aún con sus conocidas flaquezas — funcionan más bien como un bibliotecario que te dirige a la información que buscas, en páginas de referencia que tú conoces y de las que te fías.
Como es obvio, ningún LLM puede recorrer cada rincón de ese enorme cosmos que es internet, ni siquiera en su versión textual. Todos ellos se basan en una forma u otra de compresión, de la misma manera que cuando se reduce un archivo en .zip o una imagen de alta resolución en .jpeg. Este último formato, por ejemplo, sabe reconocer patrones en los píxeles de una imagen y reducirlos, de manera que en la descompresión se crean píxeles nuevos a partir de esa reducción y la nueva imagen es, para nuestros ojos, casi indistinguible de la original con sólo una fracción de su tamaño.
Ted Chiang, el ingeniero de software y autor de magníficos cuentos de ciencia ficción, explica el mismo proceso para los LLM: para comprimir su base de datos en orden de una parte por cada cien, estos programas buscan estructuras verbales estadísticamente relevantes y las ponen en relación unas con otras. Así se consigue que ChatGPT no cite directamente a otras webs, cosa que no lo distinguiría tanto de los buscadores tradicionales, sino que dé la sensación de que ha aprendido y sabe expresar un asunto.
Tenemos que reconocer también que hay inteligencia artificial más allá de los LLM. Hay excelentes ejemplos de IAs que han conseguido grandes hitos. Sólo se necesita recordar el éxito de AlphaFold (propiedad de DeepMind, y a su vez de Google) con el problema de la relación entre los elementos de una proteína y la manera en la que se pliega en la realidad, el cual llevaba más de cincuenta años sin resolverse. Un equipo de ingenieros decidió aplicar una perspectiva estadística para resolver un problema que parecía ser meramente biológico, y el proceso funcionó. Como se ha dicho, tal vez la gran habilidad de los modelos auto-supervisados es la de asumir una gran cantidad de datos y aprender a abstraerlos a tantos niveles como se le ordenen, desde luego, con más o menos éxito.