AI: de LLMs y SLMs; eficiencia y ubicuidad

Con la demo de ChatGPT ya quedó claro que los LLM (modelos de lenguaje grandes) tienen nuestra atecion por sus capacidades en el procesamiento del lenguaje natural. Sin embargo, su tamaño y los recursos que requieren limitan su acceso y por eso es que es dificil ver nuevos jugadores en ese mercado y ahí es donde hay un espacio súper interesante para explorar los SLMs o modelos de lenguaje pequeños como alternativa.

¿Qué son los Modelos de Lenguaje Pequeños?

Continuar leyendo “AI: de LLMs y SLMs; eficiencia y ubicuidad”

BloombergGPT: un modelo de IA financiera

Si algo distinguió a Bloomberg del resto de los proveedores de información financiera fue que siempre estuvo al frente del uso de nueva tecnología; ahora su terminal suma un modelo como ChatGPT pero entrenado y orientado puramente a finanzas.

Bloomberg GPT o Inteligencia artificial en la terminal de bloomberg

Con las ventajas de estos modelos para dominios especificos de conocimiento, Bloomberg tiene un leverage competitivo gigantesco: entrenaron a BloombergGPT como un modelo financiero con su dataset propietario de 363.000 millones de tokens de documentos financieros en inglés, y lo aumentaron luego con un dataset similar en tamaño pero público; por eso los benchmarks de NLP dan números gigantescos.

Los tokens son las unidades básicas de texto o código que un LLM AI utiliza para procesar y generar lenguaje. Los tokens pueden ser caracteres, palabras, subpalabras u otros segmentos de texto o código, dependiendo del método o esquema de tokenización elegido.

LLM AI Tokens en Microsoft Learn.

Ahora, con este poder de fuego mejorando las herramientas para escanear noticias, datos, análisis de sentimiento y aplicardo en el sentido general de las preguntas que se pueden generar con lenguaje natural… le abre a Bloomberg un mercado gigante con casos de uso que no termino de imaginar.

Y esto es un gran paso para entender el peso de estos modelos en dominios de conocimiento específico. Qué mejor que finanzas para verlos claramente donde los resultados son blanco o negro, positivo o negativo.

El incentivo de innovar y el costo de no hacerlo

Fue Steve Jobs el que dijo “If you don’t cannibalize yourself, someone else will.” y creo que por eso la acción de Google cayó un 9% en un solo dia cuando apuró un evento de AI y no porque “hubo un error en una demo”.

Lo que el análisis de 280 caracteres resume en “Google perdió un 9% porque una demo salió mal” es no entender el porque Google no habia presentado hasta ahora una interfaz conversacional como ChatGPT para aumentar los resultados: esto cambia la dinamica de negocio y no hay incentivos para innovar si canibalizas tus ingresos mientras cambia tu estructura de costos

  • La estructura de costos de una interfaz conversacional sobre inteligencia artificial es diferente a la del modelo actual de los buscadores (aka: 10 blue links).
  • El modelo de ingresos cambia radicalmente versus la actual integracion de links de anuncios arriba y abajo de los resultados en varios sentidos:
    • La interfaz es diferente entonces el espacio “above the fold” cambia; la integracion/mezcla de SERP/SEO cambia
    • pero mas estratégico es que el usuario ahora espera algo mas que “un link con la informacion” y nadie hizo pruebas a escala de esos nuevos modelos.

Pero entonces ¿con tantas preguntas porque el mercado le pego a Google este golpe que borró $100b en una hora? porque esperaban que se presente algo parecido al nuevo Bing que presentó Microsoft y Google no lo hizo… repito: no lo hizo porque pese a tener talento y tecnologia no tenia incentivos para probar algo que pudiera canibalizar su modelo de negocios por eso hay otro jugador, Microsoft, probando cosas nuevas.

¿Porque hablo de Microsoft si empece hablando de la caida de 9% en un dia de $GOOG o citando a Steve Jobs? porque la realidad es que en algun momento todos los negocios necesitan cambiar… y los mejores ejemplos son los dos “abuelos” del mercado de las Big Tech: Apple y Microsoft tienen 47 años y ya sufrieron reinvenciones.

Apple presento el iPhone en 2007 sabiendo que iban a volver obsoleto al iPod aun cuando era el motor de su crecimiento; Microsoft se enfoco en la nube aun cuando era su core eran los servers… “If you don’t cannibalize yourself, someone else will.”

Enter Satya y su experiencia en canibalizarse antes que lo canibalice otro, que explica MUY bien en su entrevista con The Verge sobre “The New Bing”:

Like all things, one of the things that I think about is, in platform shifts, two things have to happen. You have to retool pretty much every product of yours, so you’ve got to rethink it, whether that’s the way you build it or what its core features are. It’s like how Microsoft had to pivot for the cloud to rethink exchange. It was not an exchange server. It was exchange as a service or what we had to do with our server infrastructure. We had to rebuild, essentially, a new core stack in Azure. So every time, with transitions, you have to essentially rewrite it. That’s how I think about it. The second thing is you also have to think about the business model. Sometimes these transitions are pretty harsh. I’ll tell you, the last transition from having the high share server business with great gross margins to saying, “Hey, the new business is called cloud, and it’s going to have one-fourth the margins” as the new news was pretty harsh, but we made it.

Satya Nadella explicando las dos caras de un cambio de paradigma.

Pero ¿hace bien el mercado en apostar contra Google? honestamente no lo creo… Google tiene el talento, tiene el market share y sobre todo tiene a Chrome y Android para apalancar todo; ojala hoy tengan algo de miedo y dejen de alocar experimentos interesantes como Google Duplex a una parte de Assistant.

OpenAI, ChatGPT y la era hibrida de copilotos.

El experimento del Juez Juan Manuel Padilla Garcia, de Colombia, es de los mas interesantes que he visto con OpenAI en el mundo real, cuando el Juzgado 1º Laboral del Circuito de Cartagena, usó ChatGPT para dictar sentencia y lo fundamentó en el documento… usandolo como copiloto.

“…extender los argumentos de la decisión adoptada, conforme al uso de inteligencia artificial (IA). Por consiguiente, se procedió a incluir apartes del problema jurídico planteado en la presente sentencia y se ingresó en el aplicativo https://chat.openai.com/chat” … “El propósito de incluir estos textos producto de la IA no es en manera alguna reemplazar la decisión del Juez. Lo que realmente buscamos es optimizar los tiempos empleados en redacción de sentencias, previa corroboración de la información suministrada por IA”

Fundamentos: Juez Juan Manuel Padilla Garcia, P5 y 7

En el link está el documento completo del juez pero la base es simple de entender; estos modelos (LLM y Transformers) son herramientas que necesitan corroboración de un humano para darle sentido a su respuesta.

inteligencia artificial Maschinenmensch

La base de todo es simple: la respuesta que uno ve en ChatGPT o cualquier otro modelo, se genera por un modelo estadístico que decide que palabra (o símbolo) va luego de otra, sin entrar en valoración del sentido de lo que esta entregando.

Eso es lo que genera mucha confusión alrededor de estos transformers: Sus respuestas hacen sentido, son rápidas y son asertivas pero no están orientadas a certeza sino a modelos estadísticos.

Por eso me gusta el concepto de “copilotos” como una herramienta que ayudan al piloto con datos y background que uno puede tomar para mejorar el producto final… el segundo punto que hay que entender que pocas veces esto es un one-off; hay valor en refinar prompts, en follow ups, en buscar hacks y así dandole verdadero valor al concepto conversacional.

Por eso Stack Overflow se prohibe copiar respuestas de ChatGPT sin verificacion y errores en sus respuestas matemáticas y por eso hay gente horrorizada de verlos sin entender las limitaciones que estos modelos tienen y no terminan de entender que estamos en una era hibrida de IA

Explainability and comprehensibility of AI are important requirements for intelligent systems deployed in real-world domains. Users want and frequently need to understand how decisions impacting them are made. Similarly it is important to understand how an intelligent system functions for safety and security reasons. In this paper, we describe two complementary impossibility results (Unexplainability and Incomprehensibility), essentially showing that advanced AIs would not be able to accurately explain some of their decisions and for the decisions they could explain people would not understand some of those explanations.

Roman V. Yampolskiy – Unexplainability and Incomprehensibility of AI