AI: de LLMs y SLMs; eficiencia y ubicuidad

Con la demo de ChatGPT ya quedó claro que los LLM (modelos de lenguaje grandes) tienen nuestra atecion por sus capacidades en el procesamiento del lenguaje natural. Sin embargo, su tamaño y los recursos que requieren limitan su acceso y por eso es que es dificil ver nuevos jugadores en ese mercado y ahí es donde hay un espacio súper interesante para explorar los SLMs o modelos de lenguaje pequeños como alternativa.

¿Qué son los Modelos de Lenguaje Pequeños?

Continuar leyendo “AI: de LLMs y SLMs; eficiencia y ubicuidad”

Apple volviéndose IBM

Hay un viejo dicho que dice que nadie fue despedido por comprar IBM, porque era la única apuesta segura: los blindaba de las repercusiones si algo había salido mal ya que presumiblemente tenían la reputación y Apple era, ese momento, la innovación y el disruptor; sin embargo el tiempo pasa para todos y hoy…

En una era donde los dispositivos se convierten en integrales para la era de la inteligencia artificial; vemos al mercado aplaudir cosas que son intrigantes:

I would argue that the improved autocorrect in iOS 17 is a major feature — in my use it’s clearly an improvement, and autocorrect is a feature used every day, in almost every app, by almost every iOS user. It’s one of the most used and most important features in the entire OS. I’d also argue that Apple has done some terrific work with AI features in Photos. The search feature in Photos works really well.

Gruber en “Apple AI”
Continuar leyendo “Apple volviéndose IBM”

BloombergGPT: un modelo de IA financiera

Si algo distinguió a Bloomberg del resto de los proveedores de información financiera fue que siempre estuvo al frente del uso de nueva tecnología; ahora su terminal suma un modelo como ChatGPT pero entrenado y orientado puramente a finanzas.

Bloomberg GPT o Inteligencia artificial en la terminal de bloomberg

Con las ventajas de estos modelos para dominios especificos de conocimiento, Bloomberg tiene un leverage competitivo gigantesco: entrenaron a BloombergGPT como un modelo financiero con su dataset propietario de 363.000 millones de tokens de documentos financieros en inglés, y lo aumentaron luego con un dataset similar en tamaño pero público; por eso los benchmarks de NLP dan números gigantescos.

Los tokens son las unidades básicas de texto o código que un LLM AI utiliza para procesar y generar lenguaje. Los tokens pueden ser caracteres, palabras, subpalabras u otros segmentos de texto o código, dependiendo del método o esquema de tokenización elegido.

LLM AI Tokens en Microsoft Learn.

Ahora, con este poder de fuego mejorando las herramientas para escanear noticias, datos, análisis de sentimiento y aplicardo en el sentido general de las preguntas que se pueden generar con lenguaje natural… le abre a Bloomberg un mercado gigante con casos de uso que no termino de imaginar.

Y esto es un gran paso para entender el peso de estos modelos en dominios de conocimiento específico. Qué mejor que finanzas para verlos claramente donde los resultados son blanco o negro, positivo o negativo.

OpenAI, ChatGPT y la era hibrida de copilotos.

El experimento del Juez Juan Manuel Padilla Garcia, de Colombia, es de los mas interesantes que he visto con OpenAI en el mundo real, cuando el Juzgado 1º Laboral del Circuito de Cartagena, usó ChatGPT para dictar sentencia y lo fundamentó en el documento… usandolo como copiloto.

“…extender los argumentos de la decisión adoptada, conforme al uso de inteligencia artificial (IA). Por consiguiente, se procedió a incluir apartes del problema jurídico planteado en la presente sentencia y se ingresó en el aplicativo https://chat.openai.com/chat” … “El propósito de incluir estos textos producto de la IA no es en manera alguna reemplazar la decisión del Juez. Lo que realmente buscamos es optimizar los tiempos empleados en redacción de sentencias, previa corroboración de la información suministrada por IA”

Fundamentos: Juez Juan Manuel Padilla Garcia, P5 y 7

En el link está el documento completo del juez pero la base es simple de entender; estos modelos (LLM y Transformers) son herramientas que necesitan corroboración de un humano para darle sentido a su respuesta.

inteligencia artificial Maschinenmensch

La base de todo es simple: la respuesta que uno ve en ChatGPT o cualquier otro modelo, se genera por un modelo estadístico que decide que palabra (o símbolo) va luego de otra, sin entrar en valoración del sentido de lo que esta entregando.

Eso es lo que genera mucha confusión alrededor de estos transformers: Sus respuestas hacen sentido, son rápidas y son asertivas pero no están orientadas a certeza sino a modelos estadísticos.

Por eso me gusta el concepto de “copilotos” como una herramienta que ayudan al piloto con datos y background que uno puede tomar para mejorar el producto final… el segundo punto que hay que entender que pocas veces esto es un one-off; hay valor en refinar prompts, en follow ups, en buscar hacks y así dandole verdadero valor al concepto conversacional.

Por eso Stack Overflow se prohibe copiar respuestas de ChatGPT sin verificacion y errores en sus respuestas matemáticas y por eso hay gente horrorizada de verlos sin entender las limitaciones que estos modelos tienen y no terminan de entender que estamos en una era hibrida de IA

Explainability and comprehensibility of AI are important requirements for intelligent systems deployed in real-world domains. Users want and frequently need to understand how decisions impacting them are made. Similarly it is important to understand how an intelligent system functions for safety and security reasons. In this paper, we describe two complementary impossibility results (Unexplainability and Incomprehensibility), essentially showing that advanced AIs would not be able to accurately explain some of their decisions and for the decisions they could explain people would not understand some of those explanations.

Roman V. Yampolskiy – Unexplainability and Incomprehensibility of AI