IA – Denken Über

OpenAI y las oportunidades inevitables

Esta semana el uso de inteligencia artificial en el cine es parte del reclamo en la huelga de los escritores, también el uso de inteligencia artificial en la creación de las animaciones en Secret Invasion desató quejas y amenazas de más huelgas…

Esta misma semana Carlos Banon, un arquitecto multi-premiado, decidió crear un curso para “expandir conceptos arquitectónicos con comandos de Midjourney y desarrollar skills de control de geometría, materiales y creación de atmósferas usando stable Difussion y ControlNet”

It was the best of times, it was the worst of times, it was the age of wisdom, it was the age of foolishness, it was the epoch of belief, it was the epoch of incredulity, it was the season of light, it was the season of darkness, it was the spring of hope, it was the winter of despair.
Charles Dickens, A Tale of Two Cities

Esta misma semana salió un estudio donde se muestra que el 92% de los developers de software usan Copilot y “Over 80% of developers believe that AI-powered coding tools can enhance team collaboration, improve code quality, speed project completion and improve incident resolution”

Mientras una industria abraza una tecnología como un copiloto que la ayuda a mejorar sus capacidades creativas (evitando lo repetitivo) y otra industria trata de buscar el espacio donde se puede mejorar (la idea de crear atmósferas en arquitectura usando motores OSS!) hay otras que tratan de frenar el uso de la tecnología y frenar a los que la están usando.

El cambio es inevitable… pero estas herramientas son un copiloto y amplían tu capacidad creativa y de protototipadp liberando espacio repetitivo y solitario.

La carta abierta con la inteligencia artificial

Ayer se conoció una carta abierta con mas de mil firmas pidiendo que se abra un período de “freno” al desarrollo y entrenamiento de modelos de inteligencia artificial (LLM) superiores a GPT-4 por seis meses porque “no se entienden los alcances de esta tecnología”. Los medios corrieron a publicarlo en medio de advertencias sobre el poder de la Inteligencia Artificial General; en Linkedin varios gurús hablaron de un apocalipsis mientras otros pedimos calma.

Hoy se descubrió que la carta estaba financiada por Elon Musk, que en las “mil firmas de científicos e investigadores” había muchas falsificadas y que otros tampoco estaban de acuerdo con el texto final.

Hay una carta pidiendo que “frenen el desarrollo de nuevos modelos de LLM por 6 meses” … y hay luditas convencidos del valor de la misma; pero:

A) hay interesados que necesitan tiempo para “acercarse” a los LLM actuales.
B) en serio imaginan que se puede frenar la tecnología?
— Mariano Amartino (@amartino) March 30, 2023

Primero lo importante: ¿tiene sentido pedir que se frene el avance de los LLM?

Realmente no tiene sentido, arrancando por el hecho de que un modelo de linguistico grande (LLM) está muy lejos de ser una inteligencia artificial general capaz de sustituir y dominar a los humanos; de hecho incluso los firmantes de esa carta lo reconocen con lo que de movida no tiene sentido el pedido.

Segundo, ¿están pidiendo que “el Estado establezca una moratoria de seis meses”? ¿Qué aplicabilidad real tiene el pedido de algo a escala mundial cuando ni siquiera se pueden regular conceptos básicos como la exportación de tecnología a “estados rebeldes”?

Pero más allá de eso los “threat actors” que descubrieron en esto una nueva herramienta para sus intereses ¿van a frenar porque lo piden académicos? Si era así de simple, deberían pedir que se dejen de cometer crímenes :)

¿Porque Elon financió esta carta?

En 2016 cuando se funda Open AI, Elon Musk estaba en el grupo fundador y se comprometió a poner 1.000 millones, pero en 2018 se imaginó que el podía hacer mejor trabajo que el equipo liderado por Sam Altam entonces quiso tomar control de la iniciativa.

Le dijeron que no (porque no podia manejar Tesla, Space X y encima OpenAI) y se enojó y retiró la plata que se había comprometido a poner en el proyecto. Hoy, casi 5 años después, se arrepiente y decide crear un nuevo startup que compita con OpenAI pero necesita tiempo para alcanzarlos. ^{[Link a Semafor]}

Y esta usando Twitter para avanzar su agenda; ahí reside el valor de la apuesta que hizo por la red social.

Pero mas allá de todo, este incidente es clave para entender que estamos en un momento de cambio y que hay muchos intereses tratando de frenar el avance de una herramienta que ya está activa y evolucionando.

Sobrevivir el hype de la IA

Hace ya un tiempo doy una charla/conferencia de que es la inteligencia artificial y como, algunos conceptos que van desde el deep learning hasta el reinforcement learning, son simples piezas en un rompecabezas que hoy está en nuestra vida cotidiana pese a que no le prestemos atención. Y esa es una de las pequeñas magias de la IA, estar cerca sin que lo notes… los ejemplos que uso no siempre son “sin controversias” :P

Este paper de LUCA son unas 13 páginas que expanden mi presentación [no, este paper no es de mi autoría ni nada por el estilo, solo que LUCA es una unidad de Telefonica y vaya esto como disclaimer :P] que les recomiendo leer porque es claro y son apenas 14 páginas que matan bastantes mitos :)

Surviving the AI Hype – Fundamental concepts to understand artificial intelligence from LUCA Data-Driven Decisions

El problema con los bots en medios: los humanos

chatbot-1-930x760

“People still want bots to be bots“. Son interesantes las conclusiones que extrae Martin Belam, responsable de nuevos formatos en The Guardian, tras dos meses de experiencia con So us-chef, un bot de Facebook que recomienda recetas según lo que haya en tu nevera.

La promesa de los bots en los medios lleva un tiempo estancada en ese terreno incómodo que se encuentra “esto promete” y “sí, pero no sé cómo hacerlo”. Tras la aparición de las primeras plataformas para bots en aplicaciones de mensajería (Facebook Messenger y Telegram son los principales exponentes, pero también hay algo más limitado en Slack y en Kik) fueron varios medios los que se subieron al carro de manera entusiasta. Techcrunch realizó una suerte de experimento con Chatfuel, ya inactivo o directamente cerrado/desactualizado, y Forbes lo propio en Telegram, pero también lo tiene cerrado y en estado de “revisión”.

¿Cuál es el problema? La teoría es, en apariencia, sencilla: coges el canal, la aplicación de mensajería, coges tu contenido, producido de manera orgánica por el medio y a correr. La práctica, como apunta Belam, es en realidad muchísimo más compleja. Es una práctica que, irónicamente, tiene poco que ver con los bots en sí, con su complejidad o naturaleza misma, sino con los humanos.

Esperamos que un bot, una máquina controlada por una IA ciertamente primitiva, se comporte de manera muy similar a un humano precisamente porque lo encontramos en un contexto, nuestra aplicación de mensajería favorita, donde interactuamos exclusivamente con humanos. En el momento en el que la idea se desvía de esa particularidad, aparecen los problemas.

En un bot de medios parecen críticos aspectos como:

Conversación: dicho así parece obvio pero el tono de un bot tiene que ser conversacional. Es importante porque excluye mecánicas como “pegar titular” + “pegar entradilla” (varios bots de medios ya han caído en esto). Al final, cuando se cae en eso no solo se convierte en una especie de Twitter en una realidad paralela sino que para dicha mecánica ya hay una función mucho más adecuada: los canales de Telegram. Da que pensar, también, sobre la inmensa mayoría de medios que ponemos Titular+link+imagen en Twitter y ya.
Pero no tanto: Belam apunta que, en sus pruebas, observaron que cuando las respuestas predefinidas eran muy encorsetadas y robóticas el engage caía, pero cuando se iban al extremo opuesto, demasiado informal y conversacional, ocurría algo similar. Curioso. Encontrar el tono correcto probablemente lleve algún tiempo, pero experimentos como el de Quartz con su app parecen buenos comienzos.
La delgada línea entre la información y el spam: un bot en una aplicación de mensajería es algo realmente íntimo, una fracción de IA entre un universo de conversaciones orgánicas generadas por humanos. Matrix en un mundo de Neos. Y del mismo modo que se acaba por silenciar o directamente salir de ese grupo de WhatsApp que no para de sonar, en The Guardian observaron cómo tenía más valor enviar alertas a una hora determinada (como si fuesen boletines) en función de la ubicación del usuario y su huso horario en lugar de abrasarlos con breaking news como puede ocurrir en Twitter (hay un claro ejemplo: el bot de CNN hace precisamente eso).

Existen muchos elementos en los bots para medios (aquí hay otro buen texto sobre su aplicación y uso en marcas) que merecen la pena ser revisados y estudiados con cautela: el tono, la longitud, el formato, la temática, la frecuencia de publicación… elementos que, irónicamente y no hace tanto, también se evaluaban a la hora de aplicarlos en los medios digitales.

Google Assistant, la inteligencia pervasiva de Google

“Pensamos en este asistente como una experiencia ambiental que se extiende a través de dispositivos, estará en sus teléfonos, en los dispositivos que usen, en sus autos y en sus casas.” Sundar Pichai CEO de Google, en Google IO 2016 hablando de Google Assistant

Google I/O está sucediendo en estos momentos pero la demostración de Google Assistant y Google Home al mismo tiempo que Allo como mensajero y su integración con el lenguaje natural es la forma de llevar la inteligencia artificial de Google a la vida cotidiana y es, más allá de los problemas que pueda tener su implementación, simplemente impresionante.

Si uno se queda con la demo que se vio, que es muy similar a Google Gboard es interesante porque parece tener no sólo un nivel más de entendimiento que los “robotic bots” que vimos en las demo de Facebook o Microsoft sino que su integración con aplicaciones de terceros y también con hardware de terceros de forma casi nativa (aprovechando Android como plataforma) lo hizo parecer mucho más natural… si, ya se que es una demo pero es una demo ambiciosa.

Ahora, el entendimiento del contexto sumado al “always on” que se testeó con Google Now, nos da una inteligencia transparente o pervasiva que es capaz de entender que si estás frente a al Cloud Gate y preguntás “¿Quien diseñó esto?” estás hablando de ese objeto y no del Millenium Park lo cual parece ¿mágico? pero es simplemente un avance impresionante en IA.

Si extendemos eso a Google Home como interfaz de Google Assistant y es capaz de entender multiples usuarios o perfiles que interactúan con Google y no con “una cuenta de Google” como pasaba hasta ahora es una verdadera pasada… y su primer gran desafío ¿como integrar UNA inteligencia a un ambiente multipersona con UNA sola interfaz? lo que no es fácil y nos lleva al segundo desafío ¿como definen que todo lo que se habla es público o se puede responder en público? que nos lleva a otro desafío ¿como se continúan conversaciones cuando son diferentes sujetos los que interactúan en un ambiente con diferentes dispositivos en una sola línea de tiempo? y finalmente ¿como hacer esto amigable y no un “robotic robot” como estamos acostumbrados? Son desafíos maravillosos!

Wired: Google's new encrypted apps are better than nothing. https://t.co/swEGmwmPZG pic.twitter.com/jpWoVxr5KV

— Christopher Soghoian (@csoghoian) May 18, 2016

Más allá de todos los debates que esto debería generar y no parece preocupar demasiado, repito ¿como definen que todo lo que se habla es público o se puede responder en público o es un query para alimentar sus sistemas de entrenamiento? porque esto es clave para que ese mundo ideal de información constante, contextual, transparente y pervasiva sea una realidad.

Viv y los nuevos asistentes personales

Ayer en TechCrunch Disrupt, el co-fundador de Siri,Dag Kittlaus presentó Viv, un asistente personal basado en Inteligencia Artificial que muestra bastante bien el porque Siri fue una primer generación y como el modo de interacción puede cambiar radicalmente; no sólo en cuanto a tipear texto versus hablar sino al hecho de no pensar siquiera en las búsquedas como tales ni en los proveedores de información como tales… VIV, conceptualmente, me hace acordar a Samantha de HER ^[1]

Si miran el video para ver la inteacción pueden arrancar directo en el minuto 3:40 y van a ver lo que denominan “conversational commerce” donde en lneguaje natural puede decir algo como “conseguime un lindo cuarto en Palm Springs para el fin de semana del dia del trabajador” y automáticamente traducirlo en una serie de ofertas de Hotels.com para ese fin de semana puente, en Palm Springs y con algo de entrenamiento, basado en tus historial/gustos… eso es un asistente y no un ~~estúpido~~ limitado Siri que sirve para mostrarme el tiempo en Madrid.

La idea de a) Un asistente, B) Personalizado, C) Multidispositivo, D) Abierto a desarrolladores… puede dejar a Google relegado, puede dejar a las apps relegadas y en vez de pensar en las 7 apps que tengo para tomar taxis, Uber o Lyft.. solo pido un auto y me llega sin siquiera pensar en quien es mi proveedor.

Grubhub chief executive Matt Maloney said he rushed to sign up with Viv two years ago, impressed with the idea of allowing consumers to perform different activities without having to toggle between services. “No one has been able to say, ‘I want the movie ticket, and the bottle of wine, and some flowers on the side’ — all in one breath,” he said.

El cambio en serio puede ser radical en la estructura actual de uso de internet y móviles en nuestra cabeza; y si VIV se convierte en una “app” o una plataforma multidispositivo la pelea de Microsoft Cortana, Apple Siri, Google Now y Amazon Alexa puede quedar en el olvido…o convertir a VIV en una adquisición billonaria.

Nota: ^[1] dije conceptualmente, no sean literales por favor :)

Los fundamentos del diseño de experiencias

fundamentos del diseño

Excelente infografía de Stephen Anderson sobre los fundamentos básicos para diseñar “experiencias” sean estas desde una aplicación web hasta algo de diseño industrial, la infografía me aprece realmente genial aunque sea de 2009 porque toma en cuenta una frase que resume la misma forma en la que yo creo que el diseño debe darse:

“Todo está relacionado con la Gente, sus Actividades y el Contexto donde esas actividades suceden”

Es tan simple y básico como completo, y les recomiendo leer las consideraciones generales además de descargar la versión de 2mb en PNG o el PDF de 10MB para imprimir