Hoy Matt Garman, el jefe de AWS dijo en voz alta algo que repito en las charlas sobre AI: reemplazar a los empleados junior con herramientas o agentes de inteligencia artificial es una de las ideas más estúpidas que existen.
Si uno analiza como se forma un ecosistema de trabajo, como se arma una carrera, como se desarrolla el talento y hasta los costos organizacionales... lo único que estás haciendo es confirmar una tesis que sostengo hace tiempo: usar AI para “sacar del medio” a los juniors es destruir a largo plazo la base del talento de cualquier organización.
El pipeline de talento se rompe: Un junior necesita aprender haciendo. Es en esa etapa donde se equivocan, reciben feedback y crecen para convertirse en seniors. Si cortás esa experiencia porque la “reemplaza” la AI, estás matando el semillero del que salen los futuros líderes.
Rompés la estructura de costos del talento: El modelo natural es que juniors hagan tareas más operativas mientras crecen, liberando a los seniors para trabajos de mayor impacto. Si eliminás juniors, los seniors terminan atascados en tareas que la AI todavía no puede resolver sola. Resultado: ineficiencia y costos más altos.
Perdés diversidad de perspectivas: No es solo cuestión de edad: los juniors suelen venir con nuevas herramientas, marcos mentales distintos y otra forma de ver los problemas. Quitar esa capa del equipo empobrece la toma de decisiones y refuerza la homogeneidad.
Son los más nativos en AI: El talento joven no necesita que lo convenzas ni le armes talleres para usar herramientas de inteligencia artificial. Ya las adoptan de forma natural. Reemplazarlos es perder el grupo que mejor y más rápido incorpora la AI en los procesos.
Es cierto, los agentes y los modelos que estan apareciendo día a día pueden hacer mil tareas "básicas" y soy el primero en pensar que se pueden optimizar y reemplazar procesos y talento (hey, es algo natural como parte del progreso) pero creo, más allá del interés corporativo de AWS, que la mejor apuesta es potenciar el talento joven con herramientas y agentes de IA en vez de reemplazarlo directamente.
Cada vez más conocidos me cuentan que usan “charlas” con ChatGPT para atravesar un mal momento: desde una ruptura sentimental hasta la muerte de un ser querido o simples interacciones diarias. Y no puedo dejar de decirles que es un error.
Un analista humano puede incomodarte con preguntas duras, confrontarte con verdades incómodas o simplemente decirte: “estás equivocado”. Esa fricción —aunque molesta— es parte esencial del crecimiento. Un chatbot, en cambio, tiende a validar casi todo lo que decís. Y ese “confort” constante puede ser el inicio de un problema mucho mayor.
En los últimos dos años, gran parte de la conversación sobre IA se ha centrado en el ascenso de ChatGPT y en los supuestos errores de Google. La narrativa dominante, en la que incluso entré a veces, pinta a ChatGPT como el first mover que tomó la delantera mientras Google dudaba y perdía terreno por la tibieza de Sundar Pichai cuando lo comparabas con la decisión de Satya Nadella y otros. Y, sobre el papel, esa historia es tentadora, pero.
Es innegable que ChatGPT logró una tracción impresionante. Lanzado en noviembre de 2022, alcanzó los 100 millones de usuarios en apenas dos meses — la curva de adopción más rápida en la historia del consumo digital. Desde entonces, OpenAI ha mantenido un ritmo de lanzamientos vertiginoso: GPT-4, GPT-4 Turbo, GPT-5, capacidades multimodales, voz, memoria, agentes, versiones enterprisa… todo en menos de tres años. Todo esto respaldado por un músculo financiero sin precedentes: más de 13.000 millones de dólares de Microsoft y unos 4.000 millones comprometidos por Softbank. El resultado: alrededor de 700 millones de usuarios activos semanales a mediados de 2025 y una posición cultural en la que, para mucha gente, “IA” es sinónimo de “ChatGPT”.
En 1957, ocho jóvenes ingenieros, conocidos más tarde como los “Traitorous Eight”, tomaron la decisión que dio origen a Silicon Valley: abandonaron Shockley Semiconductor por desacuerdos con su fundador, fundaron Fairchild Semiconductor y no solo marcó el nacimiento de la industria de los semiconductores, sino que también sentó las bases de una nueva era con empresas como Intel y AMD.
Hace 2 días Microsoft y Google decidieron incluir gratuitamente sus versiones de AI en sus aplicaciones de productividad, léase Microsft 365 y Google Wokspace, mientras aumentaron el precio base en menos del 10%... esta es, literalmente, una carrera hacia el abismo donde cada uno busca entrar al mercado de otro solo con precio.
Google: "A customer using the Workspace Business Standard plan with a Gemini Business add-on previously paid $32 per user, per month. Now, that same customer will pay just $14 per user, per month — only $2 more than they were paying for Workspace without Gemini."
Microsoft: "bringing Microsoft Copilot and Microsoft Designer to Microsoft 365 Personal and Family subscribers in most markets worldwide" ... "the prices of Microsoft 365 Personal and Family in the US for the first time since its release by $3 USD per month"
La primer lectura es que; sacaron del juego a cualquier otro jugador del mercado de "software de productividad" que quiera agregar funciones de AI porque los únicos con la espalda financiera para atender un par de centenas de millones de usuarios son Microsoft, Google, Amazon y Meta... y estos últimos dos no cuentan aca.
Si de Paypal salieron varios emprendedores que se convirtieron en estrellas en Internet (desde Elon Musk hasta Roelof Bohta o Dave Mclure, Peter Thiel y tantos otros) creo que de OpenAI están saliendo tantos empleados que fundan empresas que están dominando nichos que recien arrancan en este landgrab que va a dejar atrás a los de Paypal.
Solo estas 15 empresas fundadas por ex empleados de OpenAI ya levantaron casi 15.000 millones de dólares de fondos de inversión y estan tomando verticales tan específicos que con sus backgrounds de research y el capital que reciben... van a sacudir a algunos de los grandes que conocemos hoy.
Me pareció interesante leer este paper de los investigadores de Apollo Research donde evaluaron diferentes modelos de IA para ver si participarían en "maquinaciones" más simple si intentarían engañar o manipular a sus desarrolladores para lograr un objetivo específico.
Pero más allá de los resultados me pareció un paper interesante porque muestra los desafíos que existen al momento de entrenar un modelo de AI, encontrar los patrones para crear "guardas" de seguridad y/o entender como suceden estas cosas en lo que para muchos es una gran caja negra donde no se sabe con seguridad que es lo que pasa dentro.
Pasamos de los locos a los vagos en un abrir y cerrar de ojos... de acuerdo a la publicidad de Apple Intelligence, aunque siendo justos de Google tambien, está bien: hacer nada y esperar que un algoritmo magico nos resuelva todo, fijense estos videos de campaña.
Honestamente, creo que esto es lo que les pasó a los creativos que no usaron jamás ChatGPT o Claude o Apple Intelligence entonces no entienden todo lo que estas herramientas pueden hacer y, de hecho, hasta los que critican estas herramientas reconocen que "I do not like Generative AI"
O no trabajar y enviarle un mail a un jefe explicandole lo genial que es y como su liderazgo nos emociona
O simplemente olvidarte el cumpleaños de tu marido y regalarle un "recuerdo" que inventa Apple Photos
Pasamos de "los crazy ones" a los "lazy ones"... podrian enfocarse en tantas otras cosas. pero realmente escribir una carta a tu idolo, explicando lo que querés de tu vida y porque lo admiras, es algo que creo que jamás le pediría a un algoritmo
“Obviously there are special circumstances and people who need help, but as a general ‘look how cool, she didn’t even have to write anything herself!’ story, it SUCKS. Who wants an AI-written fan letter??”
“Here's to the crazy ones. The misfits. The rebels. The troublemakers. The round pegs in the square holes. The ones who see things differently. They're not fond of rules. And they have no respect for the status quo. You can quote them, disagree with them, glorify or vilify them. About the only thing you can't do is ignore them. Because they change things. They push the human race forward. And while some may see them as the crazy ones, we see genius. Because the people who are crazy enough to think they can change the world, are the ones who do.” ― Steve Jobs
Recuerdo en The Matrix cuando Neo llega a conocer a The Oracle: ahí se da cuenta de que no hay una cuchara, sino solo la representación mental de una cuchara. Es entonces cuando comprende que la realidad no es como la percibimos, sino una interpretación que hace nuestro cerebro: lo mismo nos pasa cuando imaginamos que un LLM alucina o que entiende inherentemente lo que le preguntamos.
La cita de The Matrix funciona aquí como una metáfora clave: “No existe la cuchara” en el sentido de que el modelo no tiene ninguna percepción o concepto inherente de la realidad; está imitando patrones estadísticos sin una comprensión o creencia subyacente. Por eso en lugar de tratar de “ver la cuchara” (o una realidad concreta), un LLM se limita a procesar y reproducir correlaciones.
El “fallo” en el sistema es de nuestra percepción humana cuando se espera una precisión o intencionalidad que el modelo no puede ofrecer, no es un fallo del modelo.
Creo que el ecosistema inversor/emprendedor de la region (Latam+España) no entiende el momento o espacio en el que está en temas de Inteligencia Artificial especialmente en GenAI y, quizás, analizar los 100 papers más citados en el ámbito académico ayude a explicar dónde estamos parados para así entender dónde podemos encontrar oportunidades de inversión para crecer.
Version simplificada del Stack (lo del medio podes pensarlo de varias maneras)
¿Por qué los 100 papers más citados? [fuente] Por dos razones principales: por un lado, el momento actual de la inteligencia artificial generativa es el de transferencia tecnológica, de R&D y academia a corporaciones y startups. Y, por otro lado, porque el avance de las corporaciones sobre la investigación académica se está dando a pasos agigantados por la cantidad de capital necesario para desplegar estas soluciones.
Perplexity está empeñado en crear "el próximo Google", o al menos finalmente sacarnos del ridículo paradigma de los 10 links azules como la mejor forma de buscar en Internet; pero es interesante que esto implica que uno puede "dialogar" con el LLM, que es parte del buscador, mantener las búsquedas en memoria e indagar mucho mas en cualquier búsqueda que hagas, entre otras. Esto tiene, al menos, dos nuevas derivadas:
Es mucho más interesante "investigar que buscar" con lo que para un dato puro termino volviendo a Google, pero para buscar cuando estoy armando o creando termino dialogando con Perplexity.
Si podés usarlo para profundizar, utilizar tus propios documentos o papers suma mucho a este trabajo.
Por eso que aparezcan los Perplexity Spaces tiene sentido y parece un paso natural; los Perplexity Spaces son espacios donde podés agrupar tus búsquedas en la web con tus archivos personales e invitar a terceros a sumarse a ese "centro de colaboración" donde tus búsquedas son híbridas (porque agrupan data pública y data tuya), grupales (porque podés invitar a terceros) y colaborativas(porque todos suman al espacio).
En estas dos semanas vimos noticias sobre el uso de energía nuclear por parte de Microsoft, Amazon y Google; todos apostando a la energía nuclear para alimentar la infraestructura necesaria para sostener el crecimiento de GenAI. Microsoft reactivando Three Mile Island; Google y Amazon apostando a los Small Modular Reactors. Y todo esto está empujando una fuente de energía que nunca debió dejarse de lado.
¿Por qué perdió apoyo la energía nuclear en este tiempo?
La realidad es que perdió apoyo por una mezcla de factores económicos y una idea falsa de la inseguridad de esta fuente:
Accidentes importantes: los accidentes de Three Mile Island (1979), Chernobyl (1986) y Fukushima (2011) generaron serias preocupaciones sobre los riesgos y consecuencias de las plantas nucleares.
Gestión de residuos radiactivos: cuando se habla de los desechos radioactivos, en general, los medios solo se enfocan en los problemas a largo plazo, en vez de la optimización de uso del combustible nuclear y la innovación para ese manejo.
Altos costos de construcción sumados a la desregulación del mercado: los crecientes costos de construir nuevas plantas nucleares, que a menudo superan miles de millones de dólares, hicieron que la energía nuclear fuese menos atractiva económicamente; al desregularse el mercado y bajar los precios, la energía nuclear fue menos competitiva en algunas regiones, y eso empujó menos inversión y, por lo tanto, menos innovación.
Preocupaciones sobre la proliferación: los temores acerca de que la tecnología nuclear civil pudiera contribuir a la proliferación de armas nucleares aumentaron la inquietud pública.
Un par de temas en los que no quiero meterme son los políticos 1. Repito: Alemania dejó de ser autosostenible y ahora es prisionera del gas de Rusia) 2. El crecimiento de otras renovables con mejor prensa (eg: hidroelectricas y eólicas), especialmente en momentos en los que el foco en cambio climático a veces se torna basado en prensa y no en datos.
IA y Centros de Datos: el rápido crecimiento de la inteligencia artificial y los centros de datos está creando una demanda de electricidad sin precedentes. La Agencia Internacional de Energía prevé que el consumo eléctrico de los centros de datos podría más que duplicarse para 2026, superando los 1,000 teravatios hora.
Electrificación: la tendencia global hacia la electrificación de edificios y vehículos está incrementando aún más la demanda de energía
2. Metas de Energía Limpia
Electricidad sin carbono: la energía nuclear se ve como una solución climática porque los reactores no emiten gases de efecto invernadero, alineándose con los compromisos de las empresas tecnológicas para reducir emisiones.
Limitaciones de las renovables: aún con las inversiones gigantes en energía eólica y solar, hay limitaciones en términos de consistencia y capacidad que la energía nuclear puede subsanar.
3. Estabilidad y Confiabilidad de la Red
Energía de Base: La energía nuclear puede proporcionar una energía de base estable, crucial para mantener la confiabilidad de la red a medida que aumenta la participación de fuentes renovables intermitentes.
Seguridad Energética a Largo Plazo: Invertir en energía nuclear ayuda a las big tech a asegurarse un suministro energético estable y a largo plazo para sus operaciones
4. Avances Tecnológicos
Reactores Modulares Pequeños (SMR): las empresas están invirtiendo en SMRs, que ofrecen ventajas como menores costos iniciales y construcción modular. Estos se consideran más económicos y más fáciles de desplegar que los reactores tradicionales a gran escala.
Otros startups: Terra Power que está ya construyendo su Natrium Plant que supuestamente sale del paradigma del enfriamento por agua para pasar a metales liquidos.
Sumémosle que hay avances con los SMR e inversiones como las de BillG en TerraPower: termina siendo un no-brainer que sean las tecnológicas las que lideren este resurgir sin que esto signifique que el resto de las energías se dejen de lado. De hecho, cuando estaba en MS firmamos un acuerdo gigante con Brookfield enfocado en energía eólica.
All of this matters because the world needs to make a big bet on nuclear. As I wrote in my book How to Avoid a Climate Disaster, we need nuclear power if we’re going to meet the world’s growing need for energy while also eliminating carbon emissions. None of the other clean sources are as reliable, and none of the other reliable sources are as clean. - Bill Gates
En definitiva, la inversión en nuclear, que estamos viendo como una derivada de las necesidades de los datacenters y la inteligencia artificial, es un gran paso adelante para tener complementos a las renovables y que finalmente pasemos a energía verde sin frenar el mundo porque no sabemos salir de la dependencia de viejas tecnologías.
En 1973, Arthur C. Clarke escribió “Perfiles del Futuro: Una Investigación sobre los Límites de lo Posible", donde formuló sus famosas “Tres Leyes”, siendo la tercera la más citada: “Cualquier tecnología suficientemente avanzada es indistinguible de la magia.” Esta frase hoy me persigue, especialmente con el auge de los Modelos de Lenguaje Grande (LLMs) o el uso de ChatGPT. Estos modelos pueden generar resultados que se sienten mágicos, pero no entender el papel que juega el contexto es no entender su esencia misma.
El contexto no es solo una característica; es la base que permite a estos modelos realizar su “magia”.
El contexto en los LLMs se refiere a los diversos tipos de información que el modelo procesa para generar una respuesta relevante y eso incluye al menos 3 divisiones:
La consulta: esto es el texto o consulta que el usuario quiere entender y sirve como el prompt principal para la respuesta del modelo.
Instrucciones del usuario: cualquier directiva específica o guía dada por el usuario, como pedir un resumen, una explicación detallada o un cambio en el tono. Esto incluye que le digas cual es el perfil al que debe apuntar (eg: "soy un arquitecto de 35 años, con 8 de experiencia en diseño de aeropuertos") y que puedes incluir siempre en la consulta.
Conocimiento amplio: la información con la que el modelo ha sido entrenado, incluidos libros, artículos y otras fuentes de datos, que le permite entender el lenguaje, los conceptos y los contextos más allá de la entrada inmediata.
Cuando el LLM genera respuestas, está sintetizando estos elementos, por eso las respuestas generadas suenan coherentes y, sobre todo, relevantes para las expectativas del usuario. Sin aprovechar este contexto, el modelo perdería su capacidad de proporcionar respuestas significativas para tus expectativas o, luego de refinar el "context window", que sean realmente precisas.
“Now you’re looking for the secret, but you won’t find it, because of course you’re not really looking. You don’t really want to know. You want to be fooled.” ― Christopher Priest, The Prestige (citado antes)
Personalizar los LLMs para aprovechar al máximo la entrada inmediata y las instrucciones del usuario es clave para garantizar respuestas relevantes y efectivas. (Nota: obviamente no hablo de personalizar el modelo porque no está a tu alcance). Por ejemplo:
Optimizar la entrada inmediata: puedes ser preciso en la forma en que formulas tus consultas para obtener las respuestas más precisas y enfocadas. En lugar de hacer preguntas vagas, como “¿Qué es la IA?”, intenta algo más específico para que la respuesta salga adaptada a un perfil como el tuyo:
“Explica los beneficios clave de la IA en la salud en términos simples, soy un paciente de 53 años que conoce poco de tecnología.”
Personalizar las instrucciones del usuario: puedes guiar al modelo para que produzca contenido que se ajuste a tus preferencias y las opciones son ilimitadas. Por ejemplo, podrías pedir que se adapte a un formato: “Resume este artículo en 3 puntos”. O a tu conocimiento: “Dame una explicación detallada con términos técnicos”. O a tu necesidad de mimos al ego:
"De todas nuestras interacciones, ¿cuál es una cosa que puedes decirme sobre mí que tal vez no sepa sobre mí?"
Cuanto más refines y personalices tus entradas, mejor podrá el modelo responder a tus necesidades específicas.
Además de mejorar las interacciones con preguntas más precisas, podés personalizar ChatGPT/Claude o MetaAI para que se adapte aún más a tus necesidades.
Por ejemplo, ChatGPT puede recordar detalles de tus conversaciones previas, lo que le permite ofrecer respuestas más relevantes y personalizadas a largo plazo. Podés preguntarle directamente qué recuerda de ti para que borres lo que no te interese o agregues datos o pedirle que te ayude a ajustar la forma en que responde a tus solicitudes.
Por ejemplo, una simple pregunta como “¿Qué sabes sobre mí?” te mostrará la información que ChatGPT ha guardado de tus interacciones previas, brindándote una mayor comprensión de cómo utiliza el contexto para personalizar su asistencia y quizás tengo la ventaja de haber heche una carrera humanistica donde se entiende que:
La importancia del contexto en comunicación es que organiza y da sentido al mensaje. El significado de un mensaje no depende solo de su estructura gramatical, sintáctica o léxica sino también del contexto que acompaña a un enunciado y afecta a su interpretación.
Que lindo futuro nos espera con prompt engineering.
Me gusta NotebookLM por varias razones: primero, porque es una gran muestra de las cosas que se pueden hacer con la IA generativa combinando modelos; luego, porque algunos casos de uso me están sorprendiendo; y finalmente, porque, en cierto sentido, muestra que Google sigue siendo capaz de desarrollar productos interesantes.
¿Qué es y cómo funciona NotebookLM?
Para los que no lo conozcan, NotebookLM (antes conocido como Project Tailwind) es una herramienta impulsada por IA, diseñada para ayudar a los usuarios a organizar, analizar y obtener información de las notas que toman, sean estas propias o documentos que uno sube. También funciona con enlaces que uno ingresa en el sistema y utiliza una combinación de modelos de lenguajes, empleando IA para extraer puntos clave, resumir contenido y generar preguntas o insights… ¡incluso en formato de podcast!
Ejemplo de "podcast" creado con solo introducir la URL de "Inteligencia Artificial" de este blog en NotebookLM
Lo interesante es cómo funciona. El proceso que usa NotebookLM de Google para transformar contenido escrito en conversaciones de audio es fascinante, porque combina partes ya vistas y "estandarizadas" con nuevas ideas, especialmente en edición. Todo comienza cuando subís tus documentos - pueden ser notas, documentos en PDF o enlaces como en el ejemplo anterior.
Cuando subís el contenido, Google con su IA (usa el modelo Gemini 1.5 Pro) analiza tu texto, procesándolo y "entendiendo" no solo las palabras sueltas, sino también el contexto y los puntos clave de todo el documento.
Luego, la IA crea un "script" donde transforma/convierte ese análisis de tu texto en un diálogo (usando otro modelo de "texto a tokens") entre dos personas.
Finalmente, la inteligencia artificial sintetiza ese resultado en dos voces (usando otro modelo más, Soundstorm) e incluye risas, interrupciones, pausas pensativas, muletillas sutiles y lo "publica"... con una atención al detalle sorprendente.
Todo esto en menos de 10 minutos. ¿Qué tiene de interesante? En cuestión de minutos, tu texto se transforma en un podcast de 10-15 minutos que suena natural y hace que tu contenido sea más accesible. Básicamente, convierte tu material escrito en una charla de audio que presenta la información de manera clara y entretenida.
Principios clave de diseño
¿Por qué me pareció interesante esto como muestra de que Google Labs puede crear productos virales y, potencialmente, interesantes? Dos razones bastante simples:
Enfoque AI-First: NotebookLM fue diseñado desde cero con capacidades de IA como núcleo, reimaginando cómo podría ser un software de toma de notas con un potente modelo de lenguaje como base.
IA Basada en Fuentes (Source-Grounded AI): una característica distintiva de NotebookLM es que permite a los usuarios "anclar" el modelo de lenguaje en fuentes y documentos específicos proporcionados por el usuario. Esto crea un asistente de IA personalizado que está versado en la información relevante para las necesidades del usuario y donde el potencial de alucinar es menor.
De nuevo, Google no metió herramientas de IA en Google Keep, sino que creó algo desde cero basado en herramientas de IA en menos de dos meses. Y más allá de que esto pueda terminar en el Google Graveyard, es una gran prueba de concepto que muestra que la información puede hacerse más accesible.
Información o educación más accesible
Esta tecnología representa un avance muy significativo en la forma en que podemos consumir y compartir información. Aunque la primera lectura podría ser cínica y decir "estamos convirtiendo texto en snacks" o "si lo hace una IA es que es simple", la realidad es que las aplicaciones potenciales abarcan varios campos, desde la educación y los negocios hasta hacer que la información sea más accesible para personas con diferentes preferencias de aprendizaje o problemas de visión.
No pienso solamente en convertir capítulos de libros en discusiones de audio para estudiar mejor, que es, tal vez, lo primero que viene a la mente, sino en buscar nuevas formas de escuchar tu contenido y crear una narrativa nueva (de hecho, tengo ganas de hacer unas pruebas con decks de startups... ¡pueden enviarlo para que lo haga! 😄).
¿Cómo seguirán? Asumo que expandirán esto a otros idiomas, personalizarán las voces o ajustarán la duración, o tal vez con ideas que ni se me hayan ocurrido.
Estamos en un momento interesante de la Inteligencia Artificial, todos los días hay titulares que dicen “La burbuja de la IA está llegando a un punto de inflexión” o "La Revolución de la Inteligencia Artificial pierde fuerza" y muestran críticas interesantes, pero dejan de lado noticias clave como el desarme de Character.AI o Inflection.AI o, aún más interesantes como el momento de NVIDIA en la bolsa.
“Now you’re looking for the secret, but you won’t find it, because of course you’re not really looking. You don’t really want to know. You want to be fooled.” ― Christopher Priest, The Prestige
Creo, honestamente, que hay una conjunción de 3 temas: (a) Falta de conocimiento real sobre IA al punto que no separan entre LLMs/GenAI e Inteligencia artificial como campo; (b) Un pico de expectativas sobredimensionadas especialmente por varios inversores y (c) Una necesidad de maravillarse sin preguntar realmente que hay atrás de todo esto para luego descartarlo y pasar al siguiente "fad".
¿Estamos realmente viendo el impacto de AI que tanto se promete? Comienzan a aparecer indicios de que la gente está cansada de leer cosas genéricas sobre casos de uso de AI, o quizás sólo yo estoy cansado de leer templates que no muestran diferenciación con datos o impacto concreto:
“Leveraging non-specialized Large Language Models (LLMs) to streamline general information discovery, gathering, and organization workflows that would have taken a lot more time to complete without it.”
Creo que podriamos mejorar mucho el entendimiento de la promesa de la inteligencia artificial generativa; el ritmo de inversión que estamos viendo necesita ejemplos concretos y directos como el siguiente:
“Alaska Airlines ha estado utilizando inteligencia artificial desde 2021 para ayudar a optimizar las rutas de vuelo por eficiencia. El sistema... analiza el clima, cierres de espacio aéreo y planes de vuelo de la FAA dos horas antes de cada vuelo para sugerir las mejores rutas. La AI procesa volúmenes de datos que sobrepasarían las capacidades humanas y, en menos de dos años, contribuyó a reducir los tiempos de vuelo en el 25% de los vuelos de Alaska, ahorrando un total de 41,000 minutos y aproximadamente medio billón de galones de combustible.”
Con la demo de ChatGPT ya quedó claro que los LLM (modelos de lenguaje grandes) tienen nuestra atecion por sus capacidades en el procesamiento del lenguaje natural. Sin embargo, su tamaño y los recursos que requieren limitan su acceso y por eso es que es dificil ver nuevos jugadores en ese mercado y ahí es donde hay un espacio súper interesante para explorar los SLMs o modelos de lenguaje pequeños como alternativa.
Hace unos días Elon Musk demandó a OpenAI para que rompan sus alianzas comerciales. Hoy OpenAI respondió con datos mostrando que Elon Musk los demanda porque "logramos avanzar en la misión de OpenAI sin su ayuda". Honestamente no iba a hablar de la demanda de Musk porque es la continuación de su lobby personal por destruirla.
No sólo la "demanda" no tiene sentido porque no había un contrato sino que es un diatriba sobre cómo se aprovecharon de él, pero esto es simplemente una pelea de egos porque Musk no acepta que no se la regalaron.
Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.
Este video fue creado por Open AI usando Sora, su último modelo, que puede crear videos usando prompts de texto pero, también, crear videos usando videos como base para crear variaciones en estilo, cinematografía y cualquier otra variable que puedas elegir o crear simplemente describiendo el cambio que querés.
We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.
Research: Video generation models as world simulators
Llegó el momento donde para "defender sus obras" algunos investigadores de la Universidad de Chicago desarrollaron Nightshadeuna herramienta ofensiva que aunque busca "para combatir el uso no autorizado de imágenes en el entrenamiento de modelos generativos" lo que hace es "envenenar" imagenes para destruir los modelos entrenados con ellas. Nightshade es el modo ofensivo de Glaze que era realmente defensivo.
Para entender cómo funciona Nightshade, es importante comprender el concepto de envenenamiento de modelos. En el ámbito de machine learning, los modelos aprenden y evolucionan basados en los datos que reciben. Si estos datos están comprometidos o alterados de una manera específica, pueden llevar a que el modelo desarrolle comportamientos inesperados o patrones indeseables. Nightshade aprovecha esta vulnerabilidad transformando cualquier imagen estándar en una muestra de datos "envenenada". Estas imágenes alteradas, cuando se usan en el entrenamiento de modelos generativos, hacen que los modelos aprendan patrones y comportamientos incorrectos.
Nightshade is computed as a multi-objective optimization that minimizes visible changes to the original image. While human eyes see a shaded image that is largely unchanged from the original, the AI model sees a dramatically different composition in the image.