Fei Fei Li en Denken Über

Hay una pregunta que los LLMs no pueden responder: ¿qué pasa si soltás una taza?

No en el sentido de "escribir un texto sobre física newtoniana". En el sentido real: simular internamente qué va a ocurrir, planificar cómo atraparla, anticipar la trayectoria. Eso que vos hacés sin pensar, los modelos de lenguaje no lo tienen. Predicen tokens. No simulan causalidad.

Y esa brecha — entre predecir texto y entender el mundo físico — es donde está la siguiente gran apuesta del campo.

Lo que los LLMs no tienen

Cuando vas a agarrar algo, tu cerebro no corre ecuaciones. Tiene un modelo implícito del mundo: sabe que los objetos caen, que el agua fluye, que una silla aguanta tu peso sin que tengas que calcularlo cada vez. Es física intuitiva, incorporada, automática.

Los LLMs no tienen nada de eso. Son extraordinariamente buenos prediciendo la siguiente palabra dado un contexto, y esa capacidad escaló mucho más de lo que nadie esperaba. Pero no tienen un modelo interno de cómo funciona el mundo físico. Pueden describir física perfectamente. No pueden hacer física.

Esta limitación no importaba demasiado cuando el uso principal era generación de texto. Importa muchísimo si querés sistemas que interactúen con el mundo real: robots, diseño de ingeniería, simulación industrial.

Ahí es donde entra la siguiente oleada.

Dos apuestas distintas sobre el mismo problema

1- Fei-Fei Li — la persona que creó ImageNet y básicamente inició el deep learning moderno — fundó World Labs con una tesis específica: si entrenás un modelo con suficiente video del mundo real, aprende física de forma implícita. No porque alguien le explique las leyes de Newton, sino porque ve millones de ejemplos de objetos cayendo, agua fluyendo, manos manipulando cosas. El mundo físico emerge de los datos.

En noviembre de 2025 lanzaron Marble, su primer producto: un sistema que genera mundos 3D persistentes a partir de texto, imágenes o video. La apuesta al largo plazo es más ambiciosa: World Labs levantó $1B adicional para seguir construyendo modelos que lleguen a robótica, descubrimiento científico, simulación industrial.

2- Yann LeCun va por otro camino. Para él, los LLMs son un callejón sin salida para la AGI — no por falta de datos o compute, sino por limitaciones arquitecturales fundamentales. Su propuesta se llama JEPA (Joint Embedding Predictive Architecture): en lugar de predecir pixels o tokens exactos, el sistema aprende a predecir representaciones abstractas de lo que va a pasar.

La analogía que usa LeCun es buena: cuando imaginás el futuro, no lo imaginás en alta resolución. Imaginás un resumen abstracto ("va a llover", "que reunion de mierda va a ser esta") y actuás en base a eso. Su argumento central: ningún sistema sin world model interno va a tener sentido común real, sin importar cuánto scales los LLMs.

Son dos filosofías distintas sobre cómo llegar al mismo lugar; pero ahi saltamos al problema de siempre.

Aplicación General vs. Aplicación vertical

Los world models de Fei-Fei y LeCun apuntan a comprensión general del mundo físico — un sistema que entiende física básica y puede adaptarse a múltiples dominios. Hay otras apuestas que van en dirección opuesta: comprensión profunda de dominios industriales específicos.

Ejemplo claro: No quiero "entender el mundo en general" sino "entender componentes de motores a un nivel que ningún ingeniero tiene tiempo de documentar".

El riesgo de las apuestas verticales es que si los world models generales maduran antes, la ventaja específica se evapora. El riesgo de los world models generales es que la física general no sea suficiente para los casos de uso que generan dinero real, y que necesités datos específicos de todas formas.

Mi intuición es que ambos van a coexistir como coexisten los foundation models con los modelos fine-tuneados para dominios específicos. Pero la tensión entre esas dos estrategias es donde están las apuestas más interesantes del momento.

Y una de esas apuestas, la más grande y la menos entendida, la está haciendo Jeff Bezos. Pero eso, el lunes :)

Noticias de Fei Fei Li

El mundo físico: qué viene después de los LLMs

Lo que los LLMs no tienen

Dos apuestas distintas sobre el mismo problema

Aplicación General vs. Aplicación vertical