Algoritmos capaces de aprender con menos datos

Vuelvo a ver el Keynote de Google I/O y su presentación de Google Assistant y el dato de que el 20% de las búsquedas se hacen con voz y por eso se puede mejorar el reconocimiento de voz para, a su vez, mejorar los resultados de Google.

Y automáticamente pienso en los 780 millones de millas recorridas por autos de Tesla que son recolectados por la empresa para analizar los patrones de manejo y definir cuando es seguro que se puede usar el "Piloto Automático" y recolectar datos de otros 100 millones de millas usando esa función para mejorarla y asi recolectar más millas en un solo día que Google desde que comenzó con sus autos autónomos.

Cuantos más datos se analicen los resultados son mejores, eso lo tenemos todos claro pero... últimamente sólo veo carrera en potencia de análisis o de cálculo con incluso GPUs optimizados para procesar mejor esos datos y creo que hay algo intrínsecamente ineficiente con tener que analizar millones de ejemplos para mejorar la AI.

Digo, si tomamos el primer ejemplo (reconocimiento de voz) competir con un nene de 5 años en distinguir cientos de objetos... no puede lograrse analizando millones de patrones porque no es eficiente. Para convencerme que algo es inteligencia artificial (aunque sea limitada como la que conocemos hoy en dia) van a tener que mostrarme que se es capaz de optimizar el uso de datos con el que se la alimenta para llegar a una conclusión porque sino es simple fuerza bruta.

Pero más allá de eso, si seguimos insistiendo con que Big Data es el único camino creo que estamos dando una ventaja de partida a jugadores que por este mismo efecto de red o circulo virtuoso no van a tener competencia...

Carnegie Mellon University, which lost 40 researchers to Uber shortly after its Advanced Technology Center opened, debuted self-driving technology in Western Pennsylvania in 2013 when a modified 2011 Cadillac SRX drove politicians and transportation officials from Cranberry to Pittsburgh International Airport. Early tests in the California desert started 10 to 15 years ago.

Y pongo un ejemplo básico: si el análisis de grandes cantidades de datos es la única forma de mejorar un auto autónomo ¿como puede Google competir con 1.3 millones de millas recolectadas frente a los 780 millones de millas que tiene Tesla y, peor aún, en que lugar quedan jugadores como Uber que tienen apenas un par de cientos de miles de millas analizadas? :)

Voy de nuevo. Conocemos las ventajas de Deep Learning y etc. conocemos las ventajas del aprendizaje asistido o no, pero creo que se necesitan algoritmos más eficientes para avanzar en la velocidad en la que se entrena un programa o simplemente para nivelar el terreno de juego entre los que manejan datos en cantidades monstruosas (un ejemplo es Facebook y el buen trabajo al liberar cosas como Deeptext) y los que están comenzando (como Eyem y su algoritmo para saber si una foto es linda o no y etiquetarlas automáticamente).

Y tal vez con mejores algoritmos trabajando sobre sets de datos menos masivos se pueda pasar de buscar correlaciones a causas y así ser proactivo y no reactivo. Creo que la clave va a estar en la variedad de los datos y los algoritmos que entiendan como cruzar esos datos ‘diferentes’ porque claramente analizado desde el volumen no se va a llegar muy lejos y mientras más sensores aparezcan y más conexiones le metamos a nuestros cuerpos, más variado va a ser el input de esos algoritmos.

En definitiva, o menos datos y más variados, o datos en cantidades industriales... si este es el camino hay pocas empresas que sean capaces de generar la cantidad y variedad de datos necesarios para usar y analizar en cantidades industriales; esas son las mejor posicionadas si se animan a salir a coopetir con algunos de los jugadores que ya mencioné arriba.

| Rants