LSI: Indexación de Semántica Latente

Cuando hace un tiempo comentaba sobre los avances en "La Red Semántica" y los problemas que enfrentaba este tipo de iniciativas, surgió el tema de las taxonomías y el "como estructurar la infromación" para hacer que tengan sentido las cadenas de datos y datos.

Ahora, vía un blog que no guarde el link, veo un paper de Clara Yu, John Cuadrado, Maciej Ceglowski y J. Scott Payne aborda el tema de la indexación semántica aplicada a los motores de búsqueda en Internet con tres "simples" objetivos:

1. Queremos que nos dé TODA la información relevante disponible sobre nuestro tema.
2. Queremos que nos dé SOLAMENTE la información que es relevante para esa búsqueda.
3. Queremos que la información esté ordenanda de alguna forma, para poder ver los resultados más relevantes primero

Esto no es "simple" sino el objetivo ideal de todo motor de búsqueda, lo que en algun momento prometió Inktomi, luego Pagerank y así sucesivamente.

De hecho, la compra de Applied Semantics en Abril del 2003 demostró que lograr esto es central en la estrategia de los motores de búsqueda.

En realidad si se lograra esta indexación con "TODA" la información relevante disponible sobre un tópico en particular, con la semántica resuelta y las taxonomías bien definidas, las aplicaciones serían poco menos que increíbles.

El cambio de paradigma (perdón por usar esa palabra que detesto) sería revolucionario, imaginar que automáticamente se puede encontrar relevancia de una cadena de datos sin comprender el sentido es algo que es dificil de entender (y mucho más explicar).
Pero actualmente hay experimentos que califican ensayos universitarios con tecnología de este tipo en la New México State University con la intervencion de Knowledge Technologies.

Esta y otras aplicaciones pueden verse en el mismo paper que cité en la parte de Applications of LSI

Pequeño Avance=Gran Ventaja
Si alguna empresa de búsqueda lograra algun avance real, por pequeño que sea, que se pueda aplicar a su algoritmo de búsqueda y sus robots, sea GoogleBot va a tener una ventaja realmente increíble.

Imaginen poder entender contextos, frases o cadenas de búsquedas asociadas a las cookies que nos "acompañan" en Internet, sumadas a un sistema de estas características para insertar anuncios que nos "conozcan" o que conozcan "lo que buscamos"... Overture y AdSense segmentarían más y más y aumentarían su valor de "placement" de los anuncios... resumido en algo como:más conocimiento de los usuarios = mejor segmentacion = más anuncios relevantes = más clicks = más ingresos.

Otros posts que pueden interesarte:

2 thoughts on “LSI: Indexación de Semántica Latente”

FrancoG dice:

mayo 4, 2004 a las 3:28 pm

Me gusto el remate final:
“más conocimiento de los usuarios = mejor segmentacion = más anuncios relevantes = más clicks = más ingresos”
para el final de la presentación de un proyecto a un cliente! :P

Hablando un poco fuera de broma, creo que todos apuntamos a esos 3 “simples” objetivos… aunque lejos esta de nosotros poder aportar algo para eso, y como siempre, tenemos que esperar a que los demas resuelvan para nosotros despues aplaudir de la platea :p

Buen post Mariano! ;)
mariano dice:

mayo 4, 2004 a las 3:38 pm

franco.. gracias por lo de buen post… si es cierto que lo termine a la mejor manera “presentacion de negocio” pero asi es mas facil que algunos lo comprendan y vean porque estas cosas influyen o influiran en nuestra experiencia-online (uyyy hoy estoy con frases marketineras che :P)

Y hablando en serio.. no creo que no podamos aportar algo.. solo hay que descubrir donde y como podemos aportar algo para ser los apludidos por la platea jejeje

Comments are closed.