reCaptcha, digitalizando libros una palabra a la vez

reCaptcha es una de esas ideas simples y geniales a la vez; ayudar en la digitalización de libros del Internet Archive mientras te proteges del spam en comentarios; ¿como? usando en la imagen de “seguridad” palabras que por estar mal escaneadas, poco claras o borrosas no pueden ser leídas automáticamente por los sistemas de reconocimiento de texto (OCR).

¿Y como se aseguran entonces que la palabra es correcta? con un sistema de “doble seguridad”; en el captcha (definición en Wikipedia) se incluyen dos palabras, una de la que sabe la respuesta y la otra es la que no pudo ser identificada por el OCR… el sistema interpreta que si escribís la que se conoce la respuesta bien, la otra es, también, correcta y aprueba tu comentario.

Pero como no es tan lineal la respuesta, aún cuando la palabra haya sido escrita correctamente la envía nuevamente a la cola de “lectura” para que otros usuarios puedan leerla y usarla como sistema de validación… apenas tiene coincidencias y estadisticamente se pueda considerar correcta, es enviada al sistema de digitalización de libros para ser incorporada en la versión del mismo.

Lo más interesante es que usan una combinación de web 2.0; servicio de autenticación para blogs; sistema de escaneo y reconocimiento de caracteres para algo útil y que, no podría ser fácilmente resuelto con fuerza computacional… en fin, una idea MUY útil para esto llamado conocimiento colectivo ;)

descargas: si usás WordPress podés usar el plugin oficial; si tenés un Wiki podés usar este código para evitar spam y, también, podés usarlo para proteger tu direccion de mail :)