Se acerca probablemente el hype del text crunching

Hace unos pocos días iba de gorra en un automovil recibiendo una clase gratuita de web semántica. Me explicaba el conductor que la comprensión automatica de textos tiene un problema con una cosa llamada registro, que viene a ser la jerga empleada por el autor, y la cual resulta ser algo bastante difícil de interpretar por una máquina. En realidad, entender el registro es también un problema para los propios humanos, es prácticamente imposible entender por completo un documento legal a menos que uno haya pasado largos años estudiando derecho. Pero no está todo perdido, e incluso la utilización sistemática de una determinada forma de escribir puede ayudar a que los textos sean comprensibles por el ordenador. Veamos por ejemplo una frase de un informe militar del Kabul War Diary de Wikileaks, dice «7 x ANP KIA, 4 x WIA» Significa que mataron a 7 policías afganos e hirieron a otros 4 durante un contacto bélico.
La importancia definir un registro en una organización estriba en que cada vez se escribe más y se llama a las mismas cosas de forma diferente. El problema puede llegar a ser realmente acuciante en algunas áreas como la bioinformática. Tanto como para que aparezcan proyectos como Biolabeler especializados en hacer minería científica de datos y encontrar (entre otras cosas) quién ha descubierto cosas relacionadas pero las está llamando de forma diferente.

El procesamiento semántico de texto no es para nada ninguna novedad. En España, sin ir más lejos, empresas como Bitext, Ximdex, Atril o Anboto llevan años haciéndolo. El salto cuántico lo están dando los sistemas expertos de text crunching como Wolfram Alpha o, recientemente, IBM Watson capaces, en teoría de responder a preguntas estilo «¿cuántos policias fueron abatidos en 2009 en operaciones militares estadounidenses en Afganistán al norte del paralelo 34?»

La historia demuestra que muchas de las aplicaciones que empiezan en el ámbito militar amenudo se acaban adaptando también para uso civil. En este caso, el problema consiste en recopilar muchos pequeños reportes de diferentes fuentes e interpretarlos para darles sentido. La solución consiste en dotar a los redactoores de herramientas distribuidas tipo blog o wiki, adiestrarles en el uso de un registro adecuado y un tesauro de tags, y luego poner por encima del repositorio de documentos un motor computacional capaz de responder a preguntas complejas formuladas en lenguaje natural.

Posts relacionados:
Wolfram|Alpha vs. IBM Jeopardy
Proyecto Kittyhawk: Toda la Internet en un Blue Gene/P.

Artículo relacionado:
Topicmarks reads and summarizes documents for you (Jennifer Van Grove)