De la inteligencia artesanal a la inteligencia industrial

Nos encontramos probablemente al borde de un nuevo gran avance en Internet. Algo tan grande como cuando los buscadores pasaron de ser recopilaciones de enlaces seleccionados a mano estilo DMOZ a indexadores robotizados como Bing y Google.

La mayoría aún no se ha enterado, hasta tal punto que la inminente revolución todavía no tiene ni nombre oficial. Siguen despistados con la Internet de la Cosas, la cual, coincido con Alfredo citando a Tim O’Reilly, carece de potencia transformadora puesto que ningún gadget aislado (así sea un iPhone) puede transformar radicalmente sociedad.

La revolución consiste en la transición desde la inteligencia artificial propietaria y basada en ontologías construidas manualmente hacia la inteligencia artificial como utility y las bases de conocimiento generadas por bots, en cuya vanguardia se encuentra la base de conocimientos probabilística Google Knowledge Vault.

Antes de entrar en los detalles arquitectónicos de Knowledge Vault, daré un ejemplo de uso para poner de relieve el impacto potencial. La medicina es una ciencia estadística. Mucha gente no es consciente de ello, pero la medicina occidental no es más que un enorme conjunto de reglas «si esto entonces aquello» justificadas por pruebas empíricas. El problema es que a menos que exista un indicador singular muy claro (azúcar alto, colesterol alto) o una evidencia estadística abrumadora (tabaquismo → enfisema) lo médicos tienen grandes dificultades para interpretar conjuntos de síntomas que aisladamente son inconcluyentes. Las «enfermedades raras» son mucho menos «raras» de lo que su nombre da a entender, pero como la mayoría no son letales y su diagnóstico es tan complejo, nadie se ocupa de ellas. A menos que lo veamos en un gráfico convenientemente diseñado, los humanos somos especialmente malos encontrando patrones en grandes conjuntos de datos (de ahí la dificultad de hacer un Sudoku) pero resulta que los algoritmos de machine learning han progresado vertiginosamente en la tarea de hallazgo de patrones. Esto aplicado a la medicina podría alargar una década la esperanza de vida de la población de los países desarrollados y es por eso que IBM está poniendo tantos huevos en la cesta de Watson. Si quieres hacer una simple prueba de lo más básico que está por venir visita Wolfram Alpha y pregúntale algo como «LDL 140 male age 40» para ver qué le pasa a tu nivel de colesterol a los cuarenta años.

Con respecto al text crunching, Google nunca ha sido fan del conocimiento recopilado y organizado a mano pero todavía depende de él en gran medida para interpretar lo que un usuario le está intentado preguntar al buscador. Las capacidades semánticas de Google se basan en Knowledge Graph que a su vez depende de Freebase y de Schema.org. Freebase es una base de datos de personas, lugares y objetos. Freebase contiene información del estilo «Francia es un país, su PIB es X billones de euros y el número de habitantes es Y millones». Esto permite al buscador responder a preguntas tales como ¿cuál es el PIB por habitante en Francia? Schema.org es un sistema de tagging que permite a los sitios web proporcionarle este tipo de información al buscador, por ejemplo para decirle a Google que Avatar es una película de ciencia ficción dirijida por James Cameron, el contenido de la página web sería:
<div itemscope itemtype="http://schema.org/Movie"> <h1 itemprop="name">Avatar</h1> <span>Director: <span itemprop="director">James Cameron</span></span> <span itemprop="genre">Ciencia Ficción</span> <a href="../movies/avatar-theatrical-trailer.html" itemprop="trailer">Trailer</a> </div>

El problema es que la mayoría de la información en Internet no está publicada con tags como los de Schema.org que los buscadores puedan entender. E incluso cuando sí lo está suelen faltar muchos datos. Por ejemplo, en Freebase el 71% de las personas listadas carecen de ciudad de nacimiento. Entonces la estrategia experimental de Knowledge Vault es combinar las bases de datos de conocimientos validados por humanos con hallazgos de hechos realizados por bots y combinar la información mediante algoritmos de machine learning. Con este acercamiento Knowledge Vault ha recopilado 1.600 millones de hechos de los cuales 271 millones tienen una probabilidad superior al 90% de ser ciertos y 324 millones tienen una probabilidad superior al 70% de ser ciertos. Lo cual no es un porcentaje muy bueno de éxito (sólo el 20% de los hechos en Knowledge Vault se considera que tienen más de un 70% de probabilidades de ser ciertos). Pero el propio documento de Google sobre Knowledge Vault sugiere métodos para mejorar el porcentaje de aciertos que no se han probado porque son demasiado complejos y computacionalmente costosos, en particular el tratamiento de los hechos como sucesos independientes, lo cual no es cierto:
• Algunos hechos son mutuamente excluyentes.
• Algunos hechos están correlacionados.
• Algunos hechos son sólo temporalmente ciertos.
Por ejemplo, si se sabe que Barrack Obama nació en Honolulu entonces se sabe que nació en Hawaii. Pero la base de datos no contiene directamente esta información. Para responder a la pregunta ¿nació Barrack Obama en EE.UU.? se necesita un hecho sobre que Honolulu es parte de Hawaii y otro hecho sobre que Hawaii es parte de EE.UU. Y ser capaz de explotar dicha información encadenada.

La rama de este tratamiento semántico de la web en la que yo estoy involucrado desde hace algún tiempo a través de Virtualstock es la compatibilización de catálogos comerciales. Creo que los analistas yerran cuando piensan que la Internet de las Cosas consiste en cosas conectadas a Internet. La Internet de las Cosas es ¡cosas en Internet! Opino que la compra social y los móviles han desviado la atención sobre el enorme problema que todavía hoy es encontrar un objeto físico en Internet, y, aunque lo encuentres, compararlo con otros objetos físicos. No es posible tomar un laptop y decirle al buscador: «muy bien, aquí tengo este laptop ¿existe algun otro del mismo tamaño y con la misma potencia de procesador y disco pero que pese menos?». Las implicaciones para el comercio son enormes pues la mayoría de productos, todavía hoy, no se pueden buscar y comparar online, lo cual crea imperfecciones de mercado que los proveedores explotan con pingües beneficios a costa de los clientes. El problema es en el fondo tan simple como que un proveedor lo llama «peso» y otro lo llama «peso unitario» y esta cantidad viene expresada en gramos, kilos, onzas o libras. De modo que teóricamente debería ser fácil informar al buscador pero es que a los propios proveedores a menudo no les interesa que exista un mercado de competencia perfecta donde los clientes puedan comparar y encontrar la mejor oferta con facilidad.

En conclusión, ya lo he publicado con anterioridad, pero creo que vale la pena recalcarlo, la próxima «gran cosa» en programación son lenguajes funcionales operando sobre vastas bases de datos de conocimiento, que, hasta ahora, eran muy difíciles de construir, pero es posible que en el futuro próximo no tanto.