Del Software As A Service al Data As A Service, pero no mañana…

Jaime Domenech publica en The Inquirer que sólo el 49% del tráfico web lo generan humanos. El otro 51% proviene de bots: un 20% de los crawlers de los buscadores y un 19% de programas-espía que recopilan datos de la inteligencia competitiva.

Existe un acuerdo más o menos generalizado respecto de dos hechos: 1º) que las organizaciones necesitarán en el futuro explotar mejor grandes cantidades de datos para tomar las decisiones adecuadas, y 2º) que los gobiernos en particular no sólo deben explotar la información sino también volverse más transparentes mediante iniciativas de Open Data y Open Government que ya han empezado a materializarse en sitios web como data.gov, data.gov.uk y otros en España que surgirán con toda seguriidad como consecuencia de la nueva ley de transparencia.

Están empezando a aparecer marketplaces de datos como Infochimps, SAP Information On Demand o Microsoft “Dallas”, aunque yo creo que se trata de iniciativas pioneras adelantadas a su tiempo como el ASP lo fue al SaaS.

Los motivos por los que pienso que el momento de productividad pletórica del Data As A Service llegará pero no en 2012 son los siguientes:

1º) No es el momento con la coyuntura económica adecuada. La cúpula directiva de muchas empresas está demasiado agobiada intentando que el negocio sobreviva como para prestar atención a proyectos de inteligencia de negocio. Deberían hacerlo, porque ellos les ayudaría a mejorar su cuenta de resultados pero la urgencia de parchear sus finanzas no les deja ocuparse de lo importante. Y en el caso de los gobiernos, la deuda, los recortes presupuestarios y las malas cifras macroeconómicas hacen que les resulte electoralmente menos conveniente que nunca publicar datos.

2º) Los estándares y la tecnología no están aún lo bastante maduros. Se necesitaría avances del calado que XML tuvo para la separación entre datos y presentación en la web 1.0, o del impacto que tuvo la virtualización de servidores Linux. Existen algunos cimientos, estándares de reporting como XBRL o herramientas map-reduce como Hadoop. Por ejemplo, si toda la información pública mercantil estuviese disponible en un formato como XBRL se podrían obtene rmuchos informes valiosos sobre la situación financiera del tejido empresarial o buscar más eficientemente fraudes fiscales. Algunos sitios como Axesor o E-informa ya proporcionan informes de riesgo online desde hace años, pero lo hacen con herramientas a pedales de fabricación propia muy alejadas del conjunto de herramientas libres que serían necesarias para que una Comunidad pueda orquestar un crowdsourcing de minería de datos.

3º) Los modelos conceptuales y mentales tampoco están lo bastante maduros. Hay varios pasajes muy visionarios en La Saga Fundacion de Asimov en los cuales los psicohistoriadores más veteranos insisten una y otra vez a los aprendices en que no hablen de la estructura formal de las ecuaciones que predicen el futuro sino que describan la interpretación que puede deducirse de ellas en el mundo real. Los psicohistoriadores tenían un modelo como el de la física cuántica que describe un mundo tan contra-intuitivo que es difícil imaginar cómo puede realmente existir. En lo relativo al Big Data estamos aún en la prehistoria de la psicohistoria. A duras penas tenemos los métodos y herramientas para recopilar, consolidar y reformatear los datos, y estamos aún lejos (creo) de tener modelos con capacidad predictiva construidos sobre gray data. Un ejemplo: repasando los informes del Kabul War Diary que desveló Wikileaks se puede apreciar que se podría construir mucha información de valor estratégico mediante text crunching. Los detalles de cuántos enemigos había, cuánto tardaron en llegar, cómo iban armados, etc. están ahí. Muy probablemente el servicio norteamericano de inteligencia militar posee sofisticadas herramientas para analizar dichos informes, y aún así dudo que sus herramientas de análisis sean capaces de recomendar automáticamente decisiones estratégicas basándose en partes de guerra.

4º) Faltan comunidades de remezcla y recombinación. Stephen O’Grady dice que el futuro del Open Data podría parecerse al de Github. Los detalles sobre cómo se organiza la Comunidad Githib son demasiado largos para comentarlos en este post, simplemente el argumento estriba en que debe existir una forma de realizar y compartir trabajos derivados (forks) sobre los juegos de datos.