Common Crawl

Common Crawl

Lisa Green anuncia en el blog de la Common Crawl Foundation la disponibilidad del nuevo repositorio de datos web indexados mediante crawling. Se trata de información almacenada en Amazón S3 sobre 5.000 millones de páginas web y que puede ser libremente descargada y procesada sobre Amazon EC2 con Hadoop.

La misión de Common Crawl es proporcionar un repositorio abierto y no comercial alternativo a los buscadores como Google o Bing.

Es difícil sobreestimar el potencial de un índice web abierto el cual podría servir como base para la investigación científica y tecnológica sobre búsquedas, además de garantizar que ninguna empresa con intereses económicos monopoliza el índice de conocimientos de la Humanidad.

La Common Crawl Foundation fue creada en 2007 por Gil Elbaz con la colaboración del desarrollador Ahad Rana y también cuenta en su consejo asesor con Carl Malamud y Nova Spivack.

Compartir:
  • Twitter
  • Meneame
  • Facebook
  • Google Buzz
Esta entrada fue publicada en Iniciativas que cambiarán el mundo, Minería de Datos, Patrimonio Común de Innovación. Guarda el enlace permanente.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *