• Español
  • Qué es el Web Scrapping y cómo puede generar ingresos

    6 agosto, 2018

    QUÉ ES

    El web scrapping sirve para obtener grandes cantidades de información (Big Data) a través de algoritmos, sin necesidad de teclear ni una palabra, sobre el sitio web. Sirve, por ejemplo, para observar los cambios que se hacen en la web o en el sitio de un competidor o para crear webs dinámicas pudiendo ir modificando elementos según los datos obtenidos.

     

     TIPOS DE DE SCRAPPING

    El scrapping aplicado a un sitio web propio consiste en verificar que todos los elementos están tal y como se ha definido que sean. Y cuando se aplica a otras webs, es el proceso de monitorizar todos los cambios visuales, del HTML o de contenido.

     

    CÓMO FUNCIONA

    Es mucho más sencillo con un caso práctico. Si lo que se quiere monitorizar es el contenido de todos los títulos de 400 páginas dentro de un mismo sitio web, estos títulos están normalmente (en el código) dentro de un h1 y dentro de un div englobado por el header. El web scraper lo que hace es detectar ese h1 y se puede exportar en forma de un listado .json o un fichero .csv.

     

    HERRAMIENTAS DE WEB SCRAPPER

     

    1. Webscraper.io

    Es un plugin para el navegador de Google Chrome que ofrece muchas posibilidades de programación de scraps. Sin embargo, se necesita algunas nociones sobre maquetación web para formular bien los comandos de ‘scrapeo’. Extrae fácilmente los datos de una página web concreta en forma de tabla que se puede exportar fácilmente en un Excel portable y otros programas.

    2. Import.io

    Es un programa muy fácil que se puede usar desde el panel de control de la web y no hace falta tener conocimientos específicos de programación para empezar a usarla.

     

    3. Scrapy.org

    Es una herramienta que funciona con el lenguaje de programación Python, por lo que hay que contar con algunas nociones de este lenguaje. Está 100% pensada para programadores y para proyectos que no requieran la visualización de datos para los resultados obtenidos del ‘scrapeo’.

     

    Share This:

    Etiquetas: