web scraping

Web scraping

web scraping es básicamente extraer datos de la web con un programa ya creado o programado por nosotros para poder luego editar la información, normalmente en tablas, y poder luego utilizarla o consultar esa información.

Vamos a ver la herramienta Import.io que es una herramienta muy poderosa para poder extraer información.

Import.io tiene varios modos de extraer información. Magic, extractor,​  crawler, conector. vamos a empezar por lo fácil. cuando abrimos Import.io tiene una opción que se llama Magic.

con esto podemos extraer información con un solo click ponemos la url que queremos (en este caso

http://growthhackers.com/post), extraemos la información

y la exportamos como .csv y nos la llevamos a una hoja de cálculo de google

lógicamente editaremos la tabla y nos quedaremos con la información que sea de nuestro interés. También tenemos la opción de guardarlo como API, esto nos da muchas posibilidades, podemos salvar en formato JSON, o exportar a diferentes formatos.

Extractor: le vamos a decir que información queremos, las tablas que​ necesitamos, y le vamos a pedir que nos descarge solo la información que le pedimos.

En este ejemplo de una tienda de productos le he dicho que me extraiga la imagen el nombre y el precio en 3 columnas.

 

Crawler:​ nos rastreará un sitio web con distintas páginas, para poder extraer la información que necesitemos. vamos a ver un ejemplo.

Por ejemplo si queremos una lista de casas rurales en navarra, vamos a crear tres columnas con nombre, población y link de la casa rural.

Vamos a la página web, y la cargamos.

Creamos las columnas que queremos y editamos una página con ellas.

lo que tenemos que hacer es entrenar al robot con unos ejemplos, (suele pedir 5 como mínimo) para que luego el  programa los pueda buscar todos. Una vez que lo hemos entrenado le decimos que nos importe los datos y vualaaa!.

Ahora la podemos descargar en Excel, Html, Csv o Json.

Por último vamos a ver conector:​  es similar a crawler pero le damos​ pasos para que grabe lo que vamos haciendo, lo realmente  importante es que después de programar varias acciones, le podemos añadir que nos haga otro query a lo que ya tenemos con lo que no tendríamos que programar la acción otra vez.

En definitiva, creo que es una buena herramienta de automatización.