Extrae información de páginas web con Scrapy

Actualmente la información que requerimos esta en distintas páginas web, o incluso se actualiza en distintos enlaces. Algunas veces nuestros trabajo requiere la visita, búsqueda y recolección manual de datos web. Para automatizar esas tareas se puede utilizar una plataforma como Scrapy.

 

Que es Scrapy?

Scrapy es una plataforma colaborativa de código libre que corre en Python para extraer datos de páginas web usado para una serie de aplicaciones como minería de datos, procesamiento de información o registro histórico.

Scrapy tiene las siguientes características: 

  • Rápida y poderosa: Escribes las reglas para extraer los datos y scrapy hace el resto.
  • Fácilmente extensible: Dada su configuración, puede generara nueva funcionalidad sin tener que modificar el código fuente.
  • Portable y Pythonico: Esta escrito en Python y puede correr en Linux, Windows, Mac y BSD.

 

Que comprende Scrapy?

Dado que es un framework, Scrapy tiene una serie de herramientas poderosas para hacer el "scraping" o extraer información de webs de manera fácil y eficiente. Estas herramientas comprenden:

  • Soporte para extraer y seleccionar datos de fuentes HTML/XML usando selectores CSS y expresiones XPath, con métodos de ayuda para extraer usando expresiones regulares.
  • Una consola interactiva en IPython para ensayar los CSS y expresiones XPath para extraer datos, muy útil cuando se construyen métodos propios.
  • Soporte para exportar los registros en formatos múltiples como JSON, CSV y XML.
  • Soporte para manejar declaraciones foráneas, no estándares y códigos rotos.
  • Fuerte extensibilidad, ya que te permite conectar tu propia funcionabilidad usando señales, extensions y pipelines.

 

Como aprender Scrapy?

Para iniciarte en Scrapy te recomendamos instalar Scrapy de esta Guia de Instalación. Seguidamente puedes hacer este Tutorial.

Visita la página de Scrapy en scrapy.org para más información.

 


Conoces nuestras soluciones en programación y desarrollo de plataformas web?

Visita nuestro link de Soluciones en Programación

 

Suscríbete a nuestro boletín electrónico

Suscríbase a nuestro boletín gratuito para recibir noticias, datos interesantes y fechas de nuestros cursos en recursos hídricos.

 

Posted on May 19, 2016 and filed under Tecnologia Web, TutorialPython.