Buenas chicos,
Hay una página web con una estructura más o menos como la siguiente:
- Una lista desplegable con varias opciones.
- Dentro de cada una, varias opciones más (enlaces).
- En cada uno de los enlaces, varios links que redirigen a una página para visualizar o descargar un .pdf.
Mi idea es crear un programa que pueda ir abriendo automáticamente cada uno de los enlaces y descargando los archivos, por eso la pregunta:
Que librerías debería usar?
Para poder entrar mecánicamente a los diferentes enlaces, tendría que analizar el código fuente, no? Esto supongo que se podrá realizar mediante expresiones regulares.
Un saludo y muchas gracias.
Utiliza urllib y urllib2 con bucles puedes sacar todas las páginas del site :)
O Mechanize. Se puede usar regex para analizar el fuente y está BeautifulSoup que es un parseador de HTML. Yo la verdad tiro más de Perl.
Hola, buen día.
Hace un tiempo publiqué un código que encontré en la red, sobre un Website Crawler Python, espero
te sirva de apoyo en tu trabajo : http://rootcodes.com/pythonweb-site-crawler/
Saludos, Javier.
Lo mejor para lo que quieres hacer, es utilizar Scrapy Framework:
http://scrapy.org/