[PYTHON] Como descargar un directorio web completo

Iniciado por n3w, 14 Diciembre 2012, 13:22 PM

0 Miembros y 2 Visitantes están viendo este tema.

n3w

Buenas a todos:

Como explica el título estoy intentando descargarme una revista online entera desde el primero hasta el último número que han liberado de forma gratuita. Decidí hacerme un script en python porque me apetecía recordar el lenguaje.
El caso es que no se de qué forma puedo listar los archivos de un directorio web enteros o directamente descargarme todos los posibles ficheros descargables de ese directorio.
Hacer wget -r -np http://sitioweb.com/ ya me descargaría todos los ficheros del árbol de directorios hacia abajo de forma recursiva, sin embargo quiero hacerlo directamente desde python.
Si, he probado con urllib, pero que yo sepa solo me descarga ficheros uno a uno por su path exacto.


Un saludo

Novlucker

Lo que debes de hacer es parsear el HTML en busca de los links descargables.

Saludos
Contribuye con la limpieza del foro, reporta los "casos perdidos" a un MOD XD

"Hay dos cosas infinitas: el Universo y la estupidez  humana. Y de la primera no estoy muy seguro."
Albert Einstein

n3w

Gracias =) es un lío pudiendo descargarme el wget para windows. pero quería hacerlo exclusivamente con los módulos predeterminados en python.

Un saludo ^^

0x5d

Cita de: n3w en 14 Diciembre 2012, 13:44 PM
Gracias =) es un lío pudiendo descargarme el wget para windows. pero quería hacerlo exclusivamente con los módulos predeterminados en python.

Un saludo ^^
Hola, muy buen día.

Como dice acá el "colega" Novlucker

Cita de: Novlucker en 14 Diciembre 2012, 13:41 PM
Lo que debes de hacer es parsear el HTML en busca de los links descargables.

Saludos

Parsea el html, tienes la opción de hacer un
Código (python) [Seleccionar]
import urllib2
from HTMLParser import *

class Parser(HTMLParser):

  def handle_data(self, data):
    return data

web = urllib2.urlopen("http://www.elhacker.net").read()
parsear = Parser()
print parsear.feed(web)

Sino deseas hacerlo así, te recomiendo que averigües sobre la librería "re" , podrás encontrar los enlaces de una web vía Expresiones Regulares .

Saludos.
¡ SIGUEME EN TWITTER -> @JavierEsteban__ !