Duda, como bajar un directorio con wget.[Solucionado]

Iniciado por Drewermerc, 11 Diciembre 2014, 04:41 AM

0 Miembros y 1 Visitante están viendo este tema.

Drewermerc

Hola a todos.
Mi duda es como descargar de un sitio web un directorio en especifico por ejemplo:
tenemos la dirección www.miweb.com/files/programacion
lo que quiero lograr con wget es que me descargue recursivamente todo el directorio pero solo el de programación no que empiece a descargar desde el directorio raíz.
Hasta horita e probado con lo siguiente:

Código (bash) [Seleccionar]

wget -r --level=2   -nd -N http://hcmaslov.d-real.sci-nnov.ru/public/mp3/Beatles/


pero el problema es que los ficheros que están dentro de los directorios de esa la carpeta programación no los crea y descarga todos los archivos juntos sin seguir la jerarquía.

Saludos.
Drewermerc.

MinusFour

#1
Te recomiendo que le des un vistazo al manual, a la parte de recursividad y de directorios.

-nd Hace que no conserves los directorios. -N es timestamping (?) y --level es hasta que nivel de la raiz vas a llegar.

Yo probe con:
Código (bash) [Seleccionar]

wget -r --cut-dirs=2 --no-parent -nH http://hcmaslov.d-real.sci-nnov.ru/public/mp3/Beatles/


Pero me baja un monton de archivos index aparte.

Drewermerc

Hola MinusFour.
Gracias por responder, como dices descarga unos archivos index y bueno por lo que pude investigar eso pasa porque el servidor esta configurado para enviar un listado de directorios por lo cual se descargan estos archivo y bueno los revise y si efectivamente esta el listado de los archivo, también comprobé esto usando una opción de wget para excluir todos archivo index pero si no se descargan los index tampoco se descargan lo otros archivos que hay en los directorios así que lo único que pude hacer es excluir los archivos que solo son index.html y los demás lo elimine con el comando find.
aquí dejo los comandos que use:

Código (bash) [Seleccionar]

wget -c -r --cut-dirs=2 --no-parent -nH -R ".html" --user-agent=Mozilla/5.0  http://hcmaslov.d-real.sci-nnov.ru/public/mp3/Beatles/

#Para eliminar los archivo index.
find . -name "index.html?*" -type f -delete


y una pregunta mas sabes, ¿Como es que se hace esa configuración? o ¿Como funciona este tipo de configuración?.
la cual hace que el servidor envié esos index donde esta el listado de los archivos.

Saludos.
Drewermerc.

MinusFour

Cita de: Drewermerc en 11 Diciembre 2014, 09:08 AM
Hola MinusFour.
Gracias por responder, como dices descarga unos archivos index y bueno por lo que pude investigar eso pasa porque el servidor esta configurado para enviar un listado de directorios por lo cual se descargan estos archivo y bueno los revise y si efectivamente esta el listado de los archivo, también comprobé esto usando una opción de wget para excluir todos archivo index pero si no se descargan los index tampoco se descargan lo otros archivos que hay en los directorios así que lo único que pude hacer es excluir los archivos que solo son index.html y los demás lo elimine con el comando find.
aquí dejo los comandos que use:

Código (bash) [Seleccionar]

wget -c -r --cut-dirs=2 --no-parent -nH -R ".html" --user-agent=Mozilla/5.0  http://hcmaslov.d-real.sci-nnov.ru/public/mp3/Beatles/

#Para eliminar los archivo index.
find . -name "index.html?*" -type f -delete


y una pregunta mas sabes, ¿Como es que se hace esa configuración? o ¿Como funciona este tipo de configuración?.
la cual hace que el servidor envié esos index donde esta el listado de los archivos.

Saludos.
Drewermerc.

Es la option Index de Apache:
http://httpd.apache.org/docs/current/mod/core.html#options

Donde dice: Indexes.

Drewermerc

Hola MinusFour .
Gracias por responder voy a revisar la informacion.
Saludos.
Drewermerc.

MinusFour

Cita de: Drewermerc en 12 Diciembre 2014, 19:22 PM
Hola MinusFour .
Gracias por responder voy a revisar la informacion.
Saludos.
Drewermerc.

Por cierto, los indices son generados de acuerdo al servidor httpd (IIS, nginx, lighttpd, apache) y lo que te he puesto es simplemente de apache, no se como generen indices los demas servidores.