duda con wget

Iniciado por WHK, 2 Enero 2013, 17:59 PM

0 Miembros y 1 Visitante están viendo este tema.

WHK

Hola, estoy intentando crear una linea de comandos para hacer un respaldo de mi sitio web, he pasado por varios incinvenientes pero al fin me queda uno solo y es que cuando wget entra a un directorio me guarda por defecto un index.html con su contenido, como puedo decirle a wget que no me haga ese archivo? no me sirve exluir los index.html porque hay algunos index.html que si valen.

Miren...

No vale: http://web.com/dir1/ (este es el indice de archivos a descargar y debo omitir)
Si vale: http://web.com/dir1/index.html

como puedo decirle eso a wget?, lo que sucede es que tengo un +indexes en htaccess que me permite ver todo y los index.html no se interpretan como home en el servidor permitiendome la descarga directa.

Gracias de antemano.

adgellida

#1
Cuando wget hace estas cosas es porque tu línea de comandos está errónea, sí para ciertas carpetas y archivos funcionan, pero para otros no. O hay algun archivo que por lo que sea no puede acceder.

Para dicho problemas las soluciones son:

1. Si quieres un directorio "Pon las direcciones web entre comillas"
2. Si quieres que te baje un archivo pon -O "nombrearchivo"

Hay miles de tutoriales con el uso de wget para descargar webs completas, mira si está aquí:

http://norfipc.com/internet/ejemplos-wget.html

Es un caso el tuyo para tirarse de los pelos, pero por ahora se me ocurre eso. Con wget me peleé mucho hace tiempo y muchas veces es una tontería o que se lo tienes que poner como a él le gusta porque funciona de una determinada forma. Si las demás carpetas te las hace bien, pero...piensa por qué falla justamente en esa? Que no tienen las demás que tenga esta en especial?

Saludos!!

WHK

pues lo que sucede es que estaba haciendo un script para hacer respaldo completo de un website sin utilizar la shell ni librerias de compresion.

la cosa es que las urls quedan masomenos asi...
http://ejemplo.com/backup.php/home/www/...

entonces el archivo php hace un listado por cada directorio donde estemos y los va descargando uno por uno hasta hacer el respaldo completo del sitio web tan solo con un archivo php utilizando una descarga recursiva.

el problema está que cuando llega a un directorio te crea por defecto un index.html con el contenido del indice de los archivos, luego cuando el respaldo está completo te das cuenta de que en cada directorio que supuestamente no tenía un index.html ahora si lo tiene con el indice de cada descarga y eso es un problema.

no puedo omitir los index.html porque a veces los servidores tienen un index.html pero quiero que se creen solo las carpetas y listo.

Lo que se me ocurre es hacer un unico indice gigante y que las rutas de las carpetas esten dentro del mismo indice principal, el problema es que lo enviaría via peticion get y me llenaría el directorio con archivos tipo index.php?dir=... , lo otro sería finalizar con un rm -rf index.php*

Lo que estoy intentando hacer es un respaldador de sitios webs hackeados, no todos tienen zip lib instalados y no todos tienen la shell habilitada para poder utilizar el comando tar y tampoco me tinca utilizar gz, por eso se me ocurrió hacer este script que te hace las backups con un wget recursivo a si mismo

WHK

Bueno ya lo resolví de la forma que planteé, los directorios pasan por variables y los files por pettys url, asi todos los directorios quedan guardados en un solo lado listos para ser borrados.

El lunes u otro dia subo el código a github.

Gracias y saludos.