Guardar página WEB

dor25852 · 23 Mayo 2012, 18:44 PM

Hola a todos,

Necesito guardar archivos en formato pdf que hay en una página web.

La pagina en cuestión es http://www.congresoenfermeria.com

La idea es no tener que ir pinchando en cada uno de los enlaces y hacerlo de forma más automática.

He intentado con vario programas y varios complementos de Firefox, Flash get, DTA... pero nada.

He visto que los los pdf cuando se abren siguen siempre un mismo patrón:

http://www.congresoenfermeria.com/posters/***************.pdf

Os dejo varios ejemplos para que lo veáis:

http://www.congresoenfermeria.com/posters/poster_1334840799361.pdf
http://www.congresoenfermeria.com/posters/posterfinal_1335425570695.pdf
http://www.congresoenfermeria.com/posters/postercongresovirtual2012.eduardosanchezsanchez_1335443077449.pdf

La cosa es que para acceder al congreso mediante http://www.congresoenfermeria.com hace falta loguearse, pero para acceder directamente a los posters no.

Si es necesario, puedo enviar el código fuente de la página donde aparecen los enlaces.

Espero vuestra ayuda.

Muchas gracias.

Graphixx · 24 Mayo 2012, 08:52 AM

Cita de: dor25852 en 23 Mayo 2012, 18:44 PM
http://www.congresoenfermeria.com/posters/poster_1334840799361.pdf
http://www.congresoenfermeria.com/posters/posterfinal_1335425570695.pdf
http://www.congresoenfermeria.com/posters/postercongresovirtual2012.eduardosanchezsanchez_1335443077449.pdf

yo no le veo el patron por ningun lado, efectivamente si parecen tener un codigo arbitrario despues del _ pero aparte de eso lo que precede al _ podria ser cualquier cadena, con lo que detectar la publicacion automaticamente se vuelve un lio.

adastra · 24 Mayo 2012, 10:19 AM

Por lo que he podido entender de tu mensaje, lo que necesitas es un crawler....
HTTrack es una buena opción:
www.httrack.com/

apuromafo CLS · 24 Mayo 2012, 11:47 AM

si no me olvido el plugin de firefox "dowload them all ayudaria en caso que es descargar en cierto lugar"
https://addons.mozilla.org/en-US/firefox/addon/downthemall/

en caso que de 1 lugar esten los 20 o 30 pdf
si estan entre varios lugares , si no tienes que buscar los crawler como comenta @adastra

si es de alguno de pago te sugiero webdumper:
www.maxprog.com/WebDumper.html
esta es la version 3.3.3
para registrar de no tener capital de pago existen un keygen del team BRD
que puedes usar para testear el programa:
http://loadcrack.com/87710002577e1da8bd44cc100be36c075705/download/crack/Apps/Maxprog.Web.Dumper.v3.3.Multilingual.WinALL.Incl.Keygen-BRD.zip.download
o bien lo buscas desde Crackdb.org como Web Dumper

saludos Apuromafo
pd:

+---ec.europa.eu
| +---health
| | \---alcohol
| | \---docs
| | alcohol_rand_2012.pdf
| |
| \---health-eu
| \---doc
| whitepaper_de.pdf
| whitepaper_en.pdf
| whitepaper_fr.pdf
|
+---www.congresoenfermeria.com
| +---page_file
| | comitecientificocurriculumiiicongreso_1323944594048.pdf
| | comitecientificocurriculumiiicongreso_1328617624635.pdf
| |
| \---pdf
| ayuda_poster.pdf
| cartel.pdf
| programa.pdf
|
+---www.msc.es
| \---organizacion
| \---sns
| \---planCalidadSNS
| +---docs
| | InformePlanCalidad_ESP.pdf
| |
| \---pdf
| \---transparencia
| Ley_14_86_GRAL_SANIDAD_1.pdf
|
\---www.msps.es
\---organizacion
\---sns
\---planCalidadSNS
\---docs
InformePlanCalidad_ENG.pdf

Graphixx · 24 Mayo 2012, 18:04 PM

Compañeros estoy probando el WinHTtrack, pero no trae la funcion que necesito... conocen algun software que si yo le pongo un dominio me liste cuantos subdirectorios hay creados en el?

por ejemplo que si le pongo:
www.paginaweb.com

genere que existen:
www.paginaweb.com/main
/main/productos
/main/galeria
/foro
/intranet
/enero_documentos
/abril_documentos , etc...

___________________________
Alguien que haya trabajado ya con el WinHTtrack , alguna forma de que si la url principal que uno indica contiene una redireccion hacia otra pagina el obvie esa redireccion, y recorra en efecto el dominio principal?

___________________________________
Encontre una libreria php que parece que lista los subdirectorios de una web y baja todo su contenido:
http://phpcrawl.cuab.de/quickstart.html

Tanto WinHTtrack, como Webdumper, fallan cuando en el sitio hay un .htaccess del tipo:
RewriteCond %{HTTP_HOST} ^paginaweb.com$ [OR]
RewriteCond %{HTTP_HOST} ^www.paginaweb.com$
RewriteRule ^/?$ "http\:\/\/www\.otrapaginaweb\.com\/" [R=301,L]

en vez de copiar la web en la que lo ubico: paginaweb, coje el redireccionamiento y empieza a copiar es la otra web: otrapaginaweb.com

el-brujo · 25 Mayo 2012, 17:49 PM

La idea es ir mirando nombres de ficheros si el servidor web devuelve 404 es que no existe, si devuelve 200 es que existe.

Cómo no sabes el nombre del fichero, pues o lo miras de un diccionario o lo haces aleatorio.

Si al menos sabes la carpeta, ya tienes parte de la ruta, ya tienes algo.

*- [!] Apache Files Finder
http://foro.elhacker.net/hacking_avanzado/apache_files_finder-t307464.0.html

encontrar ficheros en un servidor
http://foro.elhacker.net/dudas_generales/encontrar_ficheros_en_un_servidor-t310966.0.html

Graphixx · 25 Mayo 2012, 20:24 PM

Hey Jefe, pregunto ya que aca en el foro se ha hablado tanto del tema si yo no quiero saber los archivos si no nada mas los directorios que existen dentro de una web, esos tampoco se dejan jalar automaticamente ?