Imprimir Página - [Python] Consulta

Título: [Python] Consulta - Creación CRAWLER
Publicado por: criskapunk en 11 Junio 2012, 03:40 AM

Buenas chicos,

Hay una página web con una estructura más o menos como la siguiente:

- Una lista desplegable con varias opciones.
- Dentro de cada una, varias opciones más (enlaces).
- En cada uno de los enlaces, varios links que redirigen a una página para visualizar o descargar un .pdf.

Mi idea es crear un programa que pueda ir abriendo automáticamente cada uno de los enlaces y descargando los archivos, por eso la pregunta:

Que librerías debería usar?
Para poder entrar mecánicamente a los diferentes enlaces, tendría que analizar el código fuente, no? Esto supongo que se podrá realizar mediante expresiones regulares.

Un saludo y muchas gracias.

Título: Re: [Python] Consulta - Creación CRAWLER
Publicado por: overxfl0w13 en 11 Junio 2012, 14:38 PM

Utiliza urllib y urllib2 con bucles puedes sacar todas las páginas del site :)

Título: Re: [Python] Consulta - Creación CRAWLER
Publicado por: snhd6 en 11 Junio 2012, 14:52 PM

O Mechanize. Se puede usar regex para analizar el fuente y está BeautifulSoup que es un parseador de HTML. Yo la verdad tiro más de Perl.

Título: Re: [Python] Consulta - Creación CRAWLER
Publicado por: 0x5d en 14 Junio 2012, 02:26 AM

Hola, buen día.
Hace un tiempo publiqué un código que encontré en la red, sobre un Website Crawler Python, espero
te sirva de apoyo en tu trabajo : http://rootcodes.com/pythonweb-site-crawler/

Saludos, Javier.

Título: Re: [Python] Consulta - Creación CRAWLER
Publicado por: adastra en 14 Junio 2012, 09:57 AM

Lo mejor para lo que quieres hacer, es utilizar Scrapy Framework:
http://scrapy.org/

Test Foro de elhacker.net SMF 2.1

Programación => Scripting => Mensaje iniciado por: criskapunk en 11 Junio 2012, 03:40 AM