[Python] Consulta - Creación CRAWLER

Iniciado por criskapunk, 11 Junio 2012, 03:40 AM

0 Miembros y 1 Visitante están viendo este tema.

criskapunk

Buenas chicos,

Hay una página web con una estructura más o menos como la siguiente:

- Una lista desplegable con varias opciones.
- Dentro de cada una, varias opciones más (enlaces).
- En cada uno de los enlaces, varios links que redirigen a una página para visualizar o descargar un .pdf.




Mi idea es crear un programa que pueda ir abriendo automáticamente cada uno de los enlaces y descargando los archivos, por eso la pregunta:

Que librerías debería usar?
Para poder entrar mecánicamente a los diferentes enlaces, tendría que analizar el código fuente, no? Esto supongo que se podrá realizar mediante expresiones regulares.

Un saludo y muchas gracias.


overxfl0w13

Utiliza urllib y urllib2 con bucles puedes sacar todas las páginas del site :)
[/url]

snhd6

O Mechanize. Se puede usar regex para analizar el fuente y está BeautifulSoup que es un parseador de HTML. Yo la verdad tiro más de Perl.

0x5d

Hola, buen día.
Hace un tiempo publiqué un código que encontré en la red, sobre un Website Crawler Python, espero
te sirva de apoyo en tu trabajo : http://rootcodes.com/pythonweb-site-crawler/

Saludos, Javier.
¡ SIGUEME EN TWITTER -> @JavierEsteban__ !

adastra

Lo mejor para lo que quieres hacer, es utilizar Scrapy Framework:
http://scrapy.org/