[Python] Consulta - Creación CRAWLER

criskapunk · 11 Junio 2012, 03:40 AM

Buenas chicos,

Hay una página web con una estructura más o menos como la siguiente:

- Una lista desplegable con varias opciones.
- Dentro de cada una, varias opciones más (enlaces).
- En cada uno de los enlaces, varios links que redirigen a una página para visualizar o descargar un .pdf.

Mi idea es crear un programa que pueda ir abriendo automáticamente cada uno de los enlaces y descargando los archivos, por eso la pregunta:

Que librerías debería usar?
Para poder entrar mecánicamente a los diferentes enlaces, tendría que analizar el código fuente, no? Esto supongo que se podrá realizar mediante expresiones regulares.

Un saludo y muchas gracias.

overxfl0w13 · 11 Junio 2012, 14:38 PM

Utiliza urllib y urllib2 con bucles puedes sacar todas las páginas del site

snhd6 · 11 Junio 2012, 14:52 PM

O Mechanize. Se puede usar regex para analizar el fuente y está BeautifulSoup que es un parseador de HTML. Yo la verdad tiro más de Perl.

0x5d · 14 Junio 2012, 02:26 AM

Hola, buen día.
Hace un tiempo publiqué un código que encontré en la red, sobre un Website Crawler Python, espero
te sirva de apoyo en tu trabajo : http://rootcodes.com/pythonweb-site-crawler/

Saludos, Javier.

adastra · 14 Junio 2012, 09:57 AM

Lo mejor para lo que quieres hacer, es utilizar Scrapy Framework:
http://scrapy.org/

Test Foro de elhacker.net SMF 2.1

[Python] Consulta - Creación CRAWLER

criskapunk

overxfl0w13

snhd6

0x5d

adastra