Hola a todos, ::)
Estoy liado haciendo un script en python y tengo que quitar cosas de los links que recorro por el for de una página web.
El bucle lo paso asi:
for link in br.links(url_regex=re.compile('.*')):
print link
Una vez que lo paso me muestra todas esto y otros links que no necesito parsear de:
Link(base_url='file:/home/alejandro/Escritorio/1biinox.php.html', url='http://vale.com/scripts/runner.php?IM=45b2a2ec96953.', text='* Ejemplo* aquamails', tag='a', attrs=[('href', 'http://vale.com/scripts/runner.php?IM=45b2a2ec96953.'), ('target', '_inbox')])
En el link de arriba quiero cojer todo lo que esta en url osea todo el link:
http://vale.com/scripts/runner.php?IM=45b2a2ec96953.
Y lo demás descartarlo.
¿Como lo podria hacer?
Saludos
Backglass
Aunque no poner todo el trozo de código.
Esto lo encontré en una web, solo lo modifiqué un poco:
#!/usr/bin/python
import re
cadena = "Link(base_url='file:/home/alejandro/Escritorio/1biinox.php.html', url='http://vale.com/scripts/runner.php?IM=45b2a2ec96953.', text='* Ejemplo* aquamails', tag='a', attrs=[('href', 'http://vale.com/scripts/runner.php?IM=45b2a2ec96953.'), ('target', '_inbox')])";
print cadena, "\n\n";
t = cadena[cadena.find("http://"):]
print t,"\n";
t = t[:t.find(" ")]
print t
http://www.amk.ca/python/howto/regex/
http://docs.python.org/library/re.html#re-syntax
http://stackoverflow.com/questions/520031/whats-the-cleanest-way-to-extract-urls-from-a-string-using-python
Pista :P
import html.parser
Saludos