Se seguramente no te interese pero hace un tiempo hice algo parecido, igual te sirve porque esta bastante simplificado:
Esta parte del codigo se encargaria de extraer las urls de las paginas web de un fichero. En la carpeta del script tienes que tener un documento llamado url1.txt con almenos 1 url o sino haces un raw_input y que automaticamente se escriba en el fichero
Luego, esta parte se encarga de leer un dominio de url1.txt y convertirlo en una ipv4, ahi tienes que tu anteriormente haber filtrado el http://www o https://www haces un .replace('http://www' or 'https//www', '') y ya estaria filtrado:
Ademas puedes meter threads y que lea si ya estan esas direcciones dentro del fichero
Si tienes alguna duda solo tienes que enviar mensaje estoy interesado en este proyecto
Esta parte del codigo se encargaria de extraer las urls de las paginas web de un fichero. En la carpeta del script tienes que tener un documento llamado url1.txt con almenos 1 url o sino haces un raw_input y que automaticamente se escriba en el fichero
Código (python) [Seleccionar]
import urllib
from bs4 import BeautifulSoup
while 0:
escritura=open("url1.txt","a")
lectura=open("url1.txt","r")
lines=archivo.readline() #Coge la siguiente url por defecto tienes que tener 1 url
[font=Verdana]Numero_url[/font]=lines
response=urllib.urlopen(Numero_url)
link=urllib.urlopen(Numero_url).read() #Obtiene contenido html
bs=BeautifulSoup(link,"lxml")
for link in bs.find_all('a', href=True): #Busca etiquetas href que no sean de css o javascript
urlsss=link['href']
if urlsss.startswith("http" or "www."): #Filtra css o javascript
print urlsss
escritura.write(urlsss) #Lo escribe en el fichero
escritura.writelines("\n")
Luego, esta parte se encarga de leer un dominio de url1.txt y convertirlo en una ipv4, ahi tienes que tu anteriormente haber filtrado el http://www o https://www haces un .replace('http://www' or 'https//www', '') y ya estaria filtrado:
Código (python) [Seleccionar]
import dns.resolver
#La variable dominio la obtienes de el fichero de arriba
conversor_ipv4 = dns.resolver.query(dominio, 'A') #Dominio tienes que haber obtenido antes
for conversor_ipv4 in ans:
print ans #Aqui te imprimiria las ipv4 creas un fichero aparte para que lo escriba y ya lo tendrias
Ademas puedes meter threads y que lea si ya estan esas direcciones dentro del fichero
Si tienes alguna duda solo tienes que enviar mensaje estoy interesado en este proyecto