como funciona el mecanismo de busqueda de un buscador web ? (la fase de rastreo)

Iniciado por adefesio, 17 Mayo 2012, 20:29 PM

0 Miembros y 1 Visitante están viendo este tema.

adefesio

sabeis como funciona un buscador de internet para rastrear las paginas del mundo y clasificarlas? el proceso ya se mas o menos como es: primero un robot rastrea todas las paginas luego se guardan en una base de datos, luego se clasifican e indexan,
pero yo lo que no entiendo bien como funciona es la primera fase en la que un robot o lo que sea rastrea todas las paginas web del mundo. Es decir, ¿se supone que google tiene acceso a todos los servidores privados del mundo? es que para poder rastrearlas tendría que entrar en el servidor en donde está la pagina no?
1 saludo.

_teiki

 Lo que en realidad hace es ir agregando todos los enlaces que encuentra en una página de esta forma llega a otras web y así sucesivamente, aunque para que el proceso sea mas rápido muchas veces tienes que dar de alta tu sitio web en los buscadores y aveces tienes que agregar hasta un mapa del sitio para que agregue todo tu sitio completa. Y los buscadores no tienes acceso completo a los servidores solo a el contenido público, que es el que recolectan continuamente con sus "arañas" para mantener la base de datos actualizada, también puedes excluir algunas páginas que no quieres que sean agregas a través del archivo robots.txt.

adefesio

lo pregunto porque me plantee como actividad crear un buscado experimental solo por probar a ver en que consiste el tema. Entonces la idea que me estoy haciendo es un programa que se dedique a solicitar paginas web a lo loco y rastrear los links que ellas contienen (luego ya ordenar y clasificar es otro tema). En principio es la unica manera que se me ocurre de empezar, a no ser que exista alguna manera de rastrear sitios ftp publicos, porque en principio un sitio ftp publico hay que conocerlo a priori, no se podria rastrear a lo loco. esto viene siendo lo qu hacen las arañas de google no?