Así funcionan las nuevas arañas que pretenden indexar la Deep Web

Iniciado por wolfbcn, 1 Febrero 2017, 22:10 PM

0 Miembros y 1 Visitante están viendo este tema.

wolfbcn

Es de dominio público que el contenido de una web se lista en los motores de búsqueda cuando puede ser indexado por ellos. Para esto se utilizan unos programas conocidos como arañas web, un automatismo que viaja por la red para indexar contenido, entre otras funciones. Tradicionalmente, estos programas sólo han tenido un espacio funcional dentro de la web superficial, la que vemos con cualquier navegador.

Otro tema de dominio público es que también hay una parte de Internet que no podemos ver, lo que se conoce como Deep Web. Estas páginas también pueden ser indexadas, aunque las arañas web "ocultas" usadas hasta ahora no eran muy eficientes. Unos investigadores del Instituto Tecnológico de Rochester (RIT) han publicado un estudio según el cual aseguran que se puede indexar la Deep Web más eficazmente usando unas nuevas arañas ocultas desarrolladas por ellos.

Antes de continuar, convendría aclarar un par de conceptos que ya mencionamos en nuestro artículo sobre el kit de supervivencia de la Deep Web. Nos referimos a las diferencias entre Deep Web y Darknet. El primer término hace referencia a todos los servicios web que no podemos ver, mientras que el segundo describe de forma general la parte más oscura de los sitios web ocultos.

Esto significa que para entrar en la Deep Web no es necesario usar Tor, aunque sí sea necesario para entrar en webs .onion. Basta con que nos encontremos con una web con un paywall, o que requiera de registro para acceder a sus contenidos, para que los buscadores no puedan indexar esas páginas. ¿Por qué? Porque las arañas web convencionales no están programadas para buscar esos sitios web que están "protegidos".

LEER MAS: https://www.genbeta.com/a-fondo/asi-funcionan-las-nuevas-aranas-que-pretenden-indexar-la-deep-web
La mayoria pedimos consejo cuando sabemos la respuesta, pero queremos que nos den otra.