Google y los web spiders navegando por internet?

Iniciado por Diesan Romero, 28 Junio 2018, 00:20 AM

0 Miembros y 2 Visitantes están viendo este tema.

Diesan Romero

Como es que los web spiders de google navegan por internet?

#!drvy

El propio Google sabría responderte.

Todo se reduce a seguir enlaces. De un enlace a otro. Por eso, las paginas que no están enlazadas, o las metes tu manualmente (Google Webmasters por ejemplo) o no aparecen en Google. Por supuesto tambien hay otras tecnicas minoritarias, incluso podrías recorrer todo el rango de IPv4 (sigue siendo el más popular en servidores) buscando un servicio httpd en el 80 o el 443.

Saludos

Diesan Romero

Cita de: #!drvy en 28 Junio 2018, 00:34 AM
El propio Google sabría responderte.

Todo se reduce a seguir enlaces. De un enlace a otro. Por eso, las paginas que no están enlazadas, o las metes tu manualmente (Google Webmasters por ejemplo) o no aparecen en Google. Por supuesto tambien hay otras tecnicas minoritarias, incluso podrías recorrer todo el rango de IPv4 (sigue siendo el más popular en servidores) buscando un servicio httpd en el 80 o el 443.

Saludos

Sinceramente eres un Dios, el del rango de IP se me facilita mucho, porque quiero crear un web spider para servidores ubicados en Cuba, y como hay muy pocas IP por alla pues conozco el rango de casi todas y va a ser facil ubicarlas, pero ahora me pregunto, se puede hacer con php? no estoy muy diestro con php.

engel lex

Cita de: magodiesan en 28 Junio 2018, 01:22 AM
Sinceramente eres un Dios, el del rango de IP se me facilita mucho, porque quiero crear un web spider para servidores ubicados en Cuba, y como hay muy pocas IP por alla pues conozco el rango de casi todas y va a ser facil ubicarlas, pero ahora me pregunto, se puede hacer con php? no estoy muy diestro con php.

las ip no siempre te darán paginas aunque hayan configuradas en ellas, el nombre de host en necesario muchas veces... por otro lado tambien hay posiblidad que muchas estén tras cluodflare, lo que haría el escaneo por ip inutil
El problema con la sociedad actualmente radica en que todos creen que tienen el derecho de tener una opinión, y que esa opinión sea validada por todos, cuando lo correcto es que todos tengan derecho a una opinión, siempre y cuando esa opinión pueda ser ignorada, cuestionada, e incluso ser sujeta a burla, particularmente cuando no tiene sentido alguno.

Diesan Romero

Cita de: engel lex en 28 Junio 2018, 01:26 AM
las ip no siempre te darán paginas aunque hayan configuradas en ellas, el nombre de host en necesario muchas veces... por otro lado tambien hay posiblidad que muchas estén tras cluodflare, lo que haría el escaneo por ip inutil

Me salve por ese lado, Cuba no suele usar servicios como cloudflare. Pero si puedo conseguir el nombre de host de por ejemplo la pagina oficial de salud publica en Cuba http://www.sld.cu entonces puedo hacer un rastreo enlace por enlace, ya que casi todas las paginas de salud publica estan enlazadas ¿Voy bien?

#!drvy

#5
El problema de escanear las IP's directamente, aparte de lo que menciona @engel lex, es que un servidor podría alojar varios dominios.

Por otro lado, no estoy muy seguro de que Cuba use CloudFlare o algún CDN que no sea Cubano.. ya sabes, eso de la censura y tal xD

Citar¿Voy bien?

Si, de hecho Google te podria hacer un flaco favor y que tengas una buena base para empezar a "crawlear"

https://www.google.es/search?q=site%3A.cu&oq=site%3A.cu&aqs=chrome..69i57j69i58.2471j0j7&sourceid=chrome&ie=UTF-8

Ahí tienes todos los dominios .cu que Google tiene indexeados.

Saludos

Diesan Romero

Cita de: #!drvy en 28 Junio 2018, 01:34 AM
El problema de escanear las IP's directamente, aparte de lo que menciona @engel lex, es que un servidor podría alojar varios dominios.

Por otro lado, no estoy muy seguro de que Cuba use CloudFlare o algún CDN que no sea Cubano.. ya sabes, eso de la censura y tal xD

Si, de hecho Google te podria hacer un flaco favor y que tengas una buena base para empezar a "crawlear"

https://www.google.es/search?q=site%3A.cu&oq=site%3A.cu&aqs=chrome..69i57j69i58.2471j0j7&sourceid=chrome&ie=UTF-8

Ahí tienes todos los dominios .cu que Google tiene indexeados.

Saludos

Ahora que está la moda de que puedes alquilar un dominio y hosting en Cuba, quiero un buscador pero que solo muestre páginas cubanas. Y pues nada, espero poder hacerlo con php, para que sea un script el que indexe las páginas y no tener que hacerlo todo manualmente. Si tiene alguna sugerencia no dude en decirme.

engel lex

has fuerza bruta a multiple dns buscando dominios .cu XD
El problema con la sociedad actualmente radica en que todos creen que tienen el derecho de tener una opinión, y que esa opinión sea validada por todos, cuando lo correcto es que todos tengan derecho a una opinión, siempre y cuando esa opinión pueda ser ignorada, cuestionada, e incluso ser sujeta a burla, particularmente cuando no tiene sentido alguno.

Diesan Romero

Cita de: engel lex en 28 Junio 2018, 01:50 AM
has fuerza bruta a multiple dns buscando dominios .cu XD

Lo que no comprendo ahorita mismo es como esos webspider simulan una conexión HTTP. Porque para entender las web con conocimientos de html y js no es nada dificil, se extrae el contenido fácilmente, pero la conexión, con php? He buscado en google y no doy con la maraca, como tengo que buscar?