Sistema de Visitas con Deteccion de Bots o Webcrawlers ?

Iniciado por Diabliyo, 5 Octubre 2017, 03:52 AM

0 Miembros y 1 Visitante están viendo este tema.

Diabliyo

#10
Que tal engel lex, disculpa por la demora pero he andado algo ocupado con el mismo tema y se me fue regresar a dar continuidad....

Te colo imagen de una de las varias IPs que simplemente no dan prenda para sacar si es o no un bot



Esa imagen es una forma en como dentro de mi sistema de trafico resguardo e identifico la informacion de los usuarios que acceden, como notaras en la ultima columna derecha se capturaron 5 variables: Referer, Request, UserAgent, Accept y Encoding.... La variable LANGUAGE_ENCODING no esta porque simplemente es un "flag" que se mando vacio, por ende el sistema no la guarda.

Para el caso de esa IP, no hubo de otra mas que hacerle "whois" para darse cuenta que es un Bot de la compa~ia OVH-SERVERS, esta compa~ia tiene un montononon de servidores entrando como locos a buscar paginas, y es uno de los servers que mas accesos generan en mis portales web, hasta mas que google....

Ye este es otro de los que mas dolores de cabeza cauzan, los bots Chingos y Koreanos :S... practicamente se comportan como un navegador y no dan prenda para detectarlos.



Y visitantes de plano como el de la sig. imagen son de los que no puedo etiquetar su Rango de IPs por que puede que sea una visita de usuario real o simplemente "una botnet en proceso"....



Finalmente este de plano es imposible... ya que haces whois veras que es el Bot de Google... Pero de entreda no rellena ningun campo: ni encode, ni useragent, nada.. solo el request y query.



Saludos !

engel lex

los de ovh no son necesariamenet bots....allí hay muchas vpn

Citarpracticamente se comportan como un navegador y no dan prenda para detectarlos.

en relación a qué? (ojo que de allá pueden ser usuarios en un monton de maquinas remotas para resolver captchas y todo eso... )
El problema con la sociedad actualmente radica en que todos creen que tienen el derecho de tener una opinión, y que esa opinión sea validada por todos, cuando lo correcto es que todos tengan derecho a una opinión, siempre y cuando esa opinión pueda ser ignorada, cuestionada, e incluso ser sujeta a burla, particularmente cuando no tiene sentido alguno.

Diabliyo

Citaren relación a qué?

Si, es determinar y diferenciar entre un bot y un usuario.

Citar(ojo que de allá pueden ser usuarios en un monton de maquinas remotas para resolver captchas y todo eso... )

Como ?, no entendi eso... lo que si, es que especialmente ese sitio del que puse las imagenes no tiene Captcha, es solo informacion... Hasta los correos estan impresos como imagen mediante un script del sitio para evitar en lo mayor posible recibir spam.

Saludos !

engel lex

Cita de: Diabliyo en 24 Octubre 2017, 05:22 AM
Si, es determinar y diferenciar entre un bot y un usuario.


metele javascript a eso! XD si buscas crawlers, eso buscas... comprotamiento
El problema con la sociedad actualmente radica en que todos creen que tienen el derecho de tener una opinión, y que esa opinión sea validada por todos, cuando lo correcto es que todos tengan derecho a una opinión, siempre y cuando esa opinión pueda ser ignorada, cuestionada, e incluso ser sujeta a burla, particularmente cuando no tiene sentido alguno.

#!drvy

La primera imagen que colocas se podría decir que es un bot. Usa Firefox versión 25 en el userAgent y esa versión es como de hace 4 años.

Citarotra mas que hacerle "whois" para darse cuenta que es un Bot de la compa~ia OVH-SERVERS, esta compa~ia tiene un montononon de servidores entrando como locos a buscar paginas,

OVH es un proveedor de servidores. Vende hosting, VPS y dedicados. No  tienen un montón de servidores entrando como locos.. tienen un montón de usuarios (son el proveedor N1 en el mundo) que hacen un montón de cosas incluido entrar como locos con sus bots a ciertas páginas. Pero también tienen usuarios y servicios legítimos.


@engel lex tiene razón. Con JS te cargas al 80% de los bots. Basta con que cuando el usuario entre a tu pagina, hagas que haga un request a una pagina especifica. Si ves que una IP no ha hecho ese request en 10s, lo tachas de bot.

Saludos