[Google] Peticiones de búsqueda automáticas

Iniciado por kub0x, 10 Junio 2013, 17:13 PM

0 Miembros y 1 Visitante están viendo este tema.

kub0x

Buenas,

estoy desarrollando una aplicación que realiza múltiples consultas de parámetros en Google para posteriormente tratar esos datos y clasificarlos.

El problema se presenta al ver que Google clasifica mi tráfico como automático proveniente de un Bot. Se me ocurren varías técnicas para evitar que filtren mis resultados y pidan una confirmación (Captcha) para seguir utilizando el servicio:

• Aumentar el tiempo de espera entre petición. (Funciona ;) )
• Usar una lista de proxys, donde se utilizará uno al azar de la lista en cada petición. (Not Tested)
• ¿Hacerme pasar por un GoogleBot? (Spoofing) :D
• Y la MEJOR de todas: emplear BING (y/o otros buscadores).

Me gustaría que alguien arrojara algo de luz al asunto. No veo viable utilizar OCR para resolver el Captcha. ¿Se podría lograr bypassearlo mediante el uso de cookies?

Cualquier tipo de info es agradecida.

Saludos!
Viejos siempre viejos,
Ellos tienen el poder,
Y la juventud,
¡En el ataúd! Criaturas Al poder.

Visita mi perfil en ResearchGate


0xDani

Bypassear el captcha lo veo difícil. Si no te importa aumentar el tiempo entre cada petición, es lo más sencillo.

Y si vas a usar proxies, piensa que no necesitas una lista larga. En vez de aumentar el tiempo de espera al triple, puedes ir alternando peticiones desde tres proxies distintos, por ejemplo.

Saludos.
I keep searching for something that I never seem to find, but maybe I won't, because I left it all behind!

I code for $$$
Hago trabajos en C/C++
Contactar por PM

OmarHack

I like to test things.

#!drvy

Citar• Aumentar el tiempo de espera entre petición. (Funciona ;) )

Al cabo de un tiempo, si las peticiones son muy "sospechosas" (dorks) te acaba bloqueando igual.

Citar• Usar una lista de proxys, donde se utilizará uno al azar de la lista en cada petición. (Not Tested)

Google ya hace pasar por captcha a muchos proxys.. sobre todo las que se utilizan por mucha gente xD.

Citar• ¿Hacerme pasar por un GoogleBot? (Spoofing) :D

No se, pero, si fuera un desarrollador de google, me aseguraría de que mi bot proviene de una IP que yo controlo :P

Citar• Y la MEJOR de todas: emplear BING (y/o otros buscadores).

Sin duda la mejor xD.

Saludos

kub0x

@OmarHack: debido a la compleja parametización de dicha página me supondría trabajo tener que eliminar lo que tengo y tener que basarme en dicha página de búsqueda.
Actualmente utilizo esta dirección, a la que le paso los parametros de búsqueda http://www.google.es/search?q=+aqui+los+params. Y aun así no estoy seguro de que funcione, ya que Google bloquea el servicio a aquellas IPs que generan tráfico constante y/o realizan consultas automáticas y pesadas.

@OxDani: Ya probé con una lista de Proxys. Sigo a dos velas ya que el Captcha se muestra constantemente. En cuanto al aumento del tiempo entre peticiones, pues, sigue bloqueandome el servicio, tal vez es porque guardo las cookies utilizadas en la primera petición para futuras peticiones.

@drvy| BSM: Gracias por la info, si hubieras respondido antes me hubieras ahorrado un quebradero de cabeza :D (hemos llegado a la misma conclusión). Cabe añadir que Google es el rey de los motores de búsqueda, y aunque Bing ofrezca Info que Google no tiene indexada, todos sabemos que Google ofrece amplios y mejores resultados, he ahí la cuestión de porque necesito emplearlo.

La implementación de búsquedas en Google la dejaré para el final del desarrollo de la App, ya que funciona del todo bien hasta que te bloquean el servicio.

Gracias a todos por vuestra atención. Cualquier consejo es bienvenido.

Saludos!
Viejos siempre viejos,
Ellos tienen el poder,
Y la juventud,
¡En el ataúd! Criaturas Al poder.

Visita mi perfil en ResearchGate