Hola, quiero hacer scraping, legitimo, pero se que el sistema me va acabar baneando la ip. He mirado sistemas para ocultar la ip, como usar proxy. Como sólo lo voy a usar dos días he mirado algunas webs, gratuitas, pero la idea de pasar un servidor interpuesto me genera muchas dudas.
He pensado una alternativa y es usar una servidor compartido que tengo:
<?php
echo file_get_contents($_GET['url']);
?>
Esto funciona bien, pero presiento que voy acabar tumbando el servidor.
¿Alguien se le ocurre una alternativa?, ¿Me recomiendan usar un proxy?
Voy a usar linux y c++
Puedes usar tor proxy y abrir instancias en simultaneo
Llevo mirándolo 4 horas, pero no consigo que me funcione, si alguien tiene/conoce alguna guía se lo agradecería.
Lo mejor es usar un Linux, instalar e iniciar el servicio tor y luego llamar a tu script con proxychains. Lo bueno de tor es que podes crear un cronjob que cada x minutos reinicie el service renovando tu IP.
Si yo sólo uso linux, y cron también estoy acostumbrado voy a probar a usar proxychains, porque no me han baneado, pero me han puesto captchas.
Entonces tenes el conocimiento suficiente para usar TOR por consola.
Por casualidad lo que querés hacer es un crawler o data minning? Porque en ese caso te recomiendo usar la libreria PHP Simple HTML DOM Parser (http://simplehtmldom.sourceforge.net/).
Está es mi mejor amiga, PHP Simple HTML DOM Parser.
Lo que tengo pensado hacer es con c++ descargarlo todo y con PHP procesarlo. Porque más de una vez después de procesar online con php o algo me ha salido mal o quiero coger más cosas, mejor guardar y luego procesar. Voy instalar ya proxychains haber si consigo que funcione.
Como estas en Linux, yo te recomendaría que directamente uses
wget (https://lists.debian.org/debian-user-spanish/2011/08/msg00272.html) para descargar, no reinventes la rueda amigo ;)
Citar$ proxychains wget http://url.com
Saludos!
Lo acabo de instalar y configurar, "funcioana" he probado el wget con varias web, pero percisamente la que quiero me rechaza la petición.
Petición HTTP enviada, esperando respuesta... 503 Service Unavailable
2016-08-10 19:01:24 ERROR 503: Service Unavailable.
Es gracioso que esta web esté tan bién protegida, cuando ellos son los primeros en hacer scraping para ajustar sus precios.
Muchas gracias por vuestras respuestas. El wget lo bloquea pero con un navegador no.
$ proxychains lynx -source https://web.com > file.html