Web scraping PHP

Iniciado por apachay, 30 Agosto 2020, 20:52 PM

0 Miembros y 2 Visitantes están viendo este tema.

apachay

como hago para mostrar el codigo fuente "web scraping" a una web que tiene proteccion cloud flare esto que lo que me arroja:

Código (html4strict) [Seleccionar]
<!DOCTYPE html>
<html dir="ltr" lang="es">
<head>
<meta charset="utf-8" />
<meta name="generator" content="AntiBot.Cloud v. 7.010" />
<meta name="referrer" content="unsafe-url" />
<meta name="robots" content="noarchive" />
<meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no" />
<link rel="icon" href="/favicon.ico">
<link rel="stylesheet" href="https://stackpath.bootstrapcdn.com/bootstrap/4.4.1/css/bootstrap.min.css" integrity="sha384-Vkoo8x4CGsO3+Hhxv8T/Q5PaXtkKtu6ug5TOeNV6gBiFeWPGFN9MuhOf23Q9Ifjh" crossorigin="anonymous">
<title>Espere.</title>
<style>
html, body {text-align:center; margin: 10px;}
body {margin-top: 10%;}
</style>
</head>
<body>
<noscript><h1 style="color:#bd2426;">Active javascript y vuelva a cargar la página.</h1></noscript>
<div class="text-center">
<div class="spinner-border" role="status">
<span class="sr-only">Loading...</span>
</div>
</div>
<br />
<h2>Verificando su navegador antes de acceder al sitio.</h2>
<p>Este proceso es automático. Su navegador redirigirá a su contenido solicitado en breve.</p>
<p id="btn">Por favor espere unos segundos.</p>
<p id="error" style="color:red;"></p>
<div class="footer">
<p><small><a href="https://antibot.cloud/#digitask.ru" title="Detect & Block Bad Bot Traffic" target="_blank">Protected by AntiBot.Cloud</a></small></p>
</div>
<script>userip = "201.240.25.137";</script>

<script src="https://www.google.com/recaptcha/api.js?render=6LdOLMAUAAAAADWpsyq-fXIrXnG8eTU0judcHJiF"></script> <script>
if (window.location.hostname !== window.atob("ZGlnaXRhc2sucnU=")) {
window.location = window.atob("aHR0cDovL2RpZ2l0YXNrLnJ1L25vdGltZXJfZnAvZmF1Y2V0LnBocD9hZGRyZXNzPURHajJGaktuY2VYVzY5Q3dTQllHcnZyM05Ra2dmamlWNDMmY2FwY29kZT01ZWFhOGY0NDU1YzViNDQ3YjljZjZlNmMxMGZjODZiMiU3Qzc5YjRkMzc4NTFiYzkwY2VkNmYyN2M0YzI4ZTMwYzhlJTdDaHR0cCUzQSUyRiUyRmJhY2sxMC5rZXljYXB0Y2hhLmNvbSUyRnN3ZnMlMkZja2MlMkYzNTZmMzQxYmE5MjZhZDE1ZTMyODMxYmNlYTExM2ZmMi0lN0M1ZjRhYWFkY2I5NGI2LTQuMC4wLjAwMSU3QzEmd2FsbGV0PSZjdXJyZW5jeT1ET0dFJmtleT01N2ZlMTJkYjY1MjljZTQ1M2I3YmU1YjNmMTQ4YTc5Mw==");
throw "stop";
}
</script>
<script>
setTimeout(Button, 5000);
//var action = 'PE';
var action = 'digitaskru';
var h1 = 'd7caec816ae72aec0a29ee14a052e891';
var h2 = '8d94fc0f1235f460baf3c220edc9405b';
var ip = '201.240.25';
var via = '';
var v = '7.010';
var re = '1';
var ho = '0';
var cid = '1598813074.5001';
var ptr = 'client-201.240.25.137.speedy.net.pe';
var width = screen.width;
var height = screen.height;
var cwidth = document.documentElement.clientWidth;
var cheight = document.documentElement.clientHeight;
var colordepth = screen.colorDepth;
var pixeldepth = screen.pixelDepth;
var phpreferrer = '';
var referrer = document.referrer;
if (referrer != '') {var referrer = document.referrer.split('/')[2].split(':')[0];}


Este es mi codigo:

Código (php) [Seleccionar]
<?php


function url($url){
//$headers = array();

$agent "user-agent: Mozilla/5.0 (Linux; Android 8.0.0; SAMSUNG SM-G935F) AppleWebKit/537.36 (KHTML, like Gecko) SamsungBrowser/11.1 Chrome/75.0.3770.143 Mobile Safari/537.36"$ch curl_init(); curl_setopt($chCURLOPT_URL$url); curl_setopt($chCURLOPT_REFERER'https://digitask.ru/notimer_fp/faucet.php?address=DGj2FjKnceXW69CwSBYGrvr3NQkgfjiV43&capcode=5eaa8f4455c5b447b9cf6e6c10fc86b2%7C79b4d37851bc90ced6f27c4c28e30c8e%7Chttp%3A%2F%2Fback10.keycaptcha.com%2Fswfs%2Fckc%2F356f341ba926ad15e32831bcea113ff2-%7C5f4aaadcb94b6-4.0.0.001%7C1&wallet=&currency=DOGE&key=57fe12db6529ce453b7be5b3f148a793');
curl_setopt($chCURLOPT_AUTOREFERERtrue);
curl_setopt($chCURLOPT_POSTtrue);

curl_setopt($chCURLOPT_FOLLOWLOCATIONfalse); curl_setopt($chCURLOPT_RETURNTRANSFER1); curl_setopt ($chCURLOPT_COOKIEJAR$cookie);
curl_setopt ($chCURLOPT_RETURNTRANSFERtrue);
curl_setopt ($chCURLOPT_USERAGENT'Mozilla/5.0');
//curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);
curl_setopt($chCURLOPT_HTTPHEADER, array('HeaderName: HeaderValue'$agent'accept-language:
es-PE,es-419;q=0.9,es;q=0.8,en;q=0.7'
)); $result curl_exec($ch); return $result;
}
$result url("https://digitask.ru/notimer_fp/faucet.php?address=DGj2FjKnceXW69CwSBYGrvr3NQkgfjiV43&c
apcode=5eaa8f4455c5b447b9cf6e6c10fc86b2%7C79b4d37851bc90ced6f27c4c28e30c8e%7Chttp%3A%2F%2Fback10.keycaptcha.com%2Fswfs%2Fckc%2F356f341ba926ad15e32831bcea113ff2-%7C5f4aaadcb94b6-4.0.0.001%7C1&wallet=&currency=DOGE&key=57fe12db6529ce453b7be5b3f148a793"
);
echo 
"$result\n";



Ya alguien le iso web scraping no se por que me esta faltando

MOD: Etiquetas GeSHi agregadas. Mayusculas a minusculas. Post repetidos borrados (lee las reglas).

el-brujo

El código está bien, pero si tiene protección standard de CloudFLare, under attack, (JS Challenge) 5 segundos javascript pues tendrás que buscar un" bypass" o método para saltarlo o te mostrará siempre el código de CloudFlare. En Github hay varios bypass, scape y algunos funcionan correctamente.

apachay

gracias por tu respuesta ahora mismo estoy en busca de ese bypass en github... cualquier novedad estare avisando por aqui gracias.

el-brujo

cloudflare-scrape
https://github.com/Anorov/cloudflare-scrape

El primero funciona seguro, porque lo usaron en un ataque al foro xD

Pero hay varios más:
https://github.com/VeNoMouS/cloudscraper

La protección se llama normalmente UMA (Under Mode Attack)