[Bash] Obtener código fuente de pagina web

Iniciado por Hekaly, 8 Julio 2016, 17:49 PM

0 Miembros y 1 Visitante están viendo este tema.

Hekaly

Buenas.

Estoy haciendo un trabajo de libros y nesesito  algunos datos (ISBN y el precio) que por ahora solo he encontrado en la web del ministerio.

La página principal es esta:

http://www.mcu.es/webISBN/tituloSimpleFilter.do?cache=init&prev_layout=busquedaisbn&layout=busquedaisbn&language=es

Y una url de un libro concreto:

http://www.mcu.es/webISBN/tituloDetalle.do?sidTitul=1998167&action=busquedaInicial&noValidating=true&POS=0&MAX=50&TOTAL=0&prev_layout=busquedaisbn&layout=busquedaisbn&language=es

El caso es que necesito sacar el codigo fuente y no encuentro la manera de hacerlo.

Estoy probando mayormente con curl, wget y lynx.

1) Con curl -I me redirecciona.

Código (bash) [Seleccionar]
curl -I "http://www.mcu.es/webISBN/tituloDetalle.do?sidTitul=1998167&action=busquedaInicial&noValidating=true&POS=0&MAX=50&TOTAL=0&prev_layout=busquedaisbn&layout=busquedaisbn&language=es"
HTTP/1.1 302 Movido tempor�lmente
Date: Fri, 08 Jul 2016 15:45:34 GMT
Server: Apache
X-Powered-By: Servlet 2.4; JBoss-4.2.1.GA (build: SVNTag=JBoss_4_2_1_GA date=200707131605)/Tomcat-5.5
Location: http://www.mcu.es/paginaError.html
Vary: Accept-Encoding,User-Agent
Content-Type: text/plain; charset=ISO-8859-1


Cosa que arreglo (aparezca un 200) con:

Código (bash) [Seleccionar]
curl -Lkg "http://www.mcu.es/webISBN/tituloDetalle.do?sidTitul=1998167&action=busquedaInicial&noValidating=true&POS=0&MAX=50&TOTAL=0&prev_layout=busquedaisbn&layout=busquedaisbn&language=es"

Pero el codigo fuente que aparece es el de la pagina de error.

Tanto con lynx -source como con wget puedo como mucho obtener el mismo codigo (el de la pagina de error).

Investigando he visto que esta pagina usa las cookies, tokens y sesiones, pero probando opciones para aceptar las cookies, o bien usar un useragent con curl -A, y nada, no hay manera.

Sabriais algún modo para obtener el cofigo de esta web.

Muchas gracias.

dopr

Hace tiempo hice un script en python que hacia cuatro tonterías, échale un ojo a ver si te sirve
https://github.com/Svaazz/escaner-web
High Hopes.