Sacar pdf de web protegida

Iniciado por murdy_22, 2 Junio 2021, 10:03 AM

0 Miembros y 2 Visitantes están viendo este tema.

murdy_22

Buenas!!! Me presento ante todo, soy Vanesa y me estoy volviendo loca con sacar una información en pdf de una página web que ni siquiera deja seleccionar el texto.
Si alguien puede ayudarme y si esta pregunta no va por aquí, decídmelo.
Muchas gracias :rolleyes: :rolleyes:

el-brujo

¿el pdf debe estar incrustado con algún visor tipo issuu?

¿Qué pagina web es? Pon una captura de pantalla al menos, aunque no salga la URL (dirección de l web) para poder ver el formato y demás.

murdy_22

Son test online de una academia

Danielㅤ

Hola, pero déjanos la URL de esa academia donde está ese PDF que quieres sustraer para que te digamos los pasos a seguir para poder descargar dicho PDF.


Saludos
¡Regresando como cual Fenix! ~
Bomber Code © 2021 https://www.bombercode.net/foro/

Ayudas - Aportes - Tutoriales - Y mucho mas!!!

Jhonny_Quel008

Algunos PDF no se permiten descargar sin más, prueba con la opción para imprimir y en "impresoras" selecciona "guardar como PDF". Otra opción es guardar la página completa. A ver si consigues pasar más detalles para que te podamos ayudar.

Danielㅤ

#5
Cita de: Jhonny_Quel008 en  4 Junio 2021, 12:04 PM
Algunos PDF no se permiten descargar sin más, prueba con la opción para imprimir y en "impresoras" selecciona "guardar como PDF". Otra opción es guardar la página completa. A ver si consigues pasar más detalles para que te podamos ayudar.

En realidad si es posible descargarlo, todo lo que se pueda visualizar, se lo puede descargar, ahora que tenga algunos métodos, formas o protecciones para que cueste descargarlos es otra cosa, pero de poder se puede, una lógica fácil de entender, es que lo que se visualiza cuando ves un PDF de alguna web, es porque realmente se descargó para poder visualizarlo y eso lo hizo el mismo navegador.

Algunos sitios web para ver videos que no permiten descargarlos, se los puede descargar igual, por ejemplo creo que YouTube lo que hace es dividir los videos en muchos frames/partes y el mismo navegador los une para mostrar el video, pero si descargas todas esas partes y las unes, formas el video, existen programas para descargar los videos como aTube Catcher.

Aunque nunca lo he probado con un video de YouTube pero con un código de Python se podría descargar el video, claro son muchas partes del video, pero aquí está el tema hay un header de nombre Content-Type con un valor de por ejemplo:

multipart/form-data; boundary=---------------------------9051914041544843365972754265

Eso es lo que hace que las descargas se puedan reanudar donde han quedado, por ejemplo si quedaron incompletas, de esa forma se pueden ir sumando bytes/datos al archivo destino para terminar de completar su contenido y la ventaja de ésto es que no hará falta unir partes porque de hecho ya lo hemos hecho.

Es un tema bastante interesante ese que alguna vez me puse a investigar y funciona como comento, pero hay poca información y ejemplos sobre eso, por eso en mis tiempos yo en mí foro había dejado una explicación y un ejemplo de cómo funcionaba.


Saludos
¡Regresando como cual Fenix! ~
Bomber Code © 2021 https://www.bombercode.net/foro/

Ayudas - Aportes - Tutoriales - Y mucho mas!!!

murdy_22

#6
Imposible así.
Se queda la página en blanco por mucho que le de a imprmir o a guardar como pdf

Cita de: Jhonny_Quel008 en  4 Junio 2021, 12:04 PM
Algunos PDF no se permiten descargar sin más, prueba con la opción para imprimir y en "impresoras" selecciona "guardar como PDF". Otra opción es guardar la página completa. A ver si consigues pasar más detalles para que te podamos ayudar.

Os envío un privado.

Muchísimas gracias.
He estado investigando también sobre como bajar los vídeos que cuelgan en esa misma plataforma y no hay manera.

Cita de: [D]aniel en  4 Junio 2021, 15:16 PM
En realidad si es posible descargarlo, todo lo que se pueda visualizar, se lo puede descargar, ahora que tenga algunos métodos, formas o protecciones para que cueste descargarlos es otra cosa, pero de poder se puede, una lógica fácil de entender, es que lo que se visualiza cuando ves un PDF de alguna web, es porque realmente se descargó para poder visualizarlo y eso lo hizo el mismo navegador.

Algunos sitios web para ver videos que no permiten descargarlos, se los puede descargar igual, por ejemplo creo que YouTube lo que hace es dividir los videos en muchos frames/partes y el mismo navegador los une para mostrar el video, pero si descargas todas esas partes y las unes, formas el video, existen programas para descargar los videos como aTube Catcher.

Aunque nunca lo he probado con un video de YouTube pero con un código de Python se podría descargar el video, claro son muchas partes del video, pero aquí está el tema hay un header de nombre Content-Type con un valor de por ejemplo:

multipart/form-data; boundary=---------------------------9051914041544843365972754265

Eso es lo que hace que las descargas se puedan reanudar donde han quedado, por ejemplo si quedaron incompletas, de esa forma se pueden ir sumando bytes/datos al archivo destino para terminar de completar su contenido y la ventaja de ésto es que no hará falta unir partes porque de hecho ya lo hemos hecho.

Es un tema bastante interesante ese que alguna vez me puse a investigar y funciona como comento, pero hay poca información y ejemplos sobre eso, por eso en mis tiempos yo en mí foro había dejado una explicación y un ejemplo de cómo funcionaba.


Saludos

Mod Edit: No hacer triple post.

Danielㅤ

#7
Lo que pasa es que debe tener alguna maña que la misma web detecta que quieren imprimir el archivo o descargarlo y redirige a una página en blanco para desviar la petición/solicitud.

En Firefox por ejemplo en el apartado Red/Network se puede verificar las solicitudes enviadas, las respuestas, parámetros, códigos de estado, URL, etc., habría que revisar más profundamente.


Saludos
¡Regresando como cual Fenix! ~
Bomber Code © 2021 https://www.bombercode.net/foro/

Ayudas - Aportes - Tutoriales - Y mucho mas!!!