Test Foro de elhacker.net SMF 2.1

Programación => Scripting => Mensaje iniciado por: calcena en 2 Febrero 2020, 10:24 AM

Título: [Python3] Creación de web scraping para Infojobs
Publicado por: calcena en 2 Febrero 2020, 10:24 AM
Buenos días a todos, estoy intentando hacer un ejercicio de hacer web scraping solamente de selección de contenidos por criterios para una web de búsqueda de trabajo. El problema que tengo son los siguientes:
- Esta web proporciona un web service pero no está activo u operativo
- La web necesita usuario y contraseña para poder intentar acceder a ella y poder realizar las búsquedas, ya que en caso de querer acceder a detalles de las mismas no podría.
- He probado con elmicroframework scrapy y no he tenido buen resultado por tener que acceder a contenido ajax o javascript a la hora de hacer login.
Alguien tiene alguna idea o alternativa en python3 para poder realizar este tipo de operaciones.
Saludos y gracias.
Título: Re: [Python3] Creación de web scraping para Infojobs
Publicado por: @XSStringManolo en 2 Febrero 2020, 13:41 PM
Se usan mucho libs de jquery para scraping para seleccionar elementos de la página.
https://www.pythoniza.me/pyquery-web-scrapping-al-estilo-jquery/

Yo personalmente uso navegadores programados en el lenguaje de turno para poder saltarme las limitaciones/protecciones de las páginas. Hay una extensión para Mozilla Firefox muy buena para automatizarlo. https://imacros.net/browser/fx/welcome/
Título: Re: [Python3] Creación de web scraping para Infojobs
Publicado por: engel lex en 2 Febrero 2020, 13:43 PM
CitarAlguien tiene alguna idea o alternativa en python3 para poder realizar este tipo de operaciones

basicamente cualquier lenguaje, hasta he visto cosas absurdas hechas en bash... sin embargo pocas opciones tan eficientes...

CitarEsta web proporciona un web service pero no está activo u operativo

si no es accesible, no hay a donde correr

CitarLa web necesita usuario y contraseña para poder intentar acceder a ella y poder realizar las búsquedas, ya que en caso de querer acceder a detalles de las mismas no podría.

has login por medio de tu codigo y almacena las cookies

CitarHe probado con elmicroframework scrapy y no he tenido buen resultado por tener que acceder a contenido ajax o javascript a la hora de hacer login

nunca he usado scrappy (siempre he trabajado esto a mano, con una libreria para leer web como requests) pero ajax no debería presentar ninguna limitacion