[Python3] Creación de web scraping para Infojobs

Iniciado por calcena, 2 Febrero 2020, 10:24 AM

0 Miembros y 1 Visitante están viendo este tema.

calcena

Buenos días a todos, estoy intentando hacer un ejercicio de hacer web scraping solamente de selección de contenidos por criterios para una web de búsqueda de trabajo. El problema que tengo son los siguientes:
- Esta web proporciona un web service pero no está activo u operativo
- La web necesita usuario y contraseña para poder intentar acceder a ella y poder realizar las búsquedas, ya que en caso de querer acceder a detalles de las mismas no podría.
- He probado con elmicroframework scrapy y no he tenido buen resultado por tener que acceder a contenido ajax o javascript a la hora de hacer login.
Alguien tiene alguna idea o alternativa en python3 para poder realizar este tipo de operaciones.
Saludos y gracias.

@XSStringManolo

#1
Se usan mucho libs de jquery para scraping para seleccionar elementos de la página.
https://www.pythoniza.me/pyquery-web-scrapping-al-estilo-jquery/

Yo personalmente uso navegadores programados en el lenguaje de turno para poder saltarme las limitaciones/protecciones de las páginas. Hay una extensión para Mozilla Firefox muy buena para automatizarlo. https://imacros.net/browser/fx/welcome/

engel lex

CitarAlguien tiene alguna idea o alternativa en python3 para poder realizar este tipo de operaciones

basicamente cualquier lenguaje, hasta he visto cosas absurdas hechas en bash... sin embargo pocas opciones tan eficientes...

CitarEsta web proporciona un web service pero no está activo u operativo

si no es accesible, no hay a donde correr

CitarLa web necesita usuario y contraseña para poder intentar acceder a ella y poder realizar las búsquedas, ya que en caso de querer acceder a detalles de las mismas no podría.

has login por medio de tu codigo y almacena las cookies

CitarHe probado con elmicroframework scrapy y no he tenido buen resultado por tener que acceder a contenido ajax o javascript a la hora de hacer login

nunca he usado scrappy (siempre he trabajado esto a mano, con una libreria para leer web como requests) pero ajax no debería presentar ninguna limitacion

El problema con la sociedad actualmente radica en que todos creen que tienen el derecho de tener una opinión, y que esa opinión sea validada por todos, cuando lo correcto es que todos tengan derecho a una opinión, siempre y cuando esa opinión pueda ser ignorada, cuestionada, e incluso ser sujeta a burla, particularmente cuando no tiene sentido alguno.