Extraer texto de una web

Iniciado por pills, 21 Junio 2015, 20:00 PM

0 Miembros y 1 Visitante están viendo este tema.

pills

Hola,

Con el objeto para la elaboración de un estudio, me gustaría pasar unas tablas estadísticas a 'libreoffice calc' extraídas de una página web escrita en html. Sé que lo puedo hacer copiando con el ratón los datos y de ahí llevarlo a un archivo '.txt' para finalmente importarlo a 'libreoffice calc' pero debido a que se trata de gran cantidad de webs podría acabar para cuando me creciera la barba.
He pensado en varias alternativas, como por ejemplo obtener el código fuente de la web que me interesa pero no sé luego como pasarlo para que se vea en un texto plano con las cadenas de texto con la información completa que quiero, ya que tengo entendido que la mayor parte de ésta se almacena en unas 'cajas' con el valor de las variables por las que están formadas y que no muestran su interior o al menos yo no lo consigo averiguar. He mirado también otro modo que consistiría en pasar el código html a texto plano pero sigue sin aparecer el contenido de las variables. Llevo un buen rato investigando sobre tal asunto y no encuentro nada que me pueda ayudar. Mis conocimientos sobre html son nulos, si en cambio manejo algo de shell linux.

Se agradecería una respuesta que pudiera ayudarme. Gracias.

Eleкtro

#1
Intenta formular una pregunta informática debidamente.

1. Muestra un enlace a la página.

2. Especifica la información en particular que deseas extraer.

3. Especifica que lenguaje de programación tienes pensado o usar o te es indiferente usar.

4. Formula la pregunta en el subforo dedicado a dicho lenguaje de programación.

5. Muestra lo que hayas intentado hacer por ti mismo, aquí no se hacen trabajos.

6. Descarga la API/SDK de libre office y documéntate sobre los miembros que la componen viendo la referencia de la API y los ejemplos que proveen en la página oficial, si tienes pensado hacer conversiones a un formato específico de este programa entonces la vas a necesitar. Si solo quieres extraer datos de un documento Html para pasarlo a texto plano, entonces olvida lo que acabo de decir en este punto.

Saludos!