html parser que extraiga enlaces de etiquetas u otra información

kinos · 18 Abril 2010, 20:21 PM

Hola:

Necesito un parser de html que me extraiga enlaces de las etiquetas <a href="...
debe servir también para enlaces relativos (que generé la ruta correcta en función de la pagina actual)-> ./directorio ../directorio //directorio etc...

La página de la cual habría que extraer la información digamos que ya está capturada, entonces con pasarla mediante un string u otra estructura al parser ya está.

Intenté utilizar algunas clases del proyecto nutch http://lucene.apache.org/nutch/ pero no se cuales me podrían servir ni cómo podría utilizarlas.

También he mirado codigo de heritrix http://crawler.archive.org/ y de otros pero nose por donde tirar. Ayudaaa

Cuantico · 23 Abril 2010, 02:32 AM

~~Apoyate de tu siempres amigas expresiones regulares. Nunca fallan. Tienes funciones multiples, que te traen en tu arreglo, todas las sentencias que matcheen con tu regex...~~
bullshit usa un html parser!

Chuidiang · 23 Abril 2010, 06:24 AM

Hola:

Echale un ojo al método getEnlaces de la clase http://code.google.com/p/chuidiang-descargador/source/browse/trunk/src/main/java/com/chuidiang/descargador/Descargador.java

A este método le pasas el texto html en un String y te devuelve todas los href que encuentra (de etiquetas <a>, <img>, etc)

No pretende ser un ejemplo completo y totalmente probado que funcione el 100% de las veces, pero te puede servir de base para lo que necesitas.

Se bueno.

kinos · 26 Abril 2010, 23:19 PM

Muchas gracias a los dos. El método getEnlaces me va ha venir de perlas

. Hice lo mismo pero como un autómata gramatical pero cada vez que quieres modificar algo ahi... te mueres

Por cierto Chuidiang tu página esta muy bien, muchas veces busco alguna cosa y me sale tu página la primera

Test Foro de elhacker.net SMF 2.1

html parser que extraiga enlaces de etiquetas u otra información

kinos

Cuantico

Chuidiang

kinos