html parser que extraiga enlaces de etiquetas u otra información

Iniciado por kinos, 18 Abril 2010, 20:21 PM

0 Miembros y 1 Visitante están viendo este tema.

kinos

Hola:

Necesito un parser de html que me extraiga enlaces de las etiquetas <a href="...
debe servir también para enlaces relativos (que generé la ruta correcta en función de la pagina actual)-> ./directorio ../directorio //directorio etc...

La página de la cual habría que extraer la información digamos que ya está capturada, entonces con pasarla mediante un string u otra estructura al parser ya está.

Intenté utilizar algunas clases del proyecto nutch http://lucene.apache.org/nutch/ pero no se cuales me podrían servir ni cómo podría utilizarlas.

También he mirado codigo de heritrix http://crawler.archive.org/ y de otros pero nose por donde tirar. Ayudaaa  :huh:

Cuantico

#1
Apoyate de tu siempres amigas expresiones regulares. Nunca fallan. Tienes funciones multiples, que te traen en tu arreglo, todas las sentencias que matcheen con tu regex...
bullshit usa un html parser!
:)

Chuidiang

#2
Hola:

Echale un ojo al método getEnlaces de la clase http://code.google.com/p/chuidiang-descargador/source/browse/trunk/src/main/java/com/chuidiang/descargador/Descargador.java

A este método le pasas el texto html en un String y te devuelve todas los href que encuentra (de etiquetas <a>, <img>, etc)

No pretende ser un ejemplo completo y totalmente probado que funcione el 100% de las veces, pero te puede servir de base para lo que necesitas.

Se bueno.

kinos

Muchas gracias a los dos. El método getEnlaces me va ha venir de perlas  ;-) . Hice lo mismo pero como un autómata gramatical pero cada vez que quieres modificar algo ahi... te mueres

Por cierto Chuidiang tu página esta muy bien, muchas veces busco alguna cosa y me sale tu página la primera  ;D