Parsear html desde en java

Iniciado por soyderiver2007, 19 Julio 2011, 01:54 AM

0 Miembros y 1 Visitante están viendo este tema.

soyderiver2007

Hola, alguien me podría ayudar, necesito extraer los párrafos de un archivo con extensión html, el tag para los párrafos es "p". espero que alguien me pueda ayudar muchas gracias, saludos.

Leyer

Prueba asi

Código (java) [Seleccionar]
    Pattern p = Pattern.compile("<p>(.*?)</p>");
    Matcher m = p.matcher(html);
    while (m.find()) System.out.println(m.group(1));


Un saludo.

soyderiver2007

Muchas gracias Leyer, ya lo hice utilizando Jsoup. Igual lo voy a probar Saludos.

athlit

Leyer era justo lo que andaba buscando. En un par de lineas obtengo lo que hacía con muchas muchas más......

Gracias por compartir.

Un saludo.

Debci

Si quieres profundizar mas este tema, te recomiendo que visites este link.

Son expresiones regulares y con ellas se pueden hacer barbaridades!


Saludos

athlit

Pues te lo agradezco mucho, ayer estuve buscando por ahí para entender el patrón que pusiste, y aprender más a cerca de las expresiones regulares. No tuve mucho éxito.

Gracias por el link!