Estoy intentando parsear un fichero en html usando java, ahora mismo estoy intentando usar el parser que hay en javax.swing.text.html.parser, pero estoy abierto a cualquier sugerencia de librerías o lo que sea.
El fichero en html que quiero parsear es bastante largo y tiene etiquetas bastante complejas, como cualquier html generado desde un documento .doc de microsoft office. También estoy abierto a sugerencias sobre como parsear un .doc, pasarlo a html me ha parecido la mejor.
Lo que hago es que creo un DocumentParser y llamo al método parse con un objeto de la clase MyCallback que creo para eso, esta clase es subclase de Callback y sólo he redefinido el método "handleSimpleTag" porque es lo único que me interesa hacer.
El problema es que ese método redefinido no se llama nunca, no sé porqué. Así que estoy bastante perdido.
Muchas gracias.
El fichero en html que quiero parsear es bastante largo y tiene etiquetas bastante complejas, como cualquier html generado desde un documento .doc de microsoft office. También estoy abierto a sugerencias sobre como parsear un .doc, pasarlo a html me ha parecido la mejor.
Lo que hago es que creo un DocumentParser y llamo al método parse con un objeto de la clase MyCallback que creo para eso, esta clase es subclase de Callback y sólo he redefinido el método "handleSimpleTag" porque es lo único que me interesa hacer.
El problema es que ese método redefinido no se llama nunca, no sé porqué. Así que estoy bastante perdido.
Muchas gracias.