[python] procesar html

Iniciado por lnvisible, 28 Mayo 2011, 21:44 PM

0 Miembros y 1 Visitante están viendo este tema.

lnvisible

Hola.

Quiero procesar html en python, no estoy segura de si quiero pasarlo a objetos python como con amara, si quiero usar xml.dom que viene ya de serie con python o si quiero usar xquery o xpath para extraer los valors.  :¬¬

De lo que estoy segura es de que no quiero aprender las cuatro cosas para luego ver que no me vale, o que otra es mejor o que he perdido el tiempo, o que no se.  :-\
¿que es lo mejor y lo que deberia aprender?  :huh:

Quiero algo que sea facil, estandar y potente. Lo quiero todo  ;D

GRacias!!

PD: ah!!  :-X uso python3, amara no me vale por eso, pero puede que haya otras cosas iguales  :huh:

LeXeL

Pues como yo lo veo puedes usar Regex o Beatifull soup:
-regex viene predeterminado en python con la libreria re
- y beatifull soup pues hace el trabajo.

miralos y dime que tal

lnvisible

regex es muy complicado, puede haber cosas en varias líenas.  :¬¬

beautifull soup lo vi hace mucho y es muy bueno, pero no tanto para python3.  :-(

Creo que usaré dom, al menos es estándar.  :-\