[Python] Leer archivo HTML ?

Iniciado por emma93, 1 Octubre 2010, 04:58 AM

0 Miembros y 1 Visitante están viendo este tema.

emma93

Que tal queridos amigos.
Me ha surgido una duda y que mejor que venir a preguntarle a la gente que realmente sabe :)

Me estoy iniciando en python, y tengo un mini proyecto en mente (esas ideas que se pasan por la cabeza y que siempre surge la curiosidad de realizarlas) y para cumplirlo necesito PODER SABER como leer un archivo html e imprimir sus lineas. (En realidad no es imprimir sus lineas sino modificarlas, pero un ejemplo de imprimir las lineas me vendría bárbaro).

He intentado de la siguiente manera:

Código (python) [Seleccionar]
archivo = open('archivo.html',"r")

for lineas in archivo.readlines() :
print lineas

archivo.close()


Ejecuto y al momento de imprimir las lineas me sale lo siguiente :



Como que los carácteres no logran decodificarse, como si tuviesen un formato diferente, o algo por el estilo. Alguien me podría ayudar ?

Muchas gracias !

criskapunk

Buenas,

Para imprimir las lineas, este codigo me funciono (Tambien estoy aprendiendo python ;D)

Código (python) [Seleccionar]
archivo = open("nombreDelArchivo.html")
texto = archivo.read()
print texto


Un saludo ;)

emma93

Amigo el problema era que los archivos que intentaba abrir eran los historiales de conversación del messenger plus.

Pero resulta que estos tenían una codificación diferente llamada 'UTF-16LE' (algo así).

Resulta que la solución fue:
Código (python) [Seleccionar]

archivo = open('conversacion.html','r')
print archivo.read().decode('utf-16le')
archivo.close()


de esa era la unica manera que los lograba leer, un saludo amigo !