Test Foro de elhacker.net SMF 2.1

Programación => Scripting => Mensaje iniciado por: emma93 en 1 Octubre 2010, 04:58 AM

Título: [Python] Leer archivo HTML ?
Publicado por: emma93 en 1 Octubre 2010, 04:58 AM
Que tal queridos amigos.
Me ha surgido una duda y que mejor que venir a preguntarle a la gente que realmente sabe :)

Me estoy iniciando en python, y tengo un mini proyecto en mente (esas ideas que se pasan por la cabeza y que siempre surge la curiosidad de realizarlas) y para cumplirlo necesito PODER SABER como leer un archivo html e imprimir sus lineas. (En realidad no es imprimir sus lineas sino modificarlas, pero un ejemplo de imprimir las lineas me vendría bárbaro).

He intentado de la siguiente manera:

Código (python) [Seleccionar]
archivo = open('archivo.html',"r")

for lineas in archivo.readlines() :
print lineas

archivo.close()


Ejecuto y al momento de imprimir las lineas me sale lo siguiente :

(http://s2.subirimagenes.com/otros/previo/thump_5281921imagensubir.jpg)

Como que los carácteres no logran decodificarse, como si tuviesen un formato diferente, o algo por el estilo. Alguien me podría ayudar ?

Muchas gracias !
Título: Re: [Python] Leer archivo HTML ?
Publicado por: criskapunk en 1 Octubre 2010, 13:32 PM
Buenas,

Para imprimir las lineas, este codigo me funciono (Tambien estoy aprendiendo python ;D)

Código (python) [Seleccionar]
archivo = open("nombreDelArchivo.html")
texto = archivo.read()
print texto


Un saludo ;)
Título: Re: [Python] Leer archivo HTML ?
Publicado por: emma93 en 2 Octubre 2010, 05:08 AM
Amigo el problema era que los archivos que intentaba abrir eran los historiales de conversación del messenger plus.

Pero resulta que estos tenían una codificación diferente llamada 'UTF-16LE' (algo así).

Resulta que la solución fue:
Código (python) [Seleccionar]

archivo = open('conversacion.html','r')
print archivo.read().decode('utf-16le')
archivo.close()


de esa era la unica manera que los lograba leer, un saludo amigo !