HTML parse [ayuda]

Iniciado por Grave, 31 Agosto 2015, 01:13 AM

0 Miembros y 1 Visitante están viendo este tema.

Grave

hola alguien podría ayudarme a idear un algoritmo elegante que permita leer el contenido de una etiqueta teniendo en cuenta que adentro pueden haber mas etiquetas del mismo tipo, osea recursion, he intentado con una cola y con una función recursiva pero no consigo resultados eficientes, agradecería cualquier ayuda en cualquier lenguaje conocido
"y el conocimiento os hara libres"

Module Console1
   Console.Write("Hello Word")
   Console.ReadLine()
End Module
http://aion.cr0n0triger.operaunite.com/

eLank0

All you need is web scrapping. Búsca sobre ello...

Salu2

Eleкtro

#2
Cita de: Grave en 31 Agosto 2015, 01:13 AMagradecería cualquier ayuda en cualquier lenguaje conocido

¿Realmente quieres desarrollar el algoritmo desde cero?, lo vengo a decir por que según que lenguaje entonces sería cómo reinventar la rueda, algo un poco innecesario al existir ya herramientas especializadas, pero igualmente te lo pregunto por saber si la razón es justificable (ej. ganas de aprender) o no lo es (ej. desconocimiento de librerías).

En .Net, mi opción favorita por su simplicidad y eficacia, tienes la librería de terceros HTML Agility Pack, la cual es un muy buen parser de documentos Html (para el web-scrapping), aunque también puedes parsear Html con la librería de classes de .Net, con las classes de documentos Html, vamos, que no tienes que reinvetar nada, pero se haría más tedioso que usando las facilidades de dicha librería.
http://htmlagilitypack.codeplex.com/

En Python tienes el módulo HTMLParser, e imagino que existirán varias herramientas más de terceros.
http://docs.python.org/2/library/htmlparser.html

En Ruby tienes la gema Nokogiri, la cual es la recomendación Top de las gemas para parsear html.
http://www.nokogiri.org/tutorials/parsing_an_html_xml_document.html

Saludos