Problema con Expresiones regulares

Iniciado por Lekim, 19 Diciembre 2015, 19:12 PM

0 Miembros y 1 Visitante están viendo este tema.

Lekim

Hola

La verdad no comprendo como funcionan las expresiones regulares, pese a que hay ejemplos en la ayuda msdn.

Estoy intentando obtener la Url de las imágenes de una página html junto con los valores Width, height y alt.

El problema está en que no siempre está en el mismo orden. Es decir primero puede establecerse src después height, width y luego alt:

<img src="..." height="128" width="128" alt"..."/>

También:

<img src="..." width"128" height="128" alt"..."/>


O por el contrario, establecerse el width o el heigth antes que el src:

<img width"128" height="128" src="..."  alt"..."/>

<img height"128" width="128" src="..."  alt"..."/>


Utilizando el sistema de las expresiones regulares con Regex ocurre que sólo obtiene los valores siempre y cuando estén el orden establecido en el pattern:

Código (vbnet) [Seleccionar]
Dim Pattern As String = "<img[^>]+(src)\s*=\s*""?([^ "">]+)""?(?:[^>]+(width|height)\s*=\s*""?([^ "">]+)""?\s+(height|width)\s*=\s*""?([^ "">]+)""?)?(?:[^>]+(alt)\s*=\s*""?([^"">]+)""?)?"

       Dim re As New Regex(Pattern, RegexOptions.IgnoreCase)
       Dim m As Match = re.Match(code)

       While m.Success

           For I As Integer = 0 To m.Groups.Count - 1
               ListBox1.Items.Add(m.Groups(I).Value)
           Next

       End While



'¿Como puedo obtener los valores independientemente del orden en que se encuentren?

Necesito encontrar los valores Width, height independientemente de si están antes que el src o después


Gracias

El Benjo

Prueba primero obteniendo todas lás imágenes buscando únicamente la etiqueta "<img />" y por cada item devuelto realizas la busqueda de su height, después la búsqueda de su width, etc.
www.es.neftis-ai.com

Sí hay un mejor lenguaje de programación y es ese con el que puedes desarrollar tus objetivos.

mOrfiUs0

Hola.
En ingeniería existe una máxima que a veces se olvida:
Divide y Vencerás
Prueba con bloques "<img(.*?)/>" y analiza con un regex más simple la casuística.
Para hacer scraping hay varias librerías que simplifican el trabajo, como RestSharp

Acabo de publicar un código que hace uso intensivo de regex, pero está en c#.
Y te recomiendo que mires tutoriales antes de meterte de lleno. La web del guille en su día tenía ejemplos muy buenos. Regex es una herramienta muy potente, pero requiere de un aprendizaje previo, a mi modo de ver.

Saludos!!
If you need a custom development, please contact via email.
apifilmaffinityimdb[[at]]g m ail.com

Eleкtro

#3
@Lekim
Se que esto te va a gustar tan poco como cuando te aconsejé que era absurdo e ineficiente utilizar los wrappers de Vb6 en Vb.Net (el código fuente habla por si solo), y se que no te gustan mis "tochos", no me cojas más manía... ;) pero ahí va:

Cita de: Lekim en 19 Diciembre 2015, 19:12 PMUtilizando el sistema de las expresiones regulares con Regex ocurre que sólo obtiene los valores siempre y cuando estén el orden establecido en el pattern:s

En .Net, RegEx se debería utilizar solamente cómo último recurso, cuando no nos quedan ideas para llevar a cabo esa tarea, o para escribir algoritmos con más rapidez cuando nos es indiferente el rendimiento y solo queremos acabar de escribir el algoritmo, pero lo cierto es que siempre habrá otro recurso más óptimo que reemplace a RegEx si estamos desarrollando en .Net. A pesar de lo que he dicho, el motor RegEx de .Net es sofisticadísimo, ahora no recuerdo en que principios/fórmulas se basa (soy un inepto en matemáticas de todas formas), pero en ciertas circunstancias puede superar en velocidad a un simple String.Split.

Dicho esto, algo muy importante a tener en cuenta es que los motores RegEx no se idearon ni diseñaron para parsear Html o lenguajes de markups en general; es un completo overkill hacer eso, con respecto al rendimiento y estabilidad de tu algoritmo en general.

De todas formas, si, puedes hacerlo.

Si desconoces el orden de los factores entonces no debes utilizar índices de grupos, debes construir los grupos tu mismo.

Fíjate que el indexer de la class GroupCollection tiene un overload que acepta un nombre de grupo:



...Eso debería llevarte a la siguiente conclusión: se pueden agrupar las capturas por nombres de grupo.

Para ello, esta es la sintaxis adecuada:
(?<NombreDeGrupo>|Expresión de búsqueda)

donde (? es la apertura de grupo.

Aquí tienes la solución, pero he eliminado el atributo height para que hagas tu el resto del trabajo :P:

Código (vbnet) [Seleccionar]
Dim value1 As String = "<img width=""128"" src=""...""/>"
Dim value2 As String = "<img src=""..."" width=""256""/>"

Dim rgx As New Regex("img\s+(src\=.+width\=\""(?<width>|(\d+))\""|width\=\""(?<width>|(\d+))\"".+src\=.+)")

Console.WriteLine(rgx.Match(value1).Groups("width").Value)
Console.WriteLine(rgx.Match(value2).Groups("width").Value)


Aquí tienes otro código de ejemplo:

EDITO: Y aquí más info sobre el tema (pero cuidado, la sintaxis RegEx es para perl):




Cita de: Lekim en 19 Diciembre 2015, 19:12 PM¿Como puedo obtener los valores independientemente del orden en que se encuentren?

Como te indiqué arriba es la manera de hacerlo mediante expresiones regulares, pero como también dije al principio, no se debe hacer,
la razón es simple, aparte de que no es apto, no es lo recomendable por Microsoft, y RegEx es un mecanismo (muy) lento;
aparte de todo eso también es completamente innecesario, ya que la maravillosa IDE de Microsoft tiene un interprete/parser en tiempo de diseño para lenguajes de markups, es practicamente lo mismo para Html y Xml.

Una manera sería tan sencilla como obtener el string del documento que quieres parsear, convertirlo a otro formato más amistoso para la tarea (HtmlDocument o XDocument), obtener el elemento (mediante LINQ, o una expresión XPath, o el intérprete en tiempo de diseño), y leer el atributo del elemento.

Pseudo-ejemplo:
Código (vbnet) [Seleccionar]
Dim html As XDocument = XDocument.Load("source-code")
Dim value As String = html.<body>.<element>.@attribute


Otro ejemplo:
Código (vbnet) [Seleccionar]
Dim el As XElement =
   <img src="..."
       height="128"
       width="128"
       alt="..."
   />

Dim width As Integer = CInt(el.@width)
Dim height As Integer = CInt(el.@height)


PD: Además, siempre puedes optar por utilizar los métodos de esas classes si lo prefieres en lugar de parsear el documento en tiempo de diseño.

Saludos








Lekim

#4
Hola y felices fiestas para quien las celebre

Gracias a todos por las respuestas. He tardado en responder porque ahora estoy currando y no he tenido tiempo para mí y para programar.

Tras probar varios sistemas me inclino por Regex.  XDocument es para XML y HtmlDocument me obliga a usar WebBroser y parsear desde  el evento DocumentCompleted y tarda un huevo  :-\

También he probado con mshtml.IHTMLDocument2:

Código (vbnet) [Seleccionar]
Imports mshtml 'Debe agregarse la referéncia Microsoft.mshtml para que esté disponible
Public Class Form1

   Private Sub Form1_Load(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles MyBase.Load
       Dim CodeHtml As String = Nothing
       Using CodeFromStream As System.IO.Stream = GetHttpStream("http://www.google.es")
           '///Convierte Stream a String con codificación  EncodingHtml
           Try
               Dim streamRead As System.IO.StreamReader = _
                           New System.IO.StreamReader(CodeFromStream, System.Text.Encoding.GetEncoding(name:="utf-8"))
               CodeHtml = streamRead.ReadToEnd()
               While CodeHtml = ""
                   My.Application.DoEvents()
               End While
           Catch ex As Exception
           End Try
       End Using

       ' Obtain the document interface
       Dim htmlDocument As IHTMLDocument2 = DirectCast(New HTMLDocument(), IHTMLDocument2)
       ' Construct the document
       htmlDocument.designMode = "On" 'Evita error script
       htmlDocument.write(CodeHtml)
       ListBox1.Items.Clear()

       'IMG
       Dim allElements As IHTMLElementCollection = htmlDocument.body.all.Tags("img")
       For Each element As IHTMLElement In allElements
           Try
               ListBox1.Items.Add(element.getAttribute("src"))
               ListBox1.Items.Add(element.getAttribute("width"))
               ListBox1.Items.Add(element.getAttribute("height"))
               ListBox1.Items.Add(element.getAttribute("alt"))

           Catch ex As Exception
           End Try
       Next

       ' Dim imgElements As IHTMLElementCollection = htmlDocument.images
       'For Each img As IHTMLImgElement In imgElements
       ' ListBox1.Items.Add(img.href)
       ' ListBox1.Items.Add(img.width)
       ' ListBox1.Items.Add(img.height)
       'Try
       '  ListBox1.Items.Add(img.alt)
       'Catch ex As Exception
       ' End Try
       ' Next

   End Sub

 
#Region "Obtener código página"
   Function GetHttpStream(ByVal url As String) As System.IO.Stream

       Dim MyWebRequest As System.Net.HttpWebRequest
       Dim MyWebResponse As System.Net.HttpWebResponse
       Dim CodeStream As System.IO.Stream = Nothing
       Try
           MyWebRequest = CType(System.Net.WebRequest.Create(url), System.Net.HttpWebRequest)
           With MyWebRequest
               .UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727)"
               '.Method = "GET"
               '.Timeout = 10000
               '.ProtocolVersion = System.Net.HttpVersion.Version10
           End With
           MyWebResponse = CType(MyWebRequest.GetResponse(), System.Net.HttpWebResponse)
           CodeStream = MyWebResponse.GetResponseStream()


       Catch ex As Exception
           MessageBox.Show(ex.Message)
       End Try

       Return CodeStream

   End Function
#End Region
End Class



Pero no me devuelve el Width ni el Height. Siempre devuelve 0, no se porqué.

Por otro lado HtmlDocument NO devuelve todos los img, no sé por qué con algunas páginas no muestra todos los enlaces src siempre se deja algunos, cosa que no ocurre usando regex

Sldos

Eleкtro

#5
Cita de: Lekim en 25 Diciembre 2015, 19:23 PMXDocument es para XML

Intenta evitar el uso de mshtml por dos motivos, primero por que es innecesario para esta tarea existiendo los miembros mencionados con los que puedes hacerlo, y segundo por que está ausente de documentación oficial en su mayor parte, lo que te podría resultar una pesdailla ya que estarías condenado a un búcle trial-and-error sin salida...

Si quieres publica aquí o pásame por privado el código fuente de la página y te muestro como hacerlo.




Cita de: Lekim en 25 Diciembre 2015, 19:23 PMHtmlDocument me obliga a usar WebBroser y parsear desde  el evento DocumentCompleted y tarda un huevo  :-\

En realidad no.

Es cierto que un HtmlDocument no se puede instanciar así como así, está limitado en ese sentido ya que debes usar un WebBrowser, pero simplemente lo usarías para cargar el document y listo, no tarda.

Código sacado de mi API, ElektroKit:


Código (vbnet) [Seleccionar]
''' ----------------------------------------------------------------------------------------------------
''' <summary>
''' Converts a string containing an Html source-code to an <see cref="HtmlDocument"/>.
''' </summary>
''' ----------------------------------------------------------------------------------------------------
''' <example> This is a code example.
''' <code>
''' Dim html As String = NetworkUtil.DownloadHtmlPage("http://www.elhacker.net/")
''' Dim htmlDoc As HtmlDocument = NetworkUtil.ConvertHtmlPageToHtmlDocument(html)
''' Console.WriteLine(htmlDoc.Body.OuterText)
''' </code>
''' </example>
''' ----------------------------------------------------------------------------------------------------
''' <param name="sourceCode">
''' The Html source-code.
''' </param>
''' ----------------------------------------------------------------------------------------------------
''' <returns>
''' The resulting <see cref="HtmlDocument"/> instance.
''' </returns>
''' ----------------------------------------------------------------------------------------------------
<DebuggerStepThrough>
Public Shared Function ConvertHtmlPageToHtmlDocument(ByVal sourceCode As String) As HtmlDocument

   Using wb As New WebBrowser

       wb.ScriptErrorsSuppressed = True
       wb.DocumentText = ""
       wb.Document.OpenNew(replaceInHistory:=True)
       wb.Document.Write(sourceCode)

       Return wb.Document

   End Using

End Function


Saludos y feliz navidad a ti también.








Lekim

#6
Hola

Por fin me he podido poner a programar  ;-)

Perdona que sea tan cabezón, pero de verdad, no me gusta WebBrowser. Y como comenté, según que páginas no me devuelve todas los enlaces. No se porqué.

Finalmente esto es lo que usaré utilizando el sistema que me habéis comentado:

Código (vbnet) [Seleccionar]
      '//Obtiene los enlaces
       'Inicia regex para obtener el link src
       Dim PatternImg As String = "<[^>]+(src)\s*=\s*""?([^"">]+)""?.*?>" '"(?i:<img.*?>)" '"<img(.*?)/>"
       Dim MyRegexSRC As New Regex(PatternImg, RegexOptions.IgnoreCase)
       Dim MyMatchSRC As Match = MyRegexSRC.Match(strCode)
       While MyMatchSRC.Success
           Dim ImgLine As String = MyMatchSRC.Groups(0).Value 'Obtiene una linea tal como: <img src="...\imagen.jpg">
           Dim strLink As String = MyMatchSRC.Groups(2).Value 'Obtiene el link de una imagen

           'Inicia regex para obtener el ancho, alto y valor alt de una imagen a partir de la línea ImgLine
           Dim PatternWidth As String = "<[^>]""?(?:[^>]+(width|height)\s*=\s*""?([^ "">]+)""?\s+(height|width)\s*=\s*""?([^ "">]+)""?)?(?:[^>]+(alt)\s*=\s*""?([^"">]+)""?)?" '"width=""(.*?)"""  "(?i:width="".*?.*?"")"
           Dim MyRegexWidth As New Regex(PatternWidth, RegexOptions.IgnoreCase)
           Dim MyMatchWidth As Match = MyRegexWidth.Match(ImgLine)

           Dim strWidth As String = MyMatchWidth.Groups(2).Value 'Obtiene el ancho
           Dim strHeight As String = MyMatchWidth.Groups(4).Value 'Obtiene el alto
           Dim strAlt As String = MyMatchWidth.Groups(6).Value 'Obtiene el valor Alt

           '....

           MyMatchSRC = MyMatchSRC.NextMatch() 'Continúe el bucle hasta la siguiente coincidencia.
       End While


Sl2s y se agradece la ayuda.