Regex.Matches() error de uso C#

Iniciado por Kaxperday, 21 Febrero 2016, 18:22 PM

0 Miembros y 2 Visitantes están viendo este tema.

Kaxperday

Hola,

Código (c#) [Seleccionar]

Regex r = new Regex("<div class=\"logo\">.*<a href=\".*\"");

               foreach (Match m in r.Matches(responseData))
               {
                   MessageBox.Show(m.Value);
               }


No encuentra coincidencias (matches), sin embargo hay varias. ¿que le falla a la expresión?.

Le digo que empiece en <div class=\"logo\"> que continue independientemente de lo que haya hasta llegar a <a href=\" y que siga hasta llegar a la siguiente doble comilla.

HTML de la página:

Código (html) [Seleccionar]

div class="logo">
                               <a href="/randomlink/here/"


No entra siquiera en el bucle, 0 matches found.

Saludos, gracias.

Cuando el poder económico parasita al político ningún partido ni dictador podrá liberarnos de él. Se reserva el 99% ese poder.

Eleкtro

#1
Te falta especificar las opciones o flags adecuadas:
Código (csharp) [Seleccionar]
Regex r = new Regex("<div class=\"logo\">.*<a href=\".*\"", RegexOptions.Singleline | RegexOptions.IgnoreCase);




Aparte de eso, en el código html que has publicado falta el símbolo de apertura < al principio para que funcione, pero imagino que es un error que has tenido al copiar y pegar del código original.

Saludos








Kaxperday

#2
Cita de: Eleкtro en 21 Febrero 2016, 19:11 PM
Te falta especificar las opciones o flags adecuadas:
Código (csharp) [Seleccionar]
Regex r = new Regex("<div class=\"logo\">.*<a href=\".*\"", RegexOptions.Singleline | RegexOptions.IgnoreCase);

Buenas socio, gracias por la respuesta. El parametro SingleLine solo detiene el match hasta el primer \n eso no es lo que interesa, porque de hecho en el match creo que aparece un \n entre <div class=\"logo\"> y <a href=... por eso puse el .* por si había tabuladores \n etc.

Pero vamos muy raro, debería de salir sin poner nada, y probando con lo tuyo obtengo casi todo el HTML.. seguiré probando. De todas formas con lo de single lane si que sale algo, porque si no pones nada no sale nada :P.

PD: y sí era un error de corta pega.

Saludos.

Edito: También  pasa una cosa muy rara, la respuesta que recibo del servidor la intento mostrar en Messagebox.Show() y no sale nada, sin embargo tiene contenido cuando depuro, también me pasa con los matches que trato de mostrar las subcadenas que encuentra y no las muestra con MB, sin embargo las voy almacenando en una String que muestro al final y esa si que funciona un poco raro vaya. :xD :xD :xD

La idea es que saque todos los links del HTML que cumplan esas condiciones, con las flags SingleLine y IgnoreCase me sale esta salida:

Citar
<div class="logo">
                               <a href="/link/qa/"
                                  title="titulo"
                                  data-mixpanel="panel">
                                   <img src="...............

Se debería detener en la segunda línea y buscar otros 40 links que debe de haber en la página.

La clave está en probar en esta página: https://regex101.com/r/vN3sH3/41

Solo me interesa "/link/qa".

Es por el salto de linea, no se como seguir matcheando después de el. Si están en la misma línea si que funcionaría el div y el href pero no es el caso.
Cuando el poder económico parasita al político ningún partido ni dictador podrá liberarnos de él. Se reserva el 99% ese poder.

Eleкtro

#3
Cita de: Kaxperday en 21 Febrero 2016, 19:36 PMEs por el salto de linea, no se como seguir matcheando después de el.

En el comentario anterior te he indicado como hacerlo... con el flag SingleLine.




Cita de: Kaxperday en 21 Febrero 2016, 19:36 PMEl parametro SingleLine solo detiene el match hasta el primer \n eso no es lo que interesa

Hace todo lo opuesto, lee bien su funcionalidad.

.* con SingleLine = Cero o más caracteres, incluyendo saltos de linea (\n).




Cita de: Kaxperday en 21 Febrero 2016, 19:36 PMLa clave está en probar en esta página: https://regex101.com/r/vN3sH3/41

Ten en cuenta que estás bajo C#, y hay muchas cosas que son diferentes en el modo de empleo. Usar un evaluador de expresiones regulares ligado a las limitaciones y la sintaxis del motor RegEx de javascript, no es la clave de nada.

Si quieres evaluar expresiones para .Net, usa un servicio online para esa finalidad... aunque yo personalmente te sugiero la aplicación de escritorio RegexBuddy, y para construir expresiones, RegexMagic.




Cita de: Kaxperday en 21 Febrero 2016, 19:36 PMla respuesta que recibo del servidor la intento mostrar en Messagebox.Show() y no sale nada, sin embargo tiene contenido cuando depuro

Pues muestra el código y la url para intentar hallar el error...

Volviendo al tema, deberías preguntar desde el principio por lo que realmente quieres lograr, ¿quieres obtener el valor de los href?, ¿es eso?, ¿entonces por que intentas capturar toda la linea?.

Puedes hacerlo de la siguiente manera:
Código (csharp) [Seleccionar]
string html = File.ReadAllText("C:\\file.html");
Regex expr = new Regex("href=\"(?<url>.+)\"", RegexOptions.Multiline);

Console.WriteLine(expr.IsMatch(html));

foreach (Match m in expr.Matches(html)) {
Console.WriteLine(m.Groups("url").Value);
}


o bien...:
Código (csharp) [Seleccionar]
string html = File.ReadAllText("C:\\file.html");
Regex expr = new Regex("div class=\"logo\".+(?:(\n){1})?.+href=\"(?<url>.+)\".+$",
                      RegexOptions.Multiline | RegexOptions.ExplicitCapture | RegexOptions.IgnoreCase);

Console.WriteLine(expr.IsMatch(html));

foreach (Match m in expr.Matches(html)) {
Console.WriteLine(m.Groups("url").Value);
}


PD: De todas te sugiero evitar la utilización de RegEx para intentar parsear estructuras Html, ya que no se inventó para ese fin. Mi consejo, utiliza HtmlAgilityPack, es mucho más sencillo y eficiente.

Saludos








Kaxperday

#4
Buenas elektro, gracias por la respuesta.

Al final ya lo conseguí resolver:

Código (c#) [Seleccionar]

"<div class=\"logo\">(\n\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s)<a href=\".*?\""


Al final he aprendido un poco a usar los regex aunque seguro se puede simplificar eso XD, supongo que habrá algo para que ignore.. mañana lo miraré con más tiempo.

Respecto a lo de Singleline entendí mal lo que hacía entonces XD.

Al final con la página conseguí hacerlo funcionó como lo esperado al menos esta vez, de todas maneras gracias por las alternativas las echaré un vistazo por el tema de eficiencia y demás, y probaré tu código socio, muchas gracias y un saludo.
Cuando el poder económico parasita al político ningún partido ni dictador podrá liberarnos de él. Se reserva el 99% ese poder.

Eleкtro

#5
Cita de: Kaxperday en 21 Febrero 2016, 23:18 PM
Al final ya lo conseguí resolver:
Código (c#) [Seleccionar]

"<div class=\"logo\">(\n\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s\\s)<a href=\".*?\""


( \s+ )

¿No te sirve la segunda expresión que te mostré?, a mi me funciona como estaba previsto, pero claro... el código fuente de tu html puede que cambiar al mio :-/

Bueno, aunque quede repetitivo lo conseguiste, me alegro.

Saludos!