Parseo de XML con libxml2

Iniciado por jdomgo3, 12 Enero 2014, 22:44 PM

0 Miembros y 1 Visitante están viendo este tema.

jdomgo3

Saludos a todos.

Estoy usando por primera vez la librería libxml y la verdad, estoy bastante perdido, he visto que hay muchos ejemplos pero no hay una explicación "decente" sobre el uso de la librería, o al menos no llego a comprender cómo se utiliza con cierta lógica. Tengo el siguiente archivo:

Código (XML) [Seleccionar]
<?xml version="1.0" encoding="UTF-8"?>
<serverindex:ServerIndex xmi:version="2.0" xmi:id="ServerIndex_1" hostName="localhost.localdomain">
  <serverEntries xmi:id="ServerEntry_1385929332571" serverDisplayName="nodeagent" serverName="nodeagent" serverType="NODE_AGENT">
    <specialEndpoints xmi:id="NamedEndPoint_1385929332578" endPointName="BOOTSTRAP_ADDRESS">
      <endPoint xmi:id="EndPoint_1385929332571" host="localhost.localdomain" port="2809"/>
    </specialEndpoints>
  </serverEntries>
  <serverEntries xmi:id="ServerEntry_1385932589812" serverName="LTEST003_MULT_T03_10" serverType="APPLICATION_SERVER">
    <deployedApplications>commsvc.ear/deployments/commsvc</deployedApplications>
    <deployedApplications>ibmasyncrsp.ear/deployments/ibmasyncrsp</deployedApplications>
    <specialEndpoints xmi:id="NamedEndPoint_1385932589812" endPointName="BOOTSTRAP_ADDRESS">
      <endPoint xmi:id="EndPoint_1385932589812" host="localhost.localdomain" port="48012"/>
    </specialEndpoints>
  </serverEntries>
  <serverEntries xmi:id="ServerEntry_1385932595602" serverName="LTEST003_MULT_T03_20" serverType="APPLICATION_SERVER">
    <deployedApplications>commsvc.ear/deployments/commsvc</deployedApplications>
    <deployedApplications>ibmasyncrsp.ear/deployments/ibmasyncrsp</deployedApplications>
    <specialEndpoints xmi:id="NamedEndPoint_1385932595602" endPointName="BOOTSTRAP_ADDRESS">
      <endPoint xmi:id="EndPoint_1385932595602" host="localhost.localdomain" port="48030"/>
    </specialEndpoints>
    <specialEndpoints xmi:id="NamedEndPoint_1385932595603" endPointName="SOAP_CONNECTOR_ADDRESS">
      <endPoint xmi:id="EndPoint_1385932595603" host="localhost.localdomain" port="48031"/>
    </specialEndpoints>
  </serverEntries>
</serverindex:ServerIndex>


Es una versión muy reducida del original, lo he recortado por que no tiene sentido que os ponga un archivo de 2000 líneas aquí. El caso es que he compilado el siguiente código para que me saque el nombre del nodo de cada uno de los nodos desde arriaba hasta abajo:

#include <stdio.h>
#include <libxml/parser.h>
#include <libxml/tree.h>

static void print_element_names(xmlNode *a_node)
{
xmlNode *cur_node = NULL;
for (cur_node = a_node; cur_node; cur_node = cur_node->next) {
if (cur_node->type == XML_ELEMENT_NODE) {
printf("%s\n", cur_node->name);
}
print_element_names(cur_node->children);
}
}

int main()
{
xmlDoc *doc = NULL;
xmlNode *root_element = NULL;
const char *Filename = "docs/archivo.xml";
doc = xmlReadFile(Filename, NULL, 0);
if (doc == NULL)
{
printf("ERROR: No se puede parsear el archivo %s\n", Filename);
} else {
root_element = xmlDocGetRootElement(doc);
print_element_names(root_element);
xmlFreeDoc(doc);;
}
xmlCleanupParser();
return (0);
}


Y funcionar funciona, lo que saca es una lista con los nombres de cada nodo:

Código (TXT) [Seleccionar]
ServerIndex
serverEntries
specialEndpoints
endPoint
serverEntries
deployedApplications
deployedApplications
specialEndpoints
endPoint
serverEntries
deployedApplications
deployedApplications
specialEndpoints
endPoint
specialEndpoints
endPoint


Me gustaría aprender a usar bien esta librería para poder imprimir a mi antojo no solo los nombres de ls nodos, si no imprimir solo los que me interesen en función de determinadas características como el valor de alguna propiedad del nodo como "serverType" por ejemplo. He probado con comparación de cadenas mediante strcmp de la librería string.h, pero no se muy bien el formato o el tratamiento de formatos que tiene libxml, ya que no me funciona con las pruebas que he realizado.

Me gustaría saber si hay alguien que tiene experiencia con libxml, y en caso de haber alguien si estaría dispuesto a explicarme algunas dudas sobre cómo hacer algunos parseos.

Un saludo y gracias de antemano.

ivancea96

Nunca usé esa librería, y quizás no te parezca un comentario muy constructivo, pero si necesitas hacer lo que dices, podrías hacer a mano las funciones, no parece difícil.

jdomgo3

Cita de: ivancea96 en 12 Enero 2014, 23:13 PM
Nunca usé esa librería, y quizás no te parezca un comentario muy constructivo, pero si necesitas hacer lo que dices, podrías hacer a mano las funciones, no parece difícil.

Muchas gracias por tu rápida respuesta ivancea96, en realidad uso una función print_element_names en el ejemplo que he puesto, pero creo que ya se a que te refieres, supongo que dices que haga una función para cada típo de parseo que necesito. El problema no lo tengo en hacer funciones, si no en la manera de usar los diferentes módulos de la librería libxml, que no se ni cuantos son, ni para que sirven ni cómo se manejan. En la documentación de la librería no viene muy bien explicado. Por ejemplo, supongamos que quiero comparar cadenas, he probado a hacerlo así:

#include <string.h>

#define JVMTAG "serverEntries"

...

if (cur_node->type == XML_ELEMENT_NODE) {
if(!strcmp(JVMTAG,cur_node->name)){
printf("%s\n", cur_node->name);
}
}


Pero no puede, me devuelve el siguiente warning:

Código (TXT) [Seleccionar]
passing 'const xmlChar *' (aka 'const unsigned char *') to parameter of type 'const char *' converts between pointers to integer types with different sign [-Wpointer-sign]

¿Alguna idea?

jdomgo3

#3
Saludos de nuevo, ya he conseguido averiguar cómo funciona mas o menos la librería libxml2, a base de darme cabezazos y probar una y otra vez con la poca/escasa información que hay por ahí. Aquí va el código, he puesto comentarios de lo que he hecho en la función "print_element_names", espero que se entienda:

#include <stdio.h>
#include <libxml/parser.h>
#include <libxml/tree.h>

static void print_element_names(xmlNode *a_node)
{
xmlNode *cur_node = NULL;
for (cur_node = a_node; cur_node; cur_node = cur_node->next) {
if (cur_node->type == XML_ELEMENT_NODE) {

/* Con este if me quedo solo con los nodos
que contienen el string "serverEntries" */
if (!xmlStrcmp(cur_node->name, (const xmlChar *) "serverEntries")) {

/* Con este for parseo cada uno de los atributos
o propiedades de cada nodo, uno a uno, lo convierto
a string y lo almaceno en una variable llamada value */
for(xmlAttrPtr attr = cur_node->properties; NULL != attr; attr = attr->next) {
xmlChar* value = xmlNodeListGetString(cur_node->doc, attr->children, 1);

/* Finalmente comparo el nombre del atributo de cada
vuelta del bucle, y si coincide con el string "serverName"
pinto solo el valor */
if (!xmlStrcmp(attr->name, (const xmlChar *) "serverName")) {
printf("%s\n",value);
}
}
}
}
print_element_names(cur_node->children);
}
}

int main()
{
xmlDoc *doc = NULL;
xmlNode *root_element = NULL;
const char *Filename = "docs/serverindex.xml";
doc = xmlReadFile(Filename, NULL, 0);
if (doc == NULL)
{
printf("ERROR: No se puede parsear el archivo %s\n", Filename);
} else {
root_element = xmlDocGetRootElement(doc);
print_element_names(root_element);
xmlFreeDoc(doc);;
}
xmlCleanupParser();
return (0);
}


Aún así, como no he experimentado mucho con esta librería, me gustaría que alguien que la controle mejor me dijera si lo que estoy haciendo es la mejor manera, por que no se por que me da que igual se puede simplificar mucho mas y mejor.

Un saludo y gracias de antemano.