Extraer Base de Datos de página web

Iniciado por chuecorl, 4 Septiembre 2013, 18:47 PM

0 Miembros y 1 Visitante están viendo este tema.

chuecorl

Hola, soy de Argentina y soy nuevo en el foro, llegue hasta acá buscando solución a un problema que tengo.

Existe una web en la que yo consulto precios de juegos, yo compro y vendo juegos usados, y uso los precios de los juegos nuevos de esta web como referencia.

El tema es que esta web no tiene una lista de precios descargable en excel o similar (también la pedi por mail y no me la pasaron) por lo tanto se me hace muy complicado y tedioso estar consultando precio por precio y producto por producto para a su vez cargarlos en un excel que tengo armado que me tira, en relacion al precio de venta del juego nuevo, a que precio puedo comprar el usado y a que precio lo puedo vender.

Por lo tanto llegue a la conclusión de que seria mi única alternativa extraer la base de datos de la pagina web, de forma automática, de tal modo que yo de una vez pueda extraer los precios de todos los productos al mismo tiempo.

La web en cuestion es esta http://www.cdmarket.com.ar/View/23/playstation-3.aspx?N=3

La misma me muestra 12 articulos por pagina y tiene mas de 50 paginas...

Lo que yo necesitaría es algo con este formato

Nombre de juego 1     $xxx
Nombre de juego 2     $yyy
...

Les agradecería que me digan si es posible para alguien con conocimientos básicos de programación lograr esto o directamente ni me esfuerzo porque es imposible o muy dificil.

Gracias.

1mpuls0

#1
Si es posible.

Conocimientos requeridos: php o asp, xml, html, regular expression.

Edito:
Lo que se tiene que hacer es que...
Mediante un lenguaje de programación ya sea php o asp tengas una variable donde guardes el link de la página.
Después de eso mediante xml y con ayuda del lenguaje guardas las etiquetas que requieres.
Para lo anterior también puedes leer las etiquetas html y mediante expresiones regulares obtener solo las que necesites.


Saludos.
abc

chuecorl

Darhius, gracias por tu respuesta (sobre todo por lo que agregaste en la edición  ;) )

Pondré manos a la obra. Me las veo complicadas ya que desconozco mucho de lo que mencionas, pero veré hasta donde puedo llegar.

el-brujo

si es posible, pero claro  es complicado. Y si algún día esa web cambia alguna "cosa" de la web (variable o el formato de la página), ya no funcionará.

chuecorl

#4
En base a la respuesta de Darhius y googleando un poco y leyendo unos tutoriales pude llegar a extraer los datos.

Logre pasar a una planilla de google calc los datos de esta página

http://www.cdmarket.com.ar/Cm/Search.aspx?sName=

Lo hice utilizando la función =importxml

Ahora mi problema es el siguiente, solo pude extraer los datos de la primer página de resultados.

Si se fijan en el link no hay ninguna indicación respecto al numero de página, es más si toco el link de la página 2 en la barra de direcciones aparece http://www.cdmarket.com.ar/Default.aspx que es la home

Se les ocurre como puedo hacer para importar los datos de todos los resultados?

Gracias