Que tipo de lista dinamica me conviene utilizar?

Iniciado por Skeletron, 8 Febrero 2010, 07:37 AM

0 Miembros y 2 Visitantes están viendo este tema.

seba123neo

#10
Cita de: Skeletron en 12 Febrero 2010, 06:43 AM
Sebas, te respondo:
Descargo el codigo fuente de cada web para analizarle sus links, y así sucesivamente.

¿ para que si se puede obtener los links sin descargar nada al disco ?

otra cosa , yo no me preocuparia por los items duplicados, otra forma que podes usar es cada cierto tiempo (por ejemplo cada vez que ingresaron 1000 links) ejecutar una consulta que elimine los duplicados de la base de datos, y asi te ahorras de estar consultadno cada uno si existe, eso seria mucho mas rapido.
La característica extraordinaria de las leyes de la física es que se aplican en todos lados, sea que tú elijas o no creer en ellas. Lo bueno de las ciencias es que siempre tienen la verdad, quieras creerla o no.

Neil deGrasse Tyson

Skeletron

#11
Cita de: seba123neo en 13 Febrero 2010, 04:47 AM
Cita de: Skeletron en 12 Febrero 2010, 06:43 AM
Sebas, te respondo:
Descargo el codigo fuente de cada web para analizarle sus links, y así sucesivamente.

¿ para que si se puede obtener los links sin descargar nada al disco ?

otra cosa , yo no me preocuparia por los items duplicados, otra forma que podes usar es cada cierto tiempo (por ejemplo cada vez que ingresaron 1000 links) ejecutar una consulta que elimine los duplicados de la base de datos, y asi te ahorras de estar consultadno cada uno si existe, eso seria mucho mas rapido.
Y quien dijo que descargo a la pc en modo de archivo? Puedo descargalos a la RAM...
Pero igualmente, esto no tiene nada que ver con el tema

Lo que dices de preocuparse por el tiempo de ver si esta o no el link, eso lo soluciono con una lista que no acepte cadenas duplicadas..  y Tio, justamente por ese tema abrí este post...

seba123neo

me imagine que era a la memoria sino seria lentisimo, y creo que si tiene que ver con el tema, estan hablando de los duplicados y yo dije que con una consulta eliminas los duplicados de una.
La característica extraordinaria de las leyes de la física es que se aplican en todos lados, sea que tú elijas o no creer en ellas. Lo bueno de las ciencias es que siempre tienen la verdad, quieras creerla o no.

Neil deGrasse Tyson

Skeletron

Cita de: seba123neo en 13 Febrero 2010, 04:55 AM
me imagine que era a la memoria sino seria lentisimo, y creo que si tiene que ver con el tema, estan hablando de los duplicados y yo dije que con una consulta eliminas los duplicados de una.


De que consulta hablas?

seba123neo

haces un DELETE FROM Tabla WHERE link = ( esto buscalo vos  :P) ....y te elimina los duplicados de la base de datos....

y obvio el error que te tira antes, no podes ingresar en una coleccion algo con la misma clave.
La característica extraordinaria de las leyes de la física es que se aplican en todos lados, sea que tú elijas o no creer en ellas. Lo bueno de las ciencias es que siempre tienen la verdad, quieras creerla o no.

Neil deGrasse Tyson

Skeletron

#15
Tio.. Una consulta SQL de ese tipo, en una base de datos de mas de 1 billon de entradas, es UNA LOCURA DE LENTO (comparado con ese tratamiento a nivel de memoria!!!!)

Tu mismo dijiste que sería lento descargar a un archivo el codigo fuente y luego examinarlo..  bueno, ahora eres tu el que esta proponiendo lo mismo..

Imagina realizar esa consulta por cada link nuevo que se encuentra...

Podrian ser unos 50.000 consultas de DELETE por cada 50 codigos fuentes que se procesar.. y considerando que los codigos fuentes a analizar son INFINITOS, entonces, considera que tendria que hacer INFINITO * 50.000 consultas SQL de DELETE


Es mas facil implementar un index del tipo UNIQUE, y para filtrar el 50% de las consultas a la base de datos: se hace el sistema de "cacheo" (imprementando una lsita donde no haya items repetidos) y luego insertar uno por uno a cada link, donde la clave UNIQUE se encargará de eliminar repetidos restantes

Ari Slash


seba123neo

¿ quien dijo hacerlo cada link que descargas  :o ?, eso seria una locura obviamente, lee el post de antes, igualmente si ya estas seguro de como hacerlo, entonces hacelo  :P. y si llegas a tener 1 billon de registros (o sea un millon de veces un millon), mejor no uses MySQL por lo que he leido es lento con muchos registros.
La característica extraordinaria de las leyes de la física es que se aplican en todos lados, sea que tú elijas o no creer en ellas. Lo bueno de las ciencias es que siempre tienen la verdad, quieras creerla o no.

Neil deGrasse Tyson

Skeletron

Ya los he tenido.. haciendo los testeos.. Es muy facil de llegar a esa cantidad.. es muy rapido.. en 3 o 4 dias los tenes.. te juro.

Google utiliza MySQL si mal no he leido en Wikipedia :)

Ya tengo desde hace muchos dias al indexador..
Mi problema simplemente era la lista que permita solo 1 item igual.
Una lastima que VB.NET no tenga ya implementado algo así.. Sencillo. (Como es JAVA es la lista: treeset)