Menú

Mostrar Mensajes

Esta sección te permite ver todos los mensajes escritos por este usuario. Ten en cuenta que sólo puedes ver los mensajes escritos en zonas a las que tienes acceso en este momento.

Mostrar Mensajes Menú

Mensajes - Skeletron

#471
Manu, obviamente que las ingreso a una base de datos, con clave unica.. Pero para agilizar el procesamiento y demas, hago el traspaso del array: "LinksNuevos" una vez que se hayan procesado 50 webs.. Así evito miles y miles de entradas a la abse de datos...
Por el tema de que una E/S, es muy muchisimo mas lenta que una comprobacion si esta o no esta una cadena dentro de un array..

Sebas, te respondo:
Descargo el codigo fuente de cada web para analizarle sus links, y así sucesivamente.
#472
Cita de: ^TiFa^ en 11 Febrero 2010, 22:56 PM
Ahhhh pos entonces el tamano ha reducido.  :rolleyes:   la segunda tabla ya tiene los indices incluidos??? (Los indices numericos de lo mas que te puede servir es optimizar la velocidad de respuesta a la hora que hagas una consulta)

Si sabes que no vas a eliminar ni actualizar campos en tu tabla, puedes considerar usar myisampack para comprimir la tabla y reducir un 60% su tamano en disco.

Aun no tiene los indices, porque probaré con y sin indices.. para ver que conviene..

Creo que por el momento no utilizaré eso de  myisampack, porque como esta en etapa de prueba la web, aun no se si los hash de las imagenes(cosas propias de la web) estan correctos... Pero cuando me "estabilice", haré eso.

EN momentos te paso los resutaldos de todo
#473
Lo de cardinalidad, yo tampoco lo entiendo, por eso los "?", pero mira en ESPACIO UTILIZADO

Te recuerdo que me olvide de eliminar el HTTP:// a la 2º tabla...


Ahora te paso la imagen de la tabla con el "crc32()" y sin los http://
para ver cuanto podria llegar a ahorrar
#474
Mira, estoy haciendo las pruebas:
Mira las siguientes imagenes:
la 1º imagen, es la tabla así nomas, sin modificar ni reemplazar nada por nada... la "VIRGEN"
la 2º imagen, es la tabla luego de haber reemplazado las siguientes cadenas:
'ð = upload.wikimedia.org/wikipedia/
        '¢ = www.
        '£ = .com
        '¤ = .org
        '¥ = .net
        '§ = .html
        '± = .htm
        '© = .php
        'µ = .png
        '¼ = .jpg
        '½ = .gif
        'Æ = .jpeg
        '® = index
        'æ = wikipedia


Y tifa, no hay manera de llegar a alcanzar un error o problema al reemplazar esas cadenas por esos simbolos, si se hacen en ese orden que los he puesto.

Primera


Segunda
#475
Mira..
El indexador esta en vb.net, por lo que, al descargar una web(su codigo fuente queda guardado en una variable STRING), o una imagen (queda guardad en un MapaBit), SI O SI tiene que comenzar con http:// el link, por pero como sé que todos comeinzan con http://, lo obviaré y al agregar los items al array para que luego sean procesados, ahí le agregaré el http://, pero no para almacenarlos en la base de datos.

Ahora, hay un problema gigante con dar por obvio el .com, ya que puede ser .com, .com.ar, y demas.. Por eso la idea de reemplazar por simbolos.

Haré eso mi querida TIFA.. reemplazaré por simbolos algunas cadenas de los links, y generaré ese codigo numerico para identificar el link ya con los reemplazos.


Mi pregunta es:
Esos numeros que identificarán al link, que serán el indice PRIMARIO, no terminaran ocupando mas espacio que si tuviese como indice PRIMARIO al link?
Que me dices de las Coliciones con ese numero que identifica? Hay probabilidades de que haya 2 numeros iguales para 2 links diferentes?


Me puse a haces unas pruebas, ahora te digo como va todo
#476
Cita de: ‭ en 11 Febrero 2010, 20:39 PM
El problema con los símbolos es que se guardan con su valor ascii

Esas webs, son coreanas o que se yo (las que dan esos simbolos en los links), lo que podria hacer, es:
Antes de ingresar el link (hay 2 bases de datos, una de LINKS y otras de LINKS DE IMAGENES) a la base de datos, puedo chequear si contiene algun simbolo de los que utilizo, y en caso de ser así, NO LO AGREGO al link, y listo..
#477
Aunque, ahora que veo bien, probando el indexador, y dando como link para que comience a buscar, a WIKIPEDIA: Mira el 1º link que me encontro:
http://as.wikipedia.org/wiki/প্ৰথম_পৃষ্ঠা

Como verás, ahí ya me ocupó la mayoria de los simbolos que pensaba utilizar como reemplazo.
Habria una solucion para ésto? Utilizar otro "lenguaje" para la base de datos, para poder utilizar los simbolos que te mostre arriba, solo para reemplazar esas palabras que te dije.


Porque, te repito: mi principal problema, es ESPACIO EN DISCO
#478
O sea que tendria que reemplazar la clave "PRIMARI" del campo "link", y ponercelo a ese codigo que identificará al link?
Y que pasa con las coliciones? Ya que es muy probale que en cantidad de links, llegue aproximadamente a los 2.000.000.000 de registros.
Lo que tu me dices, ahorra tiempo de calculo y espacio por manejar mejor los indices... Pero, yo tengo problemas con el espacio en disco.

Que dices de convinar tu tecnica mas el reemplazo de las siguientes palabras:
       '¢ = www.
       '£ = .com
       '¤ = .org
       '¥ = .net
       '§ = .html
       '± = .htm
       '© = .php
       '® = index
       'µ = .png
       '¼ = .jpg
       '½ = .gif
       '¾ = .png
       'Æ = .jpeg
Entonces generaría ese codigo numerico para un link que esta tambien reducido en longitud por haber reemplazado esos textos(parte derecha), por esos simbolos (parte izquierda)


Porque, mi problema principal, es el espacio, y es verdad lo que tu dices, ya que mas del 50% del espacio, lo gasto en indices.

Imagina el link:
http://www.wikipedia.org/imagenes/simbolodeleuro.jpg >>> 53 bytes
En la base de datos, puede quedan:
¢.wikipedia¤/imagenes/simbolodeleuro¼ >>> 38 bytes
Esto tambien haría que el numero identificador sea mas pequeño aun, y MENOS ESPACIO en disco utilizado

Mira por ejemplo mi querida TIFA:
en 1 minuto, el indexador, tomando como RAIZ a wikipedia.org, encontro 3200 imagenes, de las cuales, 3020 comenzaban con:
http://upload.wikimedia.org/wikipedia/....
Reemplanzar el "http://upload.wikimedia.org/wikipedia/" (ya que, como todos sabemos, es una web que dará un gran porcentaje de las imagenes) por un simbolo, por ejemplo: *, en vez que ocupar 39bytes en ese tramo de link, ocupare solo 2 bites.
#479
Hola gente... Les comento que tengo una base de datos donde cada registro, son links.

Hoy antes de activar el INDEXADOR de una web mia, pense en como hacer para ahorrar datos..

Tambien me dijeron hace un tiempo, en eliminar el http:// de cada link, para ahorrar espacio, como así tambien reemplazar el .com por un *, y el .org por un ] y el www. por un [
O sea, reemplanzar cadenas comunes por simbolos, para ahorrar espacio

Las preguntas son:
Tienen alguna idea mejor, o algo mas para hacer para ahorrar espacio? (no sirve cualquier sistema HASH)
Que simbolos no se utilizan en links? (para poder utilizarlos como reemplazos)


Espero respuestas tios/as!

Encontre una respuesta muy grosa:
http://www.nuevastecnologias.com.ar/2010/04/como-ahorrar-espacio-en-una-base-de.html
#480
Y creo que menos problemas hay al decirles que mis instalados instalan el framework 3,5 si el usuario no lo posee :D