Sitio gratuito con más memoria para postear desde PHP?

Iniciado por @XSStringManolo, 20 Septiembre 2019, 19:05 PM

0 Miembros y 2 Visitantes están viendo este tema.

@XSStringManolo

Quiero almacenar muchos teras de información recabada por bots y spiders y no sé donde podría almacenar toda la info y manejarla cómodamente sin tener que pagar.
Debería ser un sitio al que pueda acceder de forma automatizada.

Básicamente quiero poner varios bots/spiders a rondar por la web siguiendo unos parámetros y que vayan cifrando, comprimiendo y almacenando automáticamente toda la info interesante.
Después un bot debería poder acceder a esa base de datos, descomprimirla, descifrarla con la clave y obtener lo que se le indique.

Mi idea es algo así como un spider que se ponga a buscar perfiles públicos de personas distintas y almacenar toda la info pública que se encuentre.
Al bot se le dice por ejemplo: Dame un perfil de un hombre entre 25-35 años que visite páginas de concesonarios.

Me surgen varios problemas, dónde meto tanta info y que pueda acceder y guardarla ahí de forma automatizada? Es legal si es info pública no?

engel lex

Cita de: string Manolo en 20 Septiembre 2019, 19:05 PM
sin tener que pagar

quien te daría teras de almaceamiento gratuito? por qué?

CitarDame un perfil de un hombre entre 25-35 años que visite páginas de concesonarios

eso estoy seguro que debe ser mas que informacion publica, aunque si es publica es legal hasta cierto punto, hay que revisar el gpdr si estas en europa, ya que esa persona no está cediendo sus datos de manera voluntaria, expresa y clara
El problema con la sociedad actualmente radica en que todos creen que tienen el derecho de tener una opinión, y que esa opinión sea validada por todos, cuando lo correcto es que todos tengan derecho a una opinión, siempre y cuando esa opinión pueda ser ignorada, cuestionada, e incluso ser sujeta a burla, particularmente cuando no tiene sentido alguno.

@XSStringManolo

Cita de: engel lex en 20 Septiembre 2019, 19:17 PM
quien te daría teras de almaceamiento gratuito? por qué?

eso estoy seguro que debe ser mas que informacion publica, aunque si es publica es legal hasta cierto punto, hay que revisar el gpdr si estas en europa, ya que esa persona no está cediendo sus datos de manera voluntaria, expresa y clara
Pues servicios como google drive, gmail, mega... Porque les renta poner publicidad y que los usuarios utilicen sus servicios a pesar del gasto físico de componentes que es mínimo comparado con los ingresos generados. O porque ofrecen upgrades de pago y muchos usuarios los contratan para no migrar toda la info que tienen y simplemente obtener más espacio. Quizás necesite hacer múltiples cuentas en este tipo de servicios. Pero igual hay algún servicio más grande que no conozco o pueda usar mega de forma automatizada o algo así.
Alguna idea?

Qué coñazo, 50.000 leyes en cada país sobre el tema, normas, organizaciones... Cómo sé lo que puedo hacer y lo que no? XD

engel lex

Cita de: string Manolo en 20 Septiembre 2019, 19:42 PM
Cómo sé lo que puedo hacer y lo que no? XD

si eres una empresa y vas a ofrecer servicios, usualmente contratas a un abogado! XD por eso empresas grandes tienen incluso un departamento lleno de ellos (no solo para evadir impuestos)

CitarPues servicios como google drive, gmail, mega... Porque les renta poner publicidad y que los usuarios utilicen sus servicios a pesar del gasto físico de componentes que es mínimo comparado con los ingresos generados.

si, pero ponen limites considerables porque no quieren "usuarios indeseados" que abusen del servicio o lo exploten sin pagar xD

si podrías hacer una mezcla usando las api, pero no te extrañes que en algún momento noten que eres un unico y te cierren (por otro lado necesitas cientos de cuentas y es la parte dificil) por otra parte distribuyendo el contenido es un dolor hacer busquedas de datos en "tiempo tolerable" puedes tardar mucho tiempo explorando archivos (porque a demas te dan limitaciones de velocidad) suma al hecho que quieres cifrar, así que dile adios a tus posibilidades de comprimir para disminuir el tamaño de la data (y comprimir luego cifrar, puede ser un dolor de cabeza para obtener "datos intermedios")

lo mas recomendable es hacerlo almacenar en una pc personal y usar intermedios para dificiltar el seguimiento de la ruta en caso que sea importante para ti...

El problema con la sociedad actualmente radica en que todos creen que tienen el derecho de tener una opinión, y que esa opinión sea validada por todos, cuando lo correcto es que todos tengan derecho a una opinión, siempre y cuando esa opinión pueda ser ignorada, cuestionada, e incluso ser sujeta a burla, particularmente cuando no tiene sentido alguno.

@XSStringManolo

#4
Cita de: engel lex en 20 Septiembre 2019, 19:56 PM
si eres una empresa y vas a ofrecer servicios, usualmente contratas a un abogado! XD por eso empresas grandes tienen incluso un departamento lleno de ellos (no solo para evadir impuestos)

si, pero ponen limites considerables porque no quieren "usuarios indeseados" que abusen del servicio o lo exploten sin pagar xD

si podrías hacer una mezcla usando las api, pero no te extrañes que en algún momento noten que eres un unico y te cierren (por otro lado necesitas cientos de cuentas y es la parte dificil) por otra parte distribuyendo el contenido es un dolor hacer busquedas de datos en "tiempo tolerable" puedes tardar mucho tiempo explorando archivos (porque a demas te dan limitaciones de velocidad) suma al hecho que quieres cifrar, así que dile adios a tus posibilidades de comprimir para disminuir el tamaño de la data (y comprimir luego cifrar, puede ser un dolor de cabeza para obtener "datos intermedios")

lo mas recomendable es hacerlo almacenar en una pc personal y usar intermedios para dificiltar el seguimiento de la ruta en caso que sea importante para ti...
Hostia tío, pregunto por servicios de almacenamiento gratis y me mencionas un buffet de abogados :laugh:

En ese orden van mis preguntas, dentro de los limitados lo que menos lo esté.

No entiendo que tiene que ver que cifre los datos con no poder comprimirlos o viceversa. Al contrario, ciertos cifrados pueden reducir el tamaño.
Estoy haciendo yo todo de 0. Spider, Bot, Algoritmos de Cifrado y Compresión, Base de Datos, Sistema de Indexación, Motor de búsqueda, Manejo de información y Analisis...
No voy a tener problemas si quiero que el Spider, el Bot o cualquier otro elemento Cifren o Descifren el contenido porque estoy escribiendo el cifrado y el algoritmo de compresión para 3 lenguajes distintos.

No tengo tanto disco como para almacenar teras de info.
Pensé en una locura como usar Facebook, Twitter, Telegram, Gmail o algo así para mandar los datos cifrados por mensajes privados. No sé donde ponen el límite estas apps/webs, tamaño máximo ni nada de eso. Entonces pregunto a ver si alguien me recomienda algo en concreto.

Igual servicios de subida de imágenes o algo así? Youtube? Lo malo es que estos servicios modifican el contenido/le bajan la calidad. Igual podría subir un "vídeo" con toda la base de datos en texto estilo estego?

Podría usar índices como nombres de cada fichero y asi solo accedo a lo que me interese. Y el bot que organiza lo puedo dejar corriendo en cualquier servicio de hosting gratuito organizano. Lo malo es el límite de banda ancha.

engel lex

CitarHostia tío, pregunto por servicios de almacenamiento gratis y me mencionas un buffet de abogados :laugh:

tu fuiste quien habló de legalidades XD

CitarNo entiendo que tiene que ver que cifre los datos con no poder comprimirlos o viceversa. Al contrario, ciertos cifrados pueden reducir el tamaño.

solo si comprimes con perdida, el cifrado siempre tiene un resultado igual o mayor al contenido original (mayor por algunos bytes debido al padding por el tamaño de bloque)

sobre la compresión el problema está en que en general funciona buscando patrones y reuniendolos, para la data sobre todo escrita en formato humano, la repetición es común, cuando cifras justamente uno de los objetivos es que no haya patrones identificables haciedo inutil la compresión (prueba tomar una base de datos con numero y texto en formato sql de muchos megas y comprime, luego cifrala y comprime, verás la diferencia)

la union de estos 2 problemas radica en que deberias cifrar primero y descomprimir despues, y usualmente el cifrado (con algunas excepciones en modo stream) va a requerir los bloques anteriores para abrir un bloque especifico, luego requeriras igual para descomprimir bloques especificos (el diccionario y esas cosas) para poder descomprimir la data... entonces requieres mucha am y tarda tiempo haciendo eso...

CitarPensé en una locura como usar Facebook, Twitter, Telegram, Gmail o algo así para mandar los datos cifrados por mensajes privados. No sé donde ponen el límite estas apps/webs, tamaño máximo ni nada de eso. Entonces pregunto a ver si alguien me recomienda algo en concreto.

ha sido usado antes, aunque tiene limitaciones fuertes especialmente al intentar abrir mucho contenido, ya que estás limitado a cierta cantidad de solicitudes por segundo, asi que tendrías que usar metodo de busqueda... aun asi probablemente te des con algún limite impuesto (a demás llamará la atencion que el historial de chat de alguien llegue a gigas en semanas), aunque sinceramente lo ignoro

CitarIgual servicios de subida de imágenes o algo así? Youtube? Lo malo es que estos servicios modifican el contenido/le bajan la calidad. Igual podría subir un "vídeo" con toda la base de datos en texto estilo estego?

video 0% recomendable a demás necesitarás un api para procesamiento de video. Imagenes, puede ser, si usas 256 colores (o incluso mas colores, merece pruebas) y usas por ejemplo 4 pixeles por cada dato, puedes almacenar en una imagen 512*512 65k, incluso si la imagen es reprocesada tienes sobre 90% chance de recuperar toda la informacion (aunque podrías usar 25% de redundancia o simlar para evitar perdidas)

El problema con la sociedad actualmente radica en que todos creen que tienen el derecho de tener una opinión, y que esa opinión sea validada por todos, cuando lo correcto es que todos tengan derecho a una opinión, siempre y cuando esa opinión pueda ser ignorada, cuestionada, e incluso ser sujeta a burla, particularmente cuando no tiene sentido alguno.

MinusFour

Va a depender de cuantos teras de información estemos hablando. También tienes que tener en cuenta los ToS de los proveedores.

Por ejemplo, Digital Ocean:

CitarYou agree that you will not transmit, distribute, post, store, link, or otherwise traffic in Content, information, software, or materials on or through the Service that (i) is unlawful, threatening, abusive, harassing, defamatory, libelous, deceptive, fraudulent, invasive of another's privacy, tortious, offensive, profane

https://www.digitalocean.com/legal/terms-of-service-agreement/

AWS:

Citar
You may not use, or encourage, promote, facilitate or instruct others to use, the Services or AWS Site for any illegal, harmful, fraudulent, infringing or offensive use, or to transmit, store, display, distribute or otherwise make available content that is illegal, harmful, fraudulent, infringing or offensive. Prohibited activities or content include:

Offensive Content. Content that is defamatory, obscene, abusive, invasive of privacy, or otherwise objectionable, including content that constitutes child pornography, relates to bestiality, or depicts non-consensual sex acts.

https://aws.amazon.com/aup/

Azure:

CitarIn using the Communication Services, you may not:
Harvest or otherwise collect information about others, including e-mail addresses;

https://azure.microsoft.com/en-us/support/legal/website-terms-of-use/

Heroku:

Citar
Prohibited Actions
In addition to (and/or as some examples of) the violations described in the Terms, you may not and may not allow any third party, including your End Users, to:

Generate or facilitate unsolicited commercial email ("spam"). Such activity includes, but is not limited to:

data mining any web property (including Heroku) to find email addresses or other user account information;

Use the Service to violate the legal rights (such as rights of privacy and publicity) of others;

https://www.heroku.com/policy/aup

Etc, etc, etc.

En general, para lo que tu quieres hacer, dudo mucho que te encuentres un proveedor al cual no le importe lo que estés haciendo. Ya ni se diga de todos estos recursos que quieres de forma gratuita.

@XSStringManolo

#7
Cita de: engel lex en 21 Septiembre 2019, 00:35 AM
tu fuiste quien habló de legalidades XD

solo si comprimes con perdida, el cifrado siempre tiene un resultado igual o mayor al contenido original (mayor por algunos bytes debido al padding por el tamaño de bloque)

sobre la compresión el problema está en que en general funciona buscando patrones y reuniendolos, para la data sobre todo escrita en formato humano, la repetición es común, cuando cifras justamente uno de los objetivos es que no haya patrones identificables haciedo inutil la compresión (prueba tomar una base de datos con numero y texto en formato sql de muchos megas y comprime, luego cifrala y comprime, verás la diferencia)

la union de estos 2 problemas radica en que deberias cifrar primero y descomprimir despues, y usualmente el cifrado (con algunas excepciones en modo stream) va a requerir los bloques anteriores para abrir un bloque especifico, luego requeriras igual para descomprimir bloques especificos (el diccionario y esas cosas) para poder descomprimir la data... entonces requieres mucha am y tarda tiempo haciendo eso...

ha sido usado antes, aunque tiene limitaciones fuertes especialmente al intentar abrir mucho contenido, ya que estás limitado a cierta cantidad de solicitudes por segundo, asi que tendrías que usar metodo de busqueda... aun asi probablemente te des con algún limite impuesto (a demás llamará la atencion que el historial de chat de alguien llegue a gigas en semanas), aunque sinceramente lo ignoro

video 0% recomendable a demás necesitarás un api para procesamiento de video. Imagenes, puede ser, si usas 256 colores (o incluso mas colores, merece pruebas) y usas por ejemplo 4 pixeles por cada dato, puedes almacenar en una imagen 512*512 65k, incluso si la imagen es reprocesada tienes sobre 90% chance de recuperar toda la informacion (aunque podrías usar 25% de redundancia o simlar para evitar perdidas)

No coincido en lo que dices del cifrado. Se puede cifrar y reducir el tamaño en el propio cifrado.

int Plano = 90000000001;
int Cifrado =30000000000;
while (Cifrado == 0)
{
  if (Plano % Clave == 0)
  {
  Cifrado = Plano/Clave;
  }

  else
  {
  ++Plano;
  ++Contador;
  }
}


SALIDA CONSOLA:


Texto a cifrar -> 90000000000
Clave -> 30000000000
Texto Cifrado -> 3
Texto Bin -> 00000011
Suma añadida para hacer posible la operación -> 1


Eso para mi es cifrado, no compresión.
Compresión sería por ejemplo:
9B0A10
Siendo 9 digito,
B indica un espacio en texto,
0 digito,
A indica que se repite el dígito anterior las veces que se indique desde A hasta el fin de la cadena o la siguiente B.
O
9*10^10

Entiendo lo que dices pero cifrado también es el cesar, no solo cifrados por bloques. Pienso que no es norma que el cifrado tenga que ocupar lo mismo o más. En el propio algoritmo puede verse reducido el tamaño.

Lo he pensado bien y la idea de las imáganes es justo lo que busco. No sé si calculé bien pero puedo representar 16,777,216 de valores distintos por pixel con RGB no?
256x256x256?
0,0,0
0,0,1
0,0,2
0,0,256
0,1,0
0,1,1
0,1,2
0,1,3
0,1,256
....

A parte encaja perfectísimo con mi algoritmo, porque estoy usando 4096bits. Y curiosamente 4096 es la raiz cuadrada de 16,777,216

Tengo que mirar bien como codificar la info y ver cuanta puedo meter en una imagen un gif o un video.
El tema video me interesa porque en un video de muy poca duración podría meter un montón de imágenes, y acelerar el vídeo para acortar la duración para pillar la info por OCR. Hay un montón de plataformas de vídeo que dejan subir videos de horas. El tema es la compresión que usen que no me jodan los píxeles. Lo bueno es que me salto un montón de problemas. Lo malo es que es mucho curro  :-\

Lo haré con calma jaja.


Cita de: MinusFour en 21 Septiembre 2019, 01:50 AM
Va a depender de cuantos teras de información estemos hablando. También tienes que tener en cuenta los ToS de los proveedores.

Por ejemplo, Digital Ocean:

https://www.digitalocean.com/legal/terms-of-service-agreement/

AWS:

https://aws.amazon.com/aup/

Azure:

https://azure.microsoft.com/en-us/support/legal/website-terms-of-use/

Heroku:

https://www.heroku.com/policy/aup

Etc, etc, etc.

En general, para lo que tu quieres hacer, dudo mucho que te encuentres un proveedor al cual no le importe lo que estés haciendo. Ya ni se diga de todos estos recursos que quieres de forma gratuita.
Qué rompan el cifrado y demuestren que es info codificada. Ya que de otra manera tendrían que saltarse la legalidad para obtener el código del spider. Había una cuenta de youtube con 3 años subiendo videos que subía videos de horas y en medio metía porno de menores sin codificar.
3 años tardaron y tienen algoritmos para detectar esas cosas.  :laugh:
Y hablamos de youtube... Pues imagínate en vimeo, dailymotion, flooxer o cualquier otra.

engel lex

#8
Citarint Plano = 90000000001;
int Cifrado =30000000000;
while (Cifrado == 0)
{
  if (Plano % Clave == 0)
  {
  Cifrado = Plano/Clave;
  }

  else
  {
  ++Plano;
  ++Contador;
  }
}

SALIDA CONSOLA:
Texto a cifrar -> 90000000000
Clave -> 30000000000
Texto Cifrado -> 3
Texto Bin -> 00000011
Suma añadida para hacer posible la operación -> 1

XD es un caso manipulado, pero ahora busca aplicarlo donde el contenido sea arbitrario y sea mayor que el tamaño de la clave...

por otro lado para cifrado como cesar no tiene mucho sentido usar hoy dia, seria perder tiempo ya que es facil resolver (+patrones, etc), en tal caso podrias usar un algoritmo de compresion normal y guardar el diccionario en una ubicacion que solo tu sepas asociar, en ese caso es casi imposible recuperar la información

CitarLo he pensado bien y la idea de las imáganes es justo lo que busco. No sé si calculé bien pero puedo representar 16,777,216 de valores distintos por pixel con RGB no?
256x256x256?

el problema de eso es si lo subes a algun lugar y re lo recomprime, perderás toda la info por eso lo reduje a pocos colores y multiples pixeles tal que puede variar y tengas un rango con perdida

El problema con la sociedad actualmente radica en que todos creen que tienen el derecho de tener una opinión, y que esa opinión sea validada por todos, cuando lo correcto es que todos tengan derecho a una opinión, siempre y cuando esa opinión pueda ser ignorada, cuestionada, e incluso ser sujeta a burla, particularmente cuando no tiene sentido alguno.

@XSStringManolo

Cita de: engel lex en 21 Septiembre 2019, 03:55 AM
XD es un caso ideal, pero ahora busca aplicarlo donde el contenido sea arbitrario y sea mayor que el tamaño de la clave...

por otro lado para cifrado como cesar no tiene mucho sentido usar hoy dia, seria perder tiempo ya que es facil resolver, en tal caso podr ias usar un algoritmo de compresion normal y guardar el diccionario en una ubicacion que solo tu sepas asociar, en ese caso es casi imposible recuperar la información

el problema de eso es si lo subes a algun lugar y re lo recomprime, perderás toda la info
Eso sí! Tendré que hacer muchas pruebas y probar muchos sitios y formatos.