Firefox Monitor te dirá si te ‘hackean’ una contraseña ¿deberíamos abandonar ...

Iniciado por wolfbcn, 30 Septiembre 2018, 02:56 AM

0 Miembros y 2 Visitantes están viendo este tema.

wolfbcn

Quizá lo desconocieras, pero existen servicios online que sirven para conocer si se ha filtrado una contraseña de las cuentas de redes sociales, por ejemplo. Have I Been Pwned es uno de los servicios que permite hacer esto; sencillamente se trata de una base de datos actualizada con todas las direcciones de correo electrónico y nombres de usuario filtrados en la red y, evidentemente, en asociación con la contraseña correspondiente. Si tu mail y clave se filtran, aquí aparecerá. Y ahora esto lo tendremos en Firefox Monitor, para recibir alertas automáticamente.

A principios de este año, Mozilla dio a conocer Firefox Monitor. Pero ahora esta característica de su navegador web va a ganar relevancia, porque ya están preparando un sistema de notificaciones automáticas que nos alertará en caso de que se filtren nuestros datos de inicio de sesión de cualquier plataforma. Si se filtrase tu contraseña de Facebook, por ejemplo, recibirías un mensaje de forma automática alertándote al respecto para cambiar las contraseñas y que no llegue a ocurrir nada con tus datos personales. Una característica con la que, sin lugar a dudas, Mozilla pondrá su navegador web Firefox un nivel por encima de Google Chrome en términos de seguridad y protección de la información de sus usuarios.

LEER MAS: https://www.adslzone.net/2018/09/29/firefox-monitor-hack-cuentas/
La mayoria pedimos consejo cuando sabemos la respuesta, pero queremos que nos den otra.

Eleкtro

El software comercial HackCheck, que no es nada del otro mundo pero solamente por el pequeño detalle de incluir un sistema detallado de filtraciones, y además monitorización de múltiples cuentas de correo, le da mil vueltas a esos típicos sitios web donde te dicen si tu mail fue hackeado sin decirte exactamente en que base de datos se filtró (aunque algunos si que te dan detalles), y seguramente también sea mejor que Firefox Monitor...

Por si alguien lo quiere probar:








OmarHack

Lo que no me gusta de estos servicios es que hay apps malintencionadas que te piden tu correo y contraseña, le pones correo y le pones una contraseña falsa, y accedes a la web. Después te aparecen tus datos "filtrados" miras la contraseña y es: aaaaaaaaaaaaaA1xD o inyeciones xDDD
I like to test things.

Serapis

Pués a mi lo que no me gusta de estos sitios de chequeo de filtraciones, es que precisamente debes poner 'tu correro' para saber si 'ha sido filtrado'... Es decir debes confiar en que dicho 'ente', no hará otra cosa con el correo que introduzcas que buscar si aparece en un listado que contiene...

Yo prefiriría, que fuera más anónimo, esto es: pones por ejemplo "@hotmail.com" y filtra de la lista todo lo que no sea de Hotmail... luego por ejemplo pones "1*2" y te filtre todos los emails que no empiecen por "1" y terminen por "2" (el dominio ya lo filtramos previamente si no hubo filtro previo del dominio, sería obligatorio incluir el dominio o comodines al respecto)... con cada filtro que indique cuantos cumplen el patrón...
bien, supongamos que ahora ya queda una lista de 750 emails. Pués ahora que es más cortita que me muestre el listado y ya busco yo si alguno corresponde con 'mi cuenta' o la cuenta que me interese...

Para mi, una solución así (como la descrita) sería infinitamente más aceptable que escribir mi correro, el de otro o uno inventado.

Eleкtro

CitarYo prefiriría, que fuera más anónimo, esto es: pones por ejemplo "@hotmail.com" y filtra de la lista todo lo que no sea de Hotmail

Por supuesto, y esperar a que cargue y se renderice una lista de 2 billones de emails en el navegador... sin que explote el PC. Y a eso súmale el resto de tiempos de espera de los filtros adicionales que mencionas...

No tiene sentido reinventar un sistema de búsqueda, algo tan sencillo y eficiente como poner un nombre de dirección de e-mail (que para empezar no tiene que ser de tu propiedad, aquí no veo ningún problema de anonimato), y que el sistema te devuelva una respuesta de Sí/No, sin implicar ningún consumo adicional de recursos en el lado del cliente mostrando listas inmensas ni tampoco la necesidad de emplear tediosos filtros de búsqueda y... uf!.

Saludos!








Serapis

no entiendo... Por qué tienes que esperar a que renderice 2 billones de emails....

De entrada dudo mucho que haya más emails que personas en el mundo. Aún contando que cada persona tuviere más de 1 email, tampoco todo el mundo en el planeta tiene correo electrónico, ni por supuesto se ha 'filtrado' el correo y contraseña a todo el planeta....
así que: ¿a cuánto asciende la lista de cuentas filtradas... a 100-500 millones?. no me creo cifras mayores que eso.

No hay que reinventar búsquedas, ni nada de nada... si los datos reposan en una tabla hash (esto es dento de una base de datos y no sobre un fichero de texto plano), una búsqueda sobre 100 mil millones es prácticamente instantánea y un filtro tampoco demora demasiado... y da igual si al final saca 10.000 emails (que rendirizarlos todos hoy día en los equipos domésticos es pan comido), pero es que ni siquiera es preciso renderizar todos los hallados, tan solo se necesita renderizar aquellos que en ese instante deban estar en la vista (5-50),según el tamaño de tu pantalla y tamaño de fuente... y luego cuando hagas scroll, se renderizan los siguientes que encajen en la vista, otros 5-50. Por otro lado el 'botón' de mostrar el listado puede permanecer desactivado mientras la lista aún exceda de x resultados... indicando que debes filtrarlos aún más...

Ni es complejo ni costoso, basta entender qué leches estás haciendo, después de todo, esto mismo es lo que se hace a diario con cualquier base de datos...

Eleкtro

Cita de: NEBIRE en  1 Octubre 2018, 20:35 PM
De entrada dudo mucho que haya más emails que personas en el mundo.

así que: ¿a cuánto asciende la lista de cuentas filtradas... a 100-500 millones?. no me creo cifras mayores que eso.

Tan solo la filtración de Adobe en el 2013 ya supuso 153 millones de cuentas filtradas con sus respectivos emails. MySpace en 2008, 360 millones. Dropbox, decenas de millones. Taringa en 2017, 20 millones. Y la infinidad de filtraciones que me dejo por mencionar, si vamos sumando llegariamos a una cifra de unos cuantos billones.

Cita de: NEBIRE en  1 Octubre 2018, 20:35 PMy da igual si al final saca 10.000 emails

no serían 10.000 con filtros de búsqueda del estilo "*@dominio.com", multiplícalo por un par de decenas o cientos de millones. ya has dejado claro que no crees en que existan tantos emails filtrados, pero es la realidad, se cuentan por billones, pero si no te fias tan solo tienes que descargarte cualquier leak de fuentes fiables y comprobarlo, yo personálmente te puedo decir que tengo varias bases de datos filtradas que, tras haberlas pasado a texto plano, y por un algoritmo de ordenación alfabética de e-mails, y de elimiación de duplicados, y también por un sistema de verificación online de cuentas falsas/existentes, quedan alrededor de 1,5 billones de cuentas supuestamente "válidas".

Cita de: NEBIRE en  1 Octubre 2018, 20:35 PM
y da igual si al final saca 10.000 emails (que rendirizarlos todos hoy día en los equipos domésticos es pan comido), pero es que ni siquiera es preciso renderizar todos los hallados, tan solo se necesita renderizar aquellos que en ese instante deban estar en la vista (5-50),según el tamaño de tu pantalla y tamaño de fuente...

creo que nunca has intentado cargar una página con una lista de texto plano extremadamente larga de varios cientos de miles o millones de lineas de texto, por que los problemas son más que evidentes.

Bueno, puedes proponer minimizar la carga en el lado del cliente renderizando en la vista una lista con 5, 50 o 100 resultados... de entre miles o millones de resultados totales, y botones para avanzar y retroceder página entre dichos resultados, pero eso me parece todavía más insufrible o tedioso que lo anterior por el mismo motivo: cantidad excesiva de e-mails / resultados.

Pero el caso es que teniendo una dirección de correo conocida, no existe ninguna ventaja para el usuario tener que recurrir a aparatosos filtros de búsqueda, que la simplicidad de escribir la dirección tal cual y listo.

Cita de: NEBIRE en  1 Octubre 2018, 20:35 PMno entiendo... Por qué tienes que esperar a que renderice 2 billones de emails....

Tu eres el que has propuesto que ocurra esa carga de datos para mostrarte en pantalla absolutamente todos los resultados, para que el sistema te permita ir usando "filtros" hasta reducir dichos resultados a una cantidad de e-mails que tu consideres adecuada (unos 750 mails) para analizarlo.

Saludos








Serapis

Citarya has dejado claro que no crees en que existan tantos emails filtrados
Cierto. Si el planeta tiene unos 9mil millones d epersonas, desquitamos niños pequeños abuelos demasiado mayores, algunos 'aculturales tecnológicos', ypaíses aún fuera tecnología y básicamente de internet (no será al 100%, pero quizás si al 80-90%) y somos generosos a pesar de todo, podríamos afirmar con quizás no mucho error que haya 7 mil millones de personas que tengan cuenta de correos.
Yo creo que normalmente la gente no usa más de 1 y que un muy pequeño porcentaje en cambio pueda tener incluso hasta 10 ó más, así que pongamos que es epequeño porcentaje equivale a la mitad de la población, luego subimos hasta unos 10 mil millones de cuentas.

No me parece que sean tantas... 10 mil millones de cuentas y si habláramos de por ejemplo 1 mil millones de cuentas al descubierto (asumiendo el doble del máximo que indicaba antes), creo que asumir un valor muy alto, pués supondría un 10% del total... de ser así, creo que lejos de hablar de filtraciones tendríamos que hablar de crisis de seguridad mundial (que tarde o temprano, habrá de declararse así, pero no creo que por causa de "cuentas de correos").

Tampoco, asumo que porque una cuenta haya sido filtrada, eso implique que sea accesible... quizás sí, durante un lapso de tiempo relativamente corto, seamos generosos y digamos que 1-7 días... (siempre que el alojamiento sea consciente de ello, por otro lado si no lo es, la lista no trascenderá al 'gran público) luego la gente o cambia la contraseña o directamente descarta ese correo (caso típico de no tener nada importante ni que merezca perder el tiempo con ello) y se abre otra cuenta. Por lo que muy probablemente de la listas filtradas a medida que pasa el tiempo, la mayoría queda inútil... podríamos hablar de fecha de caducidad para las cuentas al descubierto, es difícil pronosticar un tiempo, pero si un usuario tardara más de 1 mes en intentar recuperar su cuenta, imagino que la daría por perdida y se crearía otra...

Yo recuerdo años atrás que Google señaló que habían quedado expuestos y exigían a los usuarios cambiar contraseñas y revisar a conciencia la configuración. Yo lo hice al momento, así que aunque mi cuenta hubiera qwuedaod al descubierto, si no entraron al momento, no lo podrían hacer más adelante, luego que apareciera en la lista, podríamos tomarlo como 'falso positivo'... que supongo es como se inflan muchas listas.

Tampoco hay que olvidar esa cuentas que se crean al momento, o para determinados propósitos y que luego ya no se usan ni contienen nada de valor, quiero decir con ello, que nadie se molestará en cambiar la contraseña ni nada... engrosan la lista, pero son pura paja. Un nutrido porcentaje de todo ello, podría encajar en esta situación.

Citarcreo que nunca has intentado cargar una página con una lista de texto plano extremadamente larga de varios cientos de miles o millones de lineas de texto, por que los problemas son más que evidentes.
Claro que si, hombre...
Es imprudente cargarlo todo a la vez, pero a veces para probar rendimientos, me veo obligado a forzar situaciones inesperadas y cargar varios GB. en memoria es parte de esas pruebas.
De todos modos, el uso racional de un fichero de varios GB. no es intentar leerlo de una tacada y cargarlo todo de una vez en memoria...
Los ficheros gigantes deben ser procesados con una mínima inteligencia, por ejemplo para ordenarlo, es absurdo cargarlo todo en memoria... para 1.500 milllones de cuentas de correros hablamos de unos 55Gb. (más abajo te hago unas cuentas rápidas y generosas).

De hecho incluso es absurdo ordenarlo. Es preferible crear una tabla hash, usaremos espacio adicional (pero vamos si la tarea es importante, dedicar un disco de 1-2 TB. al asunto, sería conforme), y puestos a ordenarlo, lo adecuado es primero crear x ficheros, como máximo 255 ficheros (no se usarán todos)... ir tomando de la lista una cantidad en un buffer que admita bien la memoria del equipo analizar (ni hace falta saturarla) el 1 caracter del correo, y si es por ejemplo "Antonio Vazquez@gmail.com", se guarda en el fichero llamado A.txt, los que empiecen con B. en B.txt, etc... al final tendremos un fichero con cada carácter inicial que aparezca... así hemos desglosado los 55Gb. en menos de 255ficheros, mejor si además cada uno está en una carpeta del mismo nombre...  ahora toca reordenar cada fichero individual del mismo modo... en algún punto cada fichero es lo suficientemente manejable y puede cargarse en memoria y ordenarse por completo, sabiendo que el contenido del siguiente fichero viene completamente detrás, etc...
Pero vamos este es un proceso trabajoso y tonto, para ordenar el fichero.
Ya aclaré más arriba que con una tabla hash se simplifica la operatoria... aunque tampoco sobra una separación en ficheros (si se decide trabajar con ficheros en texto plano) por inicial, por dominio o por longitud de caracteres...
Leer en búferes de tamaño 2^n, se carga muy bien e instantáneo algo como 1-32Mb. en memoria... ir calculando un hash para cada correo, fijado a un índice entre 0 y 60 mil millones si se espera que la lista crezca y no haya muchas colisiones (tendremos un promedio de ocupación de 1 por cada 40 huecos), y guardando así el índice que ocupa en el fichero (supuesto 1 único fichero con todos) en la casilla cuyo indice nos señala el hash, listo...
Crear la tabla con 1500 millones llevará su tiempito y ocupara sus Gb. (usando un int64, pués 64 bytes por cada correo, luego) unos 88Gb. y más si decidimos incluir datos adicionales.
Sería más conforme crear una base de datos con una estructura adecuada que clasificara bien los correos, y también porque dispone ya de métodos 'built-in' de filtrado y búsqueda los que podríamos añadir nuestros propios métodos específicos si fuera preciso...




Cálculo rápido y generosos de la ocuapción en texto plano de los datos de 1500 millones de cuentas de correo y sus contraseñas::
Partamos del hecho que la gente es vaga por naturaleza (incluso los que dicen ser muy trabajadores), entonces los correos electrónicos típicos pueden ser en la forma:
Teresa.Fernandez.De.LA.Vera@unejemplo.com  (dela Vera, no de la Vega, no se sienta la señora aludida)
Es largo a propósito, suelen ser más cortos igual que las de hospedaje, pero contemos caracteres: 41 caracteres... redondeemos a 40 caracteres, multipliquémoslo por 1.500 millones = 60.000 millones de caracteres/bytes, ahora traduzcámoslo a MB.
60.000.000.000 / 1.048.576 = 57.220MB. unos 55Gb.
Las contraseñas en cambio ni de lejos van a ser tan largas como 40 caracteres, ya se sufre para que alcancen los 16... yo pondría ese valor como promedio, incluso aunque no lo alcance, es decir 2'5 veces menor que el tamaño de la dirección del correo, luego también de su tamaño en disco, es decir otros: 22Gb.
Total redondenado nos vamos a 80Gb. (después de todo hay que añadir un salto de línea entre cada uno, para separarlos, sumando pués 1-2 caracteres más por cada, pero vamos ya fuimos generosos con el tamaño del correo y de la contraseña).

Citarde elimiación de duplicados, y también por un sistema de verificación online de cuentas falsas/existentes, quedan alrededor de 1,5 billones de cuentas supuestamente "válidas".
Ehhh.... billones. A veces no hago caso de la palabra billones por ser una mala traducción del inglés, porque en español, un billón es un millón de millones... que algunos se empeñan en querer lammar 'billardos'.
hagamos cuentas: 1.500.000.000.000.000 /7.000.000.000 hab. en planeta con cuentas = tocamos cada habitante del planeta con correo electrónico a la friolera de 214.285 cuentas... creo que ni  abriendo una cuenta cada hora daría una vida para tener todas esas cuentas a tu nombre. Veamos:
90 años, vida útil de los 15-80= 65 años... * 365días por año * 24horas * día = 569.400, pués si...
En aproximadamente 30 años abriendo una cuenta cada hora, podríamos tener ese número de cuentas, pero tendríamos que haber empezado todos a crear cuentas en 1988, cuando Internet estaba todavía en la DARPA.... y ningúno cejar en el empeño decrar una cuenta cada hora...  :laugh: :laugh: :laugh: :laugh: y seguir usándolas todas con ffecuencia suficiente para que el hospedaje no la elimine por falta de uso... :laugh: :laugh:
En fin, bromas aparte, supongo que quieres decir 1.500 millones , que es una cifra que triplica mi previsión máxima, y que supongo que si es la lista que tu tienes, no es completa, por lo que sin duda debe ser más grande... en fin se acerca a 1/4, 1/3 de los totales del planeta... se me hace imposible de creer.
OJO: No digo que a lo largo de la historia se haya acumulado esa cifra... 25 años dan para mucho, pero no creo que sean cuentas útiles más que aquellas descubiertas en el último año, siendo generosos...

Otra duda  que se me supera es como validar 1500 millones de cuentas cuando dices: "sistema de verificación online de cuentas falsas/existentes", quero decir que no entiendo si 'han sido validadas por quien posee la lista, o por tí, y tampoco sé que tiempo pueda llevar hacer esa validación, pero desde luego es mucho más considerable que hacer un filtro como el que exponía al comienzo de mi intervención.... considerablemente mayor, sin ningún género de dudas. Pero doy en suponer que se han ido validando poco a poco, a medida que han sido 'filtradas-obtenidas'. Así que tampoco le doy más importancia a esto, aunque es a considerar cuando se filtra una lista de no se cuantos millones de cuentas, no de 20.000 cuentas.

Aunque queden al descubierto por ejemplo de repente 50 millones de cuentas, quien puede revisar en un corto plazo de tiempo 50 millones de cuentas para determinar que tienen o no contenido interesante... el mismo intento de acceso continuado procedente de una misma IP... revelaría sin duda, que se trata de un intruso... cuantas cuentas puede mirar un intruso por unidad de tiempo?. Por otro lado, a veces damos por hecho que las grandes ciorporaciones tienen sistemas de seguridad que al final, en realidad jamás han tenido.

Al final cuando pase el tiempo, apenas unos meses, las cuentas que no hayan sido restauradas a su usuario con una nueva contraseña, y sigan siendo accesibles, es porque carecen de utilidad, tenían basura y su propietario, ni se molestó en dicha cuenta.... Por eso creo que las listas pueden ser 'utiles' solo en un corto plazo de tiempo, la acumulación de listas es inútil tras varios meses o un máximo de un año, la lista es completamente inútil... ahora sirve para seguir inflando la lista de cuentas filtradas pero para nada más.

CitarTu eres el que has propuesto que ocurra esa carga de datos para mostrarte en pantalla absolutamente todos los resultados, para que el sistema te permita ir usando "filtros" hasta reducir dichos resultados a una cantidad de e-mails que tu consideres adecuada (unos 750 mails) para analizarlo.
No, hombre no... Yo no he propuesto la carga de miles de millones de cuentas... He propuesto filtrado, sí pero esto no exige exige carga masiva, salvo un mal diseño.
Una base de datos bien diseñada para el propósito específico (al caso que versa), solo tiene carga de trabajo cuando añade los emails, porque debe 'clasificarlos', pero una vez hecho, no precisa tanta carga.
Por ejemplo si tienes tablas específicas (imagina) para alojar los emails de (hostings masivos de forma individual) 'hotmail.com', y tu has fijado Hotmail, ya no tienes ni que tocar el resto de tablas, has filtrado sin tocar ni cargar una inmensidad de datos... incluso operando ficheros de texto, como te señalaba más arriba, es posible algún filtrado aunque más tosco.

Con una adecuada clasificación, gran parte del filtrado (especialmente el primario) se produce sin afectar para nada la carga de datos, tan solo reduce el espacio de trabajo, direcciones que se quedan fuera...  Al final lo lógico es que solo te traigas unos pocos miles de registros a lo sumo... y aun así los retieens en memoria, no los vuelcas a la interfaz sino cuando se solicite su presencia...

Eleкtro

Cita de: NEBIRE en  3 Octubre 2018, 04:19 AM
Ehhh.... billones. A veces no hago caso de la palabra billones por ser una mala traducción del inglés, porque en español, un billón es un millón de millones... que algunos se empeñan en querer lammar 'billardos'.

No fuí específico, a esto me refiero por billón (mil millones):

Cita de: https://en.wikipedia.org/wiki/BillionA billion is a number with two distinct definitions:

   1,000,000,000, i.e. one thousand million, or 109 (ten to the ninth power), as defined on the short scale. This is now the meaning in both British and American English.[1][2]
   Historically, in British English, 1,000,000,000,000, i.e. one million million, or 1012 (ten to the twelfth power), as defined on the long scale. This is one thousand times larger than the short scale billion, and equivalent to the short scale trillion.




Cita de: NEBIRE en  3 Octubre 2018, 04:19 AMse me hace imposible de creer.

Me parece bien que cuestiones las cosas, pero como ya te dije, NEBIRE, lo puedes comprobar por ti mismo. Los datos oficiales de la cantidad de mails filtrados es historia registrada por la humanidad, información pública, vaya, además también puedes descargar un par de esos leaks y hacer cálculos...




Cita de: NEBIRE en  3 Octubre 2018, 04:19 AM
Otra duda  que se me supera es como validar 1500 millones de cuentas cuando dices: "sistema de verificación online de cuentas falsas/existentes", quero decir que no entiendo si 'han sido validadas por quien posee la lista, o por tí, y tampoco sé que tiempo pueda llevar hacer esa validación

Esto no tiene que ver con el tema principal, pero te lo aclararé, a ver como lo explico...

Por motivos que no pienso revelar, pero que no son maliciosos sino educativos, me descargué muchos leaks, desde los más conocidos y accesibles facilmente por todo el mundo (ej. adobe, myspace) como otros tantos que no. En fin, lo que hice con todo ese material fue, mediante programación, organizarlo, eliminar entradas duplicadas y dividirlo en archivos por orden alfabético (0-9.txt, A.txt ... Z.txt).

Una vez teniendo el material organizado, utilicé cierta librería comercial especializada en la validación de emails y servidores smtp, me refiero a KellermanSoftware.NET Email Validation:

Cita de: https://kellermansoftware.com/products/net-email-validationThe fake email pattern checker eliminates numerous bad emails that actually return as valid email addresses with our competitors. It detects mail servers that implement grey listing so the email addresses can be verified later. It detects servers that are blocking your mail server. It detects disposable email addresses such as mailinator.com. It detects free email addresses. Sick of curse words in your mailing list? Eliminate them.

( la otra opción habría sido utilizar EASendMail SMTP Component, la cual estuve probando, pero no me dió tan buenos resultados como la de Kellerman. )

Pero vamos, si sigues sin creerme, aquí abajo te dejo los código fuentes que utilicé, los cuales sigo guardando para en el futuro hacer un nuevo mantenimiento de todos los correos obtenidos...

Código fuente para la eliminación de duplicados:

Código fuente para la ordenación y división entre archivos de texto:

Código fuente para la validación de e-mails:
( aplicar multi-threading con esa librería recuerdo que era complicado, daba fallos, fue mucho mejor utilizar el método 'ValidateList' para validar 10.000 mails casi por segundo... ya no recuerdo cuantas horas o días dejé el PC encendido validando xD. )

En lo único que debo reectificar es en la cantidad que te dije, no eran 1500 millones, esto lo hice hace 2 años y sinceramente no recordaba exactamente la cantidad, pero se acerca a lo que dije en un principio, ya que son 919.200.961 millones (validados)...



un saludo NEBIRE








Serapis

No pongo en duda la validación de emails, se´que se puede hacer, pero también sé que puede llevar su tiempo... e incluso aunque 10.000por segundo sea una buena cifra, considerando la cantidad de millones conlleva su tiempo. Pero vamos, de este aspecto no dudo solo me daba curiosidad del tiempo que llevaría...
Quiero decir, que dada una fuga de x millones, es factible de que puesto en conocimiento (de ambas partes, usuarios y páginas que recogen la lista), uno pueda haber cambiado la contraseña de su cuenta antes incluso, de que esa lista llegue a un huésped y confirme que ese email existe... salvo que quien publique la la filtración de la lista sea precisamente el mismo que hospeda la lista y lo haga público después de validar la lista objeto de la filtración.

Efectivamente el eliminador de duplicados recurre a los métodos de una tabla hash, y por tanto si ya existe no se añade:

Dim lineSet As New HashSet(Of String)(StringComparer.Ordinal)
...

...
lineSet.Add(line)
....

...es la forma más eficiente cuando las cantidades son enormes...


La cuestión fundamental es esta:
Citarn lo único que debo reectificar es en la cantidad que te dije, no eran 1500 millones, ... pero se acerca a lo que dije en un principio, ya que son 919.200.961 millones (validados)...
A ver si no he entendido mal:
A: dices que Son: 919.200.961 (es decir 919 millones de cuentas) ?
B: o dices que son: 919.200.961 millones (es decir 919.200.961.000.000 cuentas)?

---- Si es A, puedo aceptarlo, suponer un valor entre 100 y 500 millones y que sea el doble del máximo, es aceptable dado que se basaba en una suposición... Aún así entonces ya me parece que empieza a ser alarmante, porque podría suponer más de un 10% de las cuentas de todo el planeta... es demasiado, como para que los gobiernos sigan "sin hacer nada"... Bien que filtradas tampoco equivale concretamente a que hayan sido todas victimizadas: robadas, manipuladas, corrompidas, etc...
---- En cambio si me dcies que es B, Aggggghhhh.... me ahogas, no puedo aceptarlo de ninguna manera, porque insisto que en el planeta hay unos 9mil millones de almas y tocaríamos a:
919.200.961.000.000/9.000.000.000 = 102.133
En fin nadie puede convencerme que cada ciudadano en este planeta ha creado 100.000 cuentas de correo (es un priomedio, no que un loco se haya dedicado a crear 100.000 cuentas que ya sería también difícil de creer), y aunque sean la mitad de las planteadas más arriba, sigue siendo más que increíble, imposible.




Me edito, al ampliar la imagen, a la derecha... se refleja claramente la cantidad... que más arriba pusieras el número y luego detrás seguido millones es un simple gazapo sin más importancia...