trabajando un wordlist contenido en un fichero txt, me quedan muchas lineas que contienen caracteres rusos, asi como caracteres no imprimibles.
Alguna sugerencia de como me puedo deshacer de estos mediante el uso de expresiones regulares en python.
Saludos y gracias por leer.
Pequeña muestra del fichero
aleks san
лиля1111
таня1993
0987654321_
07728891
ЙФЯЧВУ
campari
erdons2
генрик
ze7ery9y
cachorrito
No se si es la mejor forma pero resolví con algo como esto y separe en dos txt el contenido para no perder nada y ver que quedaba por fuera.
pattern = '([\w+a-zA-Z0-9\/\'\%\;\,\"\$\.\-\+\_\!\*\#\?\&\[\]\s\t\r\n\v\f\)\(\=\^\>\<\`\{\}\ñ\Ñ\~]{8,16})$'