Menú

Mostrar Mensajes

Esta sección te permite ver todos los mensajes escritos por este usuario. Ten en cuenta que sólo puedes ver los mensajes escritos en zonas a las que tienes acceso en este momento.

Mostrar Mensajes Menú

Mensajes - 357MKR

#1

Citar
CitarBueno, y ya que estamos, ¿que recolector de datos, crawler o araña me aconsejáis? Lo que quiero hacer es extraer el texto plano de webs y guardarlo en un txt. Que sea completico, que analice listados de webs, los hipervinculos,... y esas cosas
.

pídelo en un tema aparte porque es interesante y conviene dejar buena constancia del tema!


Ok, primero voy a buscar que programas usaba "antiguamente" para el proceso y así empiezo con algo mas concreto.
#2
Citarawk es el demonio!

Y que lo digas... me va ha costar muchas horas controlarlo "un poco"

Citarsort -u es vital para no perder el tiempo con palabras repetidas.

jejeje... esto ya lo había aprendido de "usted" en un hilo de otro foro.

Citartambien muy util tr para funciones puntuales como "trimear" los conjuntos de mas de un espacio contiguo, en solo un espacio, o para quitar dos letras repetidas juntas en general.

Esta bien saber esto. En esto caso no es lo que quería hacer pero en otra ocasión puede que me resulte muy útil. Apuntado.
El tr lo he usado para eliminar el retorno de carro de listas sacadas con windows.

Bueno, y ya que estamos, ¿que recolector de datos, crawler o araña me aconsejáis? Lo que quiero hacer es extraer el texto plano de webs y guardarlo en un txt. Que sea completico, que analice listados de webs, los hipervinculos,... y esas cosas.

Yo antes usaba uno en windows que ahora mismo no recuerdo ni como se llamaba y no era gran cosa. He estado buscando pero la mayoría se dedican a encontrar correos electrónicos y links.
#3
Cita de: alist3r en 11 Febrero 2013, 20:17 PM
sort, awk, sed y tr

Gracias!

He estado estudiando un poco y ya lo tengo controlado. La verdad que con 'sed' se pueden hacer la mayoría de las operaciones y el 'awk' no he conseguido utilizarlo de forma productiva... todavía.


#4
CitarEste diccionario se le han eliminado los espacios y tabs,
Los caracteres de newline han sido convertidos a formato de UNIX,
Caracteres no imprimibles removidos
Sin tags HTML
Se borraron campos o palabras repetidas
Tamaño de palabras optimizado entre 8-63 caracteres para ataque a redes encriptadas con protocolos WPA PSK y WPA2 PSK

Que herramientas has usado para realizar este proceso?