Voy a hacer una función que resuma un texto, para ello había pensado:
Comprobar que hay una correcta ortografía con esto (http://www.recursosvisualbasic.com.ar/htm/trucos-codigofuente-visual-basic/122-corrector-ortografico-word.htm).
- Guardar oraciones en arrays y buscar palabras más repetidas (omitiendo artículos, preposiciones y demás usando un motor de análisis sintáctico) y dar prioridad a las oraciones dónde salgan éstas.
- Identificar títulos.
- Identificar palabras con mayúsculas.
- Utilizar sinónimos en las palabras no principales.
- Acortar enumeraciones largas que acaben en "etc" o "..."
Información relevante:
- Documentación 1 (http://www.linguamatica.com/index.php/linguamatica/article/view/33/40)
- Documentación 2 (http://lia.univ-avignon.fr/fileadmin/documents/Users/Intranet/chercheurs/torres/downloads/upao_workshop.pdf)
- Documentación 3 (https://www.uleth.ca/dspace/bitstream/handle/10133/226/MR03038.pdf)
Poned ideas, fragmentos de algoritmos o documentación interesante. :)
DoEvents! :P
HOLA!!!
Identifica titulos
Identifica oraciones antes de : lo que te ayudara a saber si se va a definir o enumerar algo
GRACIAS POR LEER!!!
Creo que haria falta un motoro de "analisis sintactico" y ahí identificar las palabras, obtener su posible raiz y bueno, detectar adjetivos, sustantivos, verbos, etc a partir de una lista corta
alguien sabia que word tiene autoresumen?
capas que podes ver como lo hace :P
Digo, no se, me parece :P
Cita de: Elemental Code en 13 Junio 2012, 18:47 PM
alguien sabia que word tiene autoresumen?
capas que podes ver como lo hace :P
Digo, no se, me parece :P
Hola Elemental, sí, claro que lo sabía. El problema es los autoresumenes del Word dejan mucho que desear y creo que entre todos y pensando un poco podemos hacer algo mejor. :)
DoEvents! :P
Para hacer esto necesitas un analizador lexico-sintático, sería relativamente fácil distinguir las palabras, pero llegar a reconocer titulos, nombres etc etc puede llegar a tener mucha complejidad
Calamares!... Yo tenía un archivo de texto con las palabras en español sacadas (robadas por mi) de un traductor y estaban las palabras del diccionario indicando si eran sustantivos, adjetivos, etc. Eso ayudaría bastante, veré si lo encuentro en algun CD porque se me ha echo trizas el disco duro de mi notebook, a propósito Vendo ese Notebook que es un HP Mini....
A todo esto:mmm... estuve revisando y nop, lo perdí. Pero recordé de donde salió, de una distribución de linux, ubuntu para ser exactos con un paquete de diccionario. Seguro te servirá muchísimo ojear en aquellos archivos. Suerte!.
LO ENCONTRE! Tube que instalar algunos paquetes.. blah blah blah... Bueno, lo tengo. Es un archivo de diccionario español con 56.338 lineas (palabras) en formato texto plano recien sacado "calentito" lleno de información sobre si cada palabra es; Verbo, Adjetivo, Sustantivo, etc.. Luce más o menos así:
...
perseguible/S
perseguidor/PS
perseguir/IOQWYZoqz
persevante/S
perseverancia/S
perseverante/MS
perseverar/LPSVWX
...
>>> Dime si te sirve y veo donde lo subo <<<