Uno de los puntos fuertes de Investigación de AINetSolutions es el Procesamiento del Lenguaje Natural, disciplina en la cuál se encuentra enmarcada la recuperación de Información. Aquí presentamos una librería escrita en java que ayuda a las labores de recuperación de información.
La herramienta IR fue escrita originalmente por Raymond Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/) para un curso de IR en la Universidad de Texas. En AINetSolutions hemos modificado esta herramienta para solventar varias cosas:
» Permitir la Indexación de documentos de forma recursiva a partir de un directorio base.
» Permitir cargar listas de parada que contengan palabras en mayúsculas
» Permitir crear experimentos (clase Experiment) a partir de índices ya creados y así permitir, pues, que estos experimentos se lancen también sobre objetos de clases que heredan de InvertedIndex.
Además hemos creado una extensión (com.ainetsolutions.nlp.utils.ir.WekaIndex) que permite indexar documentos en directorios de forma recursiva (o no) y posteriormente pasar el índice inverso a un índice directo en formato Weka (arff) asignando a cada documento una determinada categoria que bien se puede asignar a partir de una Hashtable conteniendo los archivos y las clases para cada archivo o bien se puede asignar a cada documento una categoría representada por el directorio dónde se encuentra (esta es la mejor opción).
|