CAEPIA'07 Tutorial en "Selección, Extracción y Construcción de Características"

José Carlos Cortizo Pérez (2) (AINetLab, AINetSolutions) (Departamento de Sistemas Informáticos, UEM)
César Estébanez Tascón (EVANNAI, UC3M)

Resumen - propuesta/proposal (PDF)
Transparencias del tutorial (PDF)
Referencias (BIB)

Objetivo del Tutorial

En este tutorial se pretende ofrecer una panorámica aplicada de las distintas técnicas de preprocesado de características, muy útil en procesos de minería de datos y aprendizaje automático. Dentro de las técnicas de preprocesado de datos, se abordarán tanto aquellas orientadas a la reducción de dimensionalidad (filtros y wrappers para la selección automática de características), como aquellas orientadas a la transformación del espacio (proyecciones y extracción de características) y al aumento de la dimensionalidad (creación de características utilizando conocimiento del dominio, relaciones existentes, redes neuronales, clustering, etc.). El objetivo del tutorial es organizar y poner en práctica un conocimiento muy útil para áreas como el Aprendizaje Automático, pero sobre el que existe bastante desconocimiento por haber sido "segundo plato" durante mucho tiempo (hasta hace relativamente poco tiempo apenas se han dedicado esfuerzos a este preprocesado de características mientras que se han volcado en el desarrollo de algoritmos de aprendizaje) pero que ha cobrado mucho peso específico los últimos años debido a la aparición de conjuntos de datos con gran cantidad de características sobre los que es inviable realizar un aprendizaje sin la ayuda de alguna de estas técnicas. El tutorial se desarrollará mediante transparencias para la parte teórica que se intercalará con demos y ejercicios. También se tratarán unos prácticos finales para acabar de poner los conocimientos en práctica, permitiendo una mayor proactividad del público (se pretende abordar este tutorial desde una cierta perspectiva de metodología activa para el máximo aprovechamiento del mismo).

Índice del Tutorial

  1. Introducción y Motivación
    1. Preprocesado de Datos
    2. Visualización de Datos como Ayuda al Preprocesado
    3. La "maldición" de la dimensionalidad
    4. El impacto de las características redundantes o correlacionadas
    5. Las características trabajan en equipo
  2. Introducción a Weka y R (nociones básicas para seguir los ejemplos del tutorial)
  3. Reducción de la Dimensionalidad
    1. Extracción de Características
      1. Métodos Lineales
        • Métodos de Segundo Orden
          • PCA
          • Factor Analysis
        • Métodos de Mayor Orden
          • Projection Pursuit
          • ICA
      2. Métodos No Lineales
        • PCA No Lineal
        • Random Projections
        • Principal Curves
        • Principal Surfaces
        • Mapas Autoorganizativos (SOM)
      3. Métodos BioInspirados
        • Métodos Utilizando RNA's
        • Métodos Utilizando Algoritmos Genéticos
        • Métodos Utilizando Programación Genética
      4. Extracción de Características a partir de Series Temporales
    2. Selección de Características
      1. El modelo basado en Filtros
      2. Modelos Embebidos
      3. El modelo "Wrapper"
      4. Estrategias de Búsqueda
      5. Combinando Modelos
  4. Construcción de Atributos
    1. Técnicas guiadas por los datos
    2. Técnicas guiadas por el modelo
    3. Técnicas guiadas por el conocimiento
    4. Clustering
  5. Transformación del Tipo de las Características
    1. Discretización
    2. Numerización
    3. Normalización: Escalado y centrado
  6. Combinando Selección, Extracción y/o Construcción de Características
  7. Métodos de evaluación/validación
  8. Casos Prácticos
  9. Nuevas Perspectivas, Tendencias y Líneas Futuras
  10. Recursos>
  11. Pasos Generales y Conclusiones
  12. Referencias


Para más información, visite la página de Tutoriales de CAEPIA 2007

Última actualización: 11 de Febrero de 2003