Languages

You are here

ERI

Extracción y Recuperación de la Información

Curso obligatorio, 6 ECTS, 1er cuatrimestre

Profesores:
Álvaro Barreiro García 2 ECTS 20 h (responsable del curso)
Roi Blanco González 1 ECTS 10 h  
Jesús Vilares Ferro 1,5 ECTS 15 h  
Manuel Vilares Ferro 1,5 ECTS 15 h  



Descripción:
El objetivo del curso es introducir a los estudiantes en los modelos, técnicas, tareas y metodología de evaluación en el campo de Recuperación de Información. El curso es generalista  con énfasis en el estudio de los modelos para permitir a los estudiantes un acercamiento formal a los sistemas de RI. Por todo ello el curso comienza con la exposición de los modelos de RI donde a la vez se motiva la investigación en el campo presentando la tarea ad-hoc. Con el objetivo de tener pronto una visión conjunta e integral de los sistemas de RI, se presenta a continuación el tema de eficiencia centrándose sólo en los aspectos diferenciales en RI (construcción y compresión de ficheros invertidos). Se sigue con el tema de evaluación y la presentación de la herramienta de investigación general de mayor uso en estos momentos (Lemur). Una vez finalizado el tema 4, el estudiante tendrá una visión coherente e integral de los sistemas de RI y de la investigación propia del campo. A continuación en el tema 5 se abordan ténicas bien conocidas para la mejora en eficacia de los sistemas y en el tema 6 otras tareas más alla de la de recuperación ad-hoc. La primera parte del curso finaliza explicando la Recuperación de Información en el Web como un resultado de más de 30 años de investigación exitosa en RI. En la segunda parte se incluyen seis temas más de Extracción de Información y Búsqueda de Respuestas.

Descriptores: Recuperación de la Información (RI): modelos RI, eficiencia, evaluación, herramientas, técnicas, RI para el Web; Extracción de la Información: selección de información relevante, análisis de tecto, extracción de información, búsqueda de respuestas, fusión de resultados.

Descripción de las competencias: C1, C2, C3, C6, C10
Bibliografía:
  • R. Baeza-Yates and B. Ribeiro-Neto. Modern Information Retrieval, Addison-Wesley 1999.
  • R.K. Belew. Finding out About. A Cognitive Perspective on Search Engine Technology and the WWW, Cambridge University Press, 2000.
  • W.B. Croft, J. Lafferty (eds.), Language Modeling for Information Retrieval, Kluwer Academic Publishers, 2003.
  • D.A. Grossman, O. Frieder, Information Retrieval. Algorithms and Heuristics, Kluwer Academic Publishers, 1998
  • C.D. Manning, H. Schutze, Foundations of statistical natural language processing, The MIT Press, 1999.
  • I.H. Witten, A. Moffat, T.C. Bell. Managing Gigabytes. Compressing and Indexing Documents and Images (2nd ed.), Morgan Kaufmann Pub, 1999.
     
  • Ruslan Mitkov (editor). The Oxford Handbook of Computational Linguistics. Oxford University Press. 2003.
  • Marius Pasça. Open-domain question-answering from large text corpora. CSLI Publications, Stanford, 2003.
Temario:

PARTE I. RECUPERACIÓN DE INFORMACIÓN

  1. Modelos de IR
    • Booleano EBM
    • Algebraicos: vectorial, LSI.
    • Probabilísticos y estadísticos:
      • probabilístico clásico (BIR), probabilístico con dependencia de términos
      • 2-poisson y Okapi, inferencia probabilística
      • language models
    • Lógicos
  2. Eficiencia
    • Ficheros invertidos y compresión de listas.
    • Algoritmos de construcción de ficheros invertidos para grandes colecciones.
  3. Evaluación
    • Medidas
    • Colecciones pre-TREC y TREC
    • Problemas metodológicos para la evaluación de grandes colecciones
  4. IR toolkits: Lemur.
  5. Técnicas:
    • realimentación de relevancia
    • expansión de consultas
    • recursos lingüisticos para IR
  6. Más allá de la tarea ad-hoc
    • filtrado
    • clasificación
    • clustering
    • summarization
  7. IR para el Web
    • adecuación de los modelos y técnicas de IR para la construcción de search engines
    • análisis de enlaces

PARTE II. EXTRACCIÓN DE LA INFORMACIÓN

  1. Selección de documentos relevantes
  2. Selección de las partes relevantes de cada documento
  3. Análisis del texto
    • Identificación de entidades
    • Análisis sintáctico superficial
    • Obtención del grafo de dependencias conceptuales
  4. Extracción de información
    • Determinación de las fichas de información a extraer
    • Creaciones de patrones de relleno de fichas
    • Emparejamiento texto-fichas
  5. Búsqueda de respuestas
    • Clasificación de la pregunta
    • Patrones prototípicos de respuesta
    • Exparejamiento texto-respuesta
  6. Fusión de resultados
    • Tratamiento de información contradictoria
    • Selección de la información/respuesta final