Taller Libre I (11421) - Curso 2007
Introducción a la Recuperación de Información
En este taller se presentan los fundamentos teóricos y las aplicaciones relacionadas
con la construcción de sistemas de información basados en documentos de texto y técnicas
del área de Recuperación de Información. A partir del análisis de las características
estadísticas del texto escrito se plantean estrategias y técnicas de representación y
almacenamiento de tales objetos, los modelos de recuperación más importantes en la
actualidad y métodos de procesamiento. De forma complementaria se plantea la evolución
de la disciplina en ambientes distribuidos y la web.
Contenidos
Unidad 1 – Introducción a la Recuperación de Información.
El problema de la recuperación de información. Diferencias con el concepto de recuperación de datos. Conceptos sobre documentos y colecciones. Arquitectura de un Sistema de Recuperación de Información. Necesidades de Información y expresiones de consultas (queries). Introducción a los modelos de recuperación a partir de ejemplos.
Unidad 2 – Modelos Clásicos de Recuperación de Información.
Taxonomía de los modelos clásicos. El modelo booleano. Conceptos sobre similitud y matching. El modelo Booleano extendido y el modelo vectorial. Medidas de similitud. Introducción a los Modelos de Lenguaje para Recuperación de Información.
Unidad 3 – Análisis de Textos y Representación de Documentos.
Representación de documentos a partir de su contenido. Análisis estadístico de las propiedades del texto. Ley de Zipf, ley de Heaps y su aplicación. Ponderación de términos a partir de su frecuencia. Indexación manual y automática. Extracción de términos a partir de sus pesos. Construcción automática de un tesauro.
Unidad 4 – Estructuras de Datos.
Estructura de datos y algoritmos para soportar los modelos de recuperación. Archivos invertidos y listas de posteo. Archivos invertidos posicionales. Soporte para frases y operadores de proximidad. Archivos de firmas.
Unidad 5 – Evaluación de la Recuperación.
Conceptos sobre evaluación de la recuperación y relevancia. Definiciones de las métricas de Exhaustividad (Recall) y Precisión (Precision). Diagramas de Exhaustividad/Precisión. F-Measure y medidas complementarias. Colecciones de prueba y evaluación de sistemas. Las conferencias TREC y su importancia en la metodología.
Unidad 6 – Tratamiento de Consultas y Documentos.
Conceptos sobre retroalimentación por relevancia: Pseudo y directa. Retroalimentación en el modelo vectorial. Expansión de consultas con tesauros. Clasificación de documentos basado en el teorema de Bayes. Clustering. Métodos jerárquicos y no jerárquicos. Aplicaciones.
Unidad 7 – Introducción a la Recuperación de Información Distribuida.
La problemática de la distribución de contenidos. Representación de repositorios textuales. Algoritmos para selección de recursos y fusión de resultados. Introducción a los sistemas peer-to-peer para recuperación de información.
Unidad 8 – Recuperación de Información en la Web.
Características del espacio Web y los lenguajes de marcado. Arquitectura de los motores de búsqueda. Directorios y metabuscadores. Recolección (crawling), indexación y recuperación a gran escala. Modelos de la Web. Algoritmos de ranking basados en el análisis de enlaces. Aplicaciones y tendencias.
Bibliografía
Básica
Modern Information Retrieval. R. Baeza-Yates, B. Ribeiro-Neto. Addison-Wesley, 1999.
Introduction to Information Retrieval. C. Manning, P. Raghavan, H. Schutze. Cambridge University Press. 2008. (versión previa digital)
Information Retrieval. Algorithms and Heuristics. D. A. Grossman, O. Frieder. Kluwer, 1998.
Material provisto por el equipo docente. Libro: “Introducción a la Recuperación de Información. Conceptos, modelos y algoritmos básicos”. Gabriel H. Tolosa y Fernando R.A. Bordignon. Laboratorio de Redes de Datos. Universidad Nacional de Luján.
Complementaria
Van Rijsbergen, C. J. Information Retrieval. Butterworth. 1979.
Recurso disponible en linea: http://www.dcs.gla.ac.uk/Keith/Preface.html
Managing Gigabytes: Compressing and Indexing Documents and Images. 2ª Edition. I.H. Witten, A. Moffat, T.C. Bell. Edit. Morgan Kaufmann, 1999.
Information Retrieval Interaction. Peter Ingwersen. London: Taylor Graham, 1992.
Recurso disponible en linea: http://www.db.dk/pi/iri/
Information Retrieval. Data Structures & Algorithms. W. B. Frakes, R. Baeza-Yates. Edit. Prentice-Hall, 1992.
Advances in Information Retrieval. 27th European Conference on IR Research, ECIR 2005, Santiago de Compostela, Spain, March 21-23, 2005, Proceedings.
Mining the Web. Discovering Knowledge from Hypertext Data. Soumen Chakrabarti. Morgan-Kaufmann Publishers. 2003.
Evaluación
Existirá una evaluación parcial y un proyecto final de curso.
Se deben resolver y entregar en tiempo y forma todas las actividades propuestas por el
equipo docente, ya sean teóricas o de laboratorio. Además, se debe participar en una
actividad de preparación y exposición de un tema grupal durante la cursada.
En este taller se presentan los fundamentos teóricos y las aplicaciones relacionadas con la construcción de sistemas de información basados en documentos de texto y técnicas del área de Recuperación de Información. A partir del análisis de las características estadísticas del texto escrito se plantean estrategias y técnicas de representación y almacenamiento de tales objetos, los modelos de recuperación más importantes en la actualidad y métodos de procesamiento. De forma complementaria se plantea la evolución de la disciplina en ambientes distribuidos y la web.
Unidad 1 – Introducción a la Recuperación de Información. El problema de la recuperación de información. Diferencias con el concepto de recuperación de datos. Conceptos sobre documentos y colecciones. Arquitectura de un Sistema de Recuperación de Información. Necesidades de Información y expresiones de consultas (queries). Introducción a los modelos de recuperación a partir de ejemplos.
Unidad 2 – Modelos Clásicos de Recuperación de Información. Taxonomía de los modelos clásicos. El modelo booleano. Conceptos sobre similitud y matching. El modelo Booleano extendido y el modelo vectorial. Medidas de similitud. Introducción a los Modelos de Lenguaje para Recuperación de Información.
Unidad 3 – Análisis de Textos y Representación de Documentos. Representación de documentos a partir de su contenido. Análisis estadístico de las propiedades del texto. Ley de Zipf, ley de Heaps y su aplicación. Ponderación de términos a partir de su frecuencia. Indexación manual y automática. Extracción de términos a partir de sus pesos. Construcción automática de un tesauro.
Unidad 4 – Estructuras de Datos. Estructura de datos y algoritmos para soportar los modelos de recuperación. Archivos invertidos y listas de posteo. Archivos invertidos posicionales. Soporte para frases y operadores de proximidad. Archivos de firmas.
Unidad 5 – Evaluación de la Recuperación. Conceptos sobre evaluación de la recuperación y relevancia. Definiciones de las métricas de Exhaustividad (Recall) y Precisión (Precision). Diagramas de Exhaustividad/Precisión. F-Measure y medidas complementarias. Colecciones de prueba y evaluación de sistemas. Las conferencias TREC y su importancia en la metodología.
Unidad 6 – Tratamiento de Consultas y Documentos. Conceptos sobre retroalimentación por relevancia: Pseudo y directa. Retroalimentación en el modelo vectorial. Expansión de consultas con tesauros. Clasificación de documentos basado en el teorema de Bayes. Clustering. Métodos jerárquicos y no jerárquicos. Aplicaciones.
Unidad 7 – Introducción a la Recuperación de Información Distribuida. La problemática de la distribución de contenidos. Representación de repositorios textuales. Algoritmos para selección de recursos y fusión de resultados. Introducción a los sistemas peer-to-peer para recuperación de información.
Unidad 8 – Recuperación de Información en la Web. Características del espacio Web y los lenguajes de marcado. Arquitectura de los motores de búsqueda. Directorios y metabuscadores. Recolección (crawling), indexación y recuperación a gran escala. Modelos de la Web. Algoritmos de ranking basados en el análisis de enlaces. Aplicaciones y tendencias.
Bibliografía
Básica
Modern Information Retrieval. R. Baeza-Yates, B. Ribeiro-Neto. Addison-Wesley, 1999.
Introduction to Information Retrieval. C. Manning, P. Raghavan, H. Schutze. Cambridge University Press. 2008. (versión previa digital)
Information Retrieval. Algorithms and Heuristics. D. A. Grossman, O. Frieder. Kluwer, 1998.
Material provisto por el equipo docente. Libro: “Introducción a la Recuperación de Información. Conceptos, modelos y algoritmos básicos”. Gabriel H. Tolosa y Fernando R.A. Bordignon. Laboratorio de Redes de Datos. Universidad Nacional de Luján.
Complementaria
Van Rijsbergen, C. J. Information Retrieval. Butterworth. 1979.
Recurso disponible en linea: http://www.dcs.gla.ac.uk/Keith/Preface.html
Managing Gigabytes: Compressing and Indexing Documents and Images. 2ª Edition. I.H. Witten, A. Moffat, T.C. Bell. Edit. Morgan Kaufmann, 1999.
Information Retrieval Interaction. Peter Ingwersen. London: Taylor Graham, 1992.
Recurso disponible en linea: http://www.db.dk/pi/iri/
Information Retrieval. Data Structures & Algorithms. W. B. Frakes, R. Baeza-Yates. Edit. Prentice-Hall, 1992.
Advances in Information Retrieval. 27th European Conference on IR Research, ECIR 2005, Santiago de Compostela, Spain, March 21-23, 2005, Proceedings.
Mining the Web. Discovering Knowledge from Hypertext Data. Soumen Chakrabarti. Morgan-Kaufmann Publishers. 2003.
Evaluación
Existirá una evaluación parcial y un proyecto final de curso. Se deben resolver y entregar en tiempo y forma todas las actividades propuestas por el equipo docente, ya sean teóricas o de laboratorio. Además, se debe participar en una actividad de preparación y exposición de un tema grupal durante la cursada.