INFORMATION RETRIEVAL AND WEB SEARCH

Anno accademico
2022/2023 Programmi anni precedenti
Titolo corso in inglese
INFORMATION RETRIEVAL AND WEB SEARCH
Codice insegnamento
CM0473 (AF:398292 AR:214927)
Modalità
In presenza
Crediti formativi universitari
6
Livello laurea
Laurea magistrale (DM270)
Settore scientifico disciplinare
INF/01
Periodo
II Semestre
Anno corso
1
Sede
VENEZIA
Spazio Moodle
Link allo spazio del corso
Il corso è obbligatorio all'interno del curriculum "Data Management and Analytics", e introduce lo studente ai temi che riguardano l'Information Retrieval e il Web Search.
Il campo dell’Information Retrieval (IR) è notevolmente cambiato negli ultimi anni, con l'espansione del Web (World Wide Web), la nascita dei motori di ricerca Web, e l'avvento dei cloud per memorizzare dati e computare in maniera distribuita.
Durante l'ultimo decennio, l'ottimizzazione continua dell’efficienza e dell’efficacia del recupero delle informazioni ha portato i motori di ricerca web a raggiungere nuovi livelli di qualità. Il campo dell'IR è così passato da essere una disciplina prevalentemente accademica, a costituire la base degli strumenti preferiti da moltitudini di persone per accedere giornalmente alle informazioni di interesse. Il corso si propone di presentare i fondamenti scientifici di questo settore, e alcune problematiche pratiche.
Saranno inoltre presentati tecniche e algoritmi che ricadono nei campi dell'apprendimento automatico applicato a problemi di mining dei testi e di ordinamento dei risultati dei motori di ricerca, e dell'analisi della rete Web.
Conoscenza e comprensione:

- Conoscere e comprendere i modelli di retrieval, e i metodi e gli indici per processare le query
- Conoscere e comprendere le componenti di un motore di ricerca, e le tecniche e gli algoritmi per ottenere il giusto compromesso tra efficienza e efficacia del retrieval
- Conoscere e comprendere i metodi di apprendimento automatico per classificare e raggruppare testi, e per ordinare i risultati del retrieval
- Conoscere e comprendere i metodi di analisi delle reti, incluso la rete Web

Capacità di applicare conoscenza e comprensione:

- Capacità di realizzare algoritmi per indicizzare e comprimere i testi e processare le query
- Capacità di scegliere e valutare i metodi di apprendimento automatico per classificare e raggruppare testi, e per ordinare i risultati del retrieval
- Capacità di individuare strumenti per l'analisi delle reti, incluso la rete Web
Strutture dati e algoritmi, concetti base di algebra lineare e teoria della probabilità.
Modelli base di IR
Tecniche based di tokenizzazione, indicizzazione e retrieval nello spazio vettoriale
Valutazione dei sistemi di IR
Rappresentazione dei testi
Web Search: Crawling, algoritmi basati sui link, problemi di scalabilità
Web e text mining
Estrazione dell’informazione e integrazione dei dati
Note del docente.
C. Manning, P. Raghavan, and H. Schütze. Introduction to Information Retrieval, Cambridge University Press, 2008.
L'esame è diviso in due parti. La prima parte è scritta (orale, a causa dell'emergenza COVID), e mira a testare con domande aperte le conoscenze e la capacità di applicare e valutare soluzioni in contesti applicativi dell'information retrieval moderna. La seconda parte dell'esame riguarda la lettura critica e la presentazione pubblica di articoli scientifici sugli argomenti del corso, e mira a valutare la capacità analitica del candidato, oltre alla sintesi e alla capacità di comunicazione. La seconda parte dell'esame può essere anche sostenuta sviluppando un progetto software la cui relazione scritta sarà discussa oralmente con il docente.
Lezioni teoriche ed esercizi.
Inglese
scritto e orale
Programma definitivo.
Data ultima modifica programma: 25/06/2022