INFORMATION RETRIEVAL AND WEB SEARCH

Anno accademico
2024/2025 Programmi anni precedenti
Titolo corso in inglese
INFORMATION RETRIEVAL AND WEB SEARCH
Codice insegnamento
CM0473 (AF:513731 AR:286762)
Modalità
In presenza
Crediti formativi universitari
6
Livello laurea
Laurea magistrale (DM270)
Settore scientifico disciplinare
INF/01
Periodo
II Semestre
Anno corso
1
Sede
VENEZIA
Spazio Moodle
Link allo spazio del corso
Il corso è obbligatorio all'interno del curriculum Artificial Intelligence and Data Engineering (AIDE), e introduce lo studente ai temi che riguardano l'Information Retrieval e il Web Search.
Il campo dell’Information Retrieval (IR) è notevolmente cambiato negli ultimi anni, con l'espansione del Web (World Wide Web), la nascita dei motori di ricerca Web, e l'avvento dei cloud per memorizzare dati e computare in maniera distribuita.
Durante l'ultimo decennio, l'ottimizzazione continua dell’efficienza e dell’efficacia del recupero delle informazioni ha portato i motori di ricerca web a raggiungere nuovi livelli di qualità. Il campo dell'IR è così passato da essere una disciplina prevalentemente accademica, a costituire la base degli strumenti preferiti da moltitudini di persone per accedere giornalmente alle informazioni di interesse. Il corso si propone di presentare i fondamenti scientifici di questo settore, e alcune problematiche pratiche.
Saranno inoltre presentati tecniche e algoritmi che ricadono nei campi dell'apprendimento automatico applicato a problemi di mining dei testi e di ordinamento dei risultati dei motori di ricerca, e dell'analisi della rete Web.
Conoscenza e comprensione:

- Conoscere e comprendere i modelli di retrieval, e i metodi e gli indici per processare le query
- Conoscere e comprendere le componenti di un motore di ricerca, e le tecniche e gli algoritmi per ottenere il giusto compromesso tra efficienza e efficacia del retrieval
- Conoscere e comprendere i metodi di apprendimento automatico per classificare e raggruppare testi, e per ordinare i risultati del retrieval
- Conoscere e comprendere i metodi di analisi delle reti, incluso la rete Web

Capacità di applicare conoscenza e comprensione:

- Capacità di realizzare algoritmi per indicizzare e comprimere i testi e processare le query
- Capacità di scegliere e valutare i metodi di apprendimento automatico per classificare e raggruppare testi, e per ordinare i risultati del retrieval
- Capacità di individuare strumenti per l'analisi delle reti, incluso la rete Web
Strutture dati e algoritmi, concetti base di algebra lineare e teoria della probabilità.
Modelli base di IR
Tecniche based di tokenizzazione, indicizzazione e retrieval nello spazio vettoriale
Valutazione dei sistemi di IR
Rappresentazione dei testi
Web Search: Crawling, algoritmi basati sui link, problemi di scalabilità
Web e text mining
Estrazione dell’informazione e integrazione dei dati
Note del docente.
C. Manning, P. Raghavan, and H. Schütze. Introduction to Information Retrieval, Cambridge University Press, 2008.
L'esame è diviso in due parti. La prima parte è scritta, e contribuisce al 60% del voto finale. Essa mira a testare con domande aperte le conoscenze e la capacità di applicare e valutare soluzioni in contesti applicativi dell'information retrieval moderna. La valutazione della prima parte dell'esame è formulata secondo questo schema: (1) conoscenza e capacità di applicare la conoscenza nelle risposte fornite (range 40%), (2) dettaglio e completezza delle risposte (range 40%), (3) capacità di esposizione (range 20%).

La seconda parte dell'esame, che contribuisce al 40% del vosto finale, riguarda la lettura critica e la presentazione pubblica di articoli scientifici sugli argomenti del corso. La prova mira a valutare la capacità analitica e il grado di comprensione del testo (range 60%), oltre alla sintesi e alla capacità di comunicazione (range 40%).
La seconda parte dell'esame può essere anche sostenuta sviluppando un progetto software la cui relazione scritta sarà discussa oralmente. In questo caso, il progetto verrà valutato secondo lo schema segunete: capacità analitica del candidato nell'affrontare il progetto (range 20%), efficienza del progetto software (50 %), completezza del report e dell'analizi sperimentale, oltre alla capacità di comunicazione (range 30%).
Lezioni teoriche ed esercizi.
Inglese
scritto e orale
Programma definitivo.
Data ultima modifica programma: 26/02/2024