INFORMATION RETRIEVAL AND WEB SEARCH

Anno accademico
2024/2025 Programmi anni precedenti
Titolo corso in inglese
INFORMATION RETRIEVAL AND WEB SEARCH
Codice insegnamento
CM0473 (AF:513731 AR:286762)
Modalità
In presenza
Crediti formativi universitari
6
Livello laurea
Laurea magistrale (DM270)
Settore scientifico disciplinare
INF/01
Periodo
II Semestre
Anno corso
1
Sede
VENEZIA
Spazio Moodle
Link allo spazio del corso
Il corso è obbligatorio all'interno del curriculum Artificial Intelligence and Data Engineering (AIDE), e introduce lo studente ai temi che riguardano l'Information Retrieval e il Web Search.
Il campo dell’Information Retrieval (IR) è notevolmente cambiato negli ultimi anni, con l'espansione del Web (World Wide Web), la nascita dei motori di ricerca Web, e l'avvento dei cloud per memorizzare dati e computare in maniera distribuita.
Durante l'ultimo decennio, l'ottimizzazione continua dell’efficienza e dell’efficacia del recupero delle informazioni ha portato i motori di ricerca web a raggiungere nuovi livelli di qualità. Il campo dell'IR è così passato da essere una disciplina prevalentemente accademica, a costituire la base degli strumenti preferiti da moltitudini di persone per accedere giornalmente alle informazioni di interesse. Il corso si propone di presentare i fondamenti scientifici di questo settore, e alcune problematiche pratiche.
Saranno inoltre presentati tecniche e algoritmi che ricadono nei campi dell'apprendimento automatico applicato a problemi di mining dei testi e di ordinamento dei risultati dei motori di ricerca, e dell'analisi della rete Web. In questo ambito verranno affrontati i recenti sviluppi legati all'AI generativa e ai Large Language Models (LLM), fino alla loro applicazione per la moderna Neural IR, dove i modelli neurali LLM sono utilizzati per il ranking e il retrieval.
Conoscenza e comprensione:

- Conoscere e comprendere i modelli di retrieval, e i metodi e gli indici per processare le query
- Conoscere e comprendere le componenti di un motore di ricerca, e le tecniche e gli algoritmi per ottenere il giusto compromesso tra efficienza e efficacia del retrieval
- Conoscere e comprendere i metodi di analisi delle reti, incluso la rete Web
- Conoscere ambienti e librerie per lo sviluppo di software su larga scala, in grado di gestire ed elaborare di grandi moli di dati
- Conoscere ambienti di programmazione e algoritmi per l’Intelligenza Artificiale
- Conoscere e comprendere i metodi di apprendimento automatico per classificare e raggruppare testi, e per ordinare i risultati del retrieval
- Conoscere i potenziali risvolti etici, sociali e legali legati al trattamento sicuro delle informazioni

Capacità di applicare conoscenza e comprensione:

- Capacità di realizzare algoritmi per indicizzare e comprimere i testi e processare le query
- Capacità di scegliere e valutare i metodi di apprendimento automatico per classificare e raggruppare testi, e per ordinare i risultati del retrieval
- Capacità di individuare strumenti per l'analisi delle reti, incluso la rete Web
- Capacità di usare tecniche di programmazione avanzata negli ambiti del calcolo ad alte prestazioni, e algoritmi per gestire elevate moli di dati
- Capacità di verificare i requisiti funzionali e non funzionali di un sistema informatico di apprendimento automatico
- Capacità di di accedere alla letteratura scientifica per individuare potenziali soluzioni a problemi con metodi innovativi allo stato dell'arte
- Capacità di studiare la letteratura scientifica per individuare potenziali soluzioni a problemi con metodi innovativi allo stato dell'arte.
Strutture dati e algoritmi, concetti base di algebra lineare e teoria della probabilità.
Conoscenze e competenze di Machine Learning
Modelli base di IR
Rappresentazione vettoriale dei testi
Tecniche based di tokenizzazione
Indicizzazione e retrieval nello spazio vettoriale
Valutazione dei sistemi di IR
Neural IR
Web Search: Crawling, algoritmi basati sui link
Scalabilità dei sistemi di IR
- Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval. Cambridge University Press. 2008: https://nlp.stanford.edu/IR-book/
- Nicola Tonellotto. Neural IR. 2022: https://arxiv.org/pdf/2207.13443.pdf
- Jimmy Lin, Rodrigo Nogueira, and Andrew Yates. Pretrained Transformers for Text Ranking: BERT and Beyond. 2021: https://arxiv.org/pdf/2010.06467.pdf
- Note del docente e articoli scientifici.
L'esame è diviso in due parti. La prima parte è scritta, e contribuisce al 60% del voto finale. Essa mira a testare con domande aperte le conoscenze e la capacità di applicare e valutare soluzioni in contesti applicativi dell'information retrieval moderna. La valutazione della prima parte dell'esame è formulata secondo questo schema: (1) conoscenza e capacità di applicare la conoscenza nelle risposte fornite (range 40%), (2) dettaglio e completezza delle risposte (range 40%), (3) capacità di esposizione (range 20%).

La seconda parte dell'esame, che contribuisce al 40% del vosto finale, riguarda la lettura critica e la presentazione pubblica di articoli scientifici sugli argomenti del corso. La prova mira a valutare la capacità analitica e il grado di comprensione del testo (range 60%), oltre alla sintesi e alla capacità di comunicazione (range 40%).
La seconda parte dell'esame può essere anche sostenuta sviluppando un progetto software la cui relazione scritta sarà discussa oralmente. In questo caso, il progetto verrà valutato secondo lo schema segunete: capacità analitica del candidato nell'affrontare il progetto (range 20%), efficienza del progetto software (50 %), completezza del report e dell'analizi sperimentale, oltre alla capacità di comunicazione (range 30%).
scritto e orale
Lezioni teoriche ed esercizi.
Inglese
Programma definitivo.
Data ultima modifica programma: 31/01/2025