INFORMATION RETRIEVAL AND WEB SEARCH
- Anno accademico
- 2025/2026 Programmi anni precedenti
- Titolo corso in inglese
- INFORMATION RETRIEVAL AND WEB SEARCH
- Codice insegnamento
- CM0473 (AF:576828 AR:323815)
- Modalità
- In presenza
- Crediti formativi universitari
- 6
- Livello laurea
- Laurea magistrale (DM270)
- Settore scientifico disciplinare
- INF/01
- Periodo
- II Semestre
- Anno corso
- 1
- Sede
- VENEZIA
Inquadramento dell'insegnamento nel percorso del corso di studio
Il campo dell’Information Retrieval (IR) è notevolmente cambiato negli ultimi anni, con l'espansione del Web (World Wide Web), la nascita dei motori di ricerca Web, e l'avvento dei cloud per memorizzare dati e computare in maniera distribuita.
Durante l'ultimo decennio, l'ottimizzazione continua dell’efficienza e dell’efficacia del recupero delle informazioni ha portato i motori di ricerca web a raggiungere nuovi livelli di qualità. Il campo dell'IR è così passato da essere una disciplina prevalentemente accademica, a costituire la base degli strumenti preferiti da moltitudini di persone per accedere giornalmente alle informazioni di interesse. Il corso si propone di presentare i fondamenti scientifici di questo settore, e alcune problematiche pratiche.
Saranno inoltre presentati tecniche e algoritmi che ricadono nei campi dell'apprendimento automatico applicato a problemi di mining dei testi e di ordinamento dei risultati dei motori di ricerca, e dell'analisi della rete Web. In questo ambito verranno affrontati i recenti sviluppi legati all'AI generativa e ai Large Language Models (LLM), fino alla loro applicazione per la moderna Neural IR, dove i modelli neurali LLM sono utilizzati per il ranking e il retrieval.
Risultati di apprendimento attesi
- Conoscere e comprendere i modelli di retrieval, e i metodi e gli indici per processare le query
- Conoscere e comprendere le componenti di un motore di ricerca, e le tecniche e gli algoritmi per ottenere il giusto compromesso tra efficienza e efficacia del retrieval
- Conoscere e comprendere i metodi di analisi delle reti, incluso la rete Web
- Conoscere ambienti e librerie per lo sviluppo di software su larga scala, in grado di gestire ed elaborare di grandi moli di dati
- Conoscere ambienti di programmazione e algoritmi per l’Intelligenza Artificiale
- Conoscere e comprendere i metodi di apprendimento automatico per classificare e raggruppare testi, e per ordinare i risultati del retrieval
- Conoscere i potenziali risvolti etici, sociali e legali legati al trattamento sicuro delle informazioni
Capacità di applicare conoscenza e comprensione:
- Capacità di realizzare algoritmi per indicizzare e comprimere i testi e processare le query
- Capacità di scegliere e valutare i metodi di apprendimento automatico per classificare e raggruppare testi, e per ordinare i risultati del retrieval
- Capacità di individuare strumenti per l'analisi delle reti, incluso la rete Web
- Capacità di usare tecniche di programmazione avanzata negli ambiti del calcolo ad alte prestazioni, e algoritmi per gestire elevate moli di dati
- Capacità di verificare i requisiti funzionali e non funzionali di un sistema informatico di apprendimento automatico
- Capacità di di accedere alla letteratura scientifica per individuare potenziali soluzioni a problemi con metodi innovativi allo stato dell'arte
- Capacità di studiare la letteratura scientifica per individuare potenziali soluzioni a problemi con metodi innovativi allo stato dell'arte.
Prerequisiti
Conoscenze e competenze di Machine Learning
Contenuti
Rappresentazione vettoriale dei testi
Tecniche based di tokenizzazione
Indicizzazione e retrieval nello spazio vettoriale
Valutazione dei sistemi di IR
Neural IR
Web Search: Crawling, algoritmi basati sui link
Scalabilità dei sistemi di IR
Testi di riferimento
- Nicola Tonellotto. Neural IR. 2022: https://arxiv.org/pdf/2207.13443.pdf
- Jimmy Lin, Rodrigo Nogueira, and Andrew Yates. Pretrained Transformers for Text Ranking: BERT and Beyond. 2021: https://arxiv.org/pdf/2010.06467.pdf
- Note del docente e articoli scientifici.
Modalità di verifica dell'apprendimento
La seconda parte dell'esame, che contribuisce al 40% del vosto finale, riguarda la lettura critica e la presentazione pubblica di articoli scientifici sugli argomenti del corso. La prova mira a valutare la capacità analitica e il grado di comprensione del testo (range 60%), oltre alla sintesi e alla capacità di comunicazione (range 40%).
La seconda parte dell'esame può essere anche sostenuta sviluppando un progetto software la cui relazione scritta sarà discussa oralmente. In questo caso, il progetto verrà valutato secondo lo schema segunete: capacità analitica del candidato nell'affrontare il progetto (range 20%), efficienza del progetto software (50 %), completezza del report e dell'analizi sperimentale, oltre alla capacità di comunicazione (range 30%).
Modalità di esame
Graduazione dei voti
28-30L: padronanza degli argomenti trattati a lezione, ottima padronanza della terminologia tecnica e ottime competenze acquisite.
26-27: buona conoscenza degli argomenti trattati a lezione, buone competenze e familiarità con la terminologia tecnica.
24-25: conoscenza non sempre approfondita degli argomenti trattati a lezione, discrete comptenze e uso non sempre corretto della terminologia tecnica.
22-23: conoscenza spesso superficiale degli argomenti trattati a lezione, competenze acquisite sufficienti, carenze sul piano della terminologia tecnica.
18-21: conoscenza a tratti lacunosa degli argomenti trattati a lezione, competenze appena sufficienti e teminologia tecnica carente.