LEARNING WITH MASSIVE DATA

Anno accademico: 2022/2023 Programmi anni precedenti

Titolo corso in inglese: LEARNING WITH MASSIVE DATA

Codice insegnamento: CM0638 (AF:398307 AR:214340)

Lingua di insegnamento: Inglese

Modalità: In presenza

Crediti formativi universitari: 6

Livello laurea: Laurea magistrale (DM270)

Settore scientifico disciplinare: ING-INF/05

Periodo: II Semestre

Anno corso: 1

Sede: VENEZIA

Spazio Moodle: Link allo spazio del corso

Inquadramento dell'insegnamento nel percorso del corso di studio

L'obiettivo dell'insegnamento è di dare allo studente le conoscenze necessarie per la progettazione e lo sviluppo di algoritmi di analisi di grandi volumi di dati in ambienti altamente paralleli (multi-core) e distribuiti (cloud). Alcuni casi di studio verranno scelti tra temi quali data mining, web search, e social network analysis.

Risultati di apprendimento attesi

Il corso illustra le tecniche impiegate per risolvere problemi di analisi su grandi volumi di dati con algoritmi paralleli.
Gli studenti acquisiscono conoscenze sulle architetture di calcolo parallelo, sui paradigmi e sugli ambienti di programmazione parallela, e sulla progettazione di algoritmi per dataset massivi.

Gli studenti raggiungeranno i seguenti risultati di apprendimento:

Conoscenza e comprensione: i) comprensione dei concetti base del multi-threading e del calcolo distribuito; ii) comprensione dei costi di un programma di analisi di dataset massivi parallelo e non (cache, memory, network) e loro modellazione; iii) comprensione dei pattern di progettazione di algoritmi per dataset massivi.

Capacità di applicare conoscenza e comprensione: i) capacità di progettare e sviluppare algoritmi per dataset massivi ii) capacità di stimare e misurare la performance di un algoritmo parallelo; iii) capacità di sviluppare algoritmi per dataset massivi tramite l'uso dei pattern di programmazione parallela

Capacità di giudizio: i) capacità di analizzare e confrontare differenti metodi o algoritmi e di scegliere la più appropriata ad un dato problema sulla base di un modello di costo

Abilità comunicative: i) saper esporre in maniera esaustiva i risultati sperimentali di una analisi comparativa tra differenti soluzioni e algoritmi

Prerequisiti

Lo studente deve possedere una buona conoscenza di architettura degli elaboratori, algoritmi, programmazione C/Python, sistemi operativi.

Contenuti

- Cache-Aware and cache-oblivious Algorithms
- Thread Parallelism
- Large-scale parallelism
- Recommender systems
- Learning to Rank
- Link Analysis
- Advertising on the Web

Testi di riferimento

Note del docente.

Jure Leskovec, Anand RajaramanJeffrey David Ullman. Mining of Massive Datasets 3rd Edition. Cambridge University Press 2020.

Modalità di verifica dell'apprendimento

La verifica dell'apprendimento avviene tramite una prova scritta e l'implementazione di un progetto.

La prova scritta consiste in domande di carattere teorico sugli argementi trattati durante il corso.

Il progetto richiede di sviluppare un algoritmo per uno specifico problema di data anlysis. Lo studente deve scegliere e motivare la soluzione secondo lui più opportuna e consegnare un report che verrà discusso con il docente.

Modalità di esame

scritto e orale

Metodi didattici

Lezioni teoriche e sessioni pratiche.

Programma definitivo.

Data ultima modifica programma: 11/07/2022

Tipologia	Nome	Fornitore (Dominio)	Descrizione	Durata	Informativa
Necessario	_pk_id[*]	unive/WAI	*	30 giorni	Informativa
Necessario	_pk_ses[*]	unive/WAI	*	1 giorno	Informativa
Necessario	_pk_ref[*]	unive/WAI	*	6 mesi	Informativa
Necessario	_gsas	unive/google	Memorizza le preferenze dell'utente	3 mesi	Informativa
Necessario	_opensaml_req_cookie%	unive	Gestione autenticazione e SingleSignOn (shibboleth)	sessione	Informativa
Necessario	_shibsession[], _shibsstate[]	Unive.it (www.unive.it)	Mantiene i dati di sessione del SingleSignOn	Sessione	Informativa
Necessario	PHPSESSID	Unive.it (www.unive.it)	Identificatore univoco dell'utente per gli applicativi del sito	Sessione	Informativa
Necessario	cookie[*]	Unive.it (www.unive.it)	Memorizza le preferenze dell'utente sui cookie	1 mese	Informativa
Necessario	cookie	idp.unive.it	Memorizza le preferenze dell'utente sui cookie	1 mese	Informativa
Necessario	fe_typo_user	Unive.it (www.unive.it)	Identificatore univoco dell'utente per l'area riservata del sito	sessione	Informativa
Necessario	JSESSIONID	Unive.it (www.unive.it)	Utilizzato per creare le sessioni in area riservata	sessione	Informativa
Necessario	ADMCMD_prev	Unive.it (www.unive.it)	Utilizzato per la gestione degli accessi al cms typo3	sessione	Informativa
Necessario	unive.it	Unive.it (www.unive.it)	servono a registrare le preferenze sui cookies	6 mesi	Informativa
Necessario	noiframe	Unive.it (www.unive.it)	servono a registrare le preferenze sui cookies	6 mesi	Informativa
Google - Youtube	__Secure-1PAPISID	Google (google.com)	Utilizzato per finalità di targeting per costruire un profilo degli interessi dei visitatori del sito web al fine di mostrare pubblicità Google pertinente e personalizzata.	1 mese	Informativa
Google - Youtube	CONSENT	Google (google.com)	Utilizzato da google per memorizzare le preferenze dell'utente	17 anni	Informativa
Facebook - Pixel	Socialpix	Unive.it (www.unive.it)	Servono a registrare le preferenze sui cookiesc	6 mesi	Informativa Università Ca' Foscari
Facebook - Pixel	_fbp	Unive.it (www.unive.it)	Traccia gli utenti per il retargeting pubblicitario su Facebook	3 mesi	Informativa facebook