STATISTICAL LEARNING FOR DATA SCIENCE - 1

Anno accademico
2025/2026 Programmi anni precedenti
Titolo corso in inglese
STATISTICAL LEARNING FOR DATA SCIENCE - 1
Codice insegnamento
EM1401 (AF:561295 AR:326598)
Lingua di insegnamento
Inglese
Modalità
In presenza
Crediti formativi universitari
6 su 12 di STATISTICAL LEARNING FOR DATA SCIENCE
Livello laurea
Laurea magistrale (DM270)
Settore scientifico disciplinare
SECS-S/01
Periodo
1° Periodo
Anno corso
1
Sede
VENEZIA
L’obiettivo dell’insegnamento è sviluppare le competenze statistiche necessarie per analizzare dati caratterizzati da alta dimensionalità al fine di risolvere problemi di previsione e classificazione che sorgono nei più svariati ambiti siano essi tecnologici che economico-aziendali.
La partecipazione alle attività formative proposte dal corso e lo studio individuale consentiranno agli studenti di

1. (conoscenza e comprensione)
- conoscere e comprendere metodi statistici per la sintesi, previsione e classificazione utilizzando basi di dati complesse e di alta dimensionalità.
2. (capacità di applicare conoscenza e comprensione)
- applicare il trattamento preliminare: preparare un insieme di dati per le analisi successive
- applicare in modo autonomo metodi statistici avanzati per sintetizzare informazioni, effettuare previsioni e classificazioni   
- utilizzare in modo autonomo software statistico per analizzare  basi di dati con alta dimensione
3. (capacità di giudizio)
- valutare la validità e la fattibilità delle diverse tecniche statistiche e comprendere il loro impatto sui risultati delle analisi
- presentare i risultati delle analisi in maniera chiara e concisa utilizzando strumenti per la ricerca riproducibile
Il corso utilizzerà concetti di base di matematica e statistica tra cui funzioni, integrali, derivate, matrici, distribuzioni, la stima e la verifica d'ipotesi. E' richiesta una conoscenza di base di statistica al livello di un corso di statistica per la laurea triennale.
Il corso è diviso in due parti. La prima parte si focalizza sugli strumenti della ricerca riproducibile. Questi metodi saranno utilizzati nella seconda parte che si focalizza sull'apprendimento statistico (statistical learning).

Strumenti per data science e ricerca riproducibile
- Introduzione a R e Rstudio
- Prepararazione dei report attraverso Rmarkdown

Preparazione dei dati, pulizia dei dati, visualizzazione dei dati, manipolazione e analisi esplorativa.

Inferenza statistica
- Campionamento
- Stima
- Verifica d'ipotesi

Apprendimento statistico
- Regressione lineare
- Classificazione
- Metodi di ricampionamento
- Selezione del modello e la regolarizzazione nel modello lineare
- Modelli nonlineari
James G, Witten D, Hastie T, Tibshirani R (2015). An Introduction to Statistical Learning. 6th
version. Springer. Webpage http://www-bcf.usc.edu/~gareth/ISL/ Chapters 1-7
Chester Ismay, Albert Y. Kim (2019) Statistical Inference via Data Science: A ModernDive
into R and the tidyverse! , CRC Press ( https://moderndive.com/ )
Yihui Xie (2019) bookdown: Authoring Books and Technical Documents with R Markdown,
CRC/Press ( https://bookdown.org/yihui/bookdown/ )
L'esame scritto si svolge in laboratorio e prevede la risoluzione di tre esercizi: uno relativo al primo modulo e due relativi al secondo modulo. Gli studenti devono svolgere gli esercizi utilizzando R Studio e, al termine della prova, consegnare un report in formato HTML contenente:

1. Il codice R utilizzato per risolvere gli esercizi.
2. I risultati ottenuti, sia numerici che grafici.
3. Interpretazione dei risultati.

Dopo la pubblicazione degli esiti della prova scritta, gli studenti che avranno raggiunto almeno 18/30 saranno convocati per una breve prova orale. Questa fase dell'esame valuterà le stesse competenze e conoscenze richieste nella prova scritta.

scritto e orale
Il punteggio della prova scritta è calcolato come media tra il voto ottenuto nella prima parte (esercizio 1) e nella seconda parte (esercizi 2 e 3). Ogni esercizio comprende da 4 a 7 domande, ciascuna del valore di 1 punto. Per superare l'esame è necessario ottenere almeno il 60% del punteggio totale.
L'insegnamento comprende una combinazione di lezioni di teoria convenzionali focalizzate su
descrizione dei metodi e sessioni pratiche che descrivono l'implementazione e l'applicazione
dei metodi ai problemi reali. I metodi saranno implementati con il software statistico R
(www.r-project.org). Gli studenti sono incoraggiati a portare i propri laptop (no tablet!) ed a sperimentare
con il codice durante il corso.
Questo è il primo modulo di un corso con 12 crediti.
Le informazioni si riferiscono all'intero corso.

È richiesto che gli studenti si registrino sulla pagina del corso della piattaforma e-learning di ateneo moodle.unive.it
Programma definitivo.
Data ultima modifica programma: 21/03/2025