STATISTICAL LEARNING FOR DATA SCIENCE - 2

Anno accademico
2020/2021 Programmi anni precedenti
Titolo corso in inglese
STATISTICAL LEARNING FOR DATA SCIENCE - 2
Codice insegnamento
EM1401 (AF:336206 AR:176804)
Modalità
In presenza
Crediti formativi universitari
6 su 12 di STATISTICAL LEARNING FOR DATA SCIENCE
Livello laurea
Laurea magistrale (DM270)
Settore scientifico disciplinare
SECS-S/01
Periodo
2° Periodo
Anno corso
1
Sede
VENEZIA
Spazio Moodle
Link allo spazio del corso
L’obiettivo dell’insegnamento è sviluppare le competenze statistiche necessarie per analizzare dati caratterizzati da alta dimensionalità al fine di risolvere problemi di previsione e classificazione che sorgono nei più svariati ambiti siano essi tecnologici che economico-aziendali.
La partecipazione alle attività formative proposte dal corso e lo studio individuale consentiranno agli studenti di

1. (conoscenza e comprensione)
- conoscere e comprendere metodi statistici per la sintesi, previsione e classificazione utilizzando basi di dati complesse e di alta dimensionalità.
2. (capacità di applicare conoscenza e comprensione)
- trattamento preliminare: preparare un insieme di dati per le analisi successive
- applicare in modo autonomo metodi statistici avanzati per sintetizzare informazioni, effettuare previsioni e classificazioni   
- utilizzare in modo autonomo software statistico per analizzare    basi di dati con alta dimensione
3. (capacità di giudizio)
- valutare la validità e la fattibilità delle diverse tecniche statistiche e comprendere il loro impatto sui risultati delle analisi
- presentare i risultati delle analisi in maniera chiara e concisa utilizzando strumenti per la ricerca riproducibile
Il corso utilizzerà concetti di base di matematica e statistica tra cui funzioni, integrali, derivate, matrici, distribuzioni, la stima e la verifica d'ipotesi. E' richiesta una conoscenza di base di statistica al livello di un corso di statistica per la laurea triennale.
Il corso è diviso in due parti. La prima parte si focalizza sugli strumenti della ricerca riproducibile. Questi metodi saranno utilizzati nella seconda parte che si focalizza sull'apprendimento statistico (statistical learning)

Strumenti per data science e ricerca riproducibile
- Introduzione a R e Rstudio
- Preparare i report attraverso Rmarkdown

preparazione dei dati , pulizia dei dati. visualizzazione dei dati,

Inferenza statistica
- Campionamento
- Stima
- Verifica d'ipotesi

Apprendimento statistico
- Regressione lineare
- Classificazione
- Metodi di ricampionamento
- Selezione del modello e la regolarizzazione nel modello lineare
- Modelli nonlineari
James G, Witten D, Hastie T, Tibshirani R (2015). An Introduction to Statistical Learning. 6th version. Springer. Webpage http://www-bcf.usc.edu/~gareth/ISL/ Chapters 1-7
Chester Ismay, Albert Y. Kim (2019) Statistical Inference via Data Science: A ModernDive into R and the tidyverse! , CRC Press ( https://moderndive.com/ )
Yihui Xie (2019) bookdown: Authoring Books and Technical Documents with R Markdown, CRC/Press ( https://bookdown.org/yihui/bookdown/ )
La verifica dell'apprendimento avviene tramite una serie di prove parziali e una prova finale scritta. Le prove parziali hanno la forma di compiti settimanali a partire dalla seconda settimana di ciascun modulo. Le prove parziali si svolgono durante l'ultima lezione della settimana. Completando le otto prove (4 del Modulo 1 e 4 del Modulo 2) è possibile ottenere 4 punti.

La prova finale scritta contiene 4 esercizi scelti in modo da misurare
1. le conoscenze della teoria degli argomenti del corso,
2. la capacità di applicare i metodi appresi per risolvere problemi reali.

Il punteggio massimo per ogni esercizio è 7 punti. Il punteggio finale è dato dalla somma dei punteggi dei quattro esercizi. L'utilizzo dei libri, degli appunti e delle risorse elettroniche    durante la prova finale non è consentito.

Il punteggio finale è dato dalla somma del punteggio ottenuto nelle prove parziali e il punteggio della prova finale. Un punteggio complessivo che supera 30 punti corrisponde alla lode.
L'insegnamento comprende una combinazione di lezioni di teoria convenzionali focalizzate su descrizione dei metodi e sessioni pratiche che descrivono l'implementazione e l'applicazione dei metodi ai problemi reali. I metodi saranno implementati con il software statistico R (www.r-project.org). Gli studenti sono incoraggiati a portare i propri laptop (no tablet!) ed a sperimentare con il codice durante il corso. 
Inglese
Questo è il secondo modulo di un corso con 12 crediti. Le informazioni si riferiscono all'intero corso.
È richiesto che gli studenti si registrino sulla piattaforma e-learning di ateneo moodle.unive.it.
scritto
Programma definitivo.
Data ultima modifica programma: 09/07/2020