STATISTICAL INFERENCE AND LEARNING

Anno accademico
2019/2020 Programmi anni precedenti
Titolo corso in inglese
STATISTICAL INFERENCE AND LEARNING
Codice insegnamento
CM0471 (AF:306562 AR:166129)
Modalità
In presenza
Crediti formativi universitari
6
Livello laurea
Laurea magistrale (DM270)
Settore scientifico disciplinare
SECS-S/01
Periodo
I Semestre
Anno corso
1
Sede
VENEZIA
Spazio Moodle
Link allo spazio del corso
L’insegnamento ricade tra le attività educative del corso di laurea magistrale in Computer Science che consentono allo studente di acquisire strumenti avanzati per l’analisi di dati mediante tecniche statistiche e di apprendimento automatico. L’obiettivo dell’insegnamento è sviluppare le competenze statistiche necessarie per analizzare dati caratterizzati da alta dimensionalità al fine di risolvere problemi di previsione e classificazione che sorgono nei più svariati ambiti tecnologico-scientifici, biomedici ed economico-aziendali.
La frequenza e la partecipazione alle attività formative proposte dal corso e lo studio individuale consentiranno agli studenti di:
1. (conoscenza e comprensione)
- conoscere e comprendere metodi avanzati propri dell’apprendimento statistico per la sintesi, previsione e classificazione anche sulla base di insiemi di dati con relazioni complesse e alta dimensionalità
2. (capacità di applicare conoscenza e comprensione)
- applicare in modo autonomo metodi statistici avanzati per sintetizzare informazioni, effettuare previsioni e classificazioni con dataset caratterizzati da alta dimensionalità
- utilizzare in modo autonomo software statistico per analizzare dataset caratterizzati da alta dimensionalità
3. (capacità di giudizio)
- esprimere valutazioni autonome rispetto alla validità e alla fattibilità di diverse tecniche statistiche e comprendere il loro impatto sui risultati delle analisi
E' richiesta una conoscenza di base del calcolo delle probabilità a livello di un corso di laurea triennale di informatica. Gli argomenti che vengono assunti per noti sono: eventi, assiomi della probabilità, probabilità condizionata e indipendenza, variabili casuali, valore atteso, varianza, covarianza e correlazione, principali variabili casuali discrete (binomiale e Poisson), principali variabili casuali continue (uniforme, normale, esponenziale), teorema del limite centrale, legge dei grandi numeri. A titolo esemplificativo gli argomenti sono coperti dai capitoli 2-3-4 del testo Baron (2014).

Baron M (2014). Probability and Statistics for Computer Scientistis. Second Edition. CRC Press.
Il corso è suddiviso in due moduli. Il primo modulo approfondisce l'approccio all'inferenza statistica basato sulla funzione di verosimiglianza. Gli argomenti del primo modulo costituiscono le basi per il secondo modulo che riguarda l’apprendimento statistico. Dettaglio dei contenuti che verranno presentati e discussi a lezione:
1. Inferenza statistica
-- la funzione di verosimiglianza
-- stima di massima verosimiglianza
-- intervalli di confidenza e verifica delle ipotesi
2. Apprendimento statistico
-- modelli previsivi
-- classificazione
-- metodi di ricampionamento
-- scelta fra modelli e regolarizzazione
-- modelli non lineari
L’utilizzo del linguaggio R (www.r-project.org) è una parte integrante dei due moduli del corso.
- James G, Witten D, Hastie T, Tibshirani R (2015). An Introduction to Statistical Learning. 6th version. Springer. Pagina web http://www-bcf.usc.edu/~gareth/ISL/ Capitoli 1-7
- Letture e materiali integrativi distribuiti durante il corso tramite la piattaforma Moodle
La verifica dell'apprendimento avviene tramite una prova scritta. La prova presenta quattro esercizi scelti in modo da misurare
1. le conoscenze della teoria degli argomenti del corso,
2. la capacità di applicare i metodi appresi per risolvere problemi reali.
Il punteggio massimo per ogni esercizio è 8 punti. Il punteggio finale è dato dalla somma dei punteggi dei quattro esercizi. Un punteggio complessivo che supera 30 punti corrisponde alla lode.
Lezioni di teoria convenzionali accompagnate da esercitazioni in aula, discussione di casi studio e laboratori. Materiale didattico curato del docente verrà distribuito durante il corso tramite la piattaforma Moodle. Il software statistico utilizzato nel corso è R (www.r-project.org).
Inglese
scritto
Programma definitivo.
Data ultima modifica programma: 13/05/2019