DATA AND WEB MINING

Anno accademico
2024/2025 Programmi anni precedenti
Titolo corso in inglese
DATA AND WEB MINING
Codice insegnamento
CT0509 (AF:379696 AR:216894)
Modalità
In presenza
Crediti formativi universitari
6
Livello laurea
Laurea
Settore scientifico disciplinare
ING-INF/05
Periodo
I Semestre
Anno corso
3
Sede
VENEZIA
Spazio Moodle
Link allo spazio del corso
Questo corso fa parte delle attività caratterizanti del Corso di laurea in Informatica.
L'obiettivo dell'insegnamento è di dare allo studente le conoscenze necessarie per la comprensione e l'uso delle tecniche sia di analisi supervisionata (classificazione e regressione) sia non supervisionata (clustering e raccomandazione),
con particolare interesse per dati web (es., documenti di testo, grafo del web).
Il corso prevede l'uso di librerie software di data mining tramite il linguaggio di programmazione Python.
Il corso illustra le tecniche base impiegate per condurre analisi descrittive e predittive,
principalmente su data originati in contesto Web.

Gli studenti raggiungeranno i seguenti risultati di apprendimento:

i) Conoscenza e comprensione: comprensione dei concetti base di learning supervisionato e non supervisionato; comprensione dei concetti base delle tecniche mining di contenuti web.

ii) Capacità di applicare conoscenza e comprensione: capacità di applicare tecniche di learning supervisionato e non supervisionato; capacità di usare strumenti software per l'analisi dei dati (ad esempio, scikit-learn).

iii) Capacità di giudizio: capacità di scegliere lo strumento di analisi più adeguato al problema dato e di valutarne la bontà.

iv) Abilità comunicative: saper esporre in maniera chiara e corretta i risultati sperimentali di una analisi comparativa tra differenti strumenti di analisi.

v) Capacità di apprendimento: saper utilizzare in autonomia nuove tecniche e strumenti.
Aver raggiunto gli obiettivi formativi (anche senza aver superato l'esame finale) dei corsi di "Programmazione E Laboratorio", "Probabilità e Statistica", "Algebra Lineare".
- Knowledge Discovery in Databases
- Data pre-processing:
- Ordinal and Categorical Variables
- Classification and Regression:
- k-NN, Decision Trees
- Bias and Variance, overfitting and underfitting
- Ensemble methods: Bagging, Boosting, Random Forests
- Random Forests for feature selection, outlier detection
- Imbalanced data
- Evaluation: accuracy measures, cross-validation
- Clustering:
- k-means, k-medoids, Hierarchical, DB-Scan
- Distance measures, curse of dimensionality
- Intrinsic and extrinsic Evaluation
- Pattern Mining:
- Association rules
- Frequent itemsets mining algorithms
- Introduction to Artificial Neural Networks
Note del docente. Estratti forniti durante il corso.
- Introduction to Data Mining (Global Edition), Tan, Steinbach, Karpatne, Kumar. Pearson. 2020.
La verifica dell'apprendimento avviene tramite una prova scritta e la discussione orale di un progetto.

La prova scritta consiste in domande di carattere teorico e brevi esercizi di carattere pratico. La prova scritta valuta il raggiungimento dei risultati di apprendimento i) ii) e iii).

Il progetto richiede di svolgere uno studio comparativo di diversi metodi di analisi applicati ad uno specifico dataset, o l'implementazione di un algoritmo di data mining.
Lo studente deve scegliere e motivare le soluzioni secondo lui più opportune e consegnare una relazione che verrà discussa con il docente.
Il progetto valuta il raggiungimento dei risultati di apprendimento iii) iv) e v).

La gradazione del voto è data da 70% prova scritta e 30% prova orale.

Lezioni teoriche accompagnate da numerose esercitazioni pratiche.
Materiale didattico curato del docente verrà distribuito durante il corso tramite la piattaforma Moodle. Durente il corso verrà usato il linguaggio di programmazione python e la libreria scikit-learn. Gli studenti sono incoraggiati a portare il loro laptop durante le lezioni.
Italiano
scritto e orale
Programma definitivo.
Data ultima modifica programma: 21/02/2024