COMPUTATIONAL LINGUISTICS
- Anno accademico
- 2024/2025 Programmi anni precedenti
- Titolo corso in inglese
- COMPUTATIONAL LINGUISTICS
- Codice insegnamento
- LM5860 (AF:516674 AR:290169)
- Modalità
- In presenza
- Crediti formativi universitari
- 6
- Livello laurea
- Laurea magistrale (DM270)
- Settore scientifico disciplinare
- L-LIN/01
- Periodo
- II Semestre
- Anno corso
- 1
- Spazio Moodle
- Link allo spazio del corso
Inquadramento dell'insegnamento nel percorso del corso di studio
Obiettivi dell’insegnamento sono:
- fornire gli strumenti metodologici di base per l'analisi quantitativa e l'annotazione di dati linguistici testuali
- introdurre lo/la studente/essa alla letteratura scientifica specifica
- rafforzare la capacità di riflessione sul linguaggio
- sviluppare la capacità di combinare intuizioni ed approcci appartenenti a letterature scientifiche relativamente indipendenti come quella teorica, quella computazionale e quella psicolinguistica
- esercitare le capacità di critica della letteratura, di formulazione di ipotesi alternative e di scrittura scientifica
Risultati di apprendimento attesi
- familiarità con i principali approcci per il trattamento automatico del linguaggio
- conoscenza della terminologia di base e comprensione dei testi che ne fanno uso
- conoscenza dei fondamenti matematici e logici che sottostanno ai principali approcci per il trattamento automatico del linguaggio
- conoscenza dei più importanti livelli di annotazione linguistica del testo
- familiarità con le più comuni tecniche di annotazione automatica e manuale del testo
- familiarità con i principali approcci alla rappresentazione computazionale ed estrazione automatica del significato delle parole
2. Capacità di applicare conoscenza e comprensione
- conoscenza dei limiti e delle caratteristiche dei principali approcci per il trattamento automatico del linguaggio, in modo tale da poterli sfruttare per la propria ricerca linguistica
- capacità di avanzare, in maniera fondata e critica, proposte originali
3. Capacità di giudizio
- capacità di reperire autonomamente ed esaurientemente le fonti per ricerche concordate con il docente
- consapevolezza nella scelta di un quadro teorico di riferimento e indipendenza intellettuale rispetto al quadro teorico stesso
- sensibilità alle problematiche tecniche e deontologiche connesse all'analisi quantitativa ed automatica del linguaggio
- capacità di valutare ipotesi in competizione e operare sintesi tra ipotesi alternative
4. Abilità comunicative
- capacità di stesura di un testo scritto di carattere argomentativo su un tema di ricerca originale
- capacità di divulgazione delle principali teorie linguistiche ad un pubblico con un background scientifico variegato (linguisti teorici, computazionali e psicolinguisti)
5. Capacità di apprendimento
- capacità di acquisire dimestichezza con nuovi strumenti tecnologici per il trattamento automatico del linguaggio (p.e. sistemi di annotazione, tool di interrogazione di corpora)
Prerequisiti
Nozioni base di matematica
Contenuti
2. Corpora: classificazione ed uso
3. Statistica descrittiva del testo / La legge di Zipf
4. Linguaggio e probabilità
5. Linguaggio e probabilità II
6. L'annotazione linguistica del testo
7. Il processo di annotazione e la sua validazione
8. Classificazione
9. Lessici semantici computazionali
10. Semantica distribuzionale, parte I: collocazioni e misure di associazione
11. Semantica distribuzionale, parte II: similarità semantica ed applicazioni
Testi di riferimento
- M. Baroni (2009) Distributions in text. In A. Lüdeling and M. Kytö (eds.), Corpus linguistics: An international handbook, Vol. 2, Mouton de Gruyter: 803-821. Post-print disponibile gratuitamente online all'indirizzo: http://sslmit.unibo.it/~baroni/publications/hsk_39_dist_rev2.pdf
- M. Davies (2015) Corpora: An introduction. In D. Biber and R. Reppen (eds.), The Cambridge Handbook of English Corpus Linguistics, Cambridge University Press: 11-31.
- S. Evert (2009) Corpora and collocations. In A. Lüdeling and M. Kytö (eds.), Corpus linguistics: An international handbook, Vol. 2, Mouton de Gruyter: 1212-1248 (sections 1-4). Versione estesa disponibile gratuitamente online all'indirizzo: http://www.stefan-evert.de/PUB/Evert2007HSK_extended_manuscript.pdf
- S.T. Gries and A. L. Berez (2017) Linguistic Annotation in/for Corpus Linguistics. In N. Ide and J. Pustejovsky (eds.), Handbook of Linguistic Annotation, Springer: 379-409. Disponibile gratuitamente online all'indirizzo: http://www.stgries.info/research/2017_STG-ALB_LingAnnotCorpLing_HbOfLingAnnot.pdf
- S.T. Gries and J. Newman (2010) Creating And Using Corpora. In R. J. Podesva and D. Sharma (eds.), Research Methods in Linguistic, Cambridge University Press: 257-287. Disponibile gratuitamente online all'indirizzo: http://www.stgries.info/research/2013_STG-JN_CreatingUsingCorpora_ResMethLing.pdf
- D. Jurafsky and J. H. Martin (2008) Speech and Language Processing, 2nd edition, Prentice Hall (ch. 1, 2, 4, 19.1-19.4, 20.1, 20.6)
- D. Jurafsky and J. H. Martin (2020) Speech and Language Processing, 3rd edition draft, Prentice Hall (ch. 4). Disponibile gratuitamente online all'indirizzo: https://web.stanford.edu/~jurafsky/slp3/
- A. Lenci (2018) Distributional Models of Word Meaning, Annual Review of Linguistics, 4: 151-171. Disponibile gratuitamente online all'indirizzo: http://colinglab.humnet.unipi.it/wp-content/uploads/2012/12/annurev-linguistics-030514-125254.pdf
- C. Manning and H. Schütze (1999) Foundations of Statistical Natural Language Processing, MIT Press (ch. 1.1-1.3)
- Poesio et al (2018): M.Poesio, J. Chamberlain and U. Kruschwitz (2018) Crowdsourcing. In N. Ide and J. Pustejovsky (eds.), Handbook of Linguistic Annotation, Springer: 277-296
Modalità di verifica dell'apprendimento
DESCRIZIONE DELL'ESAME ORALE
L'esame orale consiste in domande volte a verificare la conoscenza dei temi affrontati a lezione ed esercizi volti a testare la padronanza dei fondamentali costrutti metodologici descritti in classe (p.e. calcolo dell'associazione tra due parole, verificare se una formula è ben formata).
PRESENTAZIONE DI GRUPPO
Agli studenti che vorranno optare per questa soluzione verrà chiesto di organizzarsi in gruppi di 3/4 persone che dovranno preparare una breve presentazione di 20 minuti su un tema di linguistica computazionale o di Natural Language Processing scelto dallo/la studente/essa e concordato con il docente. Lo/la studente/essa è incoraggiato/a a proporre al docente una domanda scientifica o un dominio applicativo verso cui lui o lei prova un genuino interesse o curiosità.
Ogni presentazione verrà valutata come segue:
- lavoro di gruppo: 20% del voto finale
- capacità oratoria: 20% del voto finale
- supporti visivi: 30% del voto finale
- contenuto: 40% del voto finale
ELABORATO FINALE
Il progetto finale consiste in un elaborato scritto (minimo 3000 parole) su un tema di linguistica computazionale o di Natural Language Processing scelto dallo/la studente/essa e concordato con il docente. Lo/la studente/essa è incoraggiato/a a proporre al docente una domanda scientifica o un dominio applicativo verso cui lui o lei prova un genuino interesse o curiosità. Riferimenti bibliografici la cui consultazione è consigliata per individuare possibili domini o applicazioni includono:
- R. Mitkov (2023, ed.) The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press
- A. Clark, C. Fox and S. Lappin (2010, eds.) The Handbook of Computational Linguistics and Natural Language Processing, Wiley Blackwell
L'elaborato verrà valutato come segue:
- conoscenza del problema e uso critico della letteratura: 50% del voto finale
- profondità d'analisi: 20% del voto finale
- qualità linguistica dell'elaborato: 30% del voto finale
CALCOLO DEL VOTO FINALE
Il voto finale sarà così calcolato:
- esame orale: 50% del voto finale
- elaborato finale o presentazione di gruppo: 50% del voto finale