COMPUTATIONAL LINGUISTICS

Anno accademico
2024/2025 Programmi anni precedenti
Titolo corso in inglese
COMPUTATIONAL LINGUISTICS
Codice insegnamento
LM5860 (AF:518207 AR:290169)
Modalità
In presenza
Crediti formativi universitari
6
Livello laurea
Laurea magistrale (DM270)
Settore scientifico disciplinare
L-LIN/01
Periodo
II Semestre
Anno corso
1
Spazio Moodle
Link allo spazio del corso
L'insegnamento si inquadra nelle attività caratterizzanti dei percorsi Language Sciences e Linguaggio e Cognizione della Laurea Magistrale in Scienze del Linguaggio, nelle attività caratterizzanti dei percorsi English and American Literary and Cultural Studies della Laurea Magistrale in Lingue e letterature europee, americane e postcoloniali, oltre che nelle attività affini e integrative del percorso English Linguistics della Laurea Magistrale in Scienze del Linguaggio. Il suo scopo è quello di fornire allo/a studente/essa gli strumenti teorici fondamentali per l'analisi computazionale e per il trattamento automatico della lingua.

Obiettivi dell’insegnamento sono:

- fornire gli strumenti metodologici di base per l'analisi quantitativa e l'annotazione di dati linguistici testuali
- introdurre lo/la studente/essa alla letteratura scientifica specifica
- rafforzare la capacità di riflessione sul linguaggio
- sviluppare la capacità di combinare intuizioni ed approcci appartenenti a letterature scientifiche relativamente indipendenti come quella teorica, quella computazionale e quella psicolinguistica
- esercitare le capacità di critica della letteratura, di formulazione di ipotesi alternative e di scrittura scientifica
1. Conoscenza e comprensione
- familiarità con i principali approcci per il trattamento automatico del linguaggio
- conoscenza della terminologia di base e comprensione dei testi che ne fanno uso
- conoscenza dei fondamenti matematici e logici che sottostanno ai principali approcci per il trattamento automatico del linguaggio
- conoscenza dei più importanti livelli di annotazione linguistica del testo
- familiarità con le più comuni tecniche di annotazione automatica e manuale del testo
- familiarità con i principali approcci alla rappresentazione computazionale ed estrazione automatica del significato delle parole

2. Capacità di applicare conoscenza e comprensione
- conoscenza dei limiti e delle caratteristiche dei principali approcci per il trattamento automatico del linguaggio, in modo tale da poterli sfruttare per la propria ricerca linguistica
- capacità di avanzare, in maniera fondata e critica, proposte originali

3. Capacità di giudizio
- capacità di reperire autonomamente ed esaurientemente le fonti per ricerche concordate con il docente
- consapevolezza nella scelta di un quadro teorico di riferimento e indipendenza intellettuale rispetto al quadro teorico stesso
- sensibilità alle problematiche tecniche e deontologiche connesse all'analisi quantitativa ed automatica del linguaggio
- capacità di valutare ipotesi in competizione e operare sintesi tra ipotesi alternative

4. Abilità comunicative
- capacità di stesura di un testo scritto di carattere argomentativo su un tema di ricerca originale
- capacità di divulgazione delle principali teorie linguistiche ad un pubblico con un background scientifico variegato (linguisti teorici, computazionali e psicolinguisti)

5. Capacità di apprendimento
- capacità di acquisire dimestichezza con nuovi strumenti tecnologici per il trattamento automatico del linguaggio (p.e. sistemi di annotazione, tool di interrogazione di corpora)
Nozioni di base di linguistica generale (morfologia e sintassi)

Nozioni base di matematica
1. Introduzione alla Linguistica Computazionale e al Natural Language Processing
2. Corpora: classificazione ed uso
3. Statistica descrittiva del testo / La legge di Zipf
4. Linguaggio e probabilità
5. Linguaggio e probabilità II
6. L'annotazione linguistica del testo
7. Il processo di annotazione e la sua validazione
8. Classificazione
9. Lessici semantici computazionali
10. Semantica distribuzionale, parte I: collocazioni e misure di associazione
11. Semantica distribuzionale, parte II: similarità semantica ed applicazioni
- R. Artstein (2018) Inter-annotator Agreement. In N. Ide and J. Pustejovsky (eds.), Handbook of Linguistic Annotation, Springer: 297-313. Disponibile gratuitamente online all'indirizzo: http://artstein.org/publications/inter-annotator-preprint.pdf
- M. Baroni (2009) Distributions in text. In A. Lüdeling and M. Kytö (eds.), Corpus linguistics: An international handbook, Vol. 2, Mouton de Gruyter: 803-821. Post-print disponibile gratuitamente online all'indirizzo: http://sslmit.unibo.it/~baroni/publications/hsk_39_dist_rev2.pdf
- M. Davies (2015) Corpora: An introduction. In D. Biber and R. Reppen (eds.), The Cambridge Handbook of English Corpus Linguistics, Cambridge University Press: 11-31.
- S. Evert (2009) Corpora and collocations. In A. Lüdeling and M. Kytö (eds.), Corpus linguistics: An international handbook, Vol. 2, Mouton de Gruyter: 1212-1248 (sections 1-4). Versione estesa disponibile gratuitamente online all'indirizzo: http://www.stefan-evert.de/PUB/Evert2007HSK_extended_manuscript.pdf
- S.T. Gries and A. L. Berez (2017) Linguistic Annotation in/for Corpus Linguistics. In N. Ide and J. Pustejovsky (eds.), Handbook of Linguistic Annotation, Springer: 379-409. Disponibile gratuitamente online all'indirizzo: http://www.stgries.info/research/2017_STG-ALB_LingAnnotCorpLing_HbOfLingAnnot.pdf
- S.T. Gries and J. Newman (2010) Creating And Using Corpora. In R. J. Podesva and D. Sharma (eds.), Research Methods in Linguistic, Cambridge University Press: 257-287. Disponibile gratuitamente online all'indirizzo: http://www.stgries.info/research/2013_STG-JN_CreatingUsingCorpora_ResMethLing.pdf
- D. Jurafsky and J. H. Martin (2008) Speech and Language Processing, 2nd edition, Prentice Hall (ch. 1, 2, 4, 19.1-19.4, 20.1, 20.6)
- D. Jurafsky and J. H. Martin (2020) Speech and Language Processing, 3rd edition draft, Prentice Hall (ch. 4). Disponibile gratuitamente online all'indirizzo: https://web.stanford.edu/~jurafsky/slp3/
- A. Lenci (2018) Distributional Models of Word Meaning, Annual Review of Linguistics, 4: 151-171. Disponibile gratuitamente online all'indirizzo: http://colinglab.humnet.unipi.it/wp-content/uploads/2012/12/annurev-linguistics-030514-125254.pdf
- C. Manning and H. Schütze (1999) Foundations of Statistical Natural Language Processing, MIT Press (ch. 1.1-1.3)
- Poesio et al (2018): M.Poesio, J. Chamberlain and U. Kruschwitz (2018) Crowdsourcing. In N. Ide and J. Pustejovsky (eds.), Handbook of Linguistic Annotation, Springer: 277-296
La verifica dell'apprendimento avviene attraverso un esame orale ed una prova finale che può consistere in un elaborato o in una presentazione su un argomento scelto dallo studente.

DESCRIZIONE DELL'ESAME ORALE

L'esame orale consiste in domande volte a verificare la conoscenza dei temi affrontati a lezione ed esercizi volti a testare la padronanza dei fondamentali costrutti metodologici descritti in classe (p.e. calcolo dell'associazione tra due parole, verificare se una formula è ben formata).

PRESENTAZIONE DI GRUPPO

Agli studenti che vorranno optare per questa soluzione verrà chiesto di organizzarsi in gruppi di 3/4 persone che dovranno preparare una breve presentazione di 20 minuti su un tema di linguistica computazionale o di Natural Language Processing scelto dallo/la studente/essa e concordato con il docente. Lo/la studente/essa è incoraggiato/a a proporre al docente una domanda scientifica o un dominio applicativo verso cui lui o lei prova un genuino interesse o curiosità.

Ogni presentazione verrà valutata come segue:

- lavoro di gruppo: 20% del voto finale
- capacità oratoria: 20% del voto finale
- supporti visivi: 30% del voto finale
- contenuto: 40% del voto finale


ELABORATO FINALE

Il progetto finale consiste in un elaborato scritto (minimo 3000 parole) su un tema di linguistica computazionale o di Natural Language Processing scelto dallo/la studente/essa e concordato con il docente. Lo/la studente/essa è incoraggiato/a a proporre al docente una domanda scientifica o un dominio applicativo verso cui lui o lei prova un genuino interesse o curiosità. Riferimenti bibliografici la cui consultazione è consigliata per individuare possibili domini o applicazioni includono:

- R. Mitkov (2023, ed.) The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press
- A. Clark, C. Fox and S. Lappin (2010, eds.) The Handbook of Computational Linguistics and Natural Language Processing, Wiley Blackwell

L'elaborato verrà valutato come segue:

- conoscenza del problema e uso critico della letteratura: 50% del voto finale
- profondità d'analisi: 20% del voto finale
- qualità linguistica dell'elaborato: 30% del voto finale

CALCOLO DEL VOTO FINALE

Il voto finale sarà così calcolato:

- esame orale: 50% del voto finale
- elaborato finale o presentazione di gruppo: 50% del voto finale
Lezioni frontali tradizionali
Inglese
orale
Programma definitivo.
Data ultima modifica programma: 06/03/2024