COMPUTATIONAL LINGUISTICS MOD. 1

Anno accademico
2019/2020 Programmi anni precedenti
Titolo corso in inglese
COMPUTATIONAL LINGUISTICS MOD. 1
Codice insegnamento
LMJ070 (AF:314081 AR:167827)
Modalità
In presenza
Crediti formativi universitari
6 su 12 di COMPUTATIONAL LINGUISTICS
Livello laurea
Laurea magistrale (DM270)
Settore scientifico disciplinare
L-LIN/01
Periodo
II Semestre
Anno corso
2
Spazio Moodle
Link allo spazio del corso
L'insegnamento si inquadra nelle attività caratterizzanti del percorso Language Sciences e nelle attività affini e integrative del percorso English Linguistics e ha lo scopo di fornire allo/a studente/essa gli strumenti teorici fondamentali per l'analisi computazionale e per il trattamento automatico della lingua.

Obiettivi dell’insegnamento sono:

- fornire gli strumenti metodologici di base per l'analisi quantitativa e l'annotazione di dati linguistici testuali
- introdurre lo/la studente/essa alla letteratura scientifica specifica
- rafforzare la capacità di riflessione sul linguaggio
- sviluppare la capacità di combinare intuizioni ed approcci appartenenti a letterature scientifiche relativamente indipendenti come quella teorica, quella computazionale e quella psicolinguistica
- esercitare le capacità di critica della letteratura, di formulazione di ipotesi alternative e di scrittura scientifica
1. Conoscenza e comprensione
- familiarità con i principali approcci per il trattamento automatico del linguaggio
- conoscenza della terminologia di base e comprensione dei testi che ne fanno uso
- conoscenza dei fondamenti matematici e logici che sottostanno ai principali approcci per il trattamento automatico del linguaggio
- conoscenza dei più importanti livelli di annotazione linguistica del testo
- familiarità con le più comuni tecniche di annotazione automatica e manuale del testo
- familiarità con i principali approcci alla rappresentazione computazionale ed estrazione automatica del significato delle parole

2. Capacità di applicare conoscenza e comprensione
- conoscenza dei limiti e delle caratteristiche dei principali approcci per il trattamento automatico del linguaggio, in modo tale da poterli sfruttare per la propria ricerca linguistica
- capacità di avanzare, in maniera fondata e critica, proposte originali

3. Capacità di giudizio
- capacità di reperire autonomamente ed esaurientemente le fonti per ricerche concordate con il docente
- consapevolezza nella scelta di un quadro teorico di riferimento e indipendenza intellettuale rispetto al quadro teorico stesso
- sensibilità alle problematiche tecniche e deontologiche connesse all'analisi quantitativa ed automatica del linguaggio
- capacità di valutare ipotesi in competizione e operare sintesi tra ipotesi alternative

4. Abilità comunicative
- capacità di stesura di un testo scritto di carattere argomentativo su un tema di ricerca originale
- capacità di divulgazione delle principali teorie linguistiche ad un pubblico con un background scientifico variegato (linguisti teorici, computazionali e psicolinguisti)

5. Capacità di apprendimento
- capacità di acquisire dimestichezza con nuovi strumenti tecnologici per il trattamento automatico del linguaggio (p.e. sistemi di annotazione, tool di interrogazione di corpora)
Nozioni di base di linguistica generale (morfologia e sintassi)

Nozioni base di matematica
1. Introduzione alla Linguistica Computazionale e al Natural Language Processing
2. Corpora: classificazione ed uso
3. Statistica descrittiva del testo / La legge di Zipf
4. Linguaggio e probabilità
5. L'annotazione linguistica del testo
6. Il processo di annotazione e la sua validazione
7. Classificazione
8. Espressioni Regolari
9. Teoria dei Linguaggi Formali
10. Logica dei Predicati del Primo Ordine
11. Lambda Calcolo
12. Lessici semantici computazionali
13. Semantica distribuzionale, parte I: collocazioni e misure di associazione
14. Semantica distribuzionale, parte II: similarità semantica ed applicazioni
15. considerazioni conclusive
- R. Artstein (2018) Inter-annotator Agreement. In N. Ide and J. Pustejovsky (eds.), Handbook of Linguistic Annotation, Springer: 297-313. Disponibile gratuitamente online all'indirizzo: http://artstein.org/publications/inter-annotator-preprint.pdf
- M. Baroni (2009) Distributions in text. In A. Lüdeling and M. Kytö (eds.), Corpus linguistics: An international handbook, Vol. 2, Mouton de Gruyter: 803-821. Post-print disponibile gratuitamente online all'indirizzo: http://sslmit.unibo.it/~baroni/publications/hsk_39_dist_rev2.pdf
- M. Davies (2015) Corpora: An introduction. In D. Biber and R. Reppen (eds.), The Cambridge Handbook of English Corpus Linguistics, Cambridge University Press: 11-31.
- S. Evert (2009) Corpora and collocations. In A. Lüdeling and M. Kytö (eds.), Corpus linguistics: An international handbook, Vol. 2, Mouton de Gruyter: 1212-1248 (sections 1-4). Versione estesa disponibile gratuitamente online all'indirizzo: http://www.stefan-evert.de/PUB/Evert2007HSK_extended_manuscript.pdf
- S.T. Gries and A. L. Berez (2017) Linguistic Annotation in/for Corpus Linguistics. In N. Ide and J. Pustejovsky (eds.), Handbook of Linguistic Annotation, Springer: 379-409. Disponibile gratuitamente online all'indirizzo: http://www.stgries.info/research/2017_STG-ALB_LingAnnotCorpLing_HbOfLingAnnot.pdf
- S.T. Gries and J. Newman (2010) Creating And Using Corpora. In R. J. Podesva and D. Sharma (eds.), Research Methods in Linguistic, Cambridge University Press: 257-287. Disponibile gratuitamente online all'indirizzo: http://www.stgries.info/research/2013_STG-JN_CreatingUsingCorpora_ResMethLing.pdf
- D. Jurafsky and J. H. Martin (2008) Speech and Language Processing, 2nd edition, Prentice Hall (ch. 1, 2, 4, 15, 17.2-17.4, 18.1-18.3, 19.1-19.4, 20.1-20.6)
- D. Jurafsky and J. H. Martin (2020) Speech and Language Processing, 3rd edition draft, Prentice Hall (ch. 4). Disponibile gratuitamente online all'indirizzo: https://web.stanford.edu/~jurafsky/slp3/
- A. Lenci (2018) Distributional Models of Word Meaning, Annual Review of Linguistics, 4: 151-171. Disponibile gratuitamente online all'indirizzo: http://colinglab.humnet.unipi.it/wp-content/uploads/2012/12/annurev-linguistics-030514-125254.pdf
- C. Manning and H. Schütze (1999) Foundations of Statistical Natural Language Processing, MIT Press (ch. 1.1-1.3)
- Poesio et al (2018): M.Poesio, J. Chamberlain and U. Kruschwitz (2018) Crowdsourcing. In N. Ide and J. Pustejovsky (eds.), Handbook of Linguistic Annotation, Springer: 277-296
La verifica dell'apprendimento avviene attraverso un esame orale ed una progetto finale.

DESCRIZIONE DELL'ESAME ORALE

L'esame orale consiste in domande volte a verificare la conoscenza dei temi affrontati a lezione ed esercizi volti a testare la padronanza dei fondamentali costrutti metodologici descritti in classe (p.e. calcolo dell'associazione tra due parole, verificare se una formula è ben formata).

DESCRIZIONE DEL PROGETTO

Il progetto finale consiste in un elaborato scritto (minimo 3000 parole) su un tema di linguistica computazionale o di Natural Language Processing scelto dallo/la studente/essa e concordato con il docente. Lo/la studente/essa è incoraggiato/a a proporre al docente una domanda scientifica o un dominio applicativo verso cui lui o lei prova un genuino interesse o curiosità. Riferimenti bibliografici la cui consultazione è consigliata per individuare possibili domini o applicazioni includono:

- R. Mitkov (2019, ed.) The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press
- A. Clark, C. Fox and S. Lappin (2010, eds.) The Handbook of Computational Linguistics and Natural Language Processing, Wiley Blackwell

L'elaborato verrà valutato come segue:

- conoscenza del problema e uso critico della letteratura: 40% del voto finale
- profondità d'analisi: 20% del voto finale
- originalità della proposta: 20% del voto finale
- qualità linguistica dell'elaborato: 20% del voto finale

CALCOLO DEL VOTO FINALE

Il calcolo del voto finale è distinto per studenti frequentanti e studenti non frequentanti.

Per gli studenti che sono stati presenti almeno al 70% delle lezioni, il voto finale sarà così calcolato:

- esame orale: 40% del voto finale
- progetto finale: 50% del voto finale
- partecipazione all'attività didattica: ad ogni studente/essa è chiesto di preparare ogni lezione leggendo anticipatamente la parte di letteratura d'esame pertinente ed invidiando via mail al docente due domande prima dell'inizio della lezione. Questa pratica, da un lato, faciliterà l'acquisizione dei costrutti formali e la riflessione sui temi presentati in classe e, dall'altro, permetterà al docente di decidere quali temi meritano una maggiore attenzione e/o sono di più difficile comprensione per la classe che ha davanti. Studenti che non invieranno le domande verranno penalizzati nella misura del 1% per ogni lezione (penalizzazione massima: 10%).

Per gli studenti non frequentanti, il voto finale sarà così calcolato:

- esame orale: 50% del voto finale
- progetto finale: 50% del voto finale
Lezioni frontali tradizionali
Inglese
orale
Programma definitivo.
Data ultima modifica programma: 23/04/2020