COMPUTATIONAL LINGUISTICS

Anno accademico: 2024/2025 Programmi anni precedenti

Titolo corso in inglese: COMPUTATIONAL LINGUISTICS

Codice insegnamento: LM5860 (AF:518207 AR:290169)

Lingua di insegnamento: Inglese

Modalità: In presenza

Crediti formativi universitari: 6

Livello laurea: Laurea magistrale (DM270)

Settore scientifico disciplinare: L-LIN/01

Periodo: II Semestre

Anno corso: 1

Spazio Moodle: Link allo spazio del corso

Inquadramento dell'insegnamento nel percorso del corso di studio

L'insegnamento si inquadra nelle attività caratterizzanti dei percorsi Language Sciences e Linguaggio e Cognizione della Laurea Magistrale in Scienze del Linguaggio, nelle attività caratterizzanti dei percorsi English and American Literary and Cultural Studies della Laurea Magistrale in Lingue e letterature europee, americane e postcoloniali, oltre che nelle attività affini e integrative del percorso English Linguistics della Laurea Magistrale in Scienze del Linguaggio. Il suo scopo è quello di fornire allo/a studente/essa gli strumenti teorici fondamentali per l'analisi computazionale e per il trattamento automatico della lingua.

Obiettivi dell’insegnamento sono:

- fornire gli strumenti metodologici di base per l'analisi quantitativa e l'annotazione di dati linguistici testuali
- introdurre lo/la studente/essa alla letteratura scientifica specifica
- rafforzare la capacità di riflessione sul linguaggio
- sviluppare la capacità di combinare intuizioni ed approcci appartenenti a letterature scientifiche relativamente indipendenti come quella teorica, quella computazionale e quella psicolinguistica
- esercitare le capacità di critica della letteratura, di formulazione di ipotesi alternative e di scrittura scientifica

Risultati di apprendimento attesi

1. Conoscenza e comprensione
- familiarità con i principali approcci per il trattamento automatico del linguaggio
- conoscenza della terminologia di base e comprensione dei testi che ne fanno uso
- conoscenza dei fondamenti matematici e logici che sottostanno ai principali approcci per il trattamento automatico del linguaggio
- conoscenza dei più importanti livelli di annotazione linguistica del testo
- familiarità con le più comuni tecniche di annotazione automatica e manuale del testo
- familiarità con i principali approcci alla rappresentazione computazionale ed estrazione automatica del significato delle parole

2. Capacità di applicare conoscenza e comprensione
- conoscenza dei limiti e delle caratteristiche dei principali approcci per il trattamento automatico del linguaggio, in modo tale da poterli sfruttare per la propria ricerca linguistica
- capacità di avanzare, in maniera fondata e critica, proposte originali

3. Capacità di giudizio
- capacità di reperire autonomamente ed esaurientemente le fonti per ricerche concordate con il docente
- consapevolezza nella scelta di un quadro teorico di riferimento e indipendenza intellettuale rispetto al quadro teorico stesso
- sensibilità alle problematiche tecniche e deontologiche connesse all'analisi quantitativa ed automatica del linguaggio
- capacità di valutare ipotesi in competizione e operare sintesi tra ipotesi alternative

4. Abilità comunicative
- capacità di stesura di un testo scritto di carattere argomentativo su un tema di ricerca originale
- capacità di divulgazione delle principali teorie linguistiche ad un pubblico con un background scientifico variegato (linguisti teorici, computazionali e psicolinguisti)

5. Capacità di apprendimento
- capacità di acquisire dimestichezza con nuovi strumenti tecnologici per il trattamento automatico del linguaggio (p.e. sistemi di annotazione, tool di interrogazione di corpora)

Prerequisiti

Nozioni di base di linguistica generale (morfologia e sintassi)

Nozioni base di matematica

Contenuti

1. Introduzione alla Linguistica Computazionale e al Natural Language Processing
2. Corpora: classificazione ed uso
3. Statistica descrittiva del testo / La legge di Zipf
4. Linguaggio e probabilità
5. Linguaggio e probabilità II
6. L'annotazione linguistica del testo
7. Il processo di annotazione e la sua validazione
8. Classificazione
9. Lessici semantici computazionali
10. Semantica distribuzionale, parte I: collocazioni e misure di associazione
11. Semantica distribuzionale, parte II: similarità semantica ed applicazioni

Testi di riferimento

- R. Artstein (2018) Inter-annotator Agreement. In N. Ide and J. Pustejovsky (eds.), Handbook of Linguistic Annotation, Springer: 297-313. Disponibile gratuitamente online all'indirizzo: http://artstein.org/publications/inter-annotator-preprint.pdf
- M. Baroni (2009) Distributions in text. In A. Lüdeling and M. Kytö (eds.), Corpus linguistics: An international handbook, Vol. 2, Mouton de Gruyter: 803-821. Post-print disponibile gratuitamente online all'indirizzo: http://sslmit.unibo.it/~baroni/publications/hsk_39_dist_rev2.pdf
- M. Davies (2015) Corpora: An introduction. In D. Biber and R. Reppen (eds.), The Cambridge Handbook of English Corpus Linguistics, Cambridge University Press: 11-31.
- S. Evert (2009) Corpora and collocations. In A. Lüdeling and M. Kytö (eds.), Corpus linguistics: An international handbook, Vol. 2, Mouton de Gruyter: 1212-1248 (sections 1-4). Versione estesa disponibile gratuitamente online all'indirizzo: http://www.stefan-evert.de/PUB/Evert2007HSK_extended_manuscript.pdf
- S.T. Gries and A. L. Berez (2017) Linguistic Annotation in/for Corpus Linguistics. In N. Ide and J. Pustejovsky (eds.), Handbook of Linguistic Annotation, Springer: 379-409. Disponibile gratuitamente online all'indirizzo: http://www.stgries.info/research/2017_STG-ALB_LingAnnotCorpLing_HbOfLingAnnot.pdf
- S.T. Gries and J. Newman (2010) Creating And Using Corpora. In R. J. Podesva and D. Sharma (eds.), Research Methods in Linguistic, Cambridge University Press: 257-287. Disponibile gratuitamente online all'indirizzo: http://www.stgries.info/research/2013_STG-JN_CreatingUsingCorpora_ResMethLing.pdf
- D. Jurafsky and J. H. Martin (2008) Speech and Language Processing, 2nd edition, Prentice Hall (ch. 1, 2, 4, 19.1-19.4, 20.1, 20.6)
- D. Jurafsky and J. H. Martin (2020) Speech and Language Processing, 3rd edition draft, Prentice Hall (ch. 4). Disponibile gratuitamente online all'indirizzo: https://web.stanford.edu/~jurafsky/slp3/
- A. Lenci (2018) Distributional Models of Word Meaning, Annual Review of Linguistics, 4: 151-171. Disponibile gratuitamente online all'indirizzo: http://colinglab.humnet.unipi.it/wp-content/uploads/2012/12/annurev-linguistics-030514-125254.pdf
- C. Manning and H. Schütze (1999) Foundations of Statistical Natural Language Processing, MIT Press (ch. 1.1-1.3)
- Poesio et al (2018): M.Poesio, J. Chamberlain and U. Kruschwitz (2018) Crowdsourcing. In N. Ide and J. Pustejovsky (eds.), Handbook of Linguistic Annotation, Springer: 277-296

Modalità di verifica dell'apprendimento

La verifica dell'apprendimento avviene attraverso un esame orale ed una prova finale che può consistere in un elaborato o in una presentazione su un argomento scelto dallo studente.

DESCRIZIONE DELL'ESAME ORALE

L'esame orale consiste in domande volte a verificare la conoscenza dei temi affrontati a lezione ed esercizi volti a testare la padronanza dei fondamentali costrutti metodologici descritti in classe (p.e. calcolo dell'associazione tra due parole, verificare se una formula è ben formata).

PRESENTAZIONE DI GRUPPO

Agli studenti che vorranno optare per questa soluzione verrà chiesto di organizzarsi in gruppi di 3/4 persone che dovranno preparare una breve presentazione di 20 minuti su un tema di linguistica computazionale o di Natural Language Processing scelto dallo/la studente/essa e concordato con il docente. Lo/la studente/essa è incoraggiato/a a proporre al docente una domanda scientifica o un dominio applicativo verso cui lui o lei prova un genuino interesse o curiosità.

Ogni presentazione verrà valutata come segue:

- lavoro di gruppo: 20% del voto finale
- capacità oratoria: 20% del voto finale
- supporti visivi: 30% del voto finale
- contenuto: 40% del voto finale

ELABORATO FINALE

Il progetto finale consiste in un elaborato scritto (minimo 3000 parole) su un tema di linguistica computazionale o di Natural Language Processing scelto dallo/la studente/essa e concordato con il docente. Lo/la studente/essa è incoraggiato/a a proporre al docente una domanda scientifica o un dominio applicativo verso cui lui o lei prova un genuino interesse o curiosità. Riferimenti bibliografici la cui consultazione è consigliata per individuare possibili domini o applicazioni includono:

- R. Mitkov (2023, ed.) The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press
- A. Clark, C. Fox and S. Lappin (2010, eds.) The Handbook of Computational Linguistics and Natural Language Processing, Wiley Blackwell

L'elaborato verrà valutato come segue:

- conoscenza del problema e uso critico della letteratura: 50% del voto finale
- profondità d'analisi: 20% del voto finale
- qualità linguistica dell'elaborato: 30% del voto finale

CALCOLO DEL VOTO FINALE

Il voto finale sarà così calcolato:

- esame orale: 50% del voto finale
- elaborato finale o presentazione di gruppo: 50% del voto finale

Modalità di esame

orale

Metodi didattici

Lezioni frontali tradizionali

Programma definitivo.

Data ultima modifica programma: 06/03/2024

Tipologia	Nome	Fornitore (Dominio)	Descrizione	Durata	Informativa
Necessario	_pk_id[*]	unive/WAI	*	30 giorni	Informativa
Necessario	_pk_ses[*]	unive/WAI	*	1 giorno	Informativa
Necessario	_pk_ref[*]	unive/WAI	*	6 mesi	Informativa
Necessario	_gsas	unive/google	Memorizza le preferenze dell'utente	3 mesi	Informativa
Necessario	_opensaml_req_cookie%	unive	Gestione autenticazione e SingleSignOn (shibboleth)	sessione	Informativa
Necessario	_shibsession[], _shibsstate[]	Unive.it (www.unive.it)	Mantiene i dati di sessione del SingleSignOn	Sessione	Informativa
Necessario	PHPSESSID	Unive.it (www.unive.it)	Identificatore univoco dell'utente per gli applicativi del sito	Sessione	Informativa
Necessario	cookie[*]	Unive.it (www.unive.it)	Memorizza le preferenze dell'utente sui cookie	1 mese	Informativa
Necessario	cookie	idp.unive.it	Memorizza le preferenze dell'utente sui cookie	1 mese	Informativa
Necessario	fe_typo_user	Unive.it (www.unive.it)	Identificatore univoco dell'utente per l'area riservata del sito	sessione	Informativa
Necessario	JSESSIONID	Unive.it (www.unive.it)	Utilizzato per creare le sessioni in area riservata	sessione	Informativa
Necessario	ADMCMD_prev	Unive.it (www.unive.it)	Utilizzato per la gestione degli accessi al cms typo3	sessione	Informativa
Necessario	unive.it	Unive.it (www.unive.it)	servono a registrare le preferenze sui cookies	6 mesi	Informativa
Necessario	noiframe	Unive.it (www.unive.it)	servono a registrare le preferenze sui cookies	6 mesi	Informativa
Google - Youtube	__Secure-1PAPISID	Google (google.com)	Utilizzato per finalità di targeting per costruire un profilo degli interessi dei visitatori del sito web al fine di mostrare pubblicità Google pertinente e personalizzata.	1 mese	Informativa
Google - Youtube	CONSENT	Google (google.com)	Utilizzato da google per memorizzare le preferenze dell'utente	17 anni	Informativa
Facebook - Pixel	Socialpix	Unive.it (www.unive.it)	Servono a registrare le preferenze sui cookiesc	6 mesi	Informativa Università Ca' Foscari
Facebook - Pixel	_fbp	Unive.it (www.unive.it)	Traccia gli utenti per il retargeting pubblicitario su Facebook	3 mesi	Informativa facebook