Occhipinti, Laura
(2025)
Lexical complexity analysis from a computational perspective: a case study on institutional italian language, [Dissertation thesis], Alma Mater Studiorum Università di Bologna.
Dottorato di ricerca in
Culture letterarie e filologiche, 36 Ciclo.
Documenti full-text disponibili:
Abstract
Questo studio esplora la complessità lessicale da una prospettiva computazionale, con l’obiettivo di sviluppare strumenti automatici per la sua analisi e gestione. A tal fine, sono stati selezionati diversi parametri linguistici che influenzano la percezione della complessità da parte dei parlanti. Tra questi, alcuni riguardano la morfologia; pertanto, è stato addestrato un segmentatore morfologico automatico per scomporre le parole e ricavare parametri morfologici quantitativi. Questi ultimi sono stati inclusi nel primo modello di identificazione delle parole complesse per la lingua italiana.
In assenza di dataset specifici, è stato creato un dizionario di parole semplici e complesse, e sono state esplorate diverse configurazioni di caratteristiche linguistiche per addestrare il miglior modello statistico di identificazione delle parole complesse. Questo classificatore, valutato su un corpus annotato manualmente, ha dimostrato una precisione comparabile a quella delle valutazioni umane.
Il sistema è stato poi applicato al corpus Cov-I-Cor, una raccolta di testi istituzionali relativi alla gestione dell’emergenza sanitaria, per individuare una serie di "pseudotecnicismi" utili alla semplificazione del linguaggio. È stata inoltre condotta un’analisi comparativa tra Cov-I-Cor e CORIS, un corpus di italiano scritto generico, per evidenziarne le differenze lessicali. I risultati mostrano che, sebbene CORIS presenti una maggiore diversità lessicale, i parametri legati alla densità informativa sono significativamente più elevati in Cov-I-Cor. Questo indica che i testi istituzionali tendono a contenere una maggiore proporzione di parole contenuto rispetto al linguaggio generico, risultando più informativi. Tale caratteristica è confermata anche dalla distribuzione delle categorie grammaticali, con un rapporto più elevato tra sostantivi e verbi, che sottolinea la natura descrittiva e informativa dei testi istituzionali. Inoltre, questi ultimi si riferiscono più frequentemente a elementi concreti e reali rispetto ai testi generici.
Abstract
Questo studio esplora la complessità lessicale da una prospettiva computazionale, con l’obiettivo di sviluppare strumenti automatici per la sua analisi e gestione. A tal fine, sono stati selezionati diversi parametri linguistici che influenzano la percezione della complessità da parte dei parlanti. Tra questi, alcuni riguardano la morfologia; pertanto, è stato addestrato un segmentatore morfologico automatico per scomporre le parole e ricavare parametri morfologici quantitativi. Questi ultimi sono stati inclusi nel primo modello di identificazione delle parole complesse per la lingua italiana.
In assenza di dataset specifici, è stato creato un dizionario di parole semplici e complesse, e sono state esplorate diverse configurazioni di caratteristiche linguistiche per addestrare il miglior modello statistico di identificazione delle parole complesse. Questo classificatore, valutato su un corpus annotato manualmente, ha dimostrato una precisione comparabile a quella delle valutazioni umane.
Il sistema è stato poi applicato al corpus Cov-I-Cor, una raccolta di testi istituzionali relativi alla gestione dell’emergenza sanitaria, per individuare una serie di "pseudotecnicismi" utili alla semplificazione del linguaggio. È stata inoltre condotta un’analisi comparativa tra Cov-I-Cor e CORIS, un corpus di italiano scritto generico, per evidenziarne le differenze lessicali. I risultati mostrano che, sebbene CORIS presenti una maggiore diversità lessicale, i parametri legati alla densità informativa sono significativamente più elevati in Cov-I-Cor. Questo indica che i testi istituzionali tendono a contenere una maggiore proporzione di parole contenuto rispetto al linguaggio generico, risultando più informativi. Tale caratteristica è confermata anche dalla distribuzione delle categorie grammaticali, con un rapporto più elevato tra sostantivi e verbi, che sottolinea la natura descrittiva e informativa dei testi istituzionali. Inoltre, questi ultimi si riferiscono più frequentemente a elementi concreti e reali rispetto ai testi generici.
Tipologia del documento
Tesi di dottorato
Autore
Occhipinti, Laura
Supervisore
Co-supervisore
Dottorato di ricerca
Ciclo
36
Coordinatore
Settore disciplinare
Settore concorsuale
Parole chiave
Lexical complexity - Complex Word Identification - Italian language - Computational analysis - Institutional language
Data di discussione
13 Gennaio 2025
URI
Altri metadati
Tipologia del documento
Tesi di dottorato
Autore
Occhipinti, Laura
Supervisore
Co-supervisore
Dottorato di ricerca
Ciclo
36
Coordinatore
Settore disciplinare
Settore concorsuale
Parole chiave
Lexical complexity - Complex Word Identification - Italian language - Computational analysis - Institutional language
Data di discussione
13 Gennaio 2025
URI
Gestione del documento: