Mancini, Lorenzo
(2018)
Ordinal data supervised classification with Quantile-based and other classifiers, [Dissertation thesis], Alma Mater Studiorum Università di Bologna.
Dottorato di ricerca in
Scienze statistiche, 30 Ciclo. DOI 10.6092/unibo/amsdottorato/8543.
Documenti full-text disponibili:
Anteprima |
|
Documento PDF (English)
- Richiede un lettore di PDF come Xpdf o Adobe Acrobat Reader
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato.
Download (4MB)
| Anteprima
|
Abstract
Il lavoro di ricerca ha l'obiettivo di individuare una metodologia statistica per
la classificazione supervisionata di unità statistiche misurate da un insieme
di variabili ordinali. Questo tipo di dati è diffuso
in diverse aree di ricerca e, in particolare, è molto comune nei sondaggi,
dove le categorie di risposta sono elencate tramite scale Likert. Tipicamente,
le categorie associate a queste variabili sono codificate attraverso apposite
etichette le quali corrispondono solitamente a valori numerici progressivi
ed equi-distanziati che riflettono l'ordine delle categorie. In fase di analisi
non è però appropriato trattare questi dati come valori numerici reali, in
quanto si andrebbe ad introdurre una distanza tra categorie
che potrebbe non corrispondere a quella effettiva.
Il progetto di ricerca si articola in diverse fasi. Inizialmente, viene effettuata
un'analisi esaustiva dello stato dell'arte della letteratura, per identificare i
vari approcci all'analisi dei dati ordinali, valutandone i limiti e i vantaggi.
Successivamente, sulla base dei risultati di questa analisi, viene proposto un
metodo basato sull'approccio response function, nel contesto dei modelli generalizzati
a variabili latenti. A differenza del metodo classico, che prevede
variabili latenti normalmente distribuite, la nuova metodologia proposta considera
una singola variabile latente con distribuzione Beta, poiché fornisce
specifici vantaggi in termini di efficienza computazionale e di adattamento
ai dati. L'obiettivo è, sostanzialmente, di spostare il problema della classificazione da un insieme di variabili ordinali ad una singola variabile continua,
in modo da applicare i metodi di classificazione standard.
Sulla base di questo quadro teorico di riferimento è stato sviluppato un algoritmo
EM, utilizzando il software statistico R.
L'approccio proposto è confrontato, attraverso un ampio studio di simulazione,
con diversi metodi di scoring, in particolare: raw scores, ridits, blom
scores, normal median scores e conditional mean scores.
Si presenta, inoltre, un'applicazione del metodo discusso ad un problema
di classificazione su dati reali.
Abstract
Il lavoro di ricerca ha l'obiettivo di individuare una metodologia statistica per
la classificazione supervisionata di unità statistiche misurate da un insieme
di variabili ordinali. Questo tipo di dati è diffuso
in diverse aree di ricerca e, in particolare, è molto comune nei sondaggi,
dove le categorie di risposta sono elencate tramite scale Likert. Tipicamente,
le categorie associate a queste variabili sono codificate attraverso apposite
etichette le quali corrispondono solitamente a valori numerici progressivi
ed equi-distanziati che riflettono l'ordine delle categorie. In fase di analisi
non è però appropriato trattare questi dati come valori numerici reali, in
quanto si andrebbe ad introdurre una distanza tra categorie
che potrebbe non corrispondere a quella effettiva.
Il progetto di ricerca si articola in diverse fasi. Inizialmente, viene effettuata
un'analisi esaustiva dello stato dell'arte della letteratura, per identificare i
vari approcci all'analisi dei dati ordinali, valutandone i limiti e i vantaggi.
Successivamente, sulla base dei risultati di questa analisi, viene proposto un
metodo basato sull'approccio response function, nel contesto dei modelli generalizzati
a variabili latenti. A differenza del metodo classico, che prevede
variabili latenti normalmente distribuite, la nuova metodologia proposta considera
una singola variabile latente con distribuzione Beta, poiché fornisce
specifici vantaggi in termini di efficienza computazionale e di adattamento
ai dati. L'obiettivo è, sostanzialmente, di spostare il problema della classificazione da un insieme di variabili ordinali ad una singola variabile continua,
in modo da applicare i metodi di classificazione standard.
Sulla base di questo quadro teorico di riferimento è stato sviluppato un algoritmo
EM, utilizzando il software statistico R.
L'approccio proposto è confrontato, attraverso un ampio studio di simulazione,
con diversi metodi di scoring, in particolare: raw scores, ridits, blom
scores, normal median scores e conditional mean scores.
Si presenta, inoltre, un'applicazione del metodo discusso ad un problema
di classificazione su dati reali.
Tipologia del documento
Tesi di dottorato
Autore
Mancini, Lorenzo
Supervisore
Co-supervisore
Dottorato di ricerca
Ciclo
30
Coordinatore
Settore disciplinare
Settore concorsuale
Parole chiave
Ordinal variables, supervised classification, scoring methods
URN:NBN
DOI
10.6092/unibo/amsdottorato/8543
Data di discussione
8 Maggio 2018
URI
Altri metadati
Tipologia del documento
Tesi di dottorato
Autore
Mancini, Lorenzo
Supervisore
Co-supervisore
Dottorato di ricerca
Ciclo
30
Coordinatore
Settore disciplinare
Settore concorsuale
Parole chiave
Ordinal variables, supervised classification, scoring methods
URN:NBN
DOI
10.6092/unibo/amsdottorato/8543
Data di discussione
8 Maggio 2018
URI
Statistica sui download
Gestione del documento: