Ordinal data supervised classification with Quantile-based and other classifiers

Mancini, Lorenzo (2018) Ordinal data supervised classification with Quantile-based and other classifiers, [Dissertation thesis], Alma Mater Studiorum Università di Bologna. Dottorato di ricerca in Scienze statistiche, 30 Ciclo. DOI 10.6092/unibo/amsdottorato/8543.

Salva citazione

Citato da

Documenti full-text disponibili:

Anteprima

Documento PDF (English) - Richiede un lettore di PDF come Xpdf o Adobe Acrobat Reader
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato.
Download (4MB) | Anteprima

Abstract

Il lavoro di ricerca ha l'obiettivo di individuare una metodologia statistica per la classificazione supervisionata di unità statistiche misurate da un insieme di variabili ordinali. Questo tipo di dati è diffuso in diverse aree di ricerca e, in particolare, è molto comune nei sondaggi, dove le categorie di risposta sono elencate tramite scale Likert. Tipicamente, le categorie associate a queste variabili sono codificate attraverso apposite etichette le quali corrispondono solitamente a valori numerici progressivi ed equi-distanziati che riflettono l'ordine delle categorie. In fase di analisi non è però appropriato trattare questi dati come valori numerici reali, in quanto si andrebbe ad introdurre una distanza tra categorie che potrebbe non corrispondere a quella effettiva. Il progetto di ricerca si articola in diverse fasi. Inizialmente, viene effettuata un'analisi esaustiva dello stato dell'arte della letteratura, per identificare i vari approcci all'analisi dei dati ordinali, valutandone i limiti e i vantaggi. Successivamente, sulla base dei risultati di questa analisi, viene proposto un metodo basato sull'approccio response function, nel contesto dei modelli generalizzati a variabili latenti. A differenza del metodo classico, che prevede variabili latenti normalmente distribuite, la nuova metodologia proposta considera una singola variabile latente con distribuzione Beta, poiché fornisce specifici vantaggi in termini di efficienza computazionale e di adattamento ai dati. L'obiettivo è, sostanzialmente, di spostare il problema della classificazione da un insieme di variabili ordinali ad una singola variabile continua, in modo da applicare i metodi di classificazione standard. Sulla base di questo quadro teorico di riferimento è stato sviluppato un algoritmo EM, utilizzando il software statistico R. L'approccio proposto è confrontato, attraverso un ampio studio di simulazione, con diversi metodi di scoring, in particolare: raw scores, ridits, blom scores, normal median scores e conditional mean scores. Si presenta, inoltre, un'applicazione del metodo discusso ad un problema di classificazione su dati reali.

Abstract

Tipologia del documento

Tesi di dottorato

Autore

Mancini, Lorenzo

Supervisore

Viroli, Cinzia

Co-supervisore

Hennig, Christian

Dottorato di ricerca

Scienze statistiche

Ciclo