Introduzione
Lavorare con dati multidimensionali, in particolare nell’era dei big data, può indurre in confusione il ricercatore che deve analizzare e sfruttare la grande quantità di informazione fornita da centinaia di variabili. Sarebbe bello poter usare nuove variabili (“sintetiche”) che, con una frazione del numero di variabili originarie, forniscano una quantità di informazione di poco inferiore a quella contenuta nelle variabili originarie stesse.
In questa parte del manuale presenteremo tre (gruppi di) metodi statistici per ridurre il numero di variabili contenute nei dati mantenendo quasi la stessa informazione, in particolare presenteremo:
- Multidimensional Scaling (MDS): utile per creare una mappatura delle osservazioni su un numero ridotto di dimensioni (due o tre, nel caso migliore) a partire da un gran numero di variabili;
- Analisi delle Componnenti Principali (PCA) e Analisi Fattoriale Esplorativa (EFA): utili per ridurre un insieme di variabili numeriche;
- una breve introduzione all’ Analisi delle Corrispondenze (CA): utile per ridurre un insieme di variabili categoriali.
Tutti questi metodi possono essere anche usati per trarre informazioni esplorative/descrittive sui dati stessi.