Introduzione

Il processo di previsione di una risposta qualitativa \(Y\) a partire da un insieme di predittori \(\underline{X}\) è noto anche come classificazione. Prevedere una risposta qualitativa a partire da una osservazione può essere anche indicato come “classificare” quella osservazione, poiché comprende l’assegnazione dell’osservazione ad una categoria, o classe. Spessp i metodi di classificazione dapprima stimano la probabilità di ciascuna delle categorie di una variabile qualitativa, come base per produrre la classificazione.

Supponiamo di dover prevedere una variabile con risposta binaria, cioè che può assumere uno solo di due possibili livelli (per es., Presenza/Assenza, VERO/FALSO, …). Usualmente questi livelli sono codificati come 0 e 1. Noi potremmo pensare di adattare un modello di regressione lineare con \(X\) (i predittori) su questa variabile di risposta e prevedere 1 se la risposta prevista è > 0.5, e a 0 altrimenti. Le previsioni ottenute usando la regressione lineare sono, strettamente parlando delle stime della probabilità che Y = 1, dati i valori dei predittori. Tuttavia, se usiamo la regressione lineare, alcune delle nostre stie potrebbero cadere al di fuori dell’intervallo \([0, 1]\), rendendole quindi difficilmente interpretabili come probabilità. Inoltre, la l’approccio di regressione lineare non può essere esteso facilmente a casi di variabili di risopsta qualitative con più di due livelli.
In tutti questi casi, la regressione lineare può produrre risultati inappropriati; è pertanto necessario considerare metodi più specifici, progettati per modellare risposte qualitative.

In questa parte del corso presenteremo quindi un insieme di metodologie sviluppate specificatamente per la classificazione:

  1. Richiami di Regressione Logistica
  2. Analisi Discriminante Lineare e Quadratica (LDA e QDA)
  3. K-Nearest Neighbors (KNN)
  4. Alberi di Classificazione (CTREE)
  5. Support Vector Machines (SVM)
  6. Random Forests (RF: Foreste casuali)
  7. Neural Networks (NN: Reti neurali)

Tutte queste tecniche ricadono nella classe delle metodologie dell’analisi dei dati che nella letteratura del machine learning sono note come tecniche di “apprendimento supervisionato”.