Introduzione al testo
La ragione per cui ho pensato di scrivere questo materiale (sarebbe più appropriato chiamarlo “raccolta”) è voler fornire una panoramica delle principali tecniche di data mining applicate al data science usando il software statistico R.
Il mio desiderio è avvicinare le persone ai temi esposti attraverso la trattazione di casi ed esempi concreti.
Ho scelto di usare l’italiano poiché la gran parte del materiale attualmente disponibile è in inglese, e questo potrebbe scoraggiare chi desidera esempi più facilmente fruibili.
Per gli esempi ho cercato di ispirarmi a materiale su internet, pubblicazioni o esperienza personale.
All’interno delle pagine destinate a ciascun metodo, ho cercato di inserire anche una breve digressione sulla teoria, cercando però di non soffermarmi troppo sui dettagli teorici, quanto di far comprendere il “senso” della metodica.
Per la comprensione degli esempi ritengo sia importante conoscere concetti statistici di base quale campione, popolazione, significatività, caso, variabile (dipendente e indipendente), stimatore, stima, ….
Dovrebbero essere note anche le funzionalità di base di R: caricamento file, data management, utilizzo di data frame, liste, vettori, matrici, ecc.; nel primo capitolo del manuale tuttavia mostro alcune tecniche descrittive “di base” come ripasso generale.
Per approfonire i concetti teorici (per chi lo desidera) penso sia da conoscere l’algebra matriciale, i concetti di calcolo differenziale e di probabilità. Se si escludono tuttavia le parti teoriche, penso che le informazioni possano risultare comprensibili anche a chi non ha familiarità con questi argomenti.
R è un ambiente di sviluppo e analisi in continua e rapida evoluzione. Questo in qualche modo scoraggiava il mio desiderio di fornire informazioni ed indicazioni aggiornate sulle tecniche statistiche e sulle metodiche di scrittura del codice, perché ogni pagina che scrivevo diventava già vecchia nel giro di poche settimane. Alla fine mi sono deciso a pubblicare il materiale che trovate qui.
Quasi certamente nel futuro dovrò estendere, correggere o approfondire gli argomenti presentati. Ovviamente qualunque segnalazione o suggerimento sarà gradito e pubblicizzato. Ringrazio fin d’ora chi vorrà darmi una mano in questo lavoro.
Il manuale è suddiviso in cinque macro sezioni:
- Tecniche esplorative elementari: semplici tecniche descrittive per l’analisi delle variabili;
- Riduzione della dimensionalità: l’obiettivo è mostrare alcuni metodi per ridurre il numero di variabili contenute nei dati cercando contemporaneamente di mantenere la stessa quantità di informazione;
- Clustering (o analisi di raggruppamento): quando l’obiettivo dell’analisi è la suddivisione delle osservazioni in gruppi, creati sulla base dei valori delle variabili a disposizione;
- Classificazione: quando l’obiettivo dell’analisi è l’assegnazione corretta di una nuova osservazione ad un livello di una variabile di risposta categoriale, attraverso un modello statistico appropriato, stimato a partire da dati precedentemente osservati;
- Regressione: quando l’obiettivo dell’analisi è prevedere il valore numerico di una variabile di risposta quantitativa, attraverso un modello statistico appropriato, stimato a partire da dati precedentemente osservati.
Durante il corso saranno usati diversi package R, oltre a R base
: boot
, ca
, caret
, clusterSim
, dplyr
, e1071
, ellipse
, fBasics
, GGally
, ggplot2
, glmnet
, hdm
, Hmisc
, HSAUR2
, ISLR
, kohonen
, lattice
, leaps
, MASS
, mclust
, MCMCpack
, mice
, MSQC
, mvnormtest
, mvtnorm
, party
, pls
, pROC
, psych
, reshape2
, rgl
, rpart
, rpart.plot
, smacof
, tree
, …
Suggerisco di installarli nel vostro sistema prima di iniziare la lettura dei capitoli del manuale.
Un ulteriore package usato è pdataita
, scaricabile da qui.
Il package contiene parte dei data frame di esempio usati per le analisi. Per installarlo potete usare il classico
ovviamente modificando il percorso e il nome del file secondo le vostre impostazioni; alternativamente potete usare il pulsantino Install
della scheda Packages
di RStudio (per chi usasse questa GUI, oramai quasi “standard di fatto”).
Nell’help di pdataita
si trovano le informazioni sui file dati in esso contenuti.
Per usare uno dei file di pdataita
dovrete, una volta caricata la libreria tramite:
caricare il rispettivo dataset tramite:
dove nome_del_dataset
sarà il nome del dataset usato.
Un’ultima nota (poco importante) al primo rilascio: mi è stato chiesto perché ho chiamato il testo “Statistica per il Data Science” e non “Statistica per la Data Science”; semplicemente ho scelto una versione “neutra” del termine “data science”, invece che usare il femminile italiano di “scienza”. Qualcuno potrebbe storcere il naso, ma credo che “data science” sia più un oggetto astratto che un concetto da declinare al femminile. Se comunque vorrete discuterne, io sono comunque disponibile!