Introduzione alla Data Science, la professione del Data Scientist e l’importanza dei dati: “Data is the new oil” (Clive Humby, 2006).
I Big Data: lo sviluppo dei Big Data, che cosa sono e come gestirli. Approccio critico ai Big data.
Le tecniche di analisi in Data Science: la definizione di un obiettivo, la metodologia CRISP-DM, il data Mining.
Introduzione al linguaggio R, l’interfaccia di Rstudio, come lavorare con R, tipi di dati.
Accenni al calcolo delle probabilità: il concetto di probabilità, le distribuzioni dei dati: distribuzione Normale, distribuzione del Chi-quadrato, F di Fisher e t di Student, distribuzione Binomiale.
Tipi di database: cos'è un database, database relazionali, esempi di formato dati, i formati wide e long.
Le frequenze e le tabelle a doppia entrata e uso di R: distribuzione di frequenza semplice e tabelle a doppia entrata. Creazione di una tabella di frequenza semplice e di una tabella a doppia entrata in R,
Panoramica sulle statistiche descrittive: misure di tendenza centrale e dispersione e uso di R.
Correlazione e matrice di correlazione: coefficiente di correlazione lineare di Pearson e coefficiente di correlazione tra ranghi di Spearman. Esecuzione in R.
Rappresentazioni grafiche in R attraverso il pacchetto ggplot2. Personalizzazione della parte estetica e dei livelli del grafico.
Tecniche predittive di analisi: regressione lineare e regressione logistica.
Introduzione all'analisi in componenti principali e tecniche di clusterizzazione in R.
Data Science in campo clinico.
Data Mining: esempio pratico di text mining ed esercitazione in R.
R markdown: descrizione ed esempi pratici.