Corso Vittorio Emanuele II, 39 - Roma 0669207671

Dottorato di Ricerca in Mente e Tecnologie nella Società Digitale (Anno Accademico 2022/2023)

Data Science


CFU: 8
Lingua contenuti:Italiano
Descrizione dell'insegnamento
Il corso introduce i concetti di Data Science, Data Scientist e Big Data, con particolare attenzione alla presenza dei dati nella nostra vita e alla loro produzione. Saranno presentate le diverse tipologie di database e le varie tecniche di analisi. Saranno ripresi i concetti base della statistica e sarà dato ampio spazio all’utilizzo di R, uno dei più diffusi software statistici open source, e il suo ambiente di sviluppo integrato (IDE) Rstudio. Saranno proposti esempi pratici di Machine Learning, Sentiment Analysis, data mining e Network Analysis. Saranno evidenziati limiti e vantaggi dei big data. Durante tutto il corso particolare attenzione sarà posta verso le applicazioni in ambito clinico.
Scopi
Il corso ha l’obiettivo di fornire agli studenti e alle studentesse gli strumenti per individuare le potenzialità di un database, saper scegliere la tecnica più corretta per il tipo di dati e per le caratteristiche del progetto, saper interpretare correttamente i risultati delle ricerche altrui.
Contenuti

Introduzione alla Data Science, la professione del Data Scientist e l’importanza dei dati: “Data is the new oil” (Clive Humby, 2006).

I Big Data: lo sviluppo dei Big Data, che cosa sono e come gestirli. Approccio critico ai Big data.

Le tecniche di analisi in Data Science: la definizione di un obiettivo, la metodologia CRISP-DM, il data Mining.

Introduzione al linguaggio R, l’interfaccia di Rstudio, come lavorare con R, tipi di dati.

Accenni al calcolo delle probabilità: il concetto di probabilità, le distribuzioni dei dati: distribuzione Normale, distribuzione del Chi-quadrato, F di Fisher e t di Student, distribuzione Binomiale.

Tipi di database: cos'è un database, database relazionali, esempi di formato dati, i formati wide e long.

Le frequenze e le tabelle a doppia entrata e uso di R: distribuzione di frequenza semplice e tabelle a doppia entrata. Creazione di una tabella di frequenza semplice e di una tabella a doppia entrata in R,

Panoramica sulle statistiche descrittive: misure di tendenza centrale e dispersione e uso di R.

Correlazione e matrice di correlazione: coefficiente di correlazione lineare di Pearson e coefficiente di correlazione tra ranghi di Spearman. Esecuzione in R.

Rappresentazioni grafiche in R attraverso il pacchetto ggplot2. Personalizzazione della parte estetica e dei livelli del grafico.

Tecniche predittive di analisi: regressione lineare e regressione logistica.

Introduzione all'analisi in componenti principali e tecniche di clusterizzazione in R.

Data Science in campo clinico.

Data Mining: esempio pratico di text mining ed esercitazione in R.  

Sentiment analysis: esempio pratico in R.

Network analysis: esempio pratico in R.

Applicazione pratica di Machine Learning con R.

R markdown: descrizione ed esempi pratici.

Docente/Tutor Responsabile insegnamento
Ileana Di Pomponio
Docenti video
Prof. Valentina Panetta - L’altrastatistica Srl
Prof. Ilaria Simonelli - L’altrastatistica Srl
Elenco delle lezioni
Valentina Panetta
    •  Lezione n. 2: Big Data  Vai alla lezione
Valentina Panetta
Valentina Panetta
Ilaria Simonelli
Ilaria Simonelli
Ilaria Simonelli
Ilaria Simonelli
Valentina Panetta
Ilaria Simonelli
Ilaria Simonelli
Valentina Panetta
Valentina Panetta
Valentina Panetta
Valentina Panetta
Valentina Panetta
Valentina Panetta
Valentina Panetta
    •  Lezione n. 18: R markdown  Vai alla lezione
Valentina Panetta