Processi Cognitivi e Tecnologie (Anno Accademico 2022/2023) - Neuroscienze

Data Science

CFU: 10

Lingua contenuti:Italiano

Descrizione dell'insegnamento

Il corso introduce i concetti di Data Science, Data Scientist e Big Data, con particolare attenzione alla presenza dei dati nella nostra vita e alla loro produzione. Saranno presentate le diverse tipologie di database e le varie tecniche di analisi. Saranno ripresi i concetti base della statistica e sarà dato ampio spazio all’utilizzo di R, uno dei più diffusi software statistici open source, e il suo ambiente di sviluppo integrato (IDE) Rstudio. Saranno proposti esempi pratici di Machine Learning, Sentiment Analysis, data mining e Network Analysis. Saranno evidenziati limiti e vantaggi dei big data. Durante tutto il corso particolare attenzione sarà posta verso le applicazioni in ambito clinico.

Scopi

Il corso ha l’obiettivo di fornire agli studenti e alle studentesse gli strumenti per individuare le potenzialità di un database, saper scegliere la tecnica più corretta per il tipo di dati e per le caratteristiche del progetto, saper interpretare correttamente i risultati delle ricerche altrui.

Contenuti

Introduzione alla Data Science, la professione del Data Scientist e l’importanza dei dati: “Data is the new oil” (Clive Humby, 2006).

I Big Data: lo sviluppo dei Big Data, che cosa sono e come gestirli. Approccio critico ai Big data.

Le tecniche di analisi in Data Science: la definizione di un obiettivo, la metodologia CRISP-DM, il data Mining.

Introduzione al linguaggio R, l’interfaccia di Rstudio, come lavorare con R, tipi di dati.

Accenni al calcolo delle probabilità: il concetto di probabilità, le distribuzioni dei dati: distribuzione Normale, distribuzione del Chi-quadrato, F di Fisher e t di Student, distribuzione Binomiale.

Tipi di database: cos'è un database, database relazionali, esempi di formato dati, i formati wide e long.

Le frequenze e le tabelle a doppia entrata e uso di R: distribuzione di frequenza semplice e tabelle a doppia entrata. Creazione di una tabella di frequenza semplice e di una tabella a doppia entrata in R,

Panoramica sulle statistiche descrittive: misure di tendenza centrale e dispersione e uso di R.

Correlazione e matrice di correlazione: coefficiente di correlazione lineare di Pearson e coefficiente di correlazione tra ranghi di Spearman. Esecuzione in R.

Rappresentazioni grafiche in R attraverso il pacchetto ggplot2. Personalizzazione della parte estetica e dei livelli del grafico.

Tecniche predittive di analisi: regressione lineare e regressione logistica.

Introduzione all'analisi in componenti principali e tecniche di clusterizzazione in R.

Data Science in campo clinico.

Data Mining: esempio pratico di text mining ed esercitazione in R.

R markdown: descrizione ed esempi pratici.

Testi

R for Data Science by Garrett Grolemund, Hadley Wickham. Released December 2016. Publisher(s): O'Reilly Media, Inc. ISBN: 9781491910399 - https://r4ds.had.co.nz/

Text Mining with R by Julia Silge, David Robinson. Oreilly & Associates Inc. ISBN-13: ‎ 978-1491981658 - https://www.tidytextmining.com/

Dispense e materiale di approfondimento fornite dal docente.

Esercitazioni

Gli esercizi proposti durante il corso mirano allo sviluppo delle competenze analitiche dello studente. In particolare, ai partecipanti è richiesto di completare delle esercitazioni in R mirate all’acquisizione delle nozioni e delle abilità pratiche esposte durante la videolezione.

Docente/Tutor Responsabile insegnamento

Valentina Panetta

Docenti video

Prof. Valentina Panetta - L’altrastatistica Srl

Prof. Ilaria Simonelli - L’altrastatistica Srl

Elenco delle lezioni

• Lezione n. 1: Data Science e Data Scientist		Valentina Panetta
• Lezione n. 2: Big Data		Valentina Panetta
• Lezione n. 3: Tecniche di analisi in Data Science		Valentina Panetta
• Lezione n. 4: Introduzione ad R		Ilaria Simonelli
• Lezione n. 5: Accenni al calcolo delle probabilità		Ilaria Simonelli
• Lezione n. 6: Tipi di data base		Ilaria Simonelli
• Lezione n. 7: Le frequenze e le tabelle a doppia entrata e uso di R		Ilaria Simonelli
• Lezione n. 8: Panoramica sulle statistiche descrittive: misure di tendenza centrale e dispersione e uso di R		Valentina Panetta
• Lezione n. 9: Correlazione e matrice di Correlazione		Ilaria Simonelli
• Lezione n. 10: Rappresentazioni grafiche in R		Ilaria Simonelli
• Lezione n. 11: Tecniche di analisi: le regressioni		Valentina Panetta
• Lezione n. 12: Introduzione all'analisi in componenti principali e tecniche di clusterizzazione		Valentina Panetta
• Lezione n. 13: Data Science in campo clinico		Valentina Panetta
• Lezione n. 14: Data Mining: esempio pratico		Valentina Panetta
• Lezione n. 15: Sentiment analysis: esempio pratico		Valentina Panetta
• Lezione n. 16: Network analysis: esempio pratico		Valentina Panetta
• Lezione n. 17: Applicazione pratica con R: Machine Learning		Valentina Panetta
• Lezione n. 18: R markdown		Valentina Panetta

Login

Login

Menu secondario

Processi Cognitivi e Tecnologie (Anno Accademico 2022/2023) - Neuroscienze

Data Science