Corso Vittorio Emanuele II, 39 - Roma 0669207671

Cognitive Processes and Technologies (Academic Year 2022/2023) - Neuroscienze

Data Science


Credits: 10
Content language:Italian
Course description

Il corso introduce i concetti di Data Science, Data Scientist e Big Data, con particolare attenzione alla presenza dei dati nella nostra vita e alla loro produzione. Saranno presentate le diverse tipologie di database e le varie tecniche di analisi. Saranno ripresi i concetti base della statistica e sarà dato ampio spazio all’ utilizzo di R, uno dei più diffusi software statistici open source, e il suo ambiente di sviluppo integrato (IDE) Rstudio. Saranno proposti esempi pratici di Machine Learning, Sentiment Analysis, data mining e Network Analysis.

Saranno evidenziati limiti e vantaggi dei big data. Durante tutto il corso particolare attenzione sarà posta verso le applicazioni in ambito clinico.

Objectives
Il corso ha l’obiettivo di fornire agli studenti e alle studentesse gli strumenti per individuare le potenzialità di un database, saper scegliere la tecnica più corretta per il tipo di dati e per le caratteristiche del progetto, saper interpretare correttamente i risultati delle ricerche altrui.

Program

Introduzione alla Data Science, la professione del Data Scientist e l’importanza dei dati: “Data is the new oil” (Clive Humby, 2006).


I Big Data: lo sviluppo dei Big Data, che cosa sono e come gestirli. Approccio critico ai Big data.


Le tecniche di analisi in Data Science: la definizione di un obiettivo, la metodologia CRISP-DM, il data Mining.


Introduzione al linguaggio R, l’interfaccia di Rstudio, come lavorare con R, tipi di dati.


Accenni al calcolo delle probabilità: il concetto di probabilità, le distribuzioni dei dati: distribuzione Normale, distribuzione del Chi-quadrato, F di Fisher e t di Student, distribuzione Binomiale.


Tipi di database: cos'è un database, database relazionali, esempi di formato dati, i formati wide e long.


Le frequenze e le tabelle a doppia entrata e uso di R: distribuzione di frequenza semplice e tabelle a doppia entrata. Creazione di una tabella di frequenza semplice e di una tabella a doppia entrata in R,


Panoramica sulle statistiche descrittive: misure di tendenza centrale e dispersione e uso di R.


Correlazione e matrice di correlazione: coefficiente di correlazione lineare di Pearson e coefficiente di correlazione tra ranghi di Spearman. Esecuzione in R.


Rappresentazioni grafiche in R attraverso il pacchetto ggplot2. Personalizzazione della parte estetica e dei livelli del grafico.


Tecniche predittive di analisi: regressione lineare e regressione logistica.


Introduzione all'analisi in componenti principali e tecniche di clusterizzazione in R.


Data Science in campo clinico.


Data Mining: esempio pratico di text mining ed esercitazione in R.


R markdown: descrizione ed esempi pratici.


Book

R for Data Science by Garrett Grolemund, Hadley Wickham. Released December 2016. Publisher(s): O'Reilly Media, Inc. ISBN: 9781491910399 -  https://r4ds.had.co.nz/


Text Mining with R by Julia Silge, David Robinson. Oreilly & Associates Inc. ISBN-13: ‎ 978-1491981658 - https://www.tidytextmining.com/


Dispense e materiale di approfondimento fornite dal docente.

Exercises
Gli esercizi proposti durante il corso mirano allo sviluppo delle competenze analitiche dello studente. In particolare, ai partecipanti è richiesto di completare delle esercitazioni in R mirate all’acquisizione delle nozioni e delle abilità pratiche esposte durante la videolezione.
Professor/Tutor responsible for teaching
Valentina Panetta
List of lessons
Valentina Panetta
    •  Lesson n. 2: Big Data  Go to this lesson
Valentina Panetta
Valentina Panetta
Ilaria Simonelli
Ilaria Simonelli
Ilaria Simonelli
Ilaria Simonelli
Valentina Panetta
Ilaria Simonelli
Ilaria Simonelli
Valentina Panetta
Valentina Panetta
Valentina Panetta
Valentina Panetta
Valentina Panetta
Valentina Panetta
Valentina Panetta
    •  Lesson n. 18: R markdown  Go to this lesson
Valentina Panetta