Processi Cognitivi e Tecnologie (Ακαδημαϊκό έτος 2015/2016) - Human Computer Interaction e E-Learning (ad esaurimento)

Analisi dei dati

Πιστώσεις: 6

Γλώσσα περιεχομένου:Ιταλικά

Περιγραφή μαθήματος

La prima parte del corso prevede l’acquisizione di alcuni concetti propedeutici e basilari per l’analisi del testo e text-mining. In particolare, la clusterizzazione dei documenti rappresenta un ambito rilevante di applicazioni nel campo del text mining. Viene introdotto un metodo che tenga conto dei legami osservati tra testi e parole-chiave, attraverso gli strumenti della Social Network Analysis. Sono costruiti gli indici di centralità per identificare parole e testi che assumono un “ruolo” decisivo in alcune situazioni. Gli argomenti discussi saranno esemplificati attraverso l’utilizzo del software R e casi di studio Caso di studio su Text Mining e Social Network in R. Nella seconda parte del corso viene approfondita l’analisi automatica dei testi, quale contesto naturale per l’applicazione degli strumenti di text mining, durante la quale il corpus di dati testuali viene trattato per le annotazioni delle unità lessicali e testuali utili all’estrazione di informazione dai testi o alla loro categorizzazione automatica. Si delineano alcune strategie di studio per l’analisi qualitativa dei testi prefigurando l’utilizzo di strumenti della linguistica computazionale. Si considerano strumenti e tecniche per la selezione dell’informazione a livello lessicale attraverso la ponderazione e selezione delle parole in funzione di differenti obiettivi, nonché per la estrazione di entità di interesse a livello testuale, per lo più finalizzate a processi di ETL (trasformazione di dati non strutturati in informazioni strutturate). Si descrivono inoltre esempi di costruzione di risorse statistico-linguistiche (dai lessici di frequenza alle grammatiche locali), nonché di categorizzazione automatica di documenti e di "sentiment" analysis. Infine si illustrano applicazioni di analisi concettuale mediante la piattaforma Taltac 2.10. Nella terza parte del corso verrà affrontata la Sentiment Analysis, le sue origini, i suoi approcci e le applicazioni sul web. Negli ultimi anni il Web ha messo a disposizione di tutti una quantità crescente di informazioni e dati. In questo spazio, dominato dalle parole, è necessario disporre di strumenti che ci mettano in grado di selezionare ed estrarre l’informazione utile e interpretabile per i più diversi tipi di applicazioni: l’analisi dei testi letterari, del linguaggio politico, di forum e blog, di news tratte dai quotidiani online ecc. La Sentiment Analysis e in particolare la Social Network Analysis permettono di analizzare in modo approfondito i dati provenienti dal web.

Προϋποθέσεις

Sono richieste le conoscenze indicate nel dominio disciplinare "logico-matematico" e le nozioni di psicometria di base, apprese nel corso della laurea triennale. • Teoria degli insiemi (tipi d’insiemi, relazioni e operazioni insiemistiche) • Algebra elementare (operazioni numeriche, equazioni elementari) • Elementi di geometria (caratteristiche di figure piane, rappresentazioni cartesiane), • Funzioni numeriche (loro espressione in formule e rappresentazione grafica) • Statistiche descrittive • Correlazione lineare • Regressione semplice e multipla • Analisi fattoriale

Πρόγραμμα

• Fondamenti di base del software R: operazioni di conversione, arrotondamento, troncamento, date, funzioni ls ed rm, utilizzo dell’help in linea. Costruzione e importazione di un dataset: vettori, matrici ed array. Rappresentazioni grafiche in R, principali comandi per realizzare grafici in R. • Analisi delle componenti principali: studio delle unità statistiche e delle variabili, interpretazione delle componenti. • Analisi automatica di dati testuali e al text mining, tipi e dimensioni di un corpus, Vocabolario, costruzione del corpus. • Cluster Analysis: operazioni preliminari per la costruzione di una procedura di scelta delle misure di prossimità, metodi di formazione dei gruppi, validazione dei risultati • La cluster analysis in R, matrice di prossimità, metodo k-medie • Analisi delle corrispondenze semplici e multiple, confronto tra ACP e ACM • Elementi di social network analysis e di sentiment analyisis • Analisi esplorative di dati multivariati, analisi esplorativa multidimensionale di dati quantitativi e qualitativi • Modelli di equazioni strutturali, Path Analysis, mediazione, identificazione e valutazione del modello

Βιβλίο

• Bolasco, S. (2013). L'analisi automatica dei testi. Fare ricerca con il text mining Carocci • Liu, B. (2012). Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers (facoltativo). Materiale di supporto e dispense saranno fornite dal tutor.

Εργασίες

Le esercitazioni fornite durante il corso conterranno alcune domande relative agli argomenti trattati nelle lezioni. In alcuni casi le domande saranno a risposta multipla, in altre saranno a risposta aperta e conterranno problemi da svolgere su piccoli insiemi di dati.

Βοηθός/Καθηγητή Περιοχή Καθηγητή

Stefano Guidi

Λίστα μαγνητοσκοπημένων παραδόσεων

• Μάθημα αρ. 1: Introduzione al software R		Domenica Fioredistella Iezzi
• Μάθημα αρ. 2: Costruzione di un Dataset		Domenica Fioredistella Iezzi
• Μάθημα αρ. 3: Costruzione e importazione di un Dataset		Domenica Fioredistella Iezzi
• Μάθημα αρ. 4: Le rappresentazioni grafiche in R		Domenica Fioredistella Iezzi
• Μάθημα αρ. 5: Analisi delle componenti principali		Domenica Fioredistella Iezzi
• Μάθημα αρ. 6: Introduzione all’analisi automatica di dati testuali e al text mining		Domenica Fioredistella Iezzi
• Μάθημα αρ. 7: Le fasi di un processo di TM		Domenica Fioredistella Iezzi
• Μάθημα αρ. 8: La Cluster Analysis - Parte I		Domenica Fioredistella Iezzi
• Μάθημα αρ. 9: La Cluster Analysis - Parte II		Domenica Fioredistella Iezzi
• Μάθημα αρ. 10: La cluster analysis in R		Domenica Fioredistella Iezzi
• Μάθημα αρ. 11: Analisi delle corrispondenze semplici		Domenica Fioredistella Iezzi
• Μάθημα αρ. 12: Analisi delle corrispondenze multiple		Domenica Fioredistella Iezzi
• Μάθημα αρ. 13: Elementi di social network analysis		Domenica Fioredistella Iezzi
• Μάθημα αρ. 14: Elementi di sentiment analyisis		Domenica Fioredistella Iezzi
• Μάθημα αρ. 15: Aspetti quantitativi di dati linguistici		Domenica Fioredistella Iezzi
• Μάθημα αρ. 16: Confronto fra testi		Domenica Fioredistella Iezzi
• Μάθημα αρ. 17: Analisi esplorative di dati testuali in IRAMUTEQ		Domenica Fioredistella Iezzi
• Μάθημα αρ. 18: Analisi esplorative di dati multivariati		Domenica Fioredistella Iezzi
• Μάθημα αρ. 19: I modelli di equazioni strutturali - Parte I		Stefano Guidi
• Μάθημα αρ. 20: I modelli di equazioni strutturali - Parte II		Stefano Guidi

Please login

Menu secondario

Processi Cognitivi e Tecnologie (Ακαδημαϊκό έτος 2015/2016) - Human Computer Interaction e E-Learning (ad esaurimento)

Analisi dei dati