Περιγραφή μαθήματος |
La prima parte del corso prevede l’acquisizione di alcuni concetti propedeutici e basilari per l’analisi del testo e text-mining. In particolare, la clusterizzazione dei documenti rappresenta un ambito rilevante di applicazioni nel campo del text mining. Viene introdotto un metodo che tenga conto dei legami osservati tra testi e parole-chiave, attraverso gli strumenti della Social Network Analysis. Sono costruiti gli indici di centralità per identificare parole e testi che assumono un “ruolo” decisivo in alcune situazioni. Gli argomenti discussi saranno esemplificati attraverso l’utilizzo del software R e casi di studio Caso di studio su Text Mining e Social Network in R.
Nella seconda parte del corso viene approfondita l’analisi automatica dei testi, quale contesto naturale per l’applicazione degli strumenti di text mining, durante la quale il corpus di dati testuali viene trattato per le annotazioni delle unità lessicali e testuali utili all’estrazione di informazione dai testi o alla loro categorizzazione automatica. Si delineano alcune strategie di studio per l’analisi qualitativa dei testi prefigurando l’utilizzo di strumenti della linguistica computazionale. Si considerano strumenti e tecniche per la selezione dell’informazione a livello lessicale attraverso la ponderazione e selezione delle parole in funzione di differenti obiettivi, nonché per la estrazione di entità di interesse a livello testuale, per lo più finalizzate a processi di ETL (trasformazione di dati non strutturati in informazioni strutturate). Si descrivono inoltre esempi di costruzione di risorse statistico-linguistiche (dai lessici di frequenza alle grammatiche locali), nonché di categorizzazione automatica di documenti e di "sentiment" analysis. Infine si illustrano applicazioni di analisi concettuale mediante la piattaforma Taltac 2.10.
Nella terza parte del corso verrà affrontata la Sentiment Analysis, le sue origini, i suoi approcci e le applicazioni sul web. Negli ultimi anni il Web ha messo a disposizione di tutti una quantità crescente di informazioni e dati. In questo spazio, dominato dalle parole, è necessario disporre di strumenti che ci mettano in grado di selezionare ed estrarre l’informazione utile e interpretabile per i più diversi tipi di applicazioni: l’analisi dei testi letterari, del linguaggio politico, di forum e blog, di news tratte dai quotidiani online ecc. La Sentiment Analysis e in particolare la Social Network Analysis permettono di analizzare in modo approfondito i dati provenienti dal web. |
Προϋποθέσεις |
Sono richieste le conoscenze indicate nel dominio disciplinare "logico-matematico" e le nozioni di psicometria di base, apprese nel corso della laurea triennale.
• Teoria degli insiemi (tipi d’insiemi, relazioni e operazioni insiemistiche)
• Algebra elementare (operazioni numeriche, equazioni elementari)
• Elementi di geometria (caratteristiche di figure piane, rappresentazioni cartesiane),
• Funzioni numeriche (loro espressione in formule e rappresentazione grafica)
• Statistiche descrittive
• Correlazione lineare
• Regressione semplice e multipla
• Analisi fattoriale |
Πρόγραμμα |
• Fondamenti di base del software R: operazioni di conversione, arrotondamento, troncamento, date, funzioni ls ed rm, utilizzo dell’help in linea. Costruzione e importazione di un dataset: vettori, matrici ed array. Rappresentazioni grafiche in R, principali comandi per realizzare grafici in R.
• Analisi delle componenti principali: studio delle unità statistiche e delle variabili, interpretazione delle componenti.
• Analisi automatica di dati testuali e al text mining, tipi e dimensioni di un corpus, Vocabolario, costruzione del corpus.
• Cluster Analysis: operazioni preliminari per la costruzione di una procedura di scelta delle misure di prossimità, metodi di formazione dei gruppi, validazione dei risultati
• La cluster analysis in R, matrice di prossimità, metodo k-medie
• Analisi delle corrispondenze semplici e multiple, confronto tra ACP e ACM
• Elementi di social network analysis e di sentiment analyisis
• Analisi esplorative di dati multivariati, analisi esplorativa multidimensionale di dati quantitativi e qualitativi
• Modelli di equazioni strutturali, Path Analysis, mediazione, identificazione e valutazione del modello |
Βιβλίο |
• Bolasco, S. (2013). L'analisi automatica dei testi. Fare ricerca con il text mining Carocci
• Liu, B. (2012). Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers (facoltativo).
Materiale di supporto e dispense saranno fornite dal tutor. |
Εργασίες |
Le esercitazioni fornite durante il corso conterranno alcune domande relative agli argomenti trattati nelle lezioni. In alcuni casi le domande saranno a risposta multipla, in altre saranno a risposta aperta e conterranno problemi da svolgere su piccoli insiemi di dati. |
Βοηθός/Καθηγητή Περιοχή Καθηγητή
|
Stefano Guidi
|
Λίστα μαγνητοσκοπημένων παραδόσεων |
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Domenica Fioredistella Iezzi
|
|
|
Stefano Guidi
|
|
|
Stefano Guidi
|
|