L’obiettivo del corso è illustrare le soluzioni per la gestione e l’elaborazione dei big data. Nella prima parte del corso si definiscono le caratteristiche dei big data e si introducono i concetti relativi ai sistemi ed alle tecnologie per la loro gestione ed elaborazione. Nella seconda parte del corso si fornisce una panoramica su MapReduce e Hadoop e si introducono i concetti relativi alla programmazione in MapReduce per rispondere a domande relative ai dati.
Data Security and Privacy
L’obiettivo principale di questo corso è l’introduzione dei principali concetti di sicurezza dei dati e privacy ponendo un attenzione particolare alle moderne tecnologie come ad esempio il cloudcomputing. Nella prima parte del corso sono trattati i principi fondamentali di sicurezza dei dati; le vulnerabilità e minacce; i meccanismi e le tecniche di protezione. La seconda parte del corso è focalizzata sulla privacy dei dati, in particolare: la normativa Italiana ed Europea, la gestione della privacy nei sistemi e applicazioni cloud, le best practices per l’implementazione delle norme.
Visual Data Mining
Il corso si focalizza sulle principali tecniche di visualizzazione e di analisi esplorativa dei dati. Nel dettaglio si affronteranno:
- le principali tecniche di visualizzazione di dati strutturati e non strutturati mediante l’ausilio del software statistico R/R studio.
- i principi di base per l’esportazione dei dati.
- Metodi e tecniche di data mining per la rappresentazione di dati multidimensionali.
Data Warehousing e Business Intelligence
Il corso fornirà gli strumenti fondamentali per le operazioni di 1) Acquisizione dei dati; 2) Pulizia e manutenzione dei dati; 3) Preparazione dei dati per le analisi successive. Verranno quindi introdotte le necessarie nozioni di programmazione in Python:1)Creazione di un ambiente Python (linux/windows); 2)Eventuale uso di macchine virtuali per la standardizzazione dei processi; 3) Sintassi del linguaggio Python; 4) Struttura di un programma in Python a. Algoritmi b. Flussi Dati c. Gestione dell’I/O; 5)Tecniche di accesso ai dati on line e non; 6)Tecniche di acquisizione e manipolazione semplice dei dati. Al fine di fornire anche gli strumenti per la manutenzione ed immagazzinamento delle informazioni acquisite sono previsti alcuni cenni di Base Dati (SQL). Verranno infine presentati alcuni packages Python come BeautifulSoup, Selenium, mysql, ecc., al fine di introdurre alcuni interessanti case study.
Machine learning
Introduzione alle macchine di apprendimento: apprendimento supervisionato (problemi di classificazione e di regressione) e non supervisionato (clustering).
Macchine di apprendimento supervisionato: Support Vector Machines (SVM), Alberi di Decisione, Random Forest, Reti Neurali (Multi Layer Perceptron e reti RBF).
Teoria dell’apprendimento di Vapnick e connessione tra reti neurali e SVM.
Cenni su algoritmi di apprendimento per gli strumenti definiti.
Il corso prevede delle esercitazioni pratiche in python con l’uso di tensor flow.
Data Management
- Management: in linea con i più aggiornati standard internazion
ali di riferimento, il corso adotta il metodo dell’analisi sistemica per fornire appropriata conoscenza in tema di rapporto tra impresa – forza competitiva – e ambiente. Esso, del pari, si focalizza sul ruolo di autonomia decisionale ed economicità quale base necessaria all’esaustiva comprensione dello stato di salute dell’impresa ed, in particolare, delle sue condizioni di sopravvivenza e possibile sviluppo. Particolare enfasi, in tal senso, viene posta sulle modalità di creazione e distribuzione di valore economico, etico-sociale e ambientale. In sintesi, verranno approfonditi i seguenti argomenti:
- L’impresa come forza competitiva
- L’analisi sistemica di governo e management dell’impresa
- Autonomia decisionale ed economicità
Creazione e distribuzione di valore economico, etico-sociale e ambientale.
- Open Data.
- Web Marketing.
Data Journalism and Storytelling
L’obiettivo del corso è leggere e capire i dati, ricercare fonti attendibili, utilizzare i database presenti in rete per fare analisi giornalistiche. Una parte del modulo didattico è dedicato alla costruzione e alla narrazione di un racconto mediante l’utilizzo dei dati.
Sistemi informativi geografici
L’obiettivo del corso è introdurre all’informazione geografica e ai sistemi di geoknowledge, concetti di geodatabase, esemplificazione degli ambiti applicativi del GIS, funzioni e strumenti per la GIS Analysis e la Geostatistica, la georeferenziazione e la geocodifica di informazioni. Cartografia di base e cartografia tematica, introduzione ai webgis e al remote sensing. Presentazione di strumenti GIS open source.
Social Network Analysis
In questo corso lo studente potrà acquisire gli elementi metodologici di base della Social Network Analysis applicata ai Big Data, combinando tra loro contributi provenienti da discipline differenti, tra cui: data science, sociologia, matematica e informatica. Sono previsti anche cenni di Analisi Semantica.
Il corso è articolato in tre parti, una teorica, una di discussione di casi di studio applicativi e una pratica di laboratorio. Nella parte pratica gli studenti impareranno ad utilizzare il software Condor e, in base alla rispondenza dell’aula, eventualmente anche i software Pajek e Gephi. Definizione di rete: – Elementi base dell’analisi delle reti, – Prospettiva di rete (network effect, ipotesi e test all’interno delle reti) – Misure e metriche di centralità – Egonetwork, significato e analisi Studio della propria egonetwork su Facebook.
Statistica e probabilità per Data Scientist
Il corso, che ha l’obiettivo di fornire una base di conoscenza dell’analisi statistica dei dati, è articolato nelle seguenti sezioni:
- Esplorare i dati
- Tipi di variabili
- Descrizione delle variabili attraverso indici
- Descrizione dei dati attraverso grafici
- Misurare l’associazione tra due variabili
- Dal campione alla Popolazione
- La stima puntuale
- L’intervallo di confidenza
- Il test di ipotesi
- Introduzione al modello statistico
- La dipendenza statistica
- La dipendenza lineare
- Il modello di regressione lineare
4. Laboratorio di analisi dei dati in R.
Text Analytics and Opinion Mining
Strumenti e tecniche di Text Analytics and Opinion Mining; trattamento del linguaggio naturale; costruzione di risorse statistico-linguistiche e di grammatiche locali, Text clustering, Text classification, sentiment analysis. L’approccio sarà teorico pratico. I laboratori si svolgeranno con l’ausilio di diversi software (R, Iramuteq).
Time Series Analysis
Scopo del corso è di fornire un’ampia introduzione alle tecniche per l’analisi delle serie temporali di dati (time series). In parallelo verranno presentati i principali modelli per la rappresentazione delle time series e le tecniche computazionali, in R e/o Matlab, per l’analisi dei dati reali.