Data Mining per l'analisi dei flussi di commercio estero
Pubblicato da Luigi Bidoia. .
Siulisse Bestpractice Metodologie e Strumenti
Accedi con il tuo account per utilizzare le funzioni stampa migliorata (pretty print) e includi articolo (embed).
Non sei ancora registrato?
registrati!
I dati sui flussi di commercio estero rappresentano la quota maggiore di informazioni contenute nel Sistema Informativo Ulisse. Essi sono organizzati nelle seguenti banche dati:
- Congiuntura Paesi UE: contiene le dichiarazioni doganali mensili dal 2000, di 28 paesi, per 152 paesi partner e per oltre 8000 codici di Nomenclatura Combinata;
- Congiuntura USA: contiene le dichiarazioni doganali mensili dal 2011, degli Stati Uniti, per 152 paesi partner e per oltre 20000 codici prodotto Harmonized System a 10 digit;
- Congiuntura WLD: contiene le dichiarazioni doganali mensili dal 2011, dei principali 70 paesi mondiali, per 152 paesi partner e per oltre 5000 codici prodotto Harmonized System a 6 digit;
- Ulisse: contiene la stima dei flussi di commercio estero annuali dal 1995 al 2016, tra 152 paesi esportatori e 152 paesi importatori, classificati per prodotto Harmonized System a 6 digit, per codice Ulisse di Prodotto (3200 codici), Settore (220 codici), Industria (21 codici).
Per ciascun flusso le diverse banche dati contengono la misura sia in valore che in quantità, generalmente espressa in peso o in altra unità di misura. Per un solo codice prodotto, le 4 banche dati contengono la numerosità di dati riportati nella tabella che segue:
Banca Dati | Numero dati per codice prodotto |
Numero dati totali (milioni) |
---|---|---|
Congiuntura Paesi UE | 400 000 | 6 400 |
Congiuntura USA | 10 000 | 335 |
Congiuntura WLD | 300 000 | 1 500 |
Ulisse | 100 000 | 520 |
E' evidente la necessità di utilizzare adeguati strumenti informatici per gestire l'elevata numerosità di questi dati. Lo strumento più importante utilizzato per la costruzione del Sistema Informativo Ulisse è la libreria python Pandas1. Nell'esecuzione dei diversi calcoli, Pandas è particolarmente efficiente perchè utilizza funzioni della libreria Numpy, quasi interamente scritta in linguaggio C2. Tramite Pandas è possibile costruire in modo efficiente delle misure aggiuntive dei flussi di commercio, quali il valore del flusso espresso in diverse valute, i prezzi al Kg, misure di qualità dei diversi flussi e stimare le quantità a prezzi costanti. Queste misure aggiuntive, assieme a quelle di base (valori e Kg), consentono di analizzare i flussi di commercio, investigando su fenomeni quali la crescita dei diversi mercati e le capacità competitive dei diversi paesi competitori.
La mole di dati disponibili consente inoltre di estrarre informazioni aggiuntive tramite l'utilizzo di metodologie statistiche di data analysis e data mining. In particolare:
Modelli Arima: consentono previsioni di breve periodo (uno o due mesi avanti) della serie storica di un flusso di commercio. Queste previsioni a breve sono fondamentali per sviluppare un'analisi congiunturale, con un ritardo di solo un paio di mesi, di fenomeni aggregati quali il commercio mondiale per settore o industria, in valore, quantità e prezzi;
Panel data: consentono di studiare le relazioni esistenti tra le variabili macroeconomiche3 e la dinamica dei flussi di commercio, perlustrando come l'ambiente esterno possa influenzare le importazioni o le esportazioni di uno specifico prodotto. In questo modo è possibile formulare uno scenario sulla dinamica futura dei flussi di commercio di un dato prodotto, considerando sia elementi specifici al prodotto sia le dinamiche macroeconomiche dei vari paesi.
Cluster Analysis: finalizzata a individuare gruppi di prodotti che risultano tra loro simili sulla base di più caratteristiche:
- barriere alla penetrazione delle importazioni, sia di tipo tariffario che non tariffario;
- dinamica della penetrazione delle importazioni e loro elasticità allo sviluppo dell'economia;
- modalità di competizione dei diversi concorrenti (sul prezzo o sulla innovazione/qualità).
In questo modo si possono definire alcuni limitati pattern di evoluzione del commercio mondiale, oggetto di successivi approfondimenti, i cui risultati possono essere generalizzati ai singoli prodotti appartenenti al cluster.
Lavorando sui flussi di commercio estero, StudiaBo ha sviluppato una pluriennale esperienza nelle tecniche di estrazione di informazioni da ampi set di dati. L'esperienza maturata sul campo costituisce la base del contenuto del corso Python e R per Data Mining che si terrà tra il 13 giugno e il 22 luglio a Bologna. Partendo dalla tecniche messe a punto per l'analisi dei flussi di commercio estero, il corso fornirà gli strumenti operativi (dai linguaggi python e R alle librerie di classi e funzioni per l'analisi statistica e il data mining) che possono essere utilizzati per la gestione di un qualsiasi ampio set di dati e per l'estrazione delle informazioni in esso contenute.
1) Questa libreria consente di organizzare i dati in strutture dati di due o più dimensioni, di accedere ai dati elementari attraverso indici ordinati e di applicare funzioni di trasformazione all'intera struttura dati oppure a sue parti, utilizzando una sintassi compatta e di facile memorizzazione.
2) Si veda https://it.wikipedia.org/wiki/C_(linguaggio).
3) Le variabili che possono essere prese in considerazione riguardano il prodotto interno lordo, la propensione al consumo e la propensione agli investimenti, il costo del lavoro e la competitivà di sistema.