Nel numero:

, anno 2013

Open Data per l‘azienda

Un approccio all‘Enterprise Information Management

Matteo Busanelli

Nato a Imola nel 1978, ha conseguito la laurea Specialistica in informatica nel 2005 presso l‘Università di Bologna con una tesi sull‘"Estrazione di Ontologie da Framework standardizzati EDI/XML". Per tre anni ha lavorato come ricercatore presso il centro ENEA di Bologna seguendo progetti sull‘applicazione di tecnologie semantiche a framework e standard per l‘interoperabilità come ebXML o UBL, pubblicando insieme ad altri ricercatori diversi articoli su tali argomenti.
Attualmente è consulente presso Imola Informatica S.r.l. dove si occupa di piattaforme Java EE based e progetti sul Semantic Web, e i suoi interessi principali si orientano alle piattaforme enterprise basate su middleware semantici, Ontology Engeenering e alle interfacce basate su AJAX e GWT.

Open Data per l‘azienda

Un approccio all‘Enterprise Information Management

Matteo Busanelli

Questo articolo parla di: DataBase & elaborazione dei dati, Intelligenza artificiale

La tematica degli Open Data è sempre più presente nel dibattito relativo al web, ma anche nelle discussioni inerenti la gestione da parte delle pubbliche amministrazioni di informazioni utili alla creazione di servizi ai cittadini. In questo articolo, affrontiamo il tema degli Open Data con un approccio aziendale, verificando quanto possano influire nella Enterprise Information Management.

Open Data: un concetto strategico

Sulla base di quello che è accaduto in questi ultimi anni, è lecito affermare che Open Data (OD) non è più solo sinonimo di approccio innovativo alla pubblicazione/erogazione di dati nel web, ma possa essere considerato piuttosto, come nel caso dell’Open Source, parte di una vera e proprio approccio sistemico che si riflette in un insieme di pratiche tecnologiche ben definite. Si inizia quindi a parlare di diritto d’accesso al dato pubblico, di liberazione del dato, di ecosistemi di dati e di aggregazione e riuso libero.

Dopo aver letto un bell’articolo di Giovanni Menduni [1] e sulla base della collaborazione stimolante avuta nell’ambito di International Open Data Day Italia 2013 [2], mi sento portato a pensare che Open Data sia la strada giusta per portare il dato ad uno stadio evolutivo superiore, in cui esso nasca già con una sua dignità e un diritto/dovere di crescere, aggregarsi ad altri dati ed evolvere all’interno di un ecosistema vivo e aperto di informazioni in cui poter esprimere tutto il suo vero potenziale grazie all’infinita gamma di possibili riusi che ne potrebbero scaturire.

Andiamo oltre: ambito Enterprise

Ma proviamo a fare subito un piccolo passo avanti e superare la solita storia del dato aperto. Proviamo cioè a immaginare cosa potrebbe significare Open Data se il contesto di applicazione non fosse più quello delle sterminate e infinite praterie del West… pardon… del Web. Immaginiamo di liberare i dati nel “giardino di casa” o nel “parco cittadino”, in un ambiente cioè i cui confini siano sempre sufficientemente ampi da non imbrigliare il dato ma non tanto sconfinati da rallentarne e diminuirne l’immediata percezione del cambiamento generato.

Sto pensando all’Open Data applicato ad un contesto aziendale, in particolare a quelle aziende che per struttura, numero di dipendenti, estensione territoriale e di mercato potremmo chiamare Big Enterprises.

Negli ultimi anni, per motivi professionali, mi sono trovato spesso ad avere a che fare con problematiche di gestione della conoscenza in contesti molto ampi di grandi gruppi aziendali (principalmente bancari e assicurativi). Mi riferisco in particolare a tutta una serie di attività volte a gestire problematiche che vanno sotto il nome di Enterprise Information Management (EIM) [3].

Enterprise Information Management

Nella pratica si tratta di armarsi di bisturi, scalpello, pennello e acqua ossigenata per scavare, ripulire, scrostare dalla terra e dalla roccia delle infrastrutture informatiche l’informazione al fine di recuperare e liberare il vero potenziale di moli di dati che per complessità, quantità ed eterogeneità di contenuti rispondono a dinamiche molto simili a quelle di scala ben più ampia come il Web.

Vi sono contesti specifici dove tutto questo risulta particolarmente evidente, come quello della Governance IT e dell’Enterprise Architecture, in cui i responsabili dell’IT, i manager business e i vari CIO, CTO e CEO di questi grandi ecosistemi informativi si accorgono che l’incisività della loro azione passa inesorabilmente per la possibilità di accedere e manipolare le informazioni in maniera del tutto nuova, libera da schemi predefiniti e da vincoli tecnologici e con la possibilità di integrare, disgregare e riaggregare (mash-up) i dati in maniera veloce, naturale e il più possibile dinamica.

L’esperienza sul campo

Per quella che è la mia esperienza, la prima sensazione che hanno i clienti è quella di non possedere molte delle informazioni necessarie ai loro scopi. Nel 90% dei casi questo è falso (e forse nel restante 10% non è del tutto vero).

In realtà quello che serve per capire l’AS-IS e prendere le decisioni sul TO-BE quasi sempre già esiste ma non si riesce a vedere o a utilizzare. È nascosto, sepolto sotto tonnellate di applicazioni special purpose, imprigionato come una mummia nel ghiaccio dei complessi sistemi informativi dell’azienda, ridondato all’interno di innumerevoli database e data warehouse sotto forme diverse, per non parlare dei troppi casi in cui è umiliato ed esiliato all’interno di fogli excel sui desktop delle singole persone.

Il risultato è un ecosistema in cui tutto risulta bloccato, aggrovigliato e prigioniero di schemi e viste opportunamente assemblate in specifici momenti storici e in alcuni casi poi riadattato forzatamente per altri scopi. Questo è un ecosistema sì… ma morto!

Un rischio sempre dietro l’angolo

Quando si dimostra ai clienti che tali informazioni possono essere restituite a loro tramite una non facile opera di “liberazione chirurgica” e “restauro informatico”, si corre il rischio di ricadere inesorabilmente nello stesso errore andando a predisporre le basi per un nuovo ecosistema che le reimprigioni per altre ere geologiche.

Proprio per evitare questo rischio credo si potrebbe introdurre l’illuminante pratica dell’Open Data. Sarebbe infatti lecito porsi una domanda: se tale pratica nasce per liberare definitivamente il dato e a ridargli nuova linfa vitale e dignità su scala planetaria per quale motivo non dovrebbe poter funzionare su una scala più piccola come quella aziendale?

Un possibile percorso

Ma cosa si dovrebbe fare per rendere operativa tale pratica che potremmo chiamare senza grande sforzo di fantasia “Enterprise Open Data” (EOD per gli amanti degli acronimi)? Senza voler qui entrare nei dettagli tecnici proviamo a individuare una serie di macro step propedeutici all’introduzione degli Open Data a livello enterprise:

censimento e definizione della topologia dei dati;
definizione dei diversi dataset da pubblicare;
specificazione dei formati da usare;
estrazione dei dataset dalle fonti censite;
predisposizione di una piattaforma per la gestione di cataloghi e dataset;
definizione e condivisione di un ciclo di vita dei dati aperti;
definizione di ruoli e profili professionali;
definizione di politiche di sicurezza.

Vediamo nel dettaglio questi 8 punti.

Censimento e definizione della topologia dei dati

Occorre identificare quali aree informative, domini e unità organizzative possono essere candidati a diventare fornitori interni di dati. In gergo Open Data si parla di cataloghi, per esempio: area applicativa, area infrastrutturale, area servizi business, business continuity, business intelligence e così via.

Definizione dei diversi dataset da pubblicare

Per ogni catalogo, andranno definiti i diversi dataset da pubblicare. Ogni dataset è un “blocco” di dati provenienti da sorgenti esistenti con una loro struttura/aggregazione derivante dalla sorgente di provenienza. Esempio: anagrafica-dei-servizi-business, mappa-applicativa, prodotti-e-compagnie-di-gruppo, andamento-budget-annuale, elenco-fornitori, contratti e così via.

Specificazione dei formati da usare

Per ogni dataset si dovrà specificare in quali formati esso potrà essere pubblicato. Esempio: .pdf (pessimo), .xls (si può fare di meglio), .csv/.tsv (decente), .xml (buono), rdf/owl (ottimale).

Estrazione dei dataset dalle fonti censite

Si tratta “semplicemente” a questo punto di estrarre i dataset dalle fonti censite nei formati prescelti per la pubblicazione.

Predisposizione di una piattaforma

Occorre poi predisporre una piattaforma centrale (o federata) per la gestione dei dati aperti organizzati in cataloghi e dataset. Si tratta di un ambiente in cui i diversi cataloghi possano essere definiti e pubblicati con i dataset arricchiti di opportune meta-informazioni che li descrivono in modo da renderli facilmente classificabili, ricercabili, interrogabili e storicizzabili. A tal riguardo esistono già piattaforme mature alcune delle quali anche opensource, CKAN [4], che attualmente vengono già impiegate per esempio nell’ambito della Pubblica Amministrazione italiana, e sopratutto in quella estera come UK e Francia [5], per favorire l’accesso pubblico e trasparente a tutte le informazioni di eGov e incentivare il loro riuso da parte di privati e aziende al fine di erogare nuovi e più potenti servizi.

Definizione di un ciclo di vita

È necessaria anche la definizione e la condivisione di un processo di lifecycle dei dati aperti: produzione, aggiornamento, manutenzione ed eventuale messa al bando di quelli obsoleti e deprecati.

Definizione di ruoli e profili professionali

Questi punti si portano dietro anche la definizione di nuovi profili professionali e ruoli per la gestione e manutenzione dei cataloghi come previsto dalle principale best practice di Enterprise Information Management (EIM): si veda per esempio MIKE 2.0 [6].

Sicurezza

Altro punto importante è rappresentato dalla definizione di politiche di sicurezza e permission sull’accesso ai dati aperti.

Per i più virtuosi…

Volendo completare l’opera, si può aggiungere un ulteriore punto, il 9, e ci si può spingere oltre e pubblicare i dati in modalità Linked Open Data (LOD) ossia sfruttando tecnologie semantiche standard (W3C) come RDF, OWL, URI e SPARQL per dare ai dati una semantica esplicita, formale e renderli naturalmente interconnessi tramite URL come avviene già per le pagine HTML, univoci, ricercabili e navigabili. Tutto in un colpo solo! Che meraviglia eh? Vabbe’… ma questo è uno step solo per i più virtuosi…

Valore aggiunto

Ok ma, una volta che i dati saranno così ben organizzati in cataloghi e dataset aperti, censiti e classificati, ricercabili e pienamente integrabili fra loro, cosa avremo ottenuto di fatto? Quale potrebbe essere il reale e percepibile valore aggiunto di un tale approccio in ambito aziendale? Anche qui, proviamo ad elencare alcuni fra quelli che ritengo essere i macroeffetti benefici, a breve e a lungo termine, derivanti da pratiche di EOI.

i dati vanno “difesi” meno;
minore necessità di assessment informativi esterni;
semplificazione nello sviluppo di applicazioni a partire dai dati;
gestione semplificata del patrimonio informativo;
miglioramento di comunicazione e condivisione nelle grandi aziende.

Ce ne sarebbero anche altri, che non è difficile ipotizzare… ma intanto analizziamo questi cinque vantaggi.

Minore necessità di difesa

I dati non sarebbero più una “proprietà privata” da difendere per mantenere posizioni privilegiate di potere, ma piuttosto una risorsa collettiva libera, pronta all’uso per una più rapida evoluzione e crescita aziendale. Chi ha avuto a che fare con aziende del calibro di grandi gruppi bancari o assicurativi sa benissimo di cosa parlo. In tali contesti è chiaro come i dati e le informazioni in generale vengano spesso custoditi gelosamente nei “caveau” delle varie unità organizzative che con essi cercano di trattenere potere, indipendenza e budget su uno specifico dominio. Questa è una pratica tanto comune quanto nefasta per la sanità dell’intera azienda o gruppo vista nel complesso.

Meno assessment esterni sulle informazioni

Si avrebbe un significativo e drastico calo della necessità di commissionare periodicamente assessment informativi ad aziende di consulenza esterne. I dati sono immediatamente e limpidamente disponibili: basta solo prenderli, aggregarli e leggerli rispetto alle viste oppotune.

Semplificazione nello sviluppo di applicazioni a partire dai dati

Altro vantaggio sarebbe rappresentato da considerevole semplificazione nel processo di sviluppo di nuove applicazioni data-consumer e di data-integration. Ancora una volta, i dati ci sono già e sono in un formato già elaborabile, quindi devo solo accedervi e sviluppare, o far sviluppare a un fornitore, front-end e logica applicativa. Non si porrebbe il problema di dover ridefinire un nuovo schema dei dati, gestire un ulteriore backend o, nei casi più complessi, dover ricorrere a pesanti data warehouse che poi ad emergenza finita resterebbero dimenticati, disallineati ma sempre da manutenere.

Gestione semplificata del patrimonio informativo

Il patrimonio informativo dell’azienda viene sottoposto processi strutturati, condivisi e formali come da best practice di Enterprise Information Management (EIM) portando a una gestione semplificata e trasparente del patrimonio informativo dell’azienda.

Comunicazione e condivisione delle informazioni

È ipotizzabile un miglioramento e una ottimizzazione dei processi di comunicazione e condivisione delle informazioni fra le diverse aree aziendali.

Conclusioni: l’hai fatta troppo facile

Ho sicuramente e volutamente semplificato il tutto perche’ l’obbiettivo di questo articolo non è tanto quello di descrivere una soluzione tecnica basata sugli Open Data ma piuttosto di proporre tale approccio in un contesto diverso da quello canonico del web e provare a immaginarne, senza troppo sforzo per la verità, quali potrebbero esserne gli immediati effetti benefici.

Per esperienza sono quindi consapevole che nella pratica vi sarebbero diverse problematiche e dinamiche con cui ci si scontrerebbe, prima fra tutte e non banale la sensibilizzazione del cliente in merito a tali pratiche di EIM, la difficoltà di censire i dati rispetto alle varie sotto-strutture aziendali, la reticenza dei vari responsabili a condividere i propri dati con il resto dell’azienda o la necessità imprescindibile di definire delle politiche di sicurezza restrittive sull’accesso ai dati che di fatto si contrappongono alla reale filosofia di tale approccio.

Il mio ottimismo (qualcuno direbbe “sei giovane!”) mi porta però a fare una considerazione: gli Open Data ultimamente stanno diventando una realtà in un campo come la Pubblica Amministrazione ritenuto generalmente molto ostico e, per sua natura, fortemente inerziale; questo mi fa sperare che, in un ambito come quello delle grandi aziende che per sua natura dovrebbe essere più innovativo e portato all’evoluzione, tutte le possibili problematiche possono essere superate. Think positive… and open!

Riferimenti

[1] Giovanni Menduni, “Aspettando l’Open Data Day, i 7 ingredienti per rendere i dati pubblici utili”, CheFuturo!

http://ow.ly/pISs9

[2] International Open Data Day Italia 2013

http://opendataday.it/

[3] La voce Enterprise Information Management su Wikipedia

http://en.wikipedia.org/wiki/Enterprise_information_management

[4] CKAN – The open source data portal software

http://ckan.org/

[5] Luca Indemini, “Open data, le vie per farli crescere: Regno Unito, Francia e Austria”, Agenda Digitale

http://ow.ly/pJeXb

[6] Method for an Integrated Knowledge Environment

http://mike2.openmethodology.org/

Matteo Busanelli

Nato a Imola nel 1978, ha conseguito la laurea Specialistica in informatica nel 2005 presso l‘Università di Bologna con una tesi sull‘"Estrazione di Ontologie da Framework standardizzati EDI/XML". Per tre anni ha lavorato come ricercatore presso il centro ENEA di Bologna seguendo progetti sull‘applicazione di tecnologie semantiche a framework e standard per l‘interoperabilità come ebXML o UBL, pubblicando insieme ad altri ricercatori diversi articoli su tali argomenti.
Attualmente è consulente presso Imola Informatica S.r.l. dove si occupa di piattaforme Java EE based e progetti sul Semantic Web, e i suoi interessi principali si orientano alle piattaforme enterprise basate su middleware semantici, Ontology Engeenering e alle interfacce basate su AJAX e GWT.

Matteo Busanelli

Nato a Imola nel 1978, ha conseguito la laurea Specialistica in informatica nel 2005 presso l‘Università di Bologna con una tesi sull‘"Estrazione di Ontologie da Framework standardizzati EDI/XML". Per tre anni ha lavorato come ricercatore presso il centro ENEA di Bologna seguendo progetti sull‘applicazione di tecnologie semantiche a framework e standard per l‘interoperabilità come ebXML o UBL, pubblicando insieme ad altri ricercatori diversi articoli su tali argomenti.
Attualmente è consulente presso Imola Informatica S.r.l. dove si occupa di piattaforme Java EE based e progetti sul Semantic Web, e i suoi interessi principali si orientano alle piattaforme enterprise basate su middleware semantici, Ontology Engeenering e alle interfacce basate su AJAX e GWT.

Matteo Busanelli

Nato a Imola nel 1978, ha conseguito la laurea Specialistica in informatica nel 2005 presso l‘Università di Bologna con una tesi sull‘"Estrazione di Ontologie da Framework standardizzati EDI/XML". Per tre anni ha lavorato come ricercatore presso il centro ENEA di Bologna seguendo progetti sull‘applicazione di tecnologie semantiche a framework e standard per l‘interoperabilità come ebXML o UBL, pubblicando insieme ad altri ricercatori diversi articoli su tali argomenti. Attualmente è consulente presso Imola Informatica S.r.l. dove si occupa di piattaforme Java EE based e progetti sul Semantic Web, e i suoi interessi principali si orientano alle piattaforme enterprise basate su middleware semantici, Ontology Engeenering e alle interfacce basate su AJAX e GWT.

Open Data per l‘azienda

Un approccio all‘Enterprise Information Management

Matteo Busanelli

Open Data per l‘azienda

Un approccio all‘Enterprise Information Management

Matteo Busanelli

Open Data: un concetto strategico

Andiamo oltre: ambito Enterprise

Enterprise Information Management

L’esperienza sul campo

Un rischio sempre dietro l’angolo

Un possibile percorso

Censimento e definizione della topologia dei dati

Definizione dei diversi dataset da pubblicare

Specificazione dei formati da usare

Estrazione dei dataset dalle fonti censite

Predisposizione di una piattaforma

Definizione di un ciclo di vita

Definizione di ruoli e profili professionali

Sicurezza

Per i più virtuosi…

Valore aggiunto

Minore necessità di difesa

Meno assessment esterni sulle informazioni

Semplificazione nello sviluppo di applicazioni a partire dai dati

Gestione semplificata del patrimonio informativo

Comunicazione e condivisione delle informazioni

Conclusioni: l’hai fatta troppo facile

Riferimenti

Matteo Busanelli

Matteo Busanelli

Matteo Busanelli

Verso l‘Agile

I parte: L'importanza dell'apprendimento

Agile Grammelot, una metafora della comunicazione

Workshop ad Agile Prague 2013

Il teorema CAP… in Brewer

III parte: Aspetti tecnici nella gestione del grid

Agile in action

User story mapping