Perchè linked?

Questo post di Michael Hausenblas, è stato tradotto e adattato, con il permesso dell’autore, da Michele Barbera per Linkedopendata.it
Il post originale è pubblicato al seguente indirizzo: http://webofdata.wordpress.com/2011/05/22/why-we-link/

L’incentivo a pubblicare dati strutturati sul Web sta, seppur lentamente, diventando sempre più chiaro. Meno evidente è forse l’incentivo a collegare (linking) i propri dati ad altri dati. Perché investire energie, tempo e denaro per produrre Open Data a 5 stelle?
Malgrado il linking stia diventando una commodity (la piattaforma in corso di sviluppo nell’ambito del progetto LATC è un esempio di servizio cloud per il linking), le motivazioni che spingono i produttori di dati a collegarli con altri dataset possono non essere così ovvie. In questo post tenteremo di esplicitarne alcune.

Penso che sia importante analizzare l’incentivo a collegare i propri dati a quelli prodotti da terzi, da un punto di vista di data integration. In un contesto “tradizionale” di Open Data, siamo abituati a scaricare dei dataset da repository come infochimps o a trovarli su cataloghi come CKAN o su uno dei tanti altri repository o cataloghi di dataset. Infine li mettiamo nel nostro database (NoSQL) preferito e li usiamo nella nostra applicazione. Semplice no?

Supponiamo di voler usare un dataset sulle aziende, come ad esempio il Central Contractor Registration (CCR). Le aziende descritte in quel dataset hanno di solito associato un indirizzo (Via, Civico, CAP, Città, Stato):

CCR Screenshot

Immaginiamo adesso di dover visualizzare un insieme di aziende su una mappa. Dobbiamo, in primo luogo, ottenere le coordinate geografiche della sede dell’azienda da un servizio di geolocalizzazione, come ad esempio quello offerto da Geonames:

Geonames search screenshot

Scommetto che la gran parte dei lettori sarebbe facilmente in grado di automatizzare la procedura. Sarebbe forse necessario un po’ di lavoro manuale, ma non troppo. Quindi va tutto bene, giusto?

Non proprio.

Un altro sviluppatore che voglia usare gli stessi dati sulle aziende e visualizzarli su una mappa dovrebbe rifare esattamente lo stesso lavoro: capire quale servizio di geolocalizzazione utilizzare, scrivere un po’ di codice, importare i dati e così via…

Non sarebbe piu intelligente, dal punto di vista del riuso, se il produttore originario dei dati (il CCR nel nostro esempio) desse un’occhiata ai propri dati e identificasse quali entità sono descritte nel dataset (le aziende) collegandole direttamente alla loro posizione geografica?

Questo è, in sostanza, quello che Tim dice riguardo al pubblicare Open Data a 5 stelle:

“Contestualizza i tuoi dati collegandoli a quelli di altri”

In breve: se pubblicate dei dati, riflettete su come contestualizzarli – collegateli ad altri dati presenti sul Web e li renderete piu’ utili e facilmente utilizzabili e, nel lungo periodo, molto piu’ usati.

P.s: Il titolo originario di questo post era “As we may link”, in omaggio a Vannevar Bush, ma poi ho pensato che fosse un po’ presuntuoso ;-)