ORDINA BLOGT

Nog sexier met Linked Data?

Big Data is hot. Linked Data wordt nog hotter. Organisaties die het verschil willen maken zullen steeds vaker Linked Data-technieken gebruiken, bijvoorbeeld om hun product- en dienstencatalogus te publiceren.

  • 14 mei 2013

In een artikel over Big Data noemde de Harvard Business Review onlangs de functie van Data Scientist de 'Sexiest Job of the 21st Century'. Een Data Scientist kijkt hoe je in grotendeels ongestructureerde bergen ('big') data bruikbare informatie kunt vinden. Maar voorlopig zijn de meeste organisaties nog zoekend naar wat ze precies willen met Big Data. En intussen vind ik een andere trend veel interessanter worden: het online publiceren van sets gestructureerde data - die dan vervolgens automatisch door apps en andere computerprogramma’s gecombineerd en gefilterd kunnen worden.

Open Data

Sinds een jaar of vijf groeit de overtuiging bij openbare instellingen zoals overheden, bibliotheken en musea dat de gegevens die zij beheren ook openbaar toegankelijk moeten zijn. Ze brengen dat in praktijk door die gegevens op internet te zetten, niet als tekst op een webpagina, maar in een gestructureerd formaat. En liefst zonder belemmeringen zoals licenties, dus bijvoorbeeld als CSV-file. Dit heet dan Open Data.

Ook steeds meer commerciële organisaties – neem openbaar vervoerbedrijven – stellen belangrijke data open. Vervolgens kunnen allerlei derde partijen snel, simpel en goedkoop apps in de markt zetten die deze Open Data op een handige manier presenteren.

Linked Open Data

De volgende stap is Linked Open Data (LOD): Open Data van verschillende bronnen automatisch kunnen koppelen. Een veel geciteerde toepassing (zie het Venus fimpje) is om gerichter naar informatie te kunnen zoeken dan met Google. Maar je kunt ook denken aan slimme apps die zelf verschillende soorten informatie bij elkaar zoeken. Zoals bij een makelaar-app waarvan je bij elk pand dat in de aanbieding is een automatisch overzicht krijgt van kadastrale gegevens, vuilnisophaaltijdstippen, tarieven van gemeentelijke heffingen, sociaal-economische informatie van het betreffende postcodegebied, de afstanden tot lokale supermarkt, NS-station, hockeyclubs en middelbare scholen, en doe daar dan ook maar meteen de meest recente Elsevier-scores van.

Dat is makkelijk gezegd, maar is het koppelen van informatie niet juist de achilleshiel van IT? Meerdere 'unieke' voorkomens, onverenigbare datamodellen en dubbelzinnige definities zorgen in de regel voor hoge kosten van integratieprojecten en voor aanzienlijke afbreekrisico’s bij Business Intelligence-initiatieven. Hoe regel je dat dan ook nog eens op www-schaal?

Om die horde te nemen is het Semantic Web ontwikkeld.

Hoe werkt het Semantic Web?

In plaats van klassieke tabelstructuren (waarvan de definities op elkaar moeten aansluiten als je de betreffende gegevens wilt koppelen), gebruikt het Semantic Web zogenaamde triples. Een triple kun je zien als een geïsoleerde rij ID + kolom ID + celwaarde van een relationele tabel. Relaties tussen triples (zeg maar: het database-schema) die worden ook met triples aangegeven.

In triple formaat maak je dus alle datastructuren 'compatibel'. Bovendien worden rijen gekoppeld aan unieke resource identifiers (URI) en worden kolommen (attributen) zoveel mogelijk gedefinieerd op basis van wereldwijde standaard vocabulaires zoals Dublin Core en FOAF. Minimale kans op dubbelzinnigheid dus.

ABC’tje

Op deze manier koppelt het Semantic Web 'producenten' en 'consumenten' van Open Data, zonder dat die elkaar hoeven te kennen. Als 'producent' publiceer je gegevens die je toch al ergens had staan. Technisch een ABC’tje. De grootste hobbel is de gewetensvraag of je wel 'open' wilt gaan. Als 'consument' bevraag je de zo gepubliceerde datasets met standaard en (ook hier:) simpel te implementeren technieken. Stel je voor: mét geïntegreerde metadata en zónder lastige logistiek als toegangsrechten, security, transformatie, opslag, etc. Een app heb je zó gebouwd en marktwerking doet de rest.

Commercieel voordeel van Linked Data

De commerciële drijfveer om 'semantisch' te publiceren is dezelfde als bij traditionele publicatie op internet: bekendheid en conversie. Zorgen dat potentiële klanten je producten en diensten kunnen (lees: zullen) vinden, beoordelen en bestellen. En Linked Open Data is een prima voedingsbodem voor het ecosysteem daaromheen zoals vergelijkingssites, communities en kwaliteitsorganisaties.

Killer-app is natuurlijk de app waarmee je, zeg, je tuin opnieuw ontwerpt en die met de door jou gekozen kleuren voor de borders zelf een boodschappenlijst samenstelt met de juiste bollen, planten, zakken tuinaarde, mest, graszoden en eventueel benodigd gereedschap, allemaal uitgezocht op voorraad bij het tuincentrum in de buurt met de voordeligste weekaanbiedingen.

Natuurlijk kun je dit soort automatische webinteractie ook realiseren met al langer gebruikte technieken (open APIs). Maar Linked Data is een stuk simpeler en flexibeler.

Resterende uitdaging

Blijft de complexiteit van queries op Linked Data. Triples maken verschillende datasets technisch eenvoudig koppelbaar, maar de inhoud blijft ingewikkeld. Een deel van de compatibiliteitsproblematiek wordt zo doorgeschoven van het maken van koppelvlakken naar het opstellen van queries. Die kunnen daarom al gauw behoorlijk ingewikkeld worden. Een passende uitdaging voor Data Scientists. We zullen zien of de verleiding van 'Linked' kan tippen aan die van 'Big'.