dinsdag 16 juni 2015

Linked Open Data: modegrill of langetermijnvisie? #lodbieb

Ruben Verborgh, onderzoeker semantisch web, van de Universiteit Gent doet de aftrap van het programma. Hij zal ons vertellen waarom Linked Open Data een goed idee is.

Ruben knalt er meteen in: "XML is de toekomst. Alles moet in XML want dat is geschikt voor hergebruik, duurzaam etc. Dit was 15 jaar geleden de boodschap." Is LOD niet een soortgelijke hype is de vraag die hij gaat proberen te beantwoorden. Ook nu eerst maar eens wat basisbegrippen.
Volgens Ruben vormen links de essentie van informatie. Links vormen ook de essentie van het web. In beide gevallen zijn het vaak links die één richting op gaan. De link/relatie geven we een naam. Via de link is vervolgens meer informatie te vinden. Door het vervolgens te automatiseren worden dit heel krachtige mechanismen: computers zijn in staat door op te zoeken wat de link betekent dit vervolgens te interpreteren en vervolgens de juiste gegevens in de juiste context te plaatsen.
Ruben geeft aan dat opslagmethoden vanuit verleden nog steeds bruikbaar zijn. Tabellen en relationele databanken hebben rigide structuur en zijn heel bruikbaar in niet te complexe omgevingen. Rigide en beperkt door hun aard.
Vervolgens kwamen meta-opmaaktalen als XML om dit op te lossen. Grootste probleem hierbij is dat nog steeds geprobeerd wordt om alles in één hierarchie te stopppen. RDF lost dit op door volledige flexibiliteit en interoperabiliteit te bieden. RDF is de basis voor Linked Data.

Tim Berners-Lee definieerde 4 principes voor Linked Data:

  • gebruik URI's als naam voor dingen (kenmerk van een URI is dat deze nooit zal veranderen - voorkomt 404-pagina's)
  • door URI's als HTTP URL beschikbaar te maken zijn ze te zoeken
  • biedt informatie aan via standaarden als RDF en SPARQL
  • link naar andere dingen zodat er meer gevonden kan worden
Verder definieerde Berners-Lee 5 sterren systeem voor linked data:
*                    data is open beschikbaar op web
**                  data is in machineleesbare structuur
***                data beschikbaar als niet gesloten formaat
****               maakt gebruik van w3c standaarden
*****             heeft links naar andere datasets

Het aanbod van Linked Data is heel snel gegroeid de laatste paar jaren. DBpedia is hier een goed voorbeeld van. DBpedia is de RDF-versie van de Wikipedia. Check bijvoorbeeld.

Dan de overstap naar het semantische web. Dit is volgens Ruben een laag bovenop (maar wel geïntegreerd in) het web waardoor machines (intelligent agents) in staat zijn om met deze data dingen voor ons te doen. De agents kunnen werken met intelligente clients (verschillende databronnen, verschillende services) en zorgen voor automatische integratie.
Standaarden voor semantisch web zijn leuk, maar er zijn data en applicaties nodig. Hier zorgt Linked Data voor. Met name als je data vrij beschikbaar wil stellen is het belangrijk dat je deze aanbiedt op volgens de Linked Data principes.

Volgens Ruben hebben wel allemaal voldoende semi-gestructureerde data in tabellen/databases. Deze kunnen worden omgezet naar RDF, maar het is belangrijk om je te realiseren dat dit een continu proces is. Ook moet niet worden gestreefd naar perfectie, want dan ga je nooit starten.
Een tool die kan helpen om data beschikbaar te maken is Open Refine. Dit schoont je data, maar daarmee is het nog geen gelinkte, en daarmee voor machines bruikbare, data. Hiervoor is het nodig om te linken aan thesauri. Dit gebeurt door middel van reconciliation en kan vaak ook al automatisch worden uitgevoerd door Open Refine. Hierna kan de data verrijkt met de links al worden geëxporteerd als RDF.

Er zijn nog een aantal problemen rondom Linked Data. Grote vragen zijn op dit moment hoe integreren en gebruiken we deze. Er zijn publieke SPARQL endpoints, maar hier kleven problemen aan. Dit wordt op dit moment vaak omzeild door API's, maar dan wordt het aanbod ingeperkt (niet alles wordt via API aangeboden) en moet er geprogrammeerd worden om data te tonen. Uitdaging is om hier goede oplossingen voor te vinden. Hier worden wel stappen gemaakt door aantal technieken te combineren. Dit is nog in ontwikkeling, maar wordt wel steeds eenvoudiger zoals Ruben met aantal voorbeelden laat zien.



Links:
http://ruben.verborgh.org/
TED talk Ruben Verborgh
http://openrefine.org/
Linked data for libraries

Geen opmerkingen:

Een reactie posten