dinsdag 16 juni 2015

Linked Data voor uw bibliotheek! #lodbieb

Het wordt tijd om de link met de bibliotheken te maken. Wie kan dat beter dan Elsbeth Kwant van de Koninklijke Bibliotheek? Zij zal ingaan op vragen als "wat moet de bibliotheek met Linked Data" en "Waarom is de bibliotheeksector goed in Linked Data". Ik ben benieuwd of dit verhaal veel afwijkt van hetgeen David Weinberger hierover gemeld heeft tijdens het EMEA-congres van OCLC.

Elsbeth gaat door over lange termijn visie waar Ruben Verborgh over sprak, maar eerst even perspectief: we zijn pas heel kort geleden gestart met digitaliseren van content, daarom zijn ook nog niet overal uitgekristalliseerde antwoorden voor. Ook op dit terrein zitten we in een transitieperiode. Linked data is het vervolg voor bibliotheken om mensen te helpen bij het vinden van voor hun relevante informatie.

Wat heb je aan linked data?
Slimmer zoeken wordt mogelijk. Bijvoorbeeld in Delpher wordt gebruik gemaakt van een lexicografie die allerlei spellingsvarianten ondervangt bij het zoeken.
Verder zoeken wordt mogelijk doordat verbinding met andere bronnen gemaakt kan worden. Doordat je verbind met bronnen uit andere domeinen krijg je veel meer context bij je zoekvragen (verrijking van de antwoorden).


Ook Elsbeth geeft aan dat er erg veel voorwerk gedaan moet worden, maar daar wordt aan gewerkt. De GGC-data zijn bijvoorbeeld als linked data gepubliceerd. Verder is er wel veel beschikbaar, maar nog erg verspreid. De nationale strategie voor digitaal erfgoed is bedacht om hierin te voorzien. Echter het is heel veel werk. Data worden niet linked geboren, maar moeten linke worden gemaakt. Verbinden vereist werk, ook als dit geautomatiseerd wordt.
Vraag je af of er iets is dat jij alleen kunt of weet en concentreer je daar op. Dit zit meestal in je lokale netwerk en niet in de catalogus - want dat is al geregeld. De grote kracht van linked data zit in het verbinden van je eigen kennis met data uit andere domeinen en niet in verbeteren van de kwaliteit van de data in je eigen domein.
Enno Meijers van de KB roept bibliotheken op om in dit verband ook aan de slag te gaan met bijvoorbeeld kennis beschikbaar maken via Wikipedia. De bibliotheek is in dit verband de organisatie die de verbinding maakt en faciliteert.


Links
http://www.delpher.nl/
https://www.kb.nl/bronnen-zoekwijzers/dataservices-en-apis/ggc-thesauri-als-linked-data
http://www.rijksoverheid.nl/documenten-en-publicaties/publicaties/2015/03/09/nationale-strategie-digitaal-erfgoed.html

Linked Open Data: modegrill of langetermijnvisie? #lodbieb

Ruben Verborgh, onderzoeker semantisch web, van de Universiteit Gent doet de aftrap van het programma. Hij zal ons vertellen waarom Linked Open Data een goed idee is.

Ruben knalt er meteen in: "XML is de toekomst. Alles moet in XML want dat is geschikt voor hergebruik, duurzaam etc. Dit was 15 jaar geleden de boodschap." Is LOD niet een soortgelijke hype is de vraag die hij gaat proberen te beantwoorden. Ook nu eerst maar eens wat basisbegrippen.
Volgens Ruben vormen links de essentie van informatie. Links vormen ook de essentie van het web. In beide gevallen zijn het vaak links die één richting op gaan. De link/relatie geven we een naam. Via de link is vervolgens meer informatie te vinden. Door het vervolgens te automatiseren worden dit heel krachtige mechanismen: computers zijn in staat door op te zoeken wat de link betekent dit vervolgens te interpreteren en vervolgens de juiste gegevens in de juiste context te plaatsen.
Ruben geeft aan dat opslagmethoden vanuit verleden nog steeds bruikbaar zijn. Tabellen en relationele databanken hebben rigide structuur en zijn heel bruikbaar in niet te complexe omgevingen. Rigide en beperkt door hun aard.
Vervolgens kwamen meta-opmaaktalen als XML om dit op te lossen. Grootste probleem hierbij is dat nog steeds geprobeerd wordt om alles in één hierarchie te stopppen. RDF lost dit op door volledige flexibiliteit en interoperabiliteit te bieden. RDF is de basis voor Linked Data.

Tim Berners-Lee definieerde 4 principes voor Linked Data:

  • gebruik URI's als naam voor dingen (kenmerk van een URI is dat deze nooit zal veranderen - voorkomt 404-pagina's)
  • door URI's als HTTP URL beschikbaar te maken zijn ze te zoeken
  • biedt informatie aan via standaarden als RDF en SPARQL
  • link naar andere dingen zodat er meer gevonden kan worden
Verder definieerde Berners-Lee 5 sterren systeem voor linked data:
*                    data is open beschikbaar op web
**                  data is in machineleesbare structuur
***                data beschikbaar als niet gesloten formaat
****               maakt gebruik van w3c standaarden
*****             heeft links naar andere datasets

Het aanbod van Linked Data is heel snel gegroeid de laatste paar jaren. DBpedia is hier een goed voorbeeld van. DBpedia is de RDF-versie van de Wikipedia. Check bijvoorbeeld.

Dan de overstap naar het semantische web. Dit is volgens Ruben een laag bovenop (maar wel geïntegreerd in) het web waardoor machines (intelligent agents) in staat zijn om met deze data dingen voor ons te doen. De agents kunnen werken met intelligente clients (verschillende databronnen, verschillende services) en zorgen voor automatische integratie.
Standaarden voor semantisch web zijn leuk, maar er zijn data en applicaties nodig. Hier zorgt Linked Data voor. Met name als je data vrij beschikbaar wil stellen is het belangrijk dat je deze aanbiedt op volgens de Linked Data principes.

Volgens Ruben hebben wel allemaal voldoende semi-gestructureerde data in tabellen/databases. Deze kunnen worden omgezet naar RDF, maar het is belangrijk om je te realiseren dat dit een continu proces is. Ook moet niet worden gestreefd naar perfectie, want dan ga je nooit starten.
Een tool die kan helpen om data beschikbaar te maken is Open Refine. Dit schoont je data, maar daarmee is het nog geen gelinkte, en daarmee voor machines bruikbare, data. Hiervoor is het nodig om te linken aan thesauri. Dit gebeurt door middel van reconciliation en kan vaak ook al automatisch worden uitgevoerd door Open Refine. Hierna kan de data verrijkt met de links al worden geëxporteerd als RDF.

Er zijn nog een aantal problemen rondom Linked Data. Grote vragen zijn op dit moment hoe integreren en gebruiken we deze. Er zijn publieke SPARQL endpoints, maar hier kleven problemen aan. Dit wordt op dit moment vaak omzeild door API's, maar dan wordt het aanbod ingeperkt (niet alles wordt via API aangeboden) en moet er geprogrammeerd worden om data te tonen. Uitdaging is om hier goede oplossingen voor te vinden. Hier worden wel stappen gemaakt door aantal technieken te combineren. Dit is nog in ontwikkeling, maar wordt wel steeds eenvoudiger zoals Ruben met aantal voorbeelden laat zien.



Links:
http://ruben.verborgh.org/
TED talk Ruben Verborgh
http://openrefine.org/
Linked data for libraries

Linked Data, kun je dat eten? #lodbieb

We beginnen de dag met een snelcursus LOD door Marcel van Mackelenbergh in het dagelijks leven werkzaam bij de belastingdienst. Lid van het Platform Linked Data Nederland, een community met de ambitie om kennis en gebruik van linked data op een hoger niveau te brengen. Dat past dus mooi bij de doelstelling van het LOD-project in Brabant.
Zaaltje is goed gevuld met allerlei bibliotheekmedewerkers uit Brabant en Limburg die graag ingewijd willen worden in de wondere wereld van Linked Data. De toon wordt gezet met Sesamstraatfilmpje met verwarring over perspectiefwisseling tussen hier en daar - dat grote gelijkenis vertoont met de tekst van de veerpont van Drs. P: "de oever waar we niet zijn noemen wij de overkant, die wordt dan weer deze kant zodra we daar zijn aangeland".

Het filmpje illustreert de perspectiefwisseling die ook nodig is om linked date te kunnen begrijpen.
Vervolgens gaat Marcel in op de context van data: bijvoorbeeld adres voor gemeente mag niet op een vakantiepark zijn, waar de belastingdienst dit geen enkel probleem vindt. Dit geldt voor meer gegevens. Dit geldt zelfs voor de geboortedatum: in Turkije is de geboortedatum de dag van aangifte bij de burgerlijke stand. Elk begrip is op die manier op verschillende manieren te definiëren en de definitie hangt vaak af van het perspectief.

Linked data gaat volgens Marcel over samenwerking met anderen met behulp van informatie/gegevens. En dan is het lastig als iedereen zijn eigen definities gebruikt van allerlei begrippen. Hoe abstracter de concepten worden hoe slechter de definities van de begrippen over verschillende gegevensverzamelingen met elkaar in verband te brengen zijn. Linked data slaat daarom de definities en de mapping hiervan vanuit de verschillende domeinen over  en gebruikt meteen de begrippen zelf om met elkaar te verbinden. De begrippen worden gevonden: door ze apart aanwijsbaar te maken door middel van een "http://..." en de rest hierachter is variabel. Hier slaat de verwarring in de zaal toe, Dat is toch gewoon een webadres  - ja en nee zegt Marcel, maar dat is niet belangrijk. Ga het doen en ontdek wat er gebeurd.
Hiermee is de tijd om en gaan we naar de zaal waar we dieper over het fenomeen Linked Data zullen worden voorgelicht.



Linked Open Data en bibliotheken #lodbieb

Vandaag organiseert Cubiss bij Seats2Meet op Strijp-S in Eindhoven een bijeenkomst over Linked Open Data (hierna af te korten tot LOD).  De locatie vind ik in elk geval alvast aangenaam. Het programma voor vandaag ziet er ook veelbelovend uit, dus het beloofd een mooie dag te worden.

Binnen het Brabantse Bibliotheeknetwerk wordt al een tijdje nagedacht over manieren waarop bibliotheekcontent verbonden kan worden met andere informatie. In dit kader werd eind vorig jaar een succesvolle hackathon georganiseerd onder de naam Hack-a-LOD. Verder wordt vooral aan bewustwording gewerkt: wat is Linked Open Data en wat kunnen (moeten) bibliotheken hiermee. David Weinberger heeft hierover op het laatste EMEA-congres van OCLC een presentatie gehouden die dit wat mij betreft duidelijk maakt. De video duurt ruim een half uur, maar is zeer de moeite waard!

Verder is onder de titel "Samen Delen, Samen Spelen" een zeer leesbaar artikel geschreven door mijn collega's Marianne Hermans en Stephan Kienhuis waarin ze aangeven waarom bibliotheken hun data moeten openstellen en aan elkaar verbinden.

Ik ga vandaag proberen om via dit blog live verslag te doen van een aantal sessies, want ik ben er toch. Een aantal jaren geleden heb ik hier ook al een aantal blogposts aan gewijd en ik ben benieuwd of er vorderingen zijn gemaakt. Gezien het aantal opgaves en de achtergrond van de deelnemers is er in elk geval bredere belangstelling voor het onderwerp!