Linked Data – das Ende des Dokuments?

Autoren: Andreas Blumauer, Geschäftsführer Semantic Web Company GmbH und Christian Dirschl, Bereichsleiter Content Strategie and Architecture, Wolters Kluwer.

Dokumente waren bisher stets das zentrale Informationsträger- und Präsentationsmedium zur Wissensvermittlung. Doch dieses rein sequentielle, ausschließlich intellektuell interpretierbare Format reicht in einer zunehmend vernetzten und komplexer werdenden Welt offensichtlich nicht mehr aus. Die Bedeutung des Dokuments, vor allem im Sinne eines Speichermediums, könnte sich demnächst drastisch ändern könnte.

Semantische Technologien und Semantic Web werden oft in einem Atemzug genannt, obwohl wesentliche Unterschiede bestehen: Geht es in beiden Fällen darum, Informationen und ihre Bedeutung verarbeiten zu können, so dreht sich im Semantic Web alles um die Frage, wie Entitäten (Produkte, Organisationen, Orte, etc.) sinnvoll miteinander verknüpft werden können. Die zugrundeliegenden ‚Linked-Data-Technologien‘ setzen dabei am Paradigma der größtmöglichen Interoperabilität an und verwenden im Kern so genannte Wissensgraphen.

Zusätzlich zum allgemein bekannten ‚Web of Documents‘, dessen wesentliches Merkmal Hypertext ist, entwickelt sich also ein ‚Web of Data‘ (Semantic Web), in dem nicht mehr das Dokument im Mittelpunkt steht, sondern vielmehr Entitäten unterschiedlicher Kategorien, ihre verschiedenen Bezeichnungen (in unterschiedlichen Sprachen) und ihre Relationen zueinander.

Der Grundstein für das Web of Data wurde durch die Linked-Data-Initiative [1] von Tim Berners-Lee gelegt, der ein einfaches Framework, bestehend aus vier Regeln, entwickelt hat, um damit eine weltweite, verteilte Datenbank, eben das Web of Data realisieren zu können. Unter Berücksichtigung der Linked-Data-Prinzipien wurde daraufhin als Nukleus für ein Web of Data die DBpedia [2] veröffentlicht, die inzwischen in 119 Sprachen verfügbar ist. Als ‚semantische Schwester‘ der Wikipedia bildet sie den Kern der stetig wachsenden ‚Linked Open Data Cloud‘ (LOD Cloud), einem gigantischen Wissensgraphen, der nun allmählich in Organisationen eindringt und dort um unternehmensspezifisches Wissen erweitert wird.

art2_1

Bild 1: Ausschnitt aus einem Wissensgraphen zum Thema Arbeitsrecht

 Überblick über Funktionsweise von Linked-Data-Graphen

Die Basis aller Linked-Data-Graphen bilden Uniform Resource Identifier (URIs), die sämtliche Entitäten des Wissensgraphen eindeutig identifizierbar machen: Beispielsweise lässt sich die ‚Semantic Web Company‘ im Web of Data mit der URI http://dbpedia.org/resource/Semantic_Web_Company eindeutig referenzieren. Diese Entitäten-orientierte Sichtweise auf Informationen in Kombination mit automatischen Text-Extraktionsverfahren ermöglicht es, Informationsbestände und Dokumente mit Metadaten anzureichern, die quellenübergreifend verstanden werden. Semantische Metadaten werden also konsequent vom Inhalt entkoppelt verarbeitet.

Dieses Grundprinzip macht auch Google für sich nutzbar, indem auf Basis des Google Knowledge Graphs [3] Webinhalte indexiert und verknüpft werden. Damit können beliebige unstrukturierte Informationen als semantischer Graph repräsentiert werden. Für jede Entität werden auf Ebene des Wissensgraphen zunächst Relationen wie z.B. ‚Andreas Blumauer ist CEO von Semantic Web Company‘ oder ‚Semantic Web Company gehört zur Kategorie österreichische Softwareunternehmen‘ hinterlegt. In weiterer Folge können Entitäten mittels voll- oder halbautomatischer Verfahren mit Dokumenten aller Art, z.B. Nachrichten angereichert werden. Daraus ergeben sich so genannte Topic- oder Landing Pages in Form dynamischer Mashups.

Semantic Web in Unternehmen: Einsatzszenarien und Anwendungsfälle

Die BBC als europäisches Leitunternehmen hat 2008 schließlich mit BBC Music [4] das erste kommerzielle Projekt vorgestellt, das unter Verwendung von Linked Data aufzeigt, welche neuartigen Verwertungsstrategien für Medienunternehmen mit Hilfe des Semantic Web möglich werden. Es folgten zahlreiche weitere Medienunternehmen wie Wolters Kluwer oder Elsevier, aber auch Betriebe aus Branchen wie der Automobilindustrie, der Pharmaindustrie oder der öffentlichen Verwaltung [5], die Linked-Data-Technologien intern und extern für verschiedene Aufgaben des Informationsmanagements einsetzen. Insbesondere öffentliche Einrichtungen wie Ordnance Survey (UK), die Europäische Union, die Weltbank oder Bibliotheken wie die Deutsche Nationalbibliothek tragen immer mehr zur Verbreitung von Daten auf Basis von Linked-Data-Standards bei. Das Semantic Web hat also begonnen, Einzug in diverse Branchen zu halten.

Nun können drei grundlegende Szenarien für den unternehmerischen Einsatz von Linked Data unterschieden werden:

  1. Daten in die Linked Data Cloud publizieren
    Das Unternehmen publiziert eigene Daten und Inhalte in die Linked Data Cloud und erschließt sich damit neue Distributionswege für digitale Assets.
  2. Linked Data als Datenintegrationsprinzip anwenden
    Das Unternehmen verwendet die Linked-Data-Prinzipien und Semantic-Web-Technologien intern, um Datenintegration und Mashups (z.B. für ein Wissensportal) zu realisieren bzw. neue Möglichkeiten einer semantischen Suche zu erschließen.
  3. Daten aus der Linked Data Cloud einbinden
    Das Unternehmen konsumiert Daten aus der Linked Data Cloud, um damit z.B. interne Datenbanken oder Inhalte anzureichern.

Die folgenden Anwendungsfälle orientieren sich an den dargestellten drei Szenarien:

Anwendungsfall 1: Mitarbeiterportal

Mitarbeiterportale sind wesentlicher Bestandteil eines Wissensmanagement-Systems und bieten vor allem bei der Informationsbeschaffung einen zentralen Anlaufpunkt für jeden Mitarbeiter. Ob nun eine Datenbank- und anwendungsübergreifende integrierte Sicht auf die betriebliche Informationslandschaft am Portal erzeugt werden kann, hängt davon ab, ob Doppelgleisigkeiten beim Aufbau von Referenz- und Identifikations-Systemen vermieden werden können.

Ein Beispiel dazu: Wird in der einen Datenbank von „Kunde“ gesprochen, in der anderen aber vom „Klienten“, so beziehen sich zwar beide Bezeichner auf dasselbe Geschäftsobjekt, jedoch bleibt der Maschine diese Beziehung verborgen. Eine übergreifende Suche nach allen Kunden oder die ganzheitliche Sicht auf einen Kunden ist damit nicht möglich. Ausweg aus dieser in der Praxis häufig anzutreffenden Situation kann wiederum ein URI-System bieten: Jede Ressource ist via Uniform Resource Identifier (URI) eindeutig gekennzeichnet und adressierbar. Mit geeigneten Statements kann festgehalten werden, dass sich zwei verschiedene URIs eigentlich auf dieselbe Ressource beziehen.

Damit ist die Basis zur Entwicklung kontextsensitiver, ‚mitdenkender‘ Widgets für ein Mitarbeiterportal gelegt: Inhalte, die von Mitarbeitern eingestellt werden und über ein Tagging-System, das auf Basis eines SKOS-basierten Thesaurus [6] funktioniert, annotiert werden, können mit anderen Inhalten aus dem Intranet intelligent verknüpft werden. So kann z.B. die Suche nach ähnlichen Inhalten realisiert werden, was dabei hilft, Doppelarbeiten zu vermeiden und weiterführende Quellen zu erschließen.

Anwendungsfall 2: Content Augmentation

Content Augmentation bezeichnet jenen Vorgang, in dem Inhalte, die von Autoren oder Mitarbeitern z.B. im Rahmen eines Enterprise-Content-Management-Systems erstellt werden, mit anderen Inhalten angereichert werden. Diese zusätzlichen Inhalte, die z.B. aus Internetquellen wie Wikipedia, aus Nachrichtendiensten oder aus statistischen Zeitreihen, womöglich in Form von Open Data, bezogen werden können, dienen dazu, dem ursprünglichen Inhalt zusätzliche Kontextinformationen hinzuzufügen.

Dies kann einerseits für den Leser bedeuten, dass dieser gewinnbringende Zusatzinformationen ohne weiteren Rechercheaufwand beziehen kann, andererseits können diese zusätzlichen Daten dazu dienen, die Inhalte mit weiteren Metadaten aufzuwerten, was wiederum zu einer verbesserten Ähnlichkeitssuche führen kann. Inhalte aus dem Mitarbeiterportal können z.B. mit Fakten aus Geo-Datenbanken wie Geonames [7] angereichert werden. So können z.B. übersichtliche Kartendarstellungen eingebunden werden.

Anwendungsfall 3: Market Intelligence

Mit Hilfe integrierter Sichten und mittels Content Augmentation, der zielgerichteten Anreichung von Dossiers mit Inhalten aus dem Web oder aus anderen Datenquellen, können u.a. folgende Market-Intelligence-Funktionen unterstützt werden:

  1. Innovationsfunktion und Trend Scouting
    Chancen und Entwicklungen werden frühzeitig aufgedeckt und antizipiert.
  2. Unsicherheitsreduktionsfunktion durch verbesserte Kontextualisierung
    Durch die Präzisierung und Objektivierung von Sachverhalten bei der Entscheidungsfindung wird eine typischerweise schlecht strukturierte Problemstellung besser beherrschbar.
  3. Selektionsfunktion
    Relevante Informationen können aus der Flut umweltbedingter Informationen besser ausgewählt werden.
  4. Prognosefunktion
    Veränderungen des marktrelevanten Umfelds können besser abgeschätzt und deren Auswirkungen auf das eigene Geschäft durch semantisches Trend Mining aufgezeigt werden.

art2_2

Bild 2: „sOnr webMining“ [8] als Beispiel für eine auf Linked Data basierende Market Intelligence Anwendung

Die Bedeutung von Linked Data für Medienunternehmen

Der weltweite Umbruch in der Medienindustrie macht aus Verlagen Informationsdienstleister, bei denen die Inhalte einen gewichtigen, aber nicht mehr den wichtigsten Faktor für zukünftigen Geschäftserfolg darstellen. Zusatzinformationen und Mehrwertdienste sind inzwischen entscheidender für die Content-Nutzung. Denn die besten Inhalte sind wertlos, wenn man sie nicht finden oder sofort anwenden kann! Linked Data kann bei diesem Wandel gleich zwei Fliegen mit einer Klappe schlagen: Man bekommt einerseits die passende Technologie und andererseits wichtige Informationen zur Content-Anreicherung, die man nicht kostspielig selbst entwickeln muss!

Wolters Kluwer setzt im Content-Verarbeitungsprozess Linked-Data-Technologien ein, um z.B. die Zusatzinformationen unabhängig vom (XML-)Text in einem flexiblen Triple Store (Virtuoso) greifbar und einfach untereinander und mit externen Quellen (wie Wikipedia oder Daten der Deutschen Nationalbibliothek) verknüpfbar zu machen. Zum anderen nutzen wir mit PoolParty [9] ein Managementtool, um Datenstandardisierung und -weiterentwicklung voranzutreiben. Hier sind all unsere Domänenwissensmodelle wie juristische Thesauri und Taxonomien, aber auch Informationen zu Autoren und deren Veröffentlichungen aus Sicht eines Endkunden (und nicht aus Sicht des Abrechnungssystems!) hinterlegt. So kann der Kunde im Endprodukt nach dieser Information suchen oder filtern.

Ebenso können wir als globaler Konzern zum ersten Mal international über Sprach- und Ländergrenzen hinweg effizient Content-basierte Produkte entwickeln, da wir diese selbst in den Ländern nicht anpacken, sondern nur das Wissen über die Inhalte semantisch und wo immer möglich standardisiert verarbeiten.

Die Komplexität in der gesamten Wertschöpfungskette erhöht sich immer mehr, da Informationen aus immer mehr Quellen an verschiedenen Stellen erstellt, verwaltet, weiterentwickelt und verknüpft werden müssen. Dieser Herausforderung muss man sich aber stellen, wenn man auch in Zukunft gegen die „großen 3“ Google, Amazon und Apple konkurrenzfähig bleiben will. Linked Data und Linked-Data-Technologien sind aus unserer Sicht für das Meistern dieser Aufgabe prädestiniert und helfen uns schon heute operativ in unserer täglichen Arbeit.

Fazit

Eine vollständig integrierte Sichtweise auf ein Corporate Semantic Web kann nur dann gelingen, wenn ein Unternehmen als Organisation begriffen wird, die Inhalte, Prozesse und Informationen nicht nur innerhalb der Unternehmensgrenzen produziert und einsetzt, sondern im Sinne eines vernetzten Unternehmens im Ökosystem Internet agiert. Interne und externe Inhalte sinnvoll und kostenschonend zu verknüpfen, kann nur in einem interoperablen Framework wie dem Semantic Web gelingen. Der Einsatz von Semantic-Web-Technologien im Unternehmen kann daher aus zwei Perspektiven betrachtet werden: aus Sicht der Content-Verwertung und aus Sicht der Prozessunterstützung.

Im Rahmen der Content-Verwertung dienen Semantic-Web-Standards und Methoden der einheitlichen Strukturierung und Anreicherung von Datenbeständen. Sie ermöglichen es, ähnliche oder verwandte Objekte miteinander in Beziehung zu setzen und besser auffindbar zu machen. Bei der Prozessunterstützung nutzen unterschiedliche Services die wohlstrukturierte Datenbasis, um einerseits bestehende Dienste zu verbessern oder neue hervorzubringen, was häufig unter dem Thema „betriebliches Wissensmanagement“ subsumiert wird. Im Zentrum der aktuellen Entwicklung stehen zwar noch immer Such- und Empfehlungsdienste, die noch stark an der klassischen Dokumentphilosophie haften, jedoch findet allmählich eine Transformation hin zum ‚Web of Data‘ auch innerhalb von Unternehmensgrenzen statt.

Mit zunehmender Verbreitung und Verfügbarkeit von semantischen, weitreichend interoperablen Metadaten wird sich dieser Trend noch stärker beschleunigen. Denn die Granularität der Referenzierbarkeit wird laufend zunehmen und nicht mehr nur das Dokument, sondern Sichten auf Entitäten und die intelligente Kompilation von Fakten werden sich zu einem wichtigen Bestandteil im unternehmerischen Alltag entwickeln.

Literaturhinweise:

[1] http://www.w3.org/DesignIssues/LinkedData.html

[2] http://dbpedia.org/

[3] http://www.google.com/insidesearch/features/search/knowledge.html

[4] http://www.bbc.co.uk/music

[5] http://www.w3.org/2001/sw/sweo/public/UseCases/

[6] http://www.w3.org/2004/02/skos/

[7] http://www.geonames.org

[8] http://www.sonr-webmining.com

[9] http://www.poolparty-software.com

www.semantic-web.at

Andreas Blumauer, Geschäftsführer der Semantic Web Company GmbH. Die Semantic Web Company ist ein anerkannter Pionier im Semantic Web und bietet seit 2009 ein erfolgreiches Produkt am globalen Markt semantischer Technologien an: Mit der PoolParty Semantic Suite gelingt es, unternehmensinterne und -externe Informationsbestände sinnvoll zu verknüpfen und komfortabel durchsuchbar zu machen. Wissensarbeiter profitieren von intelligenteren Software-Anwendungen.

www.wolterskluwer.de

Christian Dirschl, Bereichsleiter Content Strategy and Architecture bei Wolters Kluwer. Wolters Kluwer ist in Deutschland einer der führenden Wissens- und Informationsdienstleister in den Bereichen Recht, Wirtschaft und Steuern. Wir bieten qualitativ hochwertige Fachinformationen für den professionellen Anwender und verbinden diese mit digitalen Lösungen und Anwendungen. Damit können unsere Kunden erfolgskritische Entscheidungen effizient treffen und ihre Produktivität nachhaltig steigern.