Semantic Web revisited.

    Autor – Andreas Blumauer, Geschäftsführer der Semantic Web Company GmbH

    Als Tim Berners-Lee, Direktor des World Wide Web Konsortiums, im Jahre 2001 von ‚Semantic Web Agents‘ sprach [1], die untereinander vollautomatisch Informationen austauschen können, um komplexe Prozesse zu beschleunigen, war wohl selbst die Wissenschaft nicht davon überzeugt, ob diese visionäre Sicht auf das World Wide Web jemals das ‚Science Fiction‘-Stadium überschreiten würde. Wie so oft entsteht aus Vision Forschung, und aus Forschungsprojekten entstehen Produkte, wobei diese Entwicklung keineswegs als linearer Prozess zu verstehen ist.

    13 Jahre später: Was ist von Berners-Lee’s Vision geblieben?

    Technologien kommen aus Sicht der Konsumenten oft ‚plötzlich‘ auf den Markt, doch zuvor sind es ‚schleichende Prozesse‘, die dazu führen. Genau so verlief die Entwicklung des Semantic Web: Zunächst enthusiastisch gefeiert, dann oftmals tot gesagt und schließlich fast vergessen. Was oft verwechselt wird, sind die Berichterstattung über eine technologische Entwicklung und die Entwicklung selbst. Wurde das ‚Web 2.0‘, das viel weniger abstrakt als das Semantic Web zu verstehen ist, von der Fachpresse und Konferenzveranstaltern gebührend ausgeschlachtet, so konnte man mit dem ‚Web 3.0‘ nicht so recht umgehen [2]. Die Gründe dafür sind mannigfaltig, vier davon sind jedoch besonders hervorzuheben:

    • Das Thema zielt viel mehr als das Web 2.0 auf systemische Optimierungen ab, die durch Standardisierung und Netzwerkeffekte erzielt werden, was naturgemäß schwerer zu beobachten ist und erst allmählich, dafür aber nachhaltig seine Wirkung entfaltet.
    • Das Semantic Web ist eine Backend-Technologie, z.B. um Content-Erstellungsprozesse zu optimieren, was oftmals nicht unmittelbar an der Benutzeroberfläche sichtbar wird.
    • Mit dem Begriff ‚Semantic Web‘ wurden zu hohe und oftmals auch falsche Erwartungshaltungen erzeugt. Nachdem das W3C im Jahr 2006 begonnen hatte, das Thema unter dem Begriff ‚Linked Data‘ zu entwickeln [3], wurde das ‚Semantic Web‘ vor allem für Datentechniker anschlussfähig. Im Gegenzug verblasste die Diskussion allmählich, ob Ontologien im semantischen Web auch ‚richtige‘ Ontologien wären. Der Grundstein für handfeste Linked Data-Anwendungen war also gelegt.
    • Der akademische Touch, der lange Zeit dem Semantic Web anhaftete, verhinderte naturgemäß, dass die Software-Industrie das Thema im größeren Stil aufgreifen würde. Nachdem bedeutende Datenbankhersteller wie IBM, Oracle, MarkLogic, OpenLink oder Neo4j die Standards, vor allem SPARQL, nun implementiert haben, hat sich das Blatt gewendet: Linked Data-Anwendungen haben nun nicht nur im Public Web, sondern auch im Intranet großer Unternehmen, vorwiegend als Datenintegrations-Technologie, eine wachsende Bedeutung.

    Der Schritt hin zu den automatisch interagierenden semantischen Agenten ist also immer noch ein großer. 13 Jahre nach Berners-Lee’s Vision und 1,5 Millionen Publikationen über das Semantic Web später [4], zielen aktuelle Linked Data-Anwendungen vielmehr auf die semi-automatische Erstellung integrierter Sichten auf heterogene Daten- und Informationsbestände ab und betreffen zahlreiche Aspekte im Content-Verwertungsprozess.

    art3_bild1
    Bild 1: Fünf Aspekte im Content-Verwertungsprozess

    Wo kommen Linked Data-Anwendungen zum Einsatz?

    Segment 1: Linked Open Data in der Verwaltung
    Nachdem spätestens 2009 das W3C alle wesentlichen Semantic Web-Standards publiziert hatte [5], waren es die US-Amerikanische [6] und die Britische Regierung [7], die mit der Veröffentlichung ihrer jeweiligen Linked Open Data-Portale dem Thema schließlich jenen ‚offiziellen’ Touch verliehen haben, der notwendig ist, um eine derart vielschichtige Basis-Infrastruktur entwickeln zu können.

    Unter Slogans wie „Data is the oil of the 21st century“ folgten die Europäische Union [8] oder supra-nationale Organisationen wie die Weltbank [9] mit ihren Linked Data-Projekten. Bald gab es kaum eine namhafte Verwaltungseinheit, die nicht als Nachahmer auftrat, die publizierte Datenqualität war jedoch äußerst durchwachsen. Mit Data-Hackathons und ähnlichen Initiativen wurde die Entwicklung von Apps, basierend auf dieser neuartigen Datenbasis, stimuliert. Der Stein war ins Rollen gebracht und allmählich kristallisiert sich nun ein neues Daten- und Informations-Ökosystem heraus.

    Segment 2: Semantic Web in Bibliotheken, Museen und Archiven
    Im Windschatten des Europäischen Großprojekts Europeana [10], das u.a. das Ziel verfolgt, eine europäische Gesamtschau auf Kunst- und Kulturbestände des Kontinents zu entwickeln, wurden Anwendungen realisiert, die nicht nur verbesserte Suchwerkzeuge zum Gegenstand haben, sondern vor allem kosteneffiziente Methoden zum Metadaten-Management quer über heterogene und mehrsprachige Datenbestände. Die zunächst steile Lernkurve, hier Linked Data-Technologien einzusetzen, wurde mittlerweile überwunden. Im Schneeballeffekt wurden zahlreiche Organisationen animiert, das Linked Data-Paradigma fortan stets als Basis für Branchenlösungen im Umfeld des Informationsmanagements in Bibliotheken einzusetzen [11].

    Interessant dabei ist auch das Streben zahlreicher Bibliotheken, als ‚Leuchttürme’ in der Linked Open Data-Cloud wahrgenommen zu werden. Dazu als Beispiel eine zentrale Absicht des Linked Data-Service der Deutschen Nationalbibliothek [12]: “Mit ihren qualitativ hochwertigen Daten beabsichtigt die Deutsche Nationalbibliothek, eine der tragenden Säulen des semantischen Netzes zu werden.” Ein lebendiges Beispiel dieses Vorhabens ist auch der “STW – Standard Thesaurus Wirtschaft” [13], der als Linked Open Data-Quelle verfügbar ist und hochgradig mit anderen Quellen verknüpft ist, u.a. mit DBpedia [14], der Gemeinsamen Normdatei (GND) [15] der Deutschen Nationalbibliothek oder dem Arbeitsrechtsthesaurus von Wolters Kluwer [16]. Der STW kommt z.B. in der Datenbank EconBiz [17] zum Einsatz und ermöglicht dort eine gezielte thematische Recherche. Ein anderes Beispiel für dieses Prinzip ist die Veröffentlichung der alt-ehrwürdigen Getty Vocabularies als Linked Open Data [18].

    Segment 3: Semantisches Metadaten-Management in Unternehmen
    Naturgemäß setzen Unternehmen erst dann neue Technologien ein, wenn der Nutzen eindeutig zu beziffern ist. Große Fachverlage wie Wolters Kluwer gehören dabei zu den Pionieren, die sich mit dem Einsatz von Linked Data-Technologien völlig neue Produktions- und Absatzmöglichkeiten ihrer Inhalte erschließen können [19].

    Unternehmen, deren Kerngeschäft nicht das Bereitstellen von Wissen ist, sondern der Einsatz von unternehmensinternem Wissen zur Produktion hochwertiger Güter, z.B. im Dienstleistungs- oder Finanzsektor oder im Pharma oder High-Tech Bereich, setzen ebenfalls mehr und mehr auf verlinkte Informationen. Dabei kommen vorwiegend Wissensgraphen zum Einsatz, die mit Hilfe der automatischen Textanalyse auch mit umfassenden Dokumentbeständen verknüpft werden können. Wesentliche Merkmale von dabei eingesetzten Softwareprodukten wie z.B. dem PoolParty Thesaurus Server [20] sind die verhältnismäßig einfache Bedienbarkeit der Modellierungsumgebung, was vor allem in den ersten Jahren des Semantic Web am Softwaremarkt nicht angeboten war.

    art3_bild2
    Bild 2: PoolParty Thesaurus Server

    Segment 4: Semantic Web und Marketing
    Spätestens dann, wenn Marketing und Verkauf ‚Morgenluft wittern’, beginnen Unternehmen in entsprechende Technologien zu investieren. Ein Trend dahin ist u.a. in folgenden Teilbereichen zu erkennen:

    • Linked Data wird dazu eingesetzt, um verschiedene Taxonomien (z.B. Google Produkt Taxonomie [21]) mit internen Produkt-Taxonomien zu verknüpfen
    • Kundenprofile und Produkte werden mit Hilfe Linked Data-basierter Empfehlungssysteme miteinander verknüpft (Stichwort: Semantic Matchmaking)
    • Suchmaschinenoptimierung: Google unterstützt immer mehr Formate entlang von Schema.org, um strukturierte Informationen in Webseiten indizieren zu können. Neben Microdata und RDFa, das in HTML eingebettet werden muss, werden nun mit JSON-LD auch strukturierte Datenblöcke indexiert, die vom HTML-Dokument mehr oder weniger unabhängig publiziert werden können [22].

    Die gemeinsame Klammer: Information vernetzen und damit die Qualität steigern!

    In einer Welt, die geprägt ist von überbordenden Informationsmengen, werden Mechanismen immer wichtiger, die zwischen relevanten und irrelevanten Informationen unterscheiden können. Diese Eigenschaft einer Informationseinheit ist jedoch keineswegs statisch und außerhalb eines bestimmten Kontexts entscheidbar. Was sich heute für meine gegenwärtige Situation als wertvolle Information erweist, ist morgen vielleicht schon wieder obsolet.

    Umso wichtiger werden Referenzierbarkeit und feingranulare Aufbereitung von Informationseinheiten, da der Schlüssel zur Informationsqualität in der Verknüpfbarkeit liegt, sowohl aus Sicht des Produzenten, als auch des Konsumenten. Linked Data-Standards, die die Bildung eines globalen Informations- und Daten-Ökosystems begünstigen, sind die Basis dafür, dass auch organisationsübergreifende Kollaboration, vor allem in vielschichtigen Sektoren wie Biomedizin, High-Tech Manufacturing oder erneuerbare Energien, begünstigt werden.

    www.semantic-web.at

    Andreas Blumauer, Geschäftsführer der Semantic Web Company GmbH. Die Semantic Web Company ist ein anerkannter Pionier im Semantic Web und bietet seit 2009 ein erfolgreiches Produkt am globalen Markt semantischer Technologien an: Mit der PoolParty Semantic Suite gelingt es, unternehmensinterne und -externe Informationsbestände sinnvoll zu verknüpfen und komfortabel durchsuchbar zu machen. Wissensarbeiter profitieren von intelligenteren Software-Anwendungen.

    Quellenhinweise

    [1] http://www.scientificamerican.com/article/the-semantic-web/
    [2] Mit dem Begriff ‚Web 3.0‘ in Anlehnung an Web 2.0 wurde der Versuch gestartet, das Semantic Web als niederschwellige, ‚benutzerfreundliche‘ Technologie zu inszenieren
    [3] http://www.w3.org/DesignIssues/LinkedData.html
    [4] http://scholar.google.de/scholar?q=semantic+web
    [5] http://www.w3.org/standards/semanticweb/
    [6] http://www.data.gov/
    [7] http://data.gov.uk/
    [8] https://open-data.europa.eu/de/linked-data
    [9] http://vocabulary.worldbank.org/
    [10] http://www.europeana.eu/
    [11] Liste von Linked Data Quellen in Bibliotheken: http://datahub.io/dataset?tags=lld
    [12] http://www.dnb.de/lds
    [13] http://zbw.eu/stw/
    [14] http://dbpedia.org/
    [15] http://www.dnb.de/gnd
    [16] http://vocabulary.wolterskluwer.de/
    [17] http://www.econbiz.de/
    [18] http://www.getty.edu/research/tools/vocabularies/lod/
    [19] Linked Data – das Ende des Dokuments? (http://dokmagazin.de/themen-13-06_linked-data-das-ende-des-dokuments)
    [20] http://www.poolparty-software.com
    [21] https://support.google.com/merchants/answer/1705911?hl=de
    [22] JSON-LD, the Google Knowledge Graph and schema.org SEO (http://www.seoskeptic.com/json-ld-google-knowledge-graph-schema-org-seo/)