‚Semantic Publishing‘ im Netz der Linked Open Data

    Prof. Dr. Stefan Gradmann, Inhaber des Lehrstuhls für Wissensmanagement und semantisch basierte Wissensarchitekturen am Institut für Bibliotheks- und Informationswissenschaft der Humboldt-Universität zu Berlin

    Michael Dreusicke, Geschäftsführer der PAUX Technologies GmbH

    Stefan Geißler, Geschäftsführer TEMIS Deutschland GmbH und Mitgründer von TEMIS.

    Publikationsformate, wissenschaftliche Publikationen, Semantic Enrichment, Textanalyse, Content Management, Granularität

    Mit der sich schließenden “Gutenberg-Klammer” (Thomas Pettitt) verlässt das wissenschaftliche Publizieren ein Paradigma. Dieses war geprägt von ‚Text’, dessen linear-sequentieller Aufbau und von relativ komplexen, monolithischen Publikationsformaten wie Aufsatz und Monographie. Die einzige Standard-Binnenstruktur dieser Publikationsformate war die Seitenzählung. Andere, semantisch aufgeladene inhaltliche Binnenstrukturen waren nicht universell definiert und schon gar nicht maschinell adressier- und prozessierbar. Zwar hatten in der Vergangenheit wissenschaftliche Publikationen schon implizite und explizite Außenbezüge, allen voran Zitatstrukturen – aber auch diese waren nicht einheitlich formalisiert und kaum effektiv maschinell verarbeitbar. Man denke z.B. an die Mühen der Zitationsanalyse unter den Bedingungen geisteswissenschaftlicher Zitationskonventionen mit ihren „a.a.O.“- und „ibid.“-Verweisen.

    Mit dem zunehmend paradigmenbildenden WWW ändern sich diese Parameter fundamental. Die nichtlineare, graphenbasierte Verfasstheit ist dem WWW als gigantischer Hypertextanwendung ohnehin zu eigen. Doch ändert sich nun, beim Übergang in das Web der zweiten Generation, das Web der Linked Data, Grundlegendes: die Granularität und maschinelle Adressierbarkeit von Dokument-Binnenstrukturen gewinnt ganz neue Qualität. Das Ausmaß der Kontexbezüge in wissenschaftlichen Publikationen wächst um Dimensionen und wird zudem auch automatisch generierbar.

    In diesem, durch den Standard Resource Description Framework (RDF) des World Wide Web Consortium (W3C) geprägten Umfeld entstehen Chancen für neue Strategien der Publikation von Forschungsergebnissen und -daten sowie für deren maschinell basierte Nutzung. Wie weit dabei Ansätze für die granulare Objektrepräsentation gehen können, zeigt vergleichsweise radikal Jan Velterop mit seinem Ansatz der „Nanopublications“[1]. Die vielleicht weitreichendsten Ansätze für die ontologiebasierte Kontextualisierung von „Semantischen“ Publikationen findet man bei David Shotton[2]. Der vorliegende Beitrag stellt zwei Beispiele für solche Entwicklungen aus dem deutschsprachigen Umfeld vor.

    Standards für Semantic Enrichment – Voraussetzung für ihre Verbreitung

    Standardisierung ist oft ein entscheidender Schritt in der Verbreitung einer Technologie und signalisiert oftmals einen Grad der Ausgereiftheit, die eben noch innovative oder gar experimentelle Verfahren für breitere Nutzer- und Kundengruppen einsetzbar macht. Verschiedene Bereiche der Sprachtechnologie schicken sich derzeit an, diesen Schritt zu vollziehen und der von TEMIS lancierte Marktplatz für Sprachanalysekomponenten ist ein Musterbeispiel dafür.

    Dabei ist die semantische Verarbeitung und Anreicherung von Dokumenteninhalten ein solcher Bereich, in dem in den letzten Jahren sprachtechnologische Verfahren auf breiter Front Eingang gefunden haben. So berichtet das Publishing Research Consortium in einer Studie aus dem Jahr 2011, dass bereits 46% der Anbieter von wissenschaftlichen Journalen ihre Inhalte semantisch anreichern. Dieser Trend, der naturgemäß bei Dokumenten mit sehr hohem Wert wie wissenschaftlichen Veröffentlichungen zuerst einsetzte, ist inzwischen auch in anderen Domänen zu beobachten und erfasst längst auch Inhalte wie Nachrichten, Wirtschaftsinformationen oder unternehmensinterne Dokumente.

    Mit der Zunahme an Szenarien und Einsatzfeldern wächst jedoch die Notwendigkeit, die zugrundeliegenden Verfahren breiteren Nutzergruppen zugänglich zu machen. Während die Vorreiter im Bereich des wissenschaftlichen Publizierens den Einsatz von Sprachtechnologie zum Teil mit einigem Aufwand vorantreiben, hat die Mehrheit der möglichen Anwender aus anderen Marktsegmenten oftmals hierzu nicht die Ressourcen. Diese Anwender sind daher auf die direkte Verfügbarkeit von Analyseplattformen und Komponenten angewiesen, die ihre jeweiligen Anforderungen implementieren.

    Für TEMIS als einen führenden Anbieter von Verfahren zur Analyse großer Textmengen haben diese Überlegungen zur Entwicklung eines Marktplatzes für Analysekomponenten geführt, auf dem sich die unterschiedlichen Interessen der Akteure in einem umfassenden Modell widerspiegeln:

    • Anwender, die Analyseverfahren für ihre Zwecke zwar einsetzen, aber nicht entwickeln oder beauftragen wollen, finden auf diesem Marktplatz eine breite Auswahl von fertig verfügbaren Komponenten und können sich über Eigenschaften sowie die Konditionen für den Einsatz und die Lizensierung informieren.
    • Anbieter von Analysekomponenten oder den entsprechenden Ressourcen erreichen über den Marktplatz potenzielle Abnehmer, die sie alleine mitunter nur schwerlich hätten identifizieren, ansprechen und überzeugen können.
    • Letztlich liegt eine größere Auswahl an Analysekomponenten und damit eine breitere Einsetzbarkeit der Analyseplattform natürlich auch im Interesse des Plattformanbieters.

    Der Markplatz rund um die Textanalyse-Plattform Luxid® ist als ein wichtiger Beitrag zur Standardisierung von Sprachtechnologie zu sehen: Einheitliche APIs und Installationsprozeduren lassen den Einsatz in so unterschiedlichen Bereichen wie dem Indexieren wissenschaftlicher Publikationen, der Analyse von Kundennachrichten oder von Wirtschaftsinformationen zu. Die Kundenbasis mit Unternehmen wie BASF, Volkswagen, Springer, de Gruyter, Thieme, Wiley, Thomson und vielen anderen macht Luxid® und den angeschlossenen Marktplatz attraktiv für unterschiedlichste Anbieter von Ressourcen (Wortschätzen, Thesauri, Regelmengen, …), die hier Kooperationspartner oder Abnehmer für ihre eigenen Angebote finden können.

    Granularitätsorientierter Ansatz für das Semantic Publishing

    Das Internet der Dinge auf der einen Seite, das mit „Big Data“ die heutige so genannte Informationsflut bei Weitem übertreffen wird, veränderte Erwartungen der Content-Produzenten, -provider und -nutzer auf der anderen Seite: Content Management sieht sich heute neuen Aufgaben gegenüber. Ein gutes Beispiel für einen granularitätsorientierten Ansatz im digitalen Publizieren ist die Plattform für das semantische Content-Komponenten-Management von PAUX.

    So erwarten Leser aufgrund der schieren Menge an beliebig verfügbarer Information oder Unterhaltung, dass nicht mehr sie nach Interessantem suchen, sondern sich das Angebot selbstständig an ihre Bedürfnisse anpasst. Hilfstexte sollen nicht global, sondern im richtigen Kontext angezeigt werden, große Textmengen für unterschiedliche Nutzergruppen vorstrukturiert sein, so dass der Leser die für ihn passende Informationstiefe selbst wählen und nicht benötigte Textbestandteile ausblenden kann. Leser möchten präzise auf Contentbestandteile verweisen und sie mit Teilnehmern ihres sozialen Netzwerks teilen und diskutieren können. Das Verständnis von Text soll durch Fragen und andere E-Learning-Elemente vertieft werden können. All das soll auch mobil stattfinden und inmitten eines Informationsüberangebots einfach über Suchmaschinen gefunden werden können.

    Semantic Publishing kann die hier skizzierten Anforderungen dadurch unterstützen, dass es eine mächtige und zugleich flexible Infrastruktur für Content bereitstellt: Text wird hier nicht wie herkömmlich in Containern als Strings, sondern bis auf Wortebene modular gespeichert und mit einer eindeutigen Adresse versehen (URI). Indem Wörter, Sätze, oder Absätzezu Objekten von Datenbanken oder Triple Stores werden, lassen sie sich vielfach verknüpfen. Diese Verknüpfungen können ihrerseits typisiert, beschrieben und gewichtet werden. Durch diese veränderte Informationsmodellierung entsteht ein Netzwerk, das die oben genannten Anforderungen aufgrund seiner Struktur besonders gut erfüllen kann.

    Der Autor bekommt im Semantic Publishing mit PAUX von der veränderten Datenhaltung praktisch nichts mit: Die Editoren entsprechen denen herkömmlicher Textverarbeitungsprogramme mit einigen Zusatzfunktionen. So stellt der Autor Linked Data her, indem er einfach Texte schreibt und Content-Objekte miteinander verknüpft. Der Leser findet die für ihn passenden Informationen schneller, kann sie leichter verstehen, besser erinnern und einfacher mit anderen teilen und diskutieren. Verlage und sonstige Content Provider können neue Geschäftsmodelle umsetzen und nicht nur den Content selbst, sondern dessen Nutzen in Form von Mehrwertdiensten monetarisieren. Die Einsatzmöglichkeiten reichen vom „Handbuch der Projektförderung“ des Bundesministeriums für Bildung und Forschung (BMBF) über den „eGesundheitsCoach“der DekaBank bis zu E-Learning-Anwendungen im juristischen oder mathematischen Bereich und Unternehmenswikis und Produktwebsites.

    Ausblick

    Semantic Web und Linked Data, über lange Jahre als teure, akademische Spielwiesen belächelt, haben sich zu veritablen Schlüsseltechnologien für die Wissensgesellschaft gemausert und beginnen damit, kommerzielles Potenzial zu entfalten: Der beste Beleg dieser Tatsache ist die jüngste Ankündigung des „Knowledge Graph“ durch Google [3]!