Über die Bedeutung semantischer Metadaten…
…und warum ihre Generierung nicht einfach Maschinen und Algorithmen überlassen werden sollte

Autor – Andreas Blumauer,Geschäftsführer der Semantic Web Company

Dieser Artikel stellt Tagging als verbreitete Methode des semantischen Metadaten-Managements dem Graph-basierten Ansatz gegenüber und erläutert seine Unterschiede anhand von vier Anwendungsszenarien. Es wird gezeigt, wie Taxonomien bzw. kontrollierte Vokabulare entlang der gesamten Content-Wertschöpfungskette die Basis kosteneffizienterer Content-Produktion mit höheren Qualitätsansprüchen bilden können. Eine besondere Bedeutung erlangen semantische Metadaten dann, wenn strukturierte und unstrukturierte Informationen aus mehreren Quellen verknüpft werden sollen.

Semantische Daten sind mindestens so alt wie die Bibliothek von Alexandria. Sie helfen, Inhalte und Wissen zu organisieren. Während in der analogen Welt noch jedes Schriftstück seinen Platz in einer Bibliothek hatte, und jedes Thema innerhalb eines Buches nahezu eindeutig mit korrespondierenden Inhalten in Form eines Index verknüpft werden konnte, stellt sich die Zuordnung semantischer Metadaten in einem digitalen Umfeld als vielschichtigere Herausforderung dar: Vernetzte Inhalte wie Hypertext stimulieren permanent wechselnde Zugänge und Kontexte und damit mehrdimensionale Betrachtungsweisen. Semantik muss fortan also nicht nur in geschlossenen, sondern auch in offenen und dynamischen Systemen funktionieren. Einen mittlerweile weit verbreiteten Methodensatz, damit dieses Vorhaben gelingen kann, bietet das Semantische Web.

Metadaten im Google-Zeitalter

Wie lässt sich also in einem solchen Umfeld eine stabile und gleichzeitig ausdrucksstarke semantische Schicht in einer Content­Architektur herausbilden? Reichen vielleicht doch noch die guten alten Ordnerstrukturen oder ist Tagging als flexible und unkomplizierte Lösung zu bevorzugen? Oder überwiegen damit die Nachteile der vergleichsweise ungenauen und wenig nachhaltigen Metadatenstrukturen, die daraus resultieren? Was passiert, wenn traditionelle Ansätze des Taxonomie­Managements mit Methoden und Standards des Semantischen Webs vereint werden? Ist das nicht viel zu kompliziert und soll somit das Feld der semantischen Metadaten­Generierung Maschinen und Algorithmen überlassen werden, die im Angesicht der Datenflut ja ohnedies als einzige Instanz verbleiben, die dem Chaos noch Herr werden können?

Letztere Sichtweise dürfte wohl der Grund dafür sein, dass paradoxerweise gerade im Google­Zeitalter das allgemeine Interesse an semantischen Metadaten und den damit verknüpften Methodiken zur Generierung zurückgedrängt wurde. „Das Organisieren von Wissen, das erledigen die Suchmaschinen (oder ‘unsere neue Big Data Software’) schon automatisch im Hintergrund“, so der grundlegende Tenor, der nicht nur bei Endanwendern, sondern sogar bei professionellen Informationsmanagern zu vernehmen ist.

Ausprägungen semantischer Metadaten

Suchbegriffe sind wie Schlüssel zu wertvollen Informationen und Dokumenten von höchster Relevanz. Doch nicht nur die Anzahl der Dokumente und damit die potentiell relevante Informationsmenge wächst stetig an, sondern auch die Anzahl der Schlüssel und damit verbundene Kombinationsmöglichkeiten nehmen in zahlreichen Wissensbereichen und Industriezweigen exponentiell zu. Bevor wir also nun reflexartig den Blick darauf werfen, wie wir Webseiten bzw. Dokumente organisieren oder indexieren können, betrachten wir zunächst verschiedene Möglichkeiten, semantische Metadaten zu organisieren.

Bild 1: Implizite Semantik ‒ Tagging ‒ strukturierte Metadaten
Bild 1: Implizite Semantik ‒ Tagging ‒ strukturierte Metadaten

Auf der linken Seite von Bild 1 ist ein anschauliches Beispiel für implizite Semantik zu sehen. Der alte Rezeptionist weiß genau, welcher Schlüssel in welches Schloss passt. Dieses Wissen ist implizit und wird durch die Formen der Schlüssel kodifiziert.
In vielen Datenbanken, Excel­Tabellen und XML­Dokumenten steckt implizite Semantik, die nur innerhalb des Datencontainers oder im Kontext einer speziellen Anwendung interpretierbar ist. Oftmals bleibt dies aber in den Köpfen der Datenbank­Ingenieure und ist nicht einmal dokumentiert.

Bevor der alte Rezeptionist in Rente gegangen war, wurde sein Wissen, das sonst verloren gegangen wäre, in Form von Etiketten auf jedem Schlüssel explizit gemacht (siehe mittlere Spalte, Bild 1). Die Semantik der Schlüssel ist damit zwar deutlicher geworden, aber es bleibt immer noch weitgehend undefiniert und unklar, wie neue Schlüssel beschriftet werden sollten. Es gibt weder einen Index aller Bezeichnungen und Farben, die verwendet werden, noch eine definierte Methode, wie neue Schlüssel etikettiert werden sollten. Da das Hotel aber schnell weiter gewachsen war, wurde das Labelling­System schnell ein wildes Durcheinander.
Dieser Ansatz erinnert an Social Tagging oder auch an das Erstellen eines Volltextindex ohne dabei auf kontrollierte Vokabulare, Taxonomien oder Ontologien zurückzugreifen. Innerhalb eines einzigen Anwendungskontexts bzw. im Rahmen eines singulären Dokumentenspeichers mag dieser Ansatz probat sein, nicht jedoch, wenn verschiedene Quellen erschlossen und zugänglich gemacht werden sollen.

Die Lösung für dieses Problem: Auf der rechten Seite von Bild 1 ist nicht nur die Semantik jedes einzelnen Schlüssels deutlicher und strukturierter geworden, sondern auch die Semantik der Semantik ist nun explizit. Zum Beispiel stellt die Position eines Schlüssels im Kasten die Position des jeweiligen Raumes im Hotel dar, die Reihen im Schlüsselschrank entprechen den Etagen des Hotels, etc. Diese Methode, um Schlüssel zu organisieren, hilft auch dabei, sich zu orientieren und zu erinnern. Nun kann mit geringerem Aufwand jedem neuen Empfangspersonal erklärt werden, welcher Schlüssel in welches Schloss passt. Und diese Methode skaliert auch dann, sollte das Hotel in den nächsten Jahren wachsen oder gar zu einer Hotelkette ausgebaut werden.
So wie jeder Schlüssel in der Analogie zuvor einen Platz mit Bedeutung bekommen hat, sehen kontrollierte Vokabulare im Semantischen Web für jedes Konzept eine (Http­)Adresse vor. Konzepte, die somit auch mehrere Namen haben können, bekommen auch insofern “ihren Platz”, als dass sie zueinander in Relation gesetzt, also kontextualisiert werden können.

Kontrollierte Vokabulare als Schlüssel zur Wissensorganisation

Dieses System der kontrollierten Vokabulare ist der „Schlüssel“ zur Wissensorganisation und lässt sich beispielhaft verdeutlichen wie in Bild 2: Der blaue Kreis in der Mitte des Graphen repräsentiert ein Konzept, das den bevorzugten Namen ‘Australian Open’ trägt, bzw. das Synonym ‘Australian Championships’. Das Konzept ist mit anderen Konzepten verknüpft, die u.a. die bevorzugten Namen ‘Roger Federer’ oder ‘Melbourne’ tragen.

Bild 2: Wissens-Graph zur Darstellung eines kontrollierten Vokabulars
Bild 2: Wissens-Graph zur Darstellung eines kontrollierten Vokabulars

Der dargestellte Graph ist die Darstellung eines kontrollierten Vokabulars, das auf dem weit verbreiteten SKOS­Standard beruht. Das ‘Simple Knowledge Organization System’ wurde 2009 vom W3C veröffentlicht und wird seither von zahlreichen Organisationen zur Entwicklung von Klassifikationssystemen, Taxonomien oder Thesauri verwendet, u.a. von der Europäischen Kommission, der Deutschen Nationalbibliothek, der New York Times, Wolters Kluwer oder Unternehmen aus der Pharma­ oder Finanzindustrie. SKOS wird sowohl für firmeninterne Wissensorganisationsprojekte als auch in Open Data-Initiativen eingesetzt, oder eben, um interne mit externen Daten zu verknüpfen oder anzureichern.

Methodik und Werkzeuge: Agilität an oberster Stelle

SKOS basiert auf dem Resource Description Framework (RDF), welches die Basis für das semantische Web bildet und ebenso ein W3C­Standard ist. Die Spezifikationen dieser beiden grundlegenden Standards lassen aber weitgehend offen, wie semantische Metadaten erstellt, verwaltet und gewartet werden sollen.

Die Praxis hat gezeigt, dass einfache kontrollierte Vokabulare wie Code­Listen, Glossare oder Taxonomien in rudimentärer Form zwar weit verbreitet sind, jedoch vielfach mit ungeeigneten Werkzeugen wie z.B. Excel gewartet werden, und damit oftmals der tatsächlichen Semantik der verwendeten Inhalte hinterher hinken. Werden semantische Metadaten genauso wie die Inhalte und Daten selbst als Vermögenswerte eingestuft und mit ausreichenden Ressourcen zur laufenden Wartung und Qualitätssicherung ausgestattet, so kann dies oftmals zu einer signifikanten Wertsteigerung der gesamten Content­ und Datenbasis führen.

Hier können Maschinen und Algorithmen im Einklang mit dem menschlichen Vermögen zur Abstraktion ihre Wirkung entfalten: Automatisches Text-Mining hilft, Änderungen und Neuigkeiten in der Content­Basis zu extrahieren, um diese in geeigneter Form, z.B. in eine Unternehmens­Taxonomie zu integrieren. Während Maschinen und Big Data Algorithmen mit hoher Verlässlichkeit über zufällige Häufigkeiten und Korrelationen von z.B. Termen aus großen Textmengen aufspüren können, können oft erst Experten die relevanten Kausalzusammenhänge und Beziehungstypen erkennen und abstrahieren und schließlich als semantische Metadaten manifest machen. Erst so kann sich im Sinne eines lernenden Systems eine agile Methode zur laufenden Weiterentwicklung von qualitativ hochwertigen semantischen Wissens­Graphen entfalten.

Anwendungsbereiche für semantische Wissens-Graphen

Beispiel 1: Automatisches Tagging und semantische Suche
Weit verbreitete Dokumentenmanagement­ und Kollaborations­Plattformen wie SharePoint oder Atlassian Confluence verfügen zwar über einfache Tagging­Systeme oder auch über rudimentäre Werkzeuge zur Erstellung von Taxonomien, wie z.B. SharePoints Term Store; diese stoßen jedoch schnell an ihre Grenzen: User empfinden Tagging nach wie vor als unnötige Zusatzarbeit, insbesondere in Anbetracht der oftmals lückenhaften Erfassung führt dies zur ‚selbsterfüllenden Prophezeiung’ bzw. profitiert die Suche nur begrenzt durch die manuelle Vergabe der zusätzlichen semantischen Metadaten. Größere Taxonomien, wie z.B. die Medical Subject Headings (MeSH), GEMET, AgroVoc oder EuroVoc können kaum mit einfachen Taxonomie­Werkzeugen verwaltet werden und bleiben somit statisch.

Ein Beispiel für eine weit entwickelte Lösung, die semantische Metadaten auf Basis kontrollierter Vokabulare automatisch den Inhalten in Systemen wie SharePoint, Drupal oder Confluence zuordnen kann, ist PoolParty PowerTagging. Dabei werden mittels Verfahren des automatischen Text-Minings Entitäten aus Dokumenten und Inhalten extrahiert und automatische Klassifikation und Annotation durchgeführt. Somit wird erst ein semantisches Indexieren möglich: Zusätzliche Such­Facetten und eine automatische Erweiterung der Suchbegriffe („Query­Expansion”) unterstützen Suchvorgänge insbesondere im professionellen Umfeld auf signifikante Weise. So werden beispielsweise bei der Suche nach ‚Erneuerbare Energie’ auch Dokumente gefunden, die den Suchbegriff selbst gar nicht beinhalten, jedoch entsprechende Konzepte wie z.B. ‚Windenergie’. Das Prinzip der Query­Expansion kann auch dann angewandt werden, wenn User in ihrer Rolle als Bürger oder Patienten in ihrer oft laienhaften Sprache nach Rechts­ oder Gesundheitsinformationen suchen, wobei semantische Wissens­Graphen dann quasi als Übersetzungsprogramme dienen können.

Einfaches Tagging könnte keines der eben erläuterten Features unterstützen. Erst mit der Verwendung kontrollierter Vokabulare wie Taxonomien und Thesauri können dafür nötige Synonymgruppen bzw. hierarchische und nicht­hierarchische Relationen zwischen den semantischen Metadaten zum Ausdruck gebracht werden.

Beispiel 2: Personalisierung und Content­Empfehlungen
Mit Hilfe semantischer Wissens­Graphen können verschiedenste Inhaltstypen mit persönlichen Interessensprofilen verknüpft werden und somit als personalisierte Content­Quellen zugänglich gemacht werden.

Eine Plattform, die diese Art von Services ‒ in diesem Beispiel Experten aus der Wasserindustrie ‒ seit mehreren Jahren zur Verfügung stellt, ist ‚The European Innovation Partnership on Water ‒ EIP Water’ der Europäischen Kommission [1]. Basierend auf einem
, der spezifische Themen und Entitäten der Wasserindustrie repräsentiert [2], können präzisere Content­Empfehlungen für jeden User berechnet werden als dies mit einfachem Tagging möglich wäre. Die Personalisierung kann auf Knopfdruck als Filter aktiviert, aber auch jederzeit deaktiviert werden. Neben personalisierten News kann auch gezielt nach anderen Experten aus der Wasserindustrie gesucht werden. Die Personalisierung findet auf Basis von Inhalten statt, die der jeweilige User der Plattform bereitgestellt hat. Somit ist keine explizite Erstellung und Wartung von Interessens­ und Wissensprofilen nötig, was ohnehin häufig als lästig empfunden wird.

Beispiel 3: Informations­Integration und ­Aggregation
Sollen verschiedene Inhalte aus unterschiedlichen Quellen verknüpft und über eine Oberfläche zugänglich gemacht werden, müssen zunächst bestehende Metadaten­Systeme aufeinander abgestimmt werden („Metadata­Mapping”). Dieser Vorgang ist oft sehr zeitraubend und kann keineswegs durch einfaches Tagging unterstützt werden, vielmehr muss ein übergreifendes Vokabular zum Indexieren entwickelt werden, das quasi als zentraler Hub verschiedenste Klassifikationssysteme miteinander verknüpft.

Healthdirect Australia [3] ist ein Internetportal, das auf diesem Prinzip basiert: Mit Hilfe des Australian Health Thesaurus (AHT) werden Informationsströme von rund 120 Partnern aggregiert und semantisch durchsuchbar gemacht. Dabei wird der Thesaurus laufend im Sinne des weiter oben beschriebenen agilen Ansatzes weiterentwickelt [4]. Anhand dieses Exempels werden noch weitere Einsatzmöglichkeiten semantischer Wissens­Graphen plastisch vor Augen geführt: Neben einem medizinischen Ratgeber­System („Symptom­Checker”) wird eine Benutzeroberfläche speziell für mobile Endgeräte zur Verfügung gestellt, bei der das schnelle Auffinden relevanter Informationen ‒ gerade wenn man sich im Australischen Outback in einer Notlage befindet ‒ an höchster Stelle steht.

Beispiel 4: Trendanalysen und tiefgreifende Textanalysen
Spätestens wenn tiefschürfende Erkenntnisse aus großen Textmengen gewonnen werden sollen, wird klar, dass weder einfaches Tagging noch eine rein Algorithmen­basierte Textanalyse eine ausreichende Grundlage bieten können. Wenn Wissen aus unstrukturierten Informationen gewonnen werden soll, dann liegt es nahe, bereits strukturierte Informationen zu verwenden, die z.B. in Form von semantischen Wissen­Graphen vorliegen.

Nehmen wir an, es sollen medizinische Forschungstrends, klassifiziert nach Krankheitsbildern und selektiert nach geographischen Einheiten und ihren jeweiligen Entwicklungsgraden besser verstanden und visualisiert werden. Man möchte also Zusammenhänge verstehen, die wiederum Aufschluss über zukünftige Entwicklungen geben können, bzw. treffsicherere Entscheidungen unterstützen können.

Bild 3: Visualisierung von Vorhersagen mithilfe verlinkter semantischer Wissens-Graphen
Bild 3: Visualisierung von Vorhersagen mithilfe verlinkter semantischer Wissens-Graphen

In einem Beispiel, das online unter http://integrator.poolparty.biz/report_medicine/ abgerufen werden kann, wurden große Mengen an medizinischen Fachartikeln aus PubMed mit Hilfe mehrerer, teilweise verlinkter semantischer Wissens­Graphen analysiert. Während MeSH die medizinische Klassifikation unterstützt, wird Geonames, das wiederum mit DBpedia verknüpft ist, verwendet, um für extrahierte geographische Entitäten, den jeweiligen Human Development Index (HDI) zu bestimmen. Damit lässt sich z.B. gezielt nach Artikeln suchen, die gewisse Krankheiten im Kontext weniger entwickelter Regionen untersuchen, bzw. mit Hilfe aussagekräftiger Visuals analysieren, worin die Unterschiede zwischen Ländern mit hohem HDI im Kontrast zu niedrigerem HDI liegen (siehe Bild 3).

Fazit

Die Bedeutung semantischer Metadaten nimmt zu, wenn zumindest eine der folgenden Voraussetzungen erfüllt ist:

  1. Die zu durchsuchenden Inhalte stammen aus einem Bereich, in dem unterschiedliche Sprachgebräuche und Begriffe verwendet werden. Sprachbarrieren müssen überwunden werden, weil z.B. laienhafte Begriffe mit einer Experten­ bzw. Fachsprache verknüpft werden müssen.
  2. Die überbordende Menge an potentiell relevanten Inhalten muss auf Basis personalisierter Selektionskriterien gefiltert werden. Automatische Empfehlungen relevanter Informationen werden umso akzeptabler, je präziser und aktueller die dabei verwendeten semantischen Metadaten sind.
  3. Die Verteiltheit von Informationen nimmt nicht nur im Web, sondern genauso in großen Organisationen zu. Dennoch wollen User darauf zugreifen können, als wären die Informationen in einer einzigen Datenbank und mit einem Metadaten­System versehen worden. Ein vielfach erprobter Lösungsansatz für dieses mitunter knifflige Unterfangen wird durch den Einsatz von Linked Data-bzw. Semantic Web-Methoden und -Technologien geboten.
  4. Entscheidungsrelevante Informationen und Daten stecken sowohl in strukturierten als auch unstrukturierten Informationsquellen. Texte und z.B. statistische Datenreihen sind aber nur aus Sicht der Technik voneinander zu trennen, obwohl sie oft Fakten und Daten zu einem Business­Objekt beinhalten, das als Ganzes betrachtet werden will. Eine entsprechende Informationsvernetzung kann auf effizientem Weg mittels semantischer Wissens­Graphen gelingen.

Semantische Metadaten wollen daher, wie andere Datenquellen auch, auf Basis professioneller Methoden und Werkzeuge verwaltet und zugänglich gemacht werden.

Links:
[1] www.eip­water.eu
[2] www.eip­water.eu/glossary
[3] www.healthdirect.gov.au
[4] www.slideshare.net/semwebcompany/the­healthdirect­australia­story

SEMANTiCS, 15. bis 17.September 2015, Wien
Über die Bedeutung semantischer Metadaten werden auch dieses Jahr im September wieder Experten, Praktiker, Berater, Anwender und Wissenschaftler diskutieren. Diese Konferenz hat sich als Europas größte industrienahe Konferenz zu den Themen Semantic Web, Linked (Open) Data, MetadatenÖkonomie, und Wissensorganisation herauskristallisiert. Als Treffpunkt der internationalen Semantic Web Community und als Schauplatz praxisorientierter Vorträge und Diskussionen rund um den Einsatz semantischer Technologien in verschiedensten Branchen bietet die SEMANTiCS den perfekten Rahmen für Praktiker wie für Forscher.

Die SEMANTiCS wird von der Semantic Web Company (www.semanticweb.at) gemeinsam mit der Wirtschaftsuniversität Wien (www.wu.ac.at/infobiz) veranstaltet.

www.semantics.cc

www.poolparty.biz

Andreas Blumauer, ist Gründer und Geschäftsführer der Semantic Web Company. Das Unternehmen ist ein führender Anbieter semantischer Technologien. Mit ihrem Kernprodukt PoolParty, einer semantischen Middleware, gelingt es, kontrollierte Fachvokabulare, Taxonomien, Ontologien und semantische Wissensgraphen zu entwickeln und in bestehende Content-Plattformen zu integrieren. Das Produkt wird in nahezu allen Industriezweigen eingesetzt.