Autor – Andreas Blumauer,Geschäftsführer der Semantic Web Company
Dieser Artikel stellt Tagging als verbreitete Methode des semantischen Metadaten-Managements dem Graph-basierten Ansatz gegenüber und erläutert seine Unterschiede anhand von vier Anwendungsszenarien. Es wird gezeigt, wie Taxonomien bzw. kontrollierte Vokabulare entlang der gesamten Content-Wertschöpfungskette die Basis kosteneffizienterer Content-Produktion mit höheren Qualitätsansprüchen bilden können. Eine besondere Bedeutung erlangen semantische Metadaten dann, wenn strukturierte und unstrukturierte Informationen aus mehreren Quellen verknüpft werden sollen.
Semantische Daten sind mindestens so alt wie die Bibliothek von Alexandria. Sie helfen, Inhalte und Wissen zu organisieren. Während in der analogen Welt noch jedes Schriftstück seinen Platz in einer Bibliothek hatte, und jedes Thema innerhalb eines Buches nahezu eindeutig mit korrespondierenden Inhalten in Form eines Index verknüpft werden konnte, stellt sich die Zuordnung semantischer Metadaten in einem digitalen Umfeld als vielschichtigere Herausforderung dar: Vernetzte Inhalte wie Hypertext stimulieren permanent wechselnde Zugänge und Kontexte und damit mehrdimensionale Betrachtungsweisen. Semantik muss fortan also nicht nur in geschlossenen, sondern auch in offenen und dynamischen Systemen funktionieren. Einen mittlerweile weit verbreiteten Methodensatz, damit dieses Vorhaben gelingen kann, bietet das Semantische Web.
Metadaten im Google-Zeitalter
Wie lässt sich also in einem solchen Umfeld eine stabile und gleichzeitig ausdrucksstarke semantische Schicht in einer ContentArchitektur herausbilden? Reichen vielleicht doch noch die guten alten Ordnerstrukturen oder ist Tagging als flexible und unkomplizierte Lösung zu bevorzugen? Oder überwiegen damit die Nachteile der vergleichsweise ungenauen und wenig nachhaltigen Metadatenstrukturen, die daraus resultieren? Was passiert, wenn traditionelle Ansätze des TaxonomieManagements mit Methoden und Standards des Semantischen Webs vereint werden? Ist das nicht viel zu kompliziert und soll somit das Feld der semantischen MetadatenGenerierung Maschinen und Algorithmen überlassen werden, die im Angesicht der Datenflut ja ohnedies als einzige Instanz verbleiben, die dem Chaos noch Herr werden können?
Letztere Sichtweise dürfte wohl der Grund dafür sein, dass paradoxerweise gerade im GoogleZeitalter das allgemeine Interesse an semantischen Metadaten und den damit verknüpften Methodiken zur Generierung zurückgedrängt wurde. „Das Organisieren von Wissen, das erledigen die Suchmaschinen (oder ‘unsere neue Big Data Software’) schon automatisch im Hintergrund“, so der grundlegende Tenor, der nicht nur bei Endanwendern, sondern sogar bei professionellen Informationsmanagern zu vernehmen ist.
Ausprägungen semantischer Metadaten
Suchbegriffe sind wie Schlüssel zu wertvollen Informationen und Dokumenten von höchster Relevanz. Doch nicht nur die Anzahl der Dokumente und damit die potentiell relevante Informationsmenge wächst stetig an, sondern auch die Anzahl der Schlüssel und damit verbundene Kombinationsmöglichkeiten nehmen in zahlreichen Wissensbereichen und Industriezweigen exponentiell zu. Bevor wir also nun reflexartig den Blick darauf werfen, wie wir Webseiten bzw. Dokumente organisieren oder indexieren können, betrachten wir zunächst verschiedene Möglichkeiten, semantische Metadaten zu organisieren.

Auf der linken Seite von Bild 1 ist ein anschauliches Beispiel für implizite Semantik zu sehen. Der alte Rezeptionist weiß genau, welcher Schlüssel in welches Schloss passt. Dieses Wissen ist implizit und wird durch die Formen der Schlüssel kodifiziert.
In vielen Datenbanken, ExcelTabellen und XMLDokumenten steckt implizite Semantik, die nur innerhalb des Datencontainers oder im Kontext einer speziellen Anwendung interpretierbar ist. Oftmals bleibt dies aber in den Köpfen der DatenbankIngenieure und ist nicht einmal dokumentiert.
Bevor der alte Rezeptionist in Rente gegangen war, wurde sein Wissen, das sonst verloren gegangen wäre, in Form von Etiketten auf jedem Schlüssel explizit gemacht (siehe mittlere Spalte, Bild 1). Die Semantik der Schlüssel ist damit zwar deutlicher geworden, aber es bleibt immer noch weitgehend undefiniert und unklar, wie neue Schlüssel beschriftet werden sollten. Es gibt weder einen Index aller Bezeichnungen und Farben, die verwendet werden, noch eine definierte Methode, wie neue Schlüssel etikettiert werden sollten. Da das Hotel aber schnell weiter gewachsen war, wurde das LabellingSystem schnell ein wildes Durcheinander.
Dieser Ansatz erinnert an Social Tagging oder auch an das Erstellen eines Volltextindex ohne dabei auf kontrollierte Vokabulare, Taxonomien oder Ontologien zurückzugreifen. Innerhalb eines einzigen Anwendungskontexts bzw. im Rahmen eines singulären Dokumentenspeichers mag dieser Ansatz probat sein, nicht jedoch, wenn verschiedene Quellen erschlossen und zugänglich gemacht werden sollen.
Die Lösung für dieses Problem: Auf der rechten Seite von Bild 1 ist nicht nur die Semantik jedes einzelnen Schlüssels deutlicher und strukturierter geworden, sondern auch die Semantik der Semantik ist nun explizit. Zum Beispiel stellt die Position eines Schlüssels im Kasten die Position des jeweiligen Raumes im Hotel dar, die Reihen im Schlüsselschrank entprechen den Etagen des Hotels, etc. Diese Methode, um Schlüssel zu organisieren, hilft auch dabei, sich zu orientieren und zu erinnern. Nun kann mit geringerem Aufwand jedem neuen Empfangspersonal erklärt werden, welcher Schlüssel in welches Schloss passt. Und diese Methode skaliert auch dann, sollte das Hotel in den nächsten Jahren wachsen oder gar zu einer Hotelkette ausgebaut werden.
So wie jeder Schlüssel in der Analogie zuvor einen Platz mit Bedeutung bekommen hat, sehen kontrollierte Vokabulare im Semantischen Web für jedes Konzept eine (Http)Adresse vor. Konzepte, die somit auch mehrere Namen haben können, bekommen auch insofern “ihren Platz”, als dass sie zueinander in Relation gesetzt, also kontextualisiert werden können.
Kontrollierte Vokabulare als Schlüssel zur Wissensorganisation
Dieses System der kontrollierten Vokabulare ist der „Schlüssel“ zur Wissensorganisation und lässt sich beispielhaft verdeutlichen wie in Bild 2: Der blaue Kreis in der Mitte des Graphen repräsentiert ein Konzept, das den bevorzugten Namen ‘Australian Open’ trägt, bzw. das Synonym ‘Australian Championships’. Das Konzept ist mit anderen Konzepten verknüpft, die u.a. die bevorzugten Namen ‘Roger Federer’ oder ‘Melbourne’ tragen.

Der dargestellte Graph ist die Darstellung eines kontrollierten Vokabulars, das auf dem weit verbreiteten SKOSStandard beruht. Das ‘Simple Knowledge Organization System’ wurde 2009 vom W3C veröffentlicht und wird seither von zahlreichen Organisationen zur Entwicklung von Klassifikationssystemen, Taxonomien oder Thesauri verwendet, u.a. von der Europäischen Kommission, der Deutschen Nationalbibliothek, der New York Times, Wolters Kluwer oder Unternehmen aus der Pharma oder Finanzindustrie. SKOS wird sowohl für firmeninterne Wissensorganisationsprojekte als auch in Open Data-Initiativen eingesetzt, oder eben, um interne mit externen Daten zu verknüpfen oder anzureichern.
Methodik und Werkzeuge: Agilität an oberster Stelle
SKOS basiert auf dem Resource Description Framework (RDF), welches die Basis für das semantische Web bildet und ebenso ein W3CStandard ist. Die Spezifikationen dieser beiden grundlegenden Standards lassen aber weitgehend offen, wie semantische Metadaten erstellt, verwaltet und gewartet werden sollen.
Die Praxis hat gezeigt, dass einfache kontrollierte Vokabulare wie CodeListen, Glossare oder Taxonomien in rudimentärer Form zwar weit verbreitet sind, jedoch vielfach mit ungeeigneten Werkzeugen wie z.B. Excel gewartet werden, und damit oftmals der tatsächlichen Semantik der verwendeten Inhalte hinterher hinken. Werden semantische Metadaten genauso wie die Inhalte und Daten selbst als Vermögenswerte eingestuft und mit ausreichenden Ressourcen zur laufenden Wartung und Qualitätssicherung ausgestattet, so kann dies oftmals zu einer signifikanten Wertsteigerung der gesamten Content und Datenbasis führen.
Hier können Maschinen und Algorithmen im Einklang mit dem menschlichen Vermögen zur Abstraktion ihre Wirkung entfalten: Automatisches Text-Mining hilft, Änderungen und Neuigkeiten in der ContentBasis zu extrahieren, um diese in geeigneter Form, z.B. in eine UnternehmensTaxonomie zu integrieren. Während Maschinen und Big Data Algorithmen mit hoher Verlässlichkeit über zufällige Häufigkeiten und Korrelationen von z.B. Termen aus großen Textmengen aufspüren können, können oft erst Experten die relevanten Kausalzusammenhänge und Beziehungstypen erkennen und abstrahieren und schließlich als semantische Metadaten manifest machen. Erst so kann sich im Sinne eines lernenden Systems eine agile Methode zur laufenden Weiterentwicklung von qualitativ hochwertigen semantischen WissensGraphen entfalten.
Anwendungsbereiche für semantische Wissens-Graphen
Beispiel 1: Automatisches Tagging und semantische Suche
Weit verbreitete Dokumentenmanagement und KollaborationsPlattformen wie SharePoint oder Atlassian Confluence verfügen zwar über einfache TaggingSysteme oder auch über rudimentäre Werkzeuge zur Erstellung von Taxonomien, wie z.B. SharePoints Term Store; diese stoßen jedoch schnell an ihre Grenzen: User empfinden Tagging nach wie vor als unnötige Zusatzarbeit, insbesondere in Anbetracht der oftmals lückenhaften Erfassung führt dies zur ‚selbsterfüllenden Prophezeiung’ bzw. profitiert die Suche nur begrenzt durch die manuelle Vergabe der zusätzlichen semantischen Metadaten. Größere Taxonomien, wie z.B. die Medical Subject Headings (MeSH), GEMET, AgroVoc oder EuroVoc können kaum mit einfachen TaxonomieWerkzeugen verwaltet werden und bleiben somit statisch.
Ein Beispiel für eine weit entwickelte Lösung, die semantische Metadaten auf Basis kontrollierter Vokabulare automatisch den Inhalten in Systemen wie SharePoint, Drupal oder Confluence zuordnen kann, ist PoolParty PowerTagging. Dabei werden mittels Verfahren des automatischen Text-Minings Entitäten aus Dokumenten und Inhalten extrahiert und automatische Klassifikation und Annotation durchgeführt. Somit wird erst ein semantisches Indexieren möglich: Zusätzliche SuchFacetten und eine automatische Erweiterung der Suchbegriffe („QueryExpansion”) unterstützen Suchvorgänge insbesondere im professionellen Umfeld auf signifikante Weise. So werden beispielsweise bei der Suche nach ‚Erneuerbare Energie’ auch Dokumente gefunden, die den Suchbegriff selbst gar nicht beinhalten, jedoch entsprechende Konzepte wie z.B. ‚Windenergie’. Das Prinzip der QueryExpansion kann auch dann angewandt werden, wenn User in ihrer Rolle als Bürger oder Patienten in ihrer oft laienhaften Sprache nach Rechts oder Gesundheitsinformationen suchen, wobei semantische WissensGraphen dann quasi als Übersetzungsprogramme dienen können.
Einfaches Tagging könnte keines der eben erläuterten Features unterstützen. Erst mit der Verwendung kontrollierter Vokabulare wie Taxonomien und Thesauri können dafür nötige Synonymgruppen bzw. hierarchische und nichthierarchische Relationen zwischen den semantischen Metadaten zum Ausdruck gebracht werden.
Beispiel 2: Personalisierung und ContentEmpfehlungen
Mit Hilfe semantischer WissensGraphen können verschiedenste Inhaltstypen mit persönlichen Interessensprofilen verknüpft werden und somit als personalisierte ContentQuellen zugänglich gemacht werden.
Eine Plattform, die diese Art von Services ‒ in diesem Beispiel Experten aus der Wasserindustrie ‒ seit mehreren Jahren zur Verfügung stellt, ist ‚The European Innovation Partnership on Water ‒ EIP Water’ der Europäischen Kommission [1]. Basierend auf einem
, der spezifische Themen und Entitäten der Wasserindustrie repräsentiert [2], können präzisere ContentEmpfehlungen für jeden User berechnet werden als dies mit einfachem Tagging möglich wäre. Die Personalisierung kann auf Knopfdruck als Filter aktiviert, aber auch jederzeit deaktiviert werden. Neben personalisierten News kann auch gezielt nach anderen Experten aus der Wasserindustrie gesucht werden. Die Personalisierung findet auf Basis von Inhalten statt, die der jeweilige User der Plattform bereitgestellt hat. Somit ist keine explizite Erstellung und Wartung von Interessens und Wissensprofilen nötig, was ohnehin häufig als lästig empfunden wird.
Beispiel 3: InformationsIntegration und Aggregation
Sollen verschiedene Inhalte aus unterschiedlichen Quellen verknüpft und über eine Oberfläche zugänglich gemacht werden, müssen zunächst bestehende MetadatenSysteme aufeinander abgestimmt werden („MetadataMapping”). Dieser Vorgang ist oft sehr zeitraubend und kann keineswegs durch einfaches Tagging unterstützt werden, vielmehr muss ein übergreifendes Vokabular zum Indexieren entwickelt werden, das quasi als zentraler Hub verschiedenste Klassifikationssysteme miteinander verknüpft.
Healthdirect Australia [3] ist ein Internetportal, das auf diesem Prinzip basiert: Mit Hilfe des Australian Health Thesaurus (AHT) werden Informationsströme von rund 120 Partnern aggregiert und semantisch durchsuchbar gemacht. Dabei wird der Thesaurus laufend im Sinne des weiter oben beschriebenen agilen Ansatzes weiterentwickelt [4]. Anhand dieses Exempels werden noch weitere Einsatzmöglichkeiten semantischer WissensGraphen plastisch vor Augen geführt: Neben einem medizinischen RatgeberSystem („SymptomChecker”) wird eine Benutzeroberfläche speziell für mobile Endgeräte zur Verfügung gestellt, bei der das schnelle Auffinden relevanter Informationen ‒ gerade wenn man sich im Australischen Outback in einer Notlage befindet ‒ an höchster Stelle steht.
Beispiel 4: Trendanalysen und tiefgreifende Textanalysen
Spätestens wenn tiefschürfende Erkenntnisse aus großen Textmengen gewonnen werden sollen, wird klar, dass weder einfaches Tagging noch eine rein Algorithmenbasierte Textanalyse eine ausreichende Grundlage bieten können. Wenn Wissen aus unstrukturierten Informationen gewonnen werden soll, dann liegt es nahe, bereits strukturierte Informationen zu verwenden, die z.B. in Form von semantischen WissenGraphen vorliegen.
Nehmen wir an, es sollen medizinische Forschungstrends, klassifiziert nach Krankheitsbildern und selektiert nach geographischen Einheiten und ihren jeweiligen Entwicklungsgraden besser verstanden und visualisiert werden. Man möchte also Zusammenhänge verstehen, die wiederum Aufschluss über zukünftige Entwicklungen geben können, bzw. treffsicherere Entscheidungen unterstützen können.

In einem Beispiel, das online unter http://integrator.poolparty.biz/report_medicine/ abgerufen werden kann, wurden große Mengen an medizinischen Fachartikeln aus PubMed mit Hilfe mehrerer, teilweise verlinkter semantischer WissensGraphen analysiert. Während MeSH die medizinische Klassifikation unterstützt, wird Geonames, das wiederum mit DBpedia verknüpft ist, verwendet, um für extrahierte geographische Entitäten, den jeweiligen Human Development Index (HDI) zu bestimmen. Damit lässt sich z.B. gezielt nach Artikeln suchen, die gewisse Krankheiten im Kontext weniger entwickelter Regionen untersuchen, bzw. mit Hilfe aussagekräftiger Visuals analysieren, worin die Unterschiede zwischen Ländern mit hohem HDI im Kontrast zu niedrigerem HDI liegen (siehe Bild 3).
Fazit
Die Bedeutung semantischer Metadaten nimmt zu, wenn zumindest eine der folgenden Voraussetzungen erfüllt ist:
- Die zu durchsuchenden Inhalte stammen aus einem Bereich, in dem unterschiedliche Sprachgebräuche und Begriffe verwendet werden. Sprachbarrieren müssen überwunden werden, weil z.B. laienhafte Begriffe mit einer Experten bzw. Fachsprache verknüpft werden müssen.
- Die überbordende Menge an potentiell relevanten Inhalten muss auf Basis personalisierter Selektionskriterien gefiltert werden. Automatische Empfehlungen relevanter Informationen werden umso akzeptabler, je präziser und aktueller die dabei verwendeten semantischen Metadaten sind.
- Die Verteiltheit von Informationen nimmt nicht nur im Web, sondern genauso in großen Organisationen zu. Dennoch wollen User darauf zugreifen können, als wären die Informationen in einer einzigen Datenbank und mit einem MetadatenSystem versehen worden. Ein vielfach erprobter Lösungsansatz für dieses mitunter knifflige Unterfangen wird durch den Einsatz von Linked Data-bzw. Semantic Web-Methoden und -Technologien geboten.
- Entscheidungsrelevante Informationen und Daten stecken sowohl in strukturierten als auch unstrukturierten Informationsquellen. Texte und z.B. statistische Datenreihen sind aber nur aus Sicht der Technik voneinander zu trennen, obwohl sie oft Fakten und Daten zu einem BusinessObjekt beinhalten, das als Ganzes betrachtet werden will. Eine entsprechende Informationsvernetzung kann auf effizientem Weg mittels semantischer WissensGraphen gelingen.
Semantische Metadaten wollen daher, wie andere Datenquellen auch, auf Basis professioneller Methoden und Werkzeuge verwaltet und zugänglich gemacht werden.
Links:
[1] www.eipwater.eu
[2] www.eipwater.eu/glossary
[3] www.healthdirect.gov.au
[4] www.slideshare.net/semwebcompany/thehealthdirectaustraliastory
SEMANTiCS, 15. bis 17.September 2015, Wien
Über die Bedeutung semantischer Metadaten werden auch dieses Jahr im September wieder Experten, Praktiker, Berater, Anwender und Wissenschaftler diskutieren. Diese Konferenz hat sich als Europas größte industrienahe Konferenz zu den Themen Semantic Web, Linked (Open) Data, MetadatenÖkonomie, und Wissensorganisation herauskristallisiert. Als Treffpunkt der internationalen Semantic Web Community und als Schauplatz praxisorientierter Vorträge und Diskussionen rund um den Einsatz semantischer Technologien in verschiedensten Branchen bietet die SEMANTiCS den perfekten Rahmen für Praktiker wie für Forscher.
Die SEMANTiCS wird von der Semantic Web Company (www.semanticweb.at) gemeinsam mit der Wirtschaftsuniversität Wien (www.wu.ac.at/infobiz) veranstaltet.
Andreas Blumauer, ist Gründer und Geschäftsführer der Semantic Web Company. Das Unternehmen ist ein führender Anbieter semantischer Technologien. Mit ihrem Kernprodukt PoolParty, einer semantischen Middleware, gelingt es, kontrollierte Fachvokabulare, Taxonomien, Ontologien und semantische Wissensgraphen zu entwickeln und in bestehende Content-Plattformen zu integrieren. Das Produkt wird in nahezu allen Industriezweigen eingesetzt.