Die semantische Suche revolutioniert Verlagsplattformen

Alexander Siebert, geschäftsführender Gesellschafter und operativer Motor der Retresco GmbH

Content Pool, Digitalstrategie, CMS-System, Publishing-Workflow, Mehrfachverwertung, Verschlagwortung, Geotagging

Eine Suche kann heute viel mehr als suchen. Die semantische Suche und ihre Komponenten sind eine optimale Unterstützung für heterogene Verlagswelten – sie ermöglichen eine kostengünstige Mehrfachverwertung von Inhalten und entlasten die Redaktion bei ihrer täglichen Arbeit deutlich. Mit semantischer Suche lassen sich heute komplette Verlagsangebote realisieren. Die Vorteile erläutert Alexander Siebert, Gründer und Geschäftsführer von Retresco, im Interview mit dem DOK.Magazin am Beispiel der Märkischen Oderzeitung.

Herr Siebert, wie unterscheidet sich die semantische Suche von bisherigen Suchlösungen und welche Vorteile bietet sie speziell für Verlage?

Klassische Suchen ermöglichen nur Onsite-Search, also das Durchsuchen des Webauftritts. Retrescos semantische Suche geht deutlich darüber hinaus. Mit ihr lassen sich komplette Verlagsangebote durch eine Suche ausspielen. Wir schaffen einen Content Pool, der dem lang gehegten Wunsch nach Mehrfachverwertung von Inhalten kostengünstig gerecht wird. Die semantische Suche ermöglicht automatische Kurationsprozesse über alle Verlagsangebote hinweg und entlastet so die Redakteure. Die günstigen Kosten werden einmal durch die Ablösung des klassischen, begrenzten, relationalen CMS-Paradigmas erreicht und zudem durch den Einsatz von Open Source Software. Gleichzeitig erhöht die Technologie die ClickThroughRate- und PageImpression-Werte.

Was macht den von Ihnen angesprochenen Content Pool aus?

Der Content Pool ist ein semantisch angereicherter Speicher, der sich effizient auf ganz verschiedene Art und Weise durchsuchen lässt. Generell arbeitet der Content Pool nahezu in Echtzeit, neue Inhalte sind binnen Sekunden auf allen Plattformen vorhanden.

Inhalten kann ein Rechtemanagement beigefügt werden, um zu bestimmen, auf welchen Verlagsangeboten sie wie lange laufen dürfen. Im Content Pool werden nicht nur bedeutend mehr semantisch angereicherte Artikel gespeichert, sondern auch alle Arten von Inhalten wie beispielsweise Bilder, Videos, Bildergalerien, Branchenbucheinträge oder Events. Sämtliche Dokumenteigenschaften lassen sich durch die Nutzung von Solr/Lucene einzeln oder in Kombination für Suchanfragen nutzen.

Ihre Suchlösungen basieren größtenteils auf der Open Source Software Solr/Lucene. Was leistet diese und was spricht aus Ihrer Sicht für die Nutzung?

Solr/Lucene ist die moderne Open Source Enterprise-Search-Technologie. Lucene ist seit 2001 in der Entwicklung und äußerst stabil. Auch die Twitter-Suche wird beispielsweise durch Lucene betrieben. Mittlerweile ist Solr/Lucene besser als die proprietären Lösungen und dabei kostengünstig einzusetzen, denn es ist Open Source und wird von einer großen, aktiven Community konsequent weiterentwickelt.

Für welche Unternehmen sind Ihre Suchlösungen geeignet?

Die von Retresco entwickelte Suchtechnologie ist in der Lage, große heterogene Datenmengen semantisch zu erschließen und durchsuchbar zu machen. Daher eignet sie sich für alle Unternehmen, insbesondere für solche mit großen Datenbeständen. Zu unseren Kunden zählen Organisationen, öffentliche Einrichtungen und Medienhäuser.

Semantische Suche und Komponenten unterstützen Verlage

Die Ausgangssituation bei der Märkischen Oderzeitung (MOZ) ist beispielhaft für viele Verlage: Hier wurde bis zum Relaunch der Website ein klassisches CMS genutzt. Die relativ kleine Onlineredaktion hatte viel Arbeit: Seiten und Themen wurden manuell erstellt, ebenso die Verlinkung und Relation von Inhalten. Es folgte das klassische Ausspielen in die Hauptressorts.

Mit Einführung einer semantischen Suche verfügt die MOZ nun über einen Content Pool, der das Zusammenstellen von Themenspecials im Backend ermöglicht, sowie über eine Suche, die redaktionelle Werkzeuge umfasst und durch Automatismen die Redaktion entlastet. Dadurch erhöht sich die Reaktionsgeschwindigkeit der Redaktion bei aktuellen Themen und Ereignissen. Die semantische Suchlösung von Retresco wird der neuen, umfangreichen Digitalstrategie des Verlags gerecht, denn sie ermöglicht die einfache Erstellung verschiedener Angebote, um Zielgruppen unterschiedlich anzusprechen. Gerade bei einer Regionalzeitung kann der regionale Bezug durch Geo-Tracking verstärkt und die Leser-Blatt-Bindung so verbessert werden. Durch automatisches Feeding erhöht sich zudem die Themenvielfalt – die inhaltlichen Schwerpunkte werden aber weiterhin von der Redaktion gesetzt.

Suchbasierter Content Pool für Verlage

Grundlage für eine semantische Suche ist die Erschaffung eines Content Pools. Dieser hat vor allem die einfache Verwertung von Inhalten in allen Verlagsangeboten zum Ziel. Vier Punkte sprechen dafür, einen Content Pool unabhängig von bestehenden CMS-Lösungen in einer Open Source Solr/Lucene Suche zu betreiben:

  1. Solr/Lucene erfüllt die Anforderungen an die Nutzbarkeit eines solchen Content Pools besser als klassische relationale Datenbanken, wie sie in CMS-Lösungen zum Einsatz kommen, die Software hat proprietäre Suchlösungen hinsichtlich der Fähigkeiten überholt.
  2. Bei der Suche werden nicht ausschließlich Inhalte aus dem CMS, sondern auch externe Inhalte genutzt.
  3. Durch die Nutzung einer weit verbreiteten Open Source Suchlösung wie Solr/Lucene sind Inhalte über Jahre hinaus ohne Lizenzen und Abhängigkeiten nutzbar. Demzufolge müssen diese bei einem CMS-Wechsel nicht mehr kostenintensiv migriert werden.
  4. Die Märkische Oderzeitung hat die semantische Suche im Zuge des Relaunches ihrer Website (www.moz.de) integriert. Dort sieht man, dass sich eine komplette Seite über die Suche elegant aussteuern lässt.

Die einzelnen Verlagsangebote, Applikationen oder Seiten, egal ob auf Typo3, Joomla oder anderen basierend, binden den Content Pool sehr einfach über eine REST-Schnittstelle an und rendern die zurückgegebenen Inhalte. Der Zugang zu den Inhalten ist somit äußerst schnell und einfach umzusetzen und funktioniert vollkommen unabhängig von der verwendeten CMS-Lösung.

Um die Seiten mit Inhalten zu befüllen, müssen Redakteure und Entwickler nur noch Suchabfragen für die einzelnen Kanäle und Ressorts im CMS definieren. Danach laufen die Kanäle und Inhalte automatisch direkt aus dem Print-CMS und den aggregierten Quellen ein. Das führt bis zur automatischen Generierung von Feeds und Streams in diversen Formaten direkt aus dem Content Pool heraus. Kleine Teaserboxen und Elemente lassen sich so auch einzeln mit Suchabfragen generieren. Beispielsweise können Dossiers zu Personen oder Themen binnen weniger Sekunden als Seitenteaser erstellt werden.

Interne und externe Aggregation von Inhalten

Die automatische Aggregation von Inhalten wird zunehmend wichtiger. Man unterscheidet dabei zwischen interner und externer Aggregation. Interne Aggregation erschließt Daten aus dem Haus selbst, während externe Aggregation Daten aus dem Internet erschließt. Gerade Verlagshäuser arbeiten meist in einer sehr heterogenen Umgebung mit verschiedenen Dienstleistern, Quellen und Angeboten. Dazu zählen zum Beispiel Eventdatenbanken, Asset-Management-Systeme, Branchenbücher und Archive. Diese zumeist unstrukturierten Inhalte können mit der semantischen Suche zugänglich gemacht werden, um sie in den Content Pool zu integrieren und somit einer umfangreicheren Verwertungskette zuzuführen.

Des Weiteren lassen sich durch die externe Aggregation Quellen aus dem Internet auf der eigenen Plattform verwerten. Quellen können hier von Nachrichtenstreams und Blogs über den Polizeiticker bis hin zu integrierten Wikipedia-Informationen auf Dossierseiten reichen. Die semantische Erschließung ermöglicht es, diese Inhalte beispielsweise mittels Geotagging oder Verschlagwortung anzureichern, sie in Relation mit bestehenden Daten zu bringen und sie somit optimal zu verwerten.

Semantische Komponenten: Automatische Erschließung und Themenverdichtung

Im Rahmen der semantischen Suche und des semantischen Content Pools kommen eine ganze Reihe semantischer Module zum Einsatz. Eine Eigennamenerkennung extrahiert automatisch die in einem Dokument genannten Personen, Firmen, Produkte und geographischen Bezeichner. Dies führt soweit, dass auch lokale Fußballvereine erkannt werden. Eine Verschlagwortung erkennt relevante, inhaltstragende Wörter – die Dokumente werden während der Indexierung um diese Informationen angereichert. Eigennamen und Schlagworte stehen dann über die Suche zur Verfügung und werden dort für die automatische Generierung von Dossier- und Themenseiten genutzt. Das gibt Redakteuren die Möglichkeit, sogar Themenspecials über Abfragen aus dem Content Pool zu kuratieren.

Neben der Extraktion von Eigennamen und Schlagworten werden auch vergleichbare Artikel automatisch berechnet. Dadurch wird ermöglicht, für einen gegebenen Inhalt weitere Inhalte aus dem Content Pool anzubieten. Dies kann über semantische Nähe laufen, um weitere thematisch verwandte Inhalte vorzuschlagen, oder über die geographische Nähe von Inhalten. Eine automatische Ressorterkennung klassifiziert jeden Artikel in relevante Ressorts. Somit lassen sich auch aggregierte, unstrukturierte Inhalte in den einzelnen Kanälen ausspielen.

Für regionale Seiten werden sämtliche Inhalte metergenau verortet. Dadurch lassen sich nicht nur semantische Relationen herstellen, sondern auch geografische Bezüge werden genutzt. Die integrierte Umkreissuche ermöglicht die automatische Generierung einer „Heimatseite“ mit lokaler Berichterstattung, örtlichen Veranstaltungen und zum Beispiel regionalen Branchenbucheinträgen aus dem Content Pool heraus.

Auch semantische Features wie Synonymsuche und Thesauri kommen zum Einsatz: Dadurch werden Suchanfragen in Relation zu „Weltwissen“ gesetzt und der Nutzer optimal unterstützt. Gerade Suchen in Branchenbüchern, bei denen es oft unterschiedliche Beschreibungen für dieselben Dinge gibt, werden hierdurch um ein Vielfaches einfacher. So findet man beispielsweise bei der Suche nach „Orangen“ auch „Apfelsinen“.

Wie der Verlag und die Leser profitieren

Es gibt vier unterschiedliche Nutzergruppen, die von einer semantischen Suche profitieren. Für die Verlagsleitung bedeutet die Umstellung auf eine semantische Suche vor allem eine Kostenreduktion bei gleichzeitiger Verbesserung von Sichtbarkeit, Click-Through-Rate (CTR) und Page Impressions (PIs). Komplexe Digitalstrategien können einfach und kostengünstig umgesetzt werden, der Einsatz von bewährten Open Source Technologien verringert die Kosten ebenfalls. Lokale Angebote wie das Branchenbuch können mit einer semantischen Suche genauer und besser integriert, neue Projekte in kürzerer Projektlaufzeit und somit kostengünstiger umgesetzt werden. Die integrierte Content-Mehrfachverwertung durch Ausspielen in verschiedenen Kanälen und Applikationen des Verlags ist ebenso ein starker Vorteil. Verlage profitieren allgemein vom Zeitgewinn der Mitarbeiter in den Redaktionen und Technikabteilungen.

Die Redaktion kann mit der semantischen Suche ihre Publikation, ob Online-Magazin oder Tageszeitung, durch ein echtes Channel-Management erzeugen, wobei Inhalte weiterhin wie gewohnt im CMS editiert werden. Vollkommen neue interne und externe Inhalte werden durch die Aggregation nutzbar und automatisch angereichert. Die Erfahrung zeigt, dass sich der redaktionelle Workflow deutlich beschleunigt, sobald Suchabfragen als Basis der redaktionellen Arbeit genutzt werden. So kann die Redaktion sich stärker auf Themensetzung sowie die Erstellung und Pflege von Inhalten konzentrieren, während ein Großteil der Seite automatisch befüllt wird. Dabei bleibt die volle Hoheit über die Ausspielung erhalten – es gibt keine verdeckten oder nicht steuerbaren Automatismen: Die Redaktion steuert die Suche, nicht die Suche steuert die Redaktion.

Für die Technikabteilung des Verlags ergeben sich Vorteile durch die direkte Integration über Schnittstellen in den Publishing-Workflow und die simple REST-API zur Einbindung. Es sind keine komplexen Migrationen mehr notwendig, externe Inhalte werden einfach integriert und die Entwicklung neuer Angebote kann wesentlich schneller vonstattengehen.

Nicht zuletzt profitieren auch die Leser einer Online-Publikation von einer völlig neuen Navigations- und Leseerfahrung. Themen sind besser erschlossen und vertieft und können auch leichter gefunden werden. Auch regionale Dossiers, zum Beispiel für lokale Fußballvereine, sind durch die integrierte semantische Suche schneller und einfacher zu finden.

Fazit: Semantische Suche – ein Pool an Effektivität

Neben den wesentlich besseren, umfänglicheren Suchergebnissen für den Leser bestehen die Vorteile einer integrierten semantischen Suche in Verlagen vor allem in der Verbesserung des redaktionellen Workflows. Alle Redakteure arbeiten am gleichen Content Pool und die enthaltenen redaktionellen Werkzeuge ermöglichen eine effiziente redaktionelle Arbeit. Die Veränderungen für das Medienunternehmen sind enorm: Im Gegensatz zu früheren Suchlösungen lassen sich heute mit semantischer Suche komplette Verlagsangebote realisieren.

www.retresco.de