Content im Kontext – Mehrwert für Informationen

Open Source, Enterprise Search, Big Data

Franz Kögl, Vorstand und Mitgründer der IntraFind Software AG

Unternehmen benötigen Lösungen, um ihre wachsenden Informationsmengen zu strukturieren und geteilte Inhalte für Mitarbeiter und Kunden so bereitzustellen, dass ihnen ein effizienter Umfang mit Informationen ermöglicht wird. Aktuelle Studien prognostizieren ein unaufhaltsames Datenwachstum im „digitalen Universum“. Laut den Ergebnissen der IDC-Studie „Digital Universe“[1] im Auftrag des Speicherherstellers EMC wurden allein im Jahr 2012 weltweit 2,8 Zettabyte Daten neu erzeugt.

Der Einsatz einer Enterprise Search-Lösung ermöglicht einen schnellen, anwenderfreundlichen und applikationsübergreifenden Zugang zu allen Unternehmensinformationen unter Berücksichtigung der individuellen Benutzerrechte. Doch welche Lösung passt für welches Unternehmen? Und wie können Unternehmen ihren Mitarbeitern die relevanten Informationen zum richtigen Zeitpunkt bereitstellen und dies möglichst kostengünstig, einfach benutzbar, schnell, strukturiert sowie sprach-, abteilungs- und standortübergreifend? Antworten auf diese Fragen haben die Hersteller von Enterprise Search-Produkten und -lösungen parat. Der Enterprise Search-Experte Martin White listet beispielsweise in seiner internationalen Übersicht[2] mehr als 70 Anbieter kommerzieller und Open Source-basierter Softwarelösungen auf.

Lucene, Solr und ElasticSearch – Open Source-Technologien mit Potenzial

Lucene, Solr und ElasticSearch, alles Projekte der Apache Software Foundation[3], sind zweifelsohne die bekanntesten Technologien im Bereich Open Source-basierter Suche und werden von einer großen Entwickler-Community aktiv vorangetrieben.

Die Java-Bibliothek Lucene wird auch als Suchmaschinen-Framework bezeichnet, da sie lediglich den groben Rahmen der späteren Applikationsarchitektur vorgibt und den Entwicklern viel Freiraum lässt für die Anpassung an spezifische Anwendungsszenarien. Die leistungsfähige und plattformunabhängige Volltextsuchmaschine stellt Klassen und Standardfunktionalitäten für Indexerstellung und Suche zur Verfügung, auf deren Grundlage eine eigene Suchmaschine entwickelt werden kann.

Solr hingegen ist ein konfigurierbarer, performanter und hochverfügbarer Suchserver (realisiert als RESTful Webservice) inklusive einfacher Administrationsoberfläche und stellt in seinem Funktionsumfang eine Erweiterung der Lucene-Bibliothek dar. Auch ohne Java-Kenntnisse kann Solr über XML oder JSON für die Indexierung und Suche verwendet werden. Eine erwähnenswerte Funktionalität stellt dabei die Möglichkeit der facettierten Suche dar. Über die Auswahl von Filtern (Facetten) kann der Anwender einer Solr-basierten Suchlösung die Treffermenge einschränken und so das Suchergebnis verfeinern. Die Nutzung von Suchfiltern ist Anwendern in der Regel aus dem Internet bekannt und findet sich beispielsweise in der Navigation vieler Onlineshops wieder. Auch hier kann ein großes Sortiment intuitiv einfach und per Mausklick durch die Einschränkung der Produkteigenschaften (z.B. Musik- oder Literaturgenre, Größe, Farbe und Preis eines Kleidungsstückes) auf eine überschaubare Menge relevanter Artikel reduziert werden. Darüber hinaus bietet Solr Standardsuchfunktionalitäten wie die Autovervollständigung der Suchanfrage, die Möglichkeit der Rechtschreibprüfung (Spell Checker) oder die farbige Hervorhebung gefundener Suchbegriffe innerhalb der Trefferliste.

Der Suchserver ElasticSearch[4] ist ein neueres Projekt der Apache Software Foundation und seit 2010 verfügbar. ElasticSearch setzt ebenfalls auf Lucene auf und wurde von vorneherein für die Suche in sehr großen, sich oft ändernden Datenmengen (Big Data) konzipiert, wobei der Fähigkeit zur Near Realtime Search besonderes Augenmerk gewidmet wird. Im Vergleich zu Solr verfügt ElasticSearch über modernere Konzepte und leistungsfähigere Technologien für die Umsetzung verteilter Suchszenarien (distributed search).

Indizierung und Analyse von Texten und Daten

Die Hauptaufgaben einer Suchmaschine liegen in der Indizierung von Texten und Daten, der Verarbeitung von Suchanfragen sowie der Darstellung der Suchergebnisse. Durch die Verwendung geeigneter Filter, sogenannter „Konverter“, können aus Dateiformaten wie Office-Dokumenten, Intranet- oder Wiki-Inhalten, E-Mails oder Datenbankeinträgen die reinen Textinformationen ohne jegliche Formatierung extrahiert und für die spätere Suche in einem Index gespeichert werden. Für die Anbindung der verschiedenen Quellsysteme wie Dateiablagesystem, Intranet, Datenbanken, CRM oder DMS kommen geeignete Konnektoren zum Einsatz.

Die Textinhalte werden anschließend analysiert, in Einzelwörter zerlegt und als Einträge im Index abgespeichert, wofür Lucene standardmäßig einfache sogenannte „Analyzer“ bereitgestellt. Durch den Einsatz spezieller Analyzer ist Lucene sogar in der Lage, Texte in nicht-europäischen Sprachen wie Japanisch oder Chinesisch sinnvoll zu verarbeiten. Bereits während der Indexerstellung können mit Lucene verschiedenste Suchanfragen ausgeführt werden, zum Beispiel durch die logische Verknüpfung von Begriffen in der Suchanfrage mithilfe Boolescher Operatoren („London“ AND „Olympia“ AND „Medaillenspiegel“).

Linguistische Verfahren – Qualitätssteigerung für Lucene-Suchergebnisse

Für die Erhöhung der späteren Trefferqualität einer Lucene-basierten Suche empfiehlt es sich, auf qualitativ hochwertige linguistische Verfahren zurückzugreifen. Das Resultat sind vollständigere und präzisere Suchergebnisse. So funktioniert Linguistik: „Lemmatizer“ normalisieren Wörter auf ihre Grundform und „Decomposer“ zerlegen sperrige Mehrwortbegriffe wie den berühmten „Donaudampfschifffahrtskapitän“ korrekt in ihre sinntragenden Einzelbestandteile, bevor sie im Index gespeichert werden. Gängige einfache Verfahren wie algorithmische „Stemmer“ normalisieren Wörter auf meist künstliche Wortstämme, indem die häufigsten Endungen einer Sprache entfernt werden. Sie führen nicht selten zu inhaltlich unpassenden Suchtreffern, wenn beispielsweise die Worte „Beamter“ und „Beamer“ während der Indizierung beide auf den künstlichen Wortstamm „Beam“ zurückgeführt und entsprechend falsch im Index hinterlegt wurden. Eine Suche nach „Beamter“ und „Beamer“ führt folglich – für den Suchenden wenig hilfreich – zu identischen Treffern.

Durch den Einsatz von qualitativ hochwertiger Linguistik in der Suche und die damit verbundene Vollständigkeit und Präzision der Trefferliste werden – im Vergleich zur einfachen Volltextsuche – keine relevanten Treffer mehr übersehen. Der Benutzer profitiert von intelligenter Suchunterstützung im Hintergrund, da er bei der Eingabe von Suchbegriffen weder auf Groß- oder Kleinschreibung noch auf Singular- oder Pluralformen achten muss. Suchbegriffe unterschiedlicher Schreibweise werden auf dieselbe Wortgrundform reduziert und führen zu denselben Suchergebnissen in der Trefferliste. Präzision in der Suche bewirkt zudem auch eine hohe Präzision in möglichen aufbauenden Verfahren wie der Textanalyse oder der Textklassifikation.

Open Source als Basis für funktionale Suchlösung

Bereits ohne jegliche Anpassungen liefert Lucene kostenfrei und für jeden Entwickler verfügbar wichtige Grundfunktionalitäten für die Suche und bildet eine solide Grundlage für die Entwicklung einer unternehmensspezifischen Sucharchitektur. Mittlerweile erfreut sich Lucene als weltweit am häufigsten genutzte Suchmaschine großer Beliebtheit (die Skepsis gegenüber Open Source-Software hat sich längst gelegt), wurde in diverse Programmiersprachen portiert und bildet den Motor leistungsfähiger und etablierter Onlineportale und -dienste. So werden beispielsweise mit einer Lucene-basierten Suche täglich mehr als eine Milliarde Suchanfragen auf Twitter[5] ausgeführt. Auch Apples Onlineshop iTunes[6] oder das Netzwerk MySpace[7] setzen für die Suche nach Produkten, Dokumenten, Beiträgen oder Kommentaren auf die Open Source-Suchengine. Auch der Suchserver Solr kommt in umfangreichen Installationen zum Einsatz, beispielsweise bei den Unternehmen MTV, Disney oder CNN.

Softwarehersteller wie IntraFind nutzen Lucene oder ElasticSearch als Basis, erweitern deren Leistungsumfang, beispielsweise um die bereits erwähnten linguistischen Verfahren oder um Komponenten für semantische Suche, und generieren daraus ein eigenes zuverlässiges und skalierbares Enterprise Search-Produkt für den Unternehmenseinsatz. Ebenso ist es möglich, eine Solr-basierte Suchlösung durch Erweiterungsmodule kommerzieller Anbieter anzureichern, um die Qualität der Suchtreffer zu steigern.

Content im Kontext – nur mit Metadaten

Die bereits eingangs erwähnte IDC-Studie „Digital Universe“ (2012) zum weltweiten Datenwachstum ermittelt einen „Big Data Gap“, d.h. rund 23 Prozent der Informationen im digitalen Universum könnten per se nützliche Erkenntnisse bringen. Derzeit sind jedoch nur drei Prozent dieser Daten systematisch verschlagwortet und noch weniger werden analysiert. Die Quintessenz: Große Mengen an unstrukturierten Daten liegen brach, beinhalten jedoch Geschäftspotenzial für Unternehmen, das auf einfache Art und Weise genutzt werden könnte.

Der Schlüssel zum verborgenen Datenschatz liegt in der Extraktion von Metainformationen aus unstrukturierten Daten, die durch die kontextbasierte Vernetzung von Informationen zur Verbesserung zahlreicher Unternehmensprozesse genutzt werden können. Die Möglichkeit der automatischen Erzeugung von Metadaten bieten Lösungen wie der IntraFind Tagging Service. Exemplarische Anwendungsmöglichkeiten finden sich in allen Contenterstellungsprozessen (z.B. in Redaktionen), in der Steuerung von Workflows (z.B. die gezielte Verteilung eingehender E-Mails aus einer Gruppenmailbox an die zuständigen Sachbearbeiter, basierend auf einer Inhaltsanalyse und Themenerkennung), der Unterstützung von Compliance-Richtlinien (durch die frühzeitige Identifikation von Dokumenten, die aus Revisionsgründen archiviert werden müssen), aber auch im Bereich der unternehmensweiten Suche.

Metadaten tragen dazubei, die Qualität der Suchtreffer zu optimieren und können beispielsweise für eine verbesserte Navigation oder als Suchfilter eingesetzt werden. Ein weiteres Einsatzszenario ist die Integration von Verschlagwortungskomponenten in Content Management- oder Dokumentenmanagement-Systemen. Mitarbeiter können auf diese Weise dabei unterstützt werden, standardisierte Metadaten (Schlagworte) zu vergeben und damit die spätere Wiederauffindbarkeit ihrer Dokumente deutlich zu erhöhen.

Beispiel 1: Semantische Suche und Verschlagwortung @ ZEIT ONLINE

Zwei der zuvor beschriebenen Anwendungsszenarien für Metadaten kommen bei der ZEIT ONLINE GmbH in der Praxis zum Einsatz. Die Online-Redaktion des innovativen deutschen Nachrichtenportals nutzt Technologien von IntraFind für die automatische Verschlagwortung neuer und archivierter redaktioneller Inhalte. Dabei galt es, initial auch das umfassende Archiv von ZEIT ONLINE, das Hundertausende von Artikeln und Kommentaren beinhaltet, einheitlich mit thematischen Schlagwörtern zu versehen. Zusätzlich wurde eine Linguistikkomponente von IntraFind in die bereits bei ZEIT ONLINE bestehende Open Source-Suchlösung Solr integriert, um die Suche im Portal www.zeit.de zu verbessern und dabei die hohen Qualitätsanforderungen der Redaktion zu erfüllen.

Die Verwendung des Verschlagwortungsservice ermöglicht ZEIT ONLINE, das gesamte Archiv sowie neu erstellte redaktionelle Inhalte mit zusätzlichen Metadaten zu versehen und die Portalinhalte kontextbasiert intelligent miteinander zu verlinken – ohne Qualitätseinbußen trotz automatisierter Verfahren, performant, hoch skalierbar und nahtlos in bestehende Prozesse integriert.

Artikel2_1Bild 1: Automatisches Befüllen der Verschlagwortungsmaske des Redaktionssystems bei ZEIT ONLINE

Dadurch verbessert sich sowohl das aktive Sucherlebnis auf www.zeit.de als auch die Navigation innerhalb der Webseite und es können neue Dienste und Verlinkungsangebote genutzt werden: Ein Personenregister[8] auf Basis automatisiert extrahierter Entitäten (= Erkennung der Eigennamen von Personen in den vorhanden Texten) ermöglicht beispielsweise die gezielte Information über eine bestimmte Person durch die Aggregation aller vorhandenen Artikel. Visualisiert man diese aus den Artikeln gewonnenen Personeninformationen wie im ZEIT-„Jahresrückblick der wichtigsten Personen 2012“[9], erhält der Begriff „vernetzte Information“ ein konkretes Gesicht. Eine nachhaltig gesteigerte Verweildauer der Portalbesucher seit Einführung der neuen Suche belegt den Erfolg der Verbesserungsmaßnahmen. Die Redakteure von ZEIT ONLINE werden durch den Einsatz der IntraFind-Lösung von der manuellen Verschlagwortungstätigkeit entlastet, können aber jederzeit im Rahmen eines Qualitätssicherungsprozesses Korrekturen an der Auswahl der automatisch vorgeschlagenen Themenschlagwörter vornehmen.

Für einen weiteren Ausbau des Verschlagwortungsservice sollen neue relevante Schlagwörter und Entitäten vorgeschlagen werden, die bisher noch nicht im kontrollierten Vokabular vorkommen. Das System wird dann in der Lage sein, bisher unbekannte Personen oder Organisationen automatisch vorzuschlagen, wenn das System für diese neuen Terme einen bestimmten Relevanzgrad ermittelt hat.

Beispiel 2: Digitales juristisches Wissensnetzwerk – WKD JURION

Ein weiteres Anwendungsbeispiel für die Vernetzung von Wissen durch Metainformationen zeigt das juristische Fachportal JURION[10] des Wissens- und Informationsdienstleisters Wolters Kluwer Deutschland GmbH. JURION unterstützt zielgerichtet die Rechercheprozesse in Anwaltskanzleien und ermöglicht nicht nur den umfassenden Zugriff auf alle für den Anwalt relevanten Fachinformationen, sondern auch die aktive Beteiligung und Interaktion der JURION-Anwender (z.B. durch die Erstellung, Bewertung, Diskussion und Kommentierung von Fachbeiträgen).

 Artikel2_2

Bild 2: Intelligente und interaktive Vernetzung von Wissen mit semantischer Suche

Der Fokus von JURION liegt auf der präzisen Unterstützung juristischer Arbeitsprozesse, wozu intelligente IntraFind Such- und Klassifikationstechnologien (jSearch) einen maßgeblichen Beitrag leisten. Zum Einsatz kommt unter anderem die Lucene-basierte Enterprise Search-Lösung iFinder. Über eine einzige, auf dem Notebook des Anwalts installierte Benutzeroberfläche können Verlagsinhalte, eigene lokale Daten, Inhalte aus der JURION Usercommunity und der JURION Cloud (jCloud) sowie thematisch relevante, frei verfügbare Informationen im Internet (z.B. Wikipedia, frag-einen-anwalt.de) durchsucht werden. Diverse Filter- und Suchfunktionalitäten wie die Anzeige weiterführender Informationen oder korrelierender Themen und Begriffe erleichtern dem Anwender die Navigation durch die vorhandenen Wissensinhalte.

Relevante Informationen kann der Anwalt in einer digitale Arbeitsmappe (jDesk) ablegen und dort weiter bearbeiten. Mit der Komponente JURION Wissensmanagement kann die jSearch-Suche auf weitere Inhaltsquellen (z.B. E-Mails oder die Kanzleisoftware) ausgeweitet werden. Dabei kommen auch datenquellenübergreifende Metadaten zum Einsatz – zu jedem Informationsobjekt im JURION-Wissensraum werden einheitliche Themen-Metadaten erzeugt und für die Suche genutzt. Die Relevanz der Rechercheergebnisse orientiert sich dabei stets am Kontext der individuellen Fragestellung des JURION-Anwenders. Mit der Vision, individuelles Wissen intelligent und interaktiv zu vernetzen, eröffnet Wolters Kluwer den JURION-Anwendern Zugang zu einem digitalen juristischen Wissensnetzwerk und zu einem neuen Weg juristischen Arbeitens.

IntraFind Webcasts

Erfahren Sie mehr über Enterprise Search, Textanalyse oder die Vorteile von Metadaten – www.intrafind.de/webcasts