Big Data. Big Content. Big Search.

Autor – Dr. Uwe Crenze, Geschäftsführer, interface:business Unternehmensgruppe

Daten, Inhalte, Informationen, Wissen – egal wie wir diese Begriffe abgrenzen, wir haben genug davon. Und weil es unterschiedliche Datenarten gibt, verwalten wir sie in einer Fülle von verschiedenen Systemen. Strukturierte Daten in relationalen Datenbanken, Dokumente in ECM-Systemen, E-Mails bleiben im Mail-Server oder werden in ein Archiv ausgelagert und so weiter.

All diese Systeme sind gut gefüllt. Haben wir deshalb ein Big Data-Problem? Nein. Wir haben viele Daten. Die meisten davon unstrukturiert – hier bietet sich der Begriff Content (Inhalte) an. Wir haben also mehr ein Big Content-Problem? Jein. Wir haben leider nicht zu viel Content von einer Art, sondern sehr unterschiedlichen Content in verschiedenen Systemen. Das macht den Unterschied. Dennoch macht der Begriff Big Content in diesem Zusammenhang Sinn, um sich von „klassischen“ Big Data-Szenarien abzugrenzen. Die Analyse und Verdichtung umfangreicher, aber homogener Logfiles erfordert ein anderes Herangehen als der aggregierte Zugriff auf heterogenen Content in einer Vielzahl von Systemen. Während Big Data mehr in Richtung Business Intelligence (BI) zielt, basiert die Durchdringung von Big Content in erster Linie auf Exploration und Metadaten-gestützter Suche.

Big Data-Technologien als Vorreiter für Enterprise Search

Die Heterogenität der Applikationslandschaft wird sich nicht reduzieren. Im Gegenteil. Zum Beispiel haben kollaborative Lösungen die „Old Fashion“-IT (wie z.B. E-Mail) nicht abgelöst, sondern sie sinnvoll ergänzt, um den Preis zusätzlicher Systeme. Solange die Aufgaben dieser Systeme klar abgegrenzt sind, ist das für die Pflege und geordnete Ablage der in ihnen verwalteten Inhalte kein Hindernis. Erst wenn ein Anwender Inhalte sucht, wird es spannend.

Und da ist der Begriff schon zum zweiten Mal gefallen: suchen. Suchen bleibt nicht aus. Suchen hat seine Ursache nicht in Unordnung, sondern im Umfang der vorhandenen Informationsmenge. Big Content impliziert Suchen, ob man es will oder nicht. Bei Darin Stewart, Research Director bei Gartner liest sich das so: “Enterprise Search is the Engine of Big Content” [1].

Big Data ist ein vielfältig missbrauchtes Buzzword. Enterprise Search, also eine interne Suchlösung für mittlere und große Organisationen, hat relativ wenig mit Big Data im engeren Sinne zu tun. Aber Big Data-Technologien helfen, die wachsenden Anforderungen und Erwartungshaltungen an Enterprise Search besser zu bewältigen.

Enterprise Search als Big Content-Lösung

Big Data und Big Content wird meist als isolierte Problemstellung betrachtet. Eine ganzheitliche Betrachtung der Informationslandschaft einer Organisation ist per se ein Big Content-Thema. Enterprise Search sollte deshalb von vornherein als eine Big Content-Lösung angesehen werden. Es geht bei Enterprise Search-Lösungen um mehr als nur suchen. Eine Such-Infrastruktur für umfangreiche und komplexe Informationsquellen ist viel zu schade, um damit nur zu suchen. Die Inhaltsanalysen einer Suchlösung helfen nicht nur die Suche zu verbessern, sondern sind der ideale Ansatz für die Erkundung der Informationslagerstätten und die Nutzung der Enterprise Search für die Big Content-Exploration.

Eine moderne Suchlösung muss außerdem über ein agiles Content Processing verfügen, ohne die Inhalte auf den Quellsystemen neu crawlen zu müssen. Aus diesem Grund wird neben einem Suchindex eine Metadatenbasis benötigt, in der gecrawlte Inhalte abgelegt, zyklisch analysiert und mit neuen Metadaten angereichert werden können. Dies ist die Phase der Veredelung der jetzt gebündelt verfügbaren Inhalte. Weitere Analyseschritte bringen Informationsbeziehungen zutage, mit deren Hilfe Inhaltsobjekte zu einer neuen Qualitätsstufe aggregiert werden. Auf diese Weise kommt Struktur in den Informationsdschungel. Inhalte werden in einem Kontext auffindbar – nicht nur durch Stichwort-basiertes Suchen, sondern durch systematische Exploration. Die Metadatenbasis als “Abfallprodukt” der Suchvorbereitung wird so zur wertvollen Wissensdatenbank und zur Datenbasis für die Überwachung der Information Management Compliance.

Für eine solche Metadatenbasis ist ein Cluster-Filesystem wie Hadoop [2] mit darauf aufsetzenden MapReduce-Algorithmen aufgrund der damit verbundenen Latenzen nicht geeignet. Trotz der großen, zu analysierenden Datenmengen muss eine Suchlösung eine echtzeitnahe Indexaktualität besitzen. Eins darf dabei nicht vergessen werden – Big Data-Lösungen sind selbst oft „big“. Viele NoSQL-Lösungen setzen auf Hadoop auf und erreichen eine Komplexität, deren Administration und Betrieb neben dem eigentlichen Big Data-Problem eine technische und ökonomische Herausforderung darstellt.

Zurzeit ist es sehr populär, auf die Verdrängung proprietärer Suchlösungen durch Open Source zu verweisen. Allerdings sind keine vollständigen Enterprise Search-tauglichen Open Source-Lösungen verfügbar. Solr [3] und ElasticSearch [4] sind geeignete Lösungsbausteine, benötigen aber für den Enterprise-tauglichen Einsatz neben einem kompetenten Dienstleister zahlreiche, meist kommerzielle Zusatzprodukte. ElasticSearch ist z.B. lediglich ein skalierbarer Kern einer Suchmaschine. Sie gibt auf viele Fragestellungen keine Antwort. ElasticSearch ist nicht mehr und nicht weniger als ein über mehrere Server skalierendes Lucene [5] ohne Crawling Framework, ohne Konnektoren, ohne umfangreiche Formatkonverter, ohne Suchoberfläche, ohne Nutzer- und Rechtekonzept usw.

Enterprise Search „reloaded“

Enterprise Search befindet sich im Wandel. Viele Anbieter bringen die erweiterte Marktpositionierung ihrer Lösungen durch neue Produktbezeichnungen und Produktbeschreibungen zum Ausdruck. Typische Formulierungen sind Content Analytics & Enterprise Search oder Unified Information Access. Auf der anderen Seite haben die Anwender erkannt, dass große Informationsmengen ohne eine leistungsfähige Suche nicht beherrschbar sind. Suchlösungen werden deshalb immer stärker nachgefragt. Dabei geht der Blickwinkel mehr in Richtung Wissensmanagement als dass er durch Content Management bestimmt ist. Ein Alarmsignal für die ECM-Branche, die Suche oft noch als Angriff auf ihre Produktphilosophie sieht, aber dazu unten mehr.

Von einer modernen Suche werden heute vielfältige semantische Funktionen erwartet und sie sollte darüber hinaus einen kollaborativen Ansatz unterstützen. Durch die rasch anwachsenden Informationsmengen und dem damit höheren Stellenwert der Suche im Arbeitsprozess treten zusätzliche Fragen in den Vordergrund, wie die Verfügbarkeit der Suche und ihre Skalierbarkeit. Spätestens dann sind die Anforderungen an die IT-Infrastruktur ein Thema. Die Gesamtkosten einer Suchlösung werden schließlich nicht nur durch Lizenzkosten bestimmt. Der Ressourcenbedarf einer Enterprise Search kann theoretisch dadurch gesenkt werden, dass die zentrale Suche über einen Federator Suchergebnisse der internen Suche der verschiedenen Information Management-Lösungen zusammenfasst. Insbesondere Archivhersteller propagieren solche Lösungen, damit der Archivinhalt nicht noch einmal indexiert werden muss. Dieser Ansatz ist aus mehreren Gründen nicht zielführend.

Werden Ergebnislisten unterschiedlicher Suchlösungen miteinander gemischt, ist die Ermittlung der Relevanz eines Suchtreffers nicht mehr möglich. Auch die Qualität, die Suchsyntax und die in den Suchen vorhandenen Metadatenfelder sind unterschiedlich. Ein solcher Ansatz ist aus diesen Gründen lediglich als Notlösung zu betrachten. In einer solchen Situation ist es hilfreich, wenn die für eine Enterprise Search benötigten IT-Ressourcen auch für andere Aufgaben mit genutzt werden können. So kommt es zu den sich am Markt herausbildenden Mischlösungen aus Enterprise Search mit anderen Information Management-Produkten bzw. zur Funktionserweiterung von Enterprise Search-Produkten.

Da Suchen meist mehr ist als das stringente Nachschlagen eines bekannten Fakts, besitzen Enterprise Search-Lösungen bereits ausgeprägte explorative Funktionen. Deshalb sind anwendungsübergreifende Recherchelösungen und Werkzeuge zur Unterstützung von Information Management Compliance die naheliegenden Ergänzungsfunktionen für eine innovative Suche.

Enterprise Information Management & Suche

Ein immer wieder anzutreffendes Paradoxon ist die Antipathie der Hersteller von Enterprise Information Management-Lösungen gegenüber Suche. Anstatt sich endlich dieses Thema zu Eigen zu machen, beschwören sie den Konflikt zwischen der Notwendigkeit Ordnung herzustellen und der mutmaßlich zur Unordnung erziehenden Suche. Dabei wird das immense Potenzial von Suchlösungen verkannt. Doch die Anwender erhöhen den Druck. Sie kennen dieses Potenzial aus dem Internet. Ist erst genügend Content vorhanden, ist eine Suche unumgänglich.

 art2_bild1
Bild: Metadaten-basierte Enterprise Search-Anwendungen

Ordnung allein ist für das Finden von Informationen nicht ausreichend! Wie bereits weiter oben erwähnt, steckt in der Metadatenbasis einer geschäftsprozess-unterstützenden Suche ein noch viel größeres Potenzial, als nur die Bereitstellung einer Suche. Die Wirkungsfelder einer modernen Enterprise Search lassen sich in drei Säulen zusammenfassen: inventory, search & explore.

Inventory: Enterprise Search hat eine Eigenschaft, die kaum ein anderes Informationssystem aufweisen kann. Sie muss alle Inhalte aller eingebundenen Informationsquellen analysieren und indexieren, bevor eine Suchfunktion zur Verfügung gestellt werden kann. Dieser Fakt geniest in der Betrachtung von Suche kaum Aufmerksamkeit, zu Unrecht. Für die Bereitstellung semantischer Funktionen werden die Inhaltsquellen analysiert und eine Metadatenbasis aufgebaut. Mit Hilfe dieser Metadatenbasis kann die Enterprise Search wertvolle Services für andere Information Management Lösungen liefern. Es werden nicht nur Metadaten generiert, sondern auch Informationsbeziehungen analysiert und Inhalte aus verschiedenen Datenquellen aggregiert.
Search: Suche ist die Kernaufgabe einer Enterprise Search. Der Informationsquellen-übergreifende Ansatz gewährleistet eine homogene Suche für die unterschiedlichsten Informationstypen. Das spart wertvolle Zeit, man muss sich nur mit dem Suchverhalten einer Lösung auseinandersetzen und man kann sicher sein, dass keine Informationen verloren gehen, nur weil man nicht in allen Systemen nachgesehen hat.
Explore: Mit Metadaten angereicherte Informationen sind die ideale Basis für Recherchen und die Erkundung des unternehmensweiten Informationsreservoirs. Das gesamte Bündel an semantischen Funktionen unterstützt den Nutzer bei der Erkundung der Informationslandschaft und hilft neue Zusammenhänge zu entdecken.

Fazit

Big Content Exploration benötigt mehr als ein Big Data Eco-System. Eine skalierbare Suchlösung ist dafür der richtige Ansatz. Nicht nur in Hinblick auf die Durchsuchbarkeit der verteilten Inhalte, sondern in erster Linie für die Gewinnung, Analyse und Aggregierung der Inhalte.

Aufbauend auf diesem funktionellen Fundament kann Enterprise Search einen wertvollen Beitrag auf folgenden Gebieten leisten:

  • Steigerung der Produktivität von Wissensarbeitern durch schnellen und vollständigen Zugriff auf alle geschäftsprozessrelevanten Informationen
  • Prozessunterstützung durch Suche-basierte Info-Apps
  • Überprüfung der Information Management Compliance durch Monitoring- und Reporting-Apps
  • Wichtige Informationen durch Anreicherung mit Metadaten und Querbeziehungen zu anderen Informationen noch wertvoller machen
  • Förderung der Zusammenarbeit durch das Teilen von Rechercheergebnissen

Eine moderne, skalierbare Enterprise Search erfüllt genau diesen Zweck.

Literatur- und Quellenhinweise

[1] http://blogs.gartner.com/darin-stewart/2013/05/13/enterprise-search-is-the-engine-of-big-content/
[2] Distributed Open Source Computing Platform http://hadoop.apache.org/
[3] Open Source Enterprise Search https://lucene.apache.org/solr/
[4] Distributed Open Source Search Engine http://www.elasticsearch.org/
[5] Open Source Search Engine https://lucene.apache.org/

www.intergator.de

Dr. Uwe Crenze ist seit 1993 geschäftsführender Gesellschafter der in Dresden ansässigen interface:business Unternehmensgruppe. Nach Berufsausbildung und Informatik-Studium promovierte er auf dem Gebiet der Simulation hochintegrierter Schaltkreise. Im Unternehmensbereich interface:projects ist er insbesondere für die strategische Ausrichtung des eigenen Enterprise Search Produktes inter:gator verantwortlich.