Warum Alternativen zu Google-Search nötig sind.

Autor – Dr. Michael Bark, Geschäftsführer, evodion Information Technologies GmbH

Die Zeiten, in denen die Brockhaus Enzyklopädie in das Bücherregal jedes bürgerlichen Haushalts gehörte, sind passé. Nicht umfassende Nachschlagewerke sind heute unser Tor zur Welt, sondern Google. Mit einem hiesigen Marktanteil von knapp 95 Prozent ist der Suchmaschinen-Gigant heute das Maß aller (Such-)Dinge. Google indiziert mehrere Hundertmilliarden Websites und meistert selbst komplexe Abfragen in Sekundenbruchteilen. Die atemberaubende Leistungsfähigkeit der Google-Suche hat einen simplen Grund: geschätzt eine Million Server. Aber Schnelligkeit ist nicht alles, insbesondere beim Thema Enterprise Search.

Für eine zuverlässige und leistungsfähige Suchfunktion für Unternehmensdaten gilt eine zusätzliche, wesentliche Voraussetzung: Daten, die einer fachlichen Zugriffskontrolle unterliegen, müssen zwecks Auffindbarkeit indiziert werden. Eine Lösung für die Enterprise Search muss demnach bestehende Benutzer- und Zugriffsrechte einbeziehen können, indem man sie an vorhandene Benutzerverzeichnisse anbindet, wie etwa Open LDAP oder Active Directory. So ist gewährleistet, dass die Suchmaschine nur „erlaubte“ Treffer ausliefert. Zudem sollte eine Enterprise Search-Lösung möglichst viele Inhalte und Dokumentenformate erfassen und analysieren können. Im Gegensatz zur Google-Suche sind gegebenenfalls weitere Formate neben HTML, PDF und Microsoft Office mittels dedizierter Crawler zu berücksichtigen. Nicht zuletzt spielen Metadaten eine große Rolle: Name des Autors, Erstellungsdatum, Freigaberedakteur oder Abstract – Informationen, die Google in der Regel nicht erfasst.

Dennoch erscheint Google auch bei der Enterprise Search als Referenzgröße allgegenwärtig. Durch Google Custom bzw. Google Enterprise Search können Unternehmen ihre Website mit einer mächtigen Suchmaschine ausstatten. Für Internetauftritte ist das sicherlich eine attraktive Lösung. Doch es gibt berechtigte Bedenken und Vorbehalte gegenüber der Google-Suche, was den Datenschutz angeht.

Google-Lösungen: Mangelnder Datenschutz und hohe Kosten

Neben Google Custom und Google Enterprise Search bietet das Unternehmen zwei Produkte speziell für Geschäftskunden: Google Site Search und Google Search Appliance. Google Site Search basiert auf derselben Architektur und Technologie wie die Standardsuche. Die Lösung lässt sich per API einbinden, berücksichtigt aber nur öffentliche Inhalte. Damit eignet sie sich zur Website-Suche, bietet aber keine Enterprise Search-Funktionalität – zumal sie aus Datenschutzgründen kritisch zu betrachten ist.

Google Search Appliance hingegen ist eine Kombination der Google Search Applikation und entsprechender Hardware im Bundle, die Unternehmen selbst hosten können. Darum ist es möglich, Datenschutzbelange hinreichend zu berücksichtigen. Allerdings verursacht die Lösung sehr hohe Kosten – sowohl bei der Lizenzierung als auch im laufenden Betrieb.

Alternative Suchmaschinen im Aufwind

Sucht man nach Alternativen, unterscheiden sich die Ergebnisse stark. Sie sind abhängig vom Blickwinkel, aus dem heraus man sucht. Vor dem Hintergrund der Diskussionen über die Verletzung der Privatsphäre und Sammelwut der amerikanischen Behörden – Stichwort PRISM Leak –, befinden sich viele alternative Suchmaschinen im Aufwind. Allerdings können sie Google im Bereich der klassischen Suchfunktion nicht das Wasser reichen – mit Ausnahme der Microsoft-Suche Bing und Alibaba im asiatischen Raum, wo kulturelle und sprachliche Anforderungen eine größere Rolle spielen.

Doch auch in anderen Teilen der Welt haben sich weitere, wenn auch nischenspezifische Suchmaschinen etabliert: Wolfram Alpha mit einer semantischen Suche, die weniger Index- und Algorithmus-basiert arbeitet, oder Creative Commons mit Spezialisierung auf frei nutzbare Mediendateien. TinEye wiederum liefert eine Reverse-Bildersuche, während DuckDuckGo die Privatsphäre zu schützen verspricht. Eine Lösung für die Enterprise Search muss sich an einer Architektur orientieren, die Google Search Appliance verwendet, das heißt: eine Standalone-Lösung. Allerdings sind die verfügbaren Tools aufgrund des Zusammenspiels diverser Komponenten hochkomplex und erfordern daher Spezialwissen.

Was eine Enterprise Search leisten muss

Welche Faktoren zeichnen eine gute Enterprise Search-Lösung aus? Sie muss in der Lage sein, Unternehmenswebsites vollständig zu durchsuchen – einschließlich interner, nicht öffentlicher Dokumente. Um dies zu gewährleisten, ist neben der on-demand Indexierung für neue Inhalte auch die Berücksichtigung der jeweiligen Zugriffsrechte, wie z.B. Access Control List (ACL), erforderlich. Zudem ist das Logging der Suchanfragen zwecks Reporting eine Grundvoraussetzung.

Wegen der individuellen Anforderungen, die Unternehmen an die Suche stellen, ist eine maßgeschneiderte Lösung zu empfehlen, die schnell zu integrieren ist – bei transparenten, überschaubaren Kosten. Zudem haben Firmen mit einer solchen Lösung die volle Kontrolle über geschäftskritische Informationen und können für optimalen Datenschutz sorgen.

Lucene stellt Kern einer Suche zur Verfügung

Viele Open Source-Lösungen basieren auf der Apache Lucene-Technologie. Den Kern von Lucene bildet eine Programmbibliothek, die den Index aus digitalen Formaten generiert, bereitstellt und entsprechende Suchergebnisse liefert. 1999 erstmals veröffentlicht, wurde Lucene 2001 Teil des Jakarta-Projekts, und 2005 ein Hauptprojekt der Apache Software Foundation. Heute liefert Lucene zwar den Kern einer Suche, aber isoliert eingesetzt, ist noch keine umfassende Suchfunktion realisierbar. Aufbauend auf der Lucene-Technologie haben sich daher Projekte wie Nutch, Compass, Hounder oder Solr entwickelt. Insbesondere Solr verdient eine weitergehende Betrachtung.

Solr – so funktional wie die Google-Suche

Bei Solr handelt es sich um ein in Lucene enthaltenes Servlet für Container wie Apache Tomcat oder Jetty. Ursprünglicher Entwickler von Solr war CNET, das die Technologie anfangs „Solar“ (Search on Lucene and Resin) nannte. Ebenso wie Tomcat ist Resin ein Servlet Container. Solr kommuniziert über http: mittels HTTP POST ist es z.B. möglich, verschiedenste Dateiformate – von XML über JSON bis hin zu PDF – zu verarbeiten bzw. zu indizieren. Abfragen erfolgen mittels HTTP GET. Daneben bietet Solr weitere Features, wie etwa Highlighting, Ähnlichkeitssuche, facettierte Suche, Expertensuche, Phrasensuche, Rechtschreibprüfung, Autosuggestion und umfassende Analytics-Funktionalitäten, wie etwa gesuchte Wörter (Phrasen), gewählte Treffer etc.

In Summe erreicht Solr den Funktionsumfang der klassischen Google-Suche und ist zudem sowohl skalierbar als auch hochperformant. Mit rund 6.000 Downloads pro Tag zählt Lucene zu den erfolgreichsten Open Source-Projekten – entsprechend groß sind die Community und die Knowledge Base im Netz. Zudem verfügt Solr über eine sehr gute Dokumentation, sodass auch in unternehmenskritischen Szenarien ausreichend Stabilität und Zukunftssicherheit gewährleistet sind.

Um Solr einsetzen zu können, gibt es nur eine technische Voraussetzung: die Installation eines Java Development Kit (JDK) bzw. einer Java Runtime Environment (JRE) auf einem beliebigem Betriebssystem. Als Servlet Container ist eine Tomcat- oder Jetty-Instanz nötig, die die Apache Solr Webapp ausführt. Mit einigen Parsern ausgeliefert, kann Solr spezielle Formate wie PDF, XML oder HTML interpretieren und das Ergebnis entsprechend indizieren. Für besondere Anforderung kann es gegebenenfalls erforderlich sein, zusätzliche Parser einzusetzen. Um Verzeichnisse oder Repositories zu durchsuchen, kommen Crawler zum Einsatz, die einen Verzeichnisbaum „spidern“.