Autorin – Ursula Flade-Ruf, Gründerin und Geschäftsführerin der mip GmbH
Echtzeit-Analysen von Maschinen-Daten, Sensorwerten oder Social-Media-Diskussionen, relevant, kosteneffizient und flexibel über die Cloud, jahrelang gespeichert, formatübergreifend und übersichtlich in einer einheitlichen Lösung: IT- und Fachabteilungen, Entwickler sowie Big-Data-Spezialisten suchen nach der „einen Plattform“, die IT-Landschaften, Software-Plattformen, Anwendungen und interne sowie externe Informationen miteinander vereinigt. Das klingt nach einer Utopie, der wir uns aber dank digitaler Vernetzung und neuer Technologien stetig annähern. Doch wird dadurch das Data Warehouse überflüssig?
Einerseits klingt eine alle Daten und IT-Lösungen einschließende Echtzeit-Plattform aus heutiger Sicht unwirklich. Andererseits würde diese ein Data Warehouse (DWH) allerdings auch nicht ablösen, da beide komplett verschiedene Aufgaben zu erledigen haben. Sicher ist nur, dass infolge von Digitalisierung und Internet of Things die DWH- und Big-Data-Technologien immer näher zusammenrücken.
Über die Jahre hinweg haben sich die Ansprüche an ein Data Warehouse kaum geändert: Es wird immer noch als zentrale Anlaufstelle für alle Unternehmensinformationen verwendet, um relevante Daten aufzubereiten und zu analysieren. Erhöht haben sich dagegen die Verarbeitungsgeschwindigkeit und das zugrundeliegende Datenvolumen, die beide auch in Zukunft weiter zunehmen werden.
Moderne Data-Warehouse-Architektur
Ein alter Vorwurf an das DWH lautet, dass Entscheidungen zu 90 Prozent auf qualitativen Daten und nur zu 10 Prozent auf quantitativen Informationen beruhen. Ein Data Warehouse bestehe aber nun einmal aus einer Ansammlung von quantitativen Daten. Um diesen Vorwurf zu entkräften, arbeiten gegenwärtig jedoch Softwarehäuser und Entwickler im Big-Data- und Data-Lake-Bereich daran, die qualitativen Informationen besser an das Data Warehouse anzukoppeln.
Das Architektur-Konzept Data Lake wird dabei von vielen als eine Anhäufung von unstrukturierten Daten angesehen, in dem Nutzer erst einmal alle Informationen in einem Hadoop-Cluster für eine spätere Weiterverarbeitung ablegen. In der Folge werten Data Scientists diese Informationen nach Relevanz und Potenzial aus. Für die Aufbereitung von Standard-Reportings und -Analysen benötigt es hingegen immer noch ein Data Warehouse – gerade auch dann, wenn aktuelle Geschäftskennzahlen mit historischen Daten oder bewährten Qualitätskriterien verglichen werden sollen.
Die Frage nach der Relevanz
Bereits in der jeweiligen Fragestellung besteht ein grundlegender Unterschied zwischen Big-Data- und Data-Warehouse-Projekten: In letzteren haben sich beispielsweise Experten über Jahre mit Kunden abstimmen können, welche Steuerungskennzahlen und Ergebnisse relevant sind und in ein Reporting miteinfließen sollen. Bei Big-Data-Vorhaben fehlen jedoch solche klaren Vorgaben oder Resultate, weil sich im Vorfeld noch nicht einmal die Fragen an das Projekt klar formulieren lassen. Hierbei stellen besonders die unstrukturierten Daten die größte Herausforderung dar. Daten-Experten wie die mip GmbH beobachten zudem, dass Unternehmen Data Lakes und neue Technologien erst einmal ausprobieren wollen, ohne genau zu wissen, was mit der Technik überhaupt möglich ist oder nach was sie suchen sollen. Oft werden an dieser Stelle unerfahrene Mitarbeiter oder Studenten eingesetzt. Doch, je unstrukturierter die Informationen werden, desto diffiziler wird es auch, daraus vernünftige und relevante Ziele oder Fragen abzuleiten.
Die besten Ergebnisse lassen sich hier mit einem eingespielten Team von Experten aus den Fachbereichen und Daten-Spezialisten erreichen, die sich zum einen mit dem Unternehmen selbst und zum anderen mit den neuen Technologien sowie deren Möglichkeiten auskennen. Ein Data Scientist kann zwar mit stochastischen Tools umgehen, aber nicht unbedingt die für ein Unternehmen wichtigen Ziele und Prozesse nachvollziehen. Hilfsmittel und Tools wie Advanced-Analytics-Lösungen oder beispielsweise lernfähige Computer, wie etwa der von IBM entwickelte Watson, können bei der Suche nach relevanten Fragen helfen.
Die richtige Balance zwischen historischen Daten und deren Ankoppelung an ein Big-Data- bzw. Data-Lake-Umfeld finden
Wertvolle Muster erkennen
Neben der richtigen Fragestellung spielen besonders Informationen aus neuen Quellen, zum Beispiel aus Mobile Apps, nahezu in allen Bereichen eine entscheidende Rolle. Bisher gibt es für diese noch keine allgemeingültigen Standards. Big-Data- und DWH-Experten arbeiten daran, an die unstrukturierten Daten in den Quellen heranzukommen, um diese zu analysieren und darin enthaltene, verwertbare Muster aufzuspüren. Für den Abgleich müssen die Daten wiederum im einem nächsten Schritt für das Data Warehouse aufbereitet und dorthin überführt werden. Denn Muster lassen sich nur identifizieren, differenzieren und bewerten, wenn geeignete Vergleichsgrößen vorliegen und sie Entwicklungen sowie Trends gegenüberstellt werden können. Darum bleiben historische Daten weiterhin notwendig.
Dagegen halten operative Systeme nur wenig historische Daten. Dieser Teil der IT-Infrastruktur ist hauptsächlich darauf ausgerichtet, einzelne Transaktionen nacheinander abzuwickeln. Die Transaktionen selbst sind dabei flüchtig. Es fällt nicht in den Aufgabebereich von operativen Systemen, Daten über einen längeren Zeitraum zu sammeln oder zu vergleichen. Dies zählt wiederum zu den Hauptaufgaben des DWHs.
Predictive Maintenance dank historischer Vergleichsdaten aus dem Data Warehouse (Quelle: fotolia, © industrieblick)
Heute stehen bereits KI-gesteuerte Systeme wie Watson oder lernende Roboter sowohl im medialen als auch im industriellen Fokus. Doch um kognitive Fähigkeiten entwickeln zu können, müssen diese Computer oder Maschinen erst einmal lernen. In einem kognitiven Prozess werden spezifische Muster, Systematiken oder Profile mit bereits gespeicherten Informationen verglichen und kategorisiert. Erst dadurch lassen sich überhaupt Beziehungen zwischen Ergebnissen herstellen, Verfahrensweisen optimieren und neue Fähigkeiten entwickeln. Lernen benötigt also immer den Vergleich mit der Vergangenheit.
Weites Anwendungsspektrum
DWHs besitzen branchenweit ein großes Spektrum an Einsatzfeldern. In dynamischen Branchen wie dem Einzelhandel kann sich das Konsumverhalten vom einen auf den anderen Tag verändern. Um diese raschen Schwankungen besser mit Predictive-Analytics-Tools voraussagen zu können, müssen die aktuellen Ergebnisse mit früheren Datenprofilen verglichen werden, damit sich Kaufmuster erkennen lassen. In der Modebranche beispielsweise sind zwar Wechsel im Look oder neue Farbpräferenzen nur schwer absehbar, über die jeweils verkauften Stückzahlen oder die bevorzugte Stoffauswahl lassen sich dagegen über Jahre hinweg Trends feststellen und vorausahnen.
In der Produktion wiederum bestehen bereits etablierte Qualitätsmerkmale und Kriterien für die Wertigkeit von Produkten oder Prozessen. Auch diese beruhen auf Daten aus der Vergangenheit. Die Qualität von Erzeugnissen oder Herstellungsabläufen lässt sich letztendlich nur validieren und optimieren, wenn die aktuellen zurückgemeldeten Sensor- oder Logdaten mit den historischen Datenaufzeichnungen über einen bestimmten Zeitraum hinweg miteinander verglichen und ausgewertet werden.
Ein weiterer Anwendungsfall findet sich grundsätzlich in der steuerrechtlichen Umgebung, in der sich alle Unternehmen bewegen: Dadurch müssen diese ihre Daten gezwungenermaßen über einen längeren Zeitraum hinweg dokumentieren.
Fazit
Das DWH besteht also als ein wesentlicher Teil des Unternehmenserfolgs weiter, so auch eine Umfrage unter Daten-Experten: 99 Prozent gaben hierbei an, dass das Data Warehousing wichtig bis sehr wichtig für ihre Geschäftsprozesse ist [1]. Big-Data-Experten wie die mip GmbH raten Unternehmen aus diesem Grund dazu, am besten gemeinsam mit Spezialisten ein zentrales und performantes Data Warehouse aufzubauen und die gewonnenen Daten zielgerichtet aufzubereiten, um damit die Voraussetzungen für moderne, innovative Technologien, Tools und Anwendungen zu schaffen.
Ursula Flade-Ruf, Gründerin und Geschäftsführerin der mip GmbH. Die mip GmbH ist seit 1988 zuverlässiger Partner und Ideengeber für mittelständische und große Unternehmen, die ihre Unternehmensdaten intelligent verknüpfen und profitabel einsetzen wollen. Mit Fokus auf die Bereiche Data Warehouse und Business Intelligence berät die mip ihre Kunden auf dem Weg der intelligenten Datenanalyse zu neuen und innovativen Geschäftsmodellen.
Quelle:
[1] Dimensional Research: „The State of the Data Warehouse”, 2015, „http://info.snowflake.net/rs/snowflakecomputing/images/Snowflake_State_of%20the_Data_Warehouse_Survey%20Report.pdf“