Back-up in Zeiten von Big Data

Autor – Sebastian Klee, Manager Marketing & Sales, PoINT Software & Systems GmbH

Jedes Unternehmen muss sich den aktuellen Herausforderungen in Bezug auf Datenwachstum und Vorgaben zur langfristigen Aufbewahrung von Daten stellen. In vielen Fällen kommen in diesem Zusammenhang auch noch Probleme im Back-up-Umfeld hinzu, da sich die stetig wachsende Menge von unstrukturierten Daten nicht mehr wirtschaftlich und in vorgegebenen Zeitfenstern sichern lässt. Denn vor allem unstrukturierte Daten spielen in diesem Zusammenhang eine entscheidende Rolle: Ihr Anteil beträgt nicht selten ca. 80 Prozent [1] am gesamten Datenvolumen.

Neben dem Unterschied zwischen strukturierten und unstrukturierten Daten sollten Unternehmen zusätzlich zwischen aktiven und inaktiven Daten differenzieren und demzufolge verschiedene, auf deren Zugriffsprofil abgestimmte Anforderungen an das jeweilige Speichersystem zugrunde legen. Denn aktuelle Untersuchungen gehen hier davon aus, dass bis zu 70 Prozent der vorhandenen Daten als inaktiv zu bezeichnen sind. Bei dieser Zahl sind Kriterien wie der letzte Zugriff oder die letzte Änderung berücksichtigt, die oftmals mehrere Monate zurückliegen. Eine individuelle Verwaltung der Daten anhand ihres Lebenszyklus sehen Fachleute daher als logische Konsequenz.

„Konventionelle“ Handhabung unstrukturierter Daten nicht zielführend

Das starke Anwachsen unstrukturierter Daten hat gleichzeitig Auswirkungen auf die verwendeten Hardwarekomponenten: Besonders die File Server stoßen nach und nach an ihre Kapazitätsgrenzen und büßen an Performance ein. Um das Problem zu lösen, kann die Verwendung von De-Duplizierung oder das Löschen von Daten aber nur vorübergehend Abhilfe schaffen. Und auch das Hinzufügen zusätzlicher Speicherkapazität ist aus wirtschaftlicher und verwaltungstechnischer Sicht nicht sinnvoll: Denn dies bedeutet hohe Investitions- und Betriebskosten für die eingesetzte Hardware und die dazugehörigen Komponenten.

Neben dem unmittelbaren Einfluss auf die belegte Kapazität der File Server wirkt sich das Datenwachstum zudem massiv auf die vorhandenen Back-up-Strukturen aus, da die Größe der Back-ups und demzufolge die Durchlaufzeiten stetig steigen. Bei einem möglichen Ernstfall nimmt die Durchführung der Disaster Recovery Dimensionen an, die zwar einen Datenverlust nach wie vor zuverlässig verhindern, dennoch den Betriebsablauf für eine viel zu lange Zeit massiv beeinträchtigen. Als Lösungsansatz stellt sich die Frage, ob der Einbezug der inaktiven Daten in das Back-up des Primärspeichersystems notwendig bzw. gerechtfertigt ist oder ob man durch eine entsprechend geänderte Strategie bei unveränderten Sicherheitsstandards eine deutlich geringere Back-up- und Disaster Recovery-Zeit erreichen könnte.

Alternative: intelligentes Storage- und Data Management

Wie oben erläutert, ist das einfache Erweitern der Primärspeicherkapazität angesichts der aktuellen bzw. den zukünftig erwarteten Datenmengen nicht ohne überproportional steigende Investitions- und Betriebskosten zu bewältigen – und darüber hinausgehende Lösungen sind vonnöten. Als Alternativen zu einer einstufigen Speicherstruktur bieten sich zum Beispiel das Hierarchical Storage Management (HSM) oder eine darüber hinausgehende mehrstufige („Multi Tier“) Speicherarchitektur an. Hierbei werden unterschiedliche Speichertechnologien anhand ihrer spezifischen Eigenschaften innerhalb der Speicherarchitektur berücksichtigt und homogen eingebunden. Dies ermöglicht ihre optimale Nutzung, wobei zusätzlich individuell auf die Anforderungen der einzelnen Datenobjekte eingegangen werden kann. Als Beispiel für eine mehrstufige Speicherarchitektur bietet der PoINT Storage Manager eine intelligente Storage- und Data Management-Lösung.

Bild: Multi-Tier-Speicherarchitektur

Die Unterscheidung der einzelnen Tiers in Performance, Capacity und Archive Tier bringt neben der Unterstützung unterschiedlicher Speichertechnologien auch eine funktionale Differenzierung. So werden innerhalb des Performance Tier performante Primärspeichersysteme (SSD, FC/SAS Raid) eingebunden und stellen die Zugriffsspitze der Speicherpyramide dar. Der Capacity Tier ermöglicht die Einbindung kostengünstigerer Speichersysteme (z.B. SATA-Raid), um inaktive Daten aus dem Performance Tier auszulagern, die jedoch weiterhin im modifizierbaren Zugriff bleiben sollen. Und nicht zuletzt können über den Archive Tier unterschiedliche Speichersysteme (z.B. Object Stores, Tape, Optical, HD/NAS, Cloud) zur Archivierung genutzt werden – auch unter Verwendung der WORM-Funktionalität. Die Einhaltung von Compliance und die Erfüllung von Kriterien zur Langzeitarchivierung, einschließlich der Berücksichtigung von Offline-Technologien wie Tape und Optical kann auf diese Weise ebenfalls realisiert werden.

Auf aktive und inaktive Daten flexibel zugreifen

Mit Hilfe der PoINT Agents werden die Primärspeichersysteme überwacht, wodurch aktive und inaktive Daten erkannt und anhand individueller Regelwerke verwaltet werden. Dabei lässt sich das zugrunde liegende Regelwerk individuell an den Workflow bzw. die Bedürfnisse des Unternehmens anpassen und die entsprechenden Daten werden anhand ihres Dateilebenszyklus individuell und gezielt auf passende Speichersysteme kopiert, migriert und/oder archiviert. Diese Automatisierung reduziert nach initialer Einrichtung den Aufwand und erlaubt auch die Verwaltung größerer Speicherkapazitäten bei gleich bleibendem Personalaufwand.

Dateien, die anhand des Regelwerks migriert oder archiviert wurden, können dennoch weiterhin für Benutzer und Anwendungen im transparenten Zugriff bleiben: Verantwortlich dafür sind die sogenannten „Stubs“, die die eigentliche Datei als Platzhalter mit allen relevanten Meta- und Dateiinformation inklusive dem Zugriffspfad auf den eigentlichen Dateiinhalt ersetzen. Durch diese Abspaltung und die damit verbundene Verlagerung des Dateiinhaltes wird eine signifikante Reduzierung der belegten Kapazität des Primärspeichersystems erreicht, gleichzeitig bleibt aber der transparente Zugriff erhalten. Als weitere Optimierung macht es der „Path Through“-Mechanismus darüber hinaus möglich, über einen Stub auf migrierte oder archivierte Dateien transparent zuzugreifen, ohne diese automatisch wieder ins Primärspeichersystem zurückzuholen.

Neben der automatisierten Archivierung durch ein global festgelegtes Regelwerk ist im Gegenzug eine manuelle Archivierung (z.B. mit einem Webinterface) durch den einzelnen Endanwender möglich. Dies kommt speziell dann zum Einsatz, wenn Dateien unmittelbar vor Veränderungen geschützt werden sollen, d.h. ohne den nächsten Archivierungszyklus abwarten zu müssen.

Lösen von Back-up-Problemen

Die Entlastung der Primärspeichersysteme durch die Auslagerung und Archivierung inaktiver Daten hat auch Auswirkungen auf Probleme, die ein stetig wachsendes Back-up mit sich bringt. Durch die Reduzierung auf aktive Daten werden der Umfang und damit die Größe eines Full-Back-up massiv verringert, gleichzeitig auch die Disaster Recovery-Zeit. Darüber hinaus ist es möglich, Daten von File Servern an unterschiedlichen Standorten mit Hilfe des PoINT Storage Managers in einem zentralen Speicher („Archive Tier“) zu archivieren, um so Insellösungen aufzulösen bzw. zu verhindern.

Parallel dazu können innerhalb des Archive Tier unterschiedliche Speichertechnologien eingebunden und automatisiert Replikationen – sogar an unterschiedlichen geographischen Orten – zur Verhinderung von Datenverlusten durchgeführt werden. Integrierte Verschlüsselungsfunktionen dienen in diesem Zusammenhang zum Schutz der Daten und Informationen.

Fazit

Datenwachstum und hohe Kapazitätsanforderungen verlangen zur Bewältigung alternative Konzepte und Lösungen. Mehrstufige Speicherarchitekturen bieten Unternehmen eine naheliegende Alternative, da sie sowohl eine Lösung für das exponentielle Datenaufkommen durch automatisierte Auslagerung und Archivierung bieten als auch gleichzeitig die Vorteile unterschiedlicher Speichertechnologien in Bezug auf den Dateilebenszyklus sinnvoll berücksichtigen und kombinieren. Auch aus wirtschaftlicher Sicht ist eine effiziente Verwendung unterschiedlicher Speichertechnologien unter die Berücksichtigung ihrer spezifischen Eigenschaften sinnvoll, um unnötig hohe Investitionskosten zu verhindern.

Quellenhinweis
[1] http://www.sas.com/resources/whitepaper/wp_46345.pdf

www.point.de

Sebastian Klee, Manager Marketing & Sales, PoINT Software & Systems GmbH. Das Unternehmen ist spezialisiert auf die Entwicklung von Softwareprodukten und Systemlösungen zur Speicherung, Verwaltung und Archivierung von Daten. Die Storage & Data Management-Lösungen bieten eine einfache und effiziente Einbindung von unterschiedlichen Speichertechnologien unter Berücksichtigung der unternehmerischen Anforderungen und Workflows.