Webarchivierung – Status quo & Trends

Viola Sini, wissenschaftliche Mitarbeiterin am Institut für Wirtschaftsinformatik, Universität Bern

Sei es wegen neuen gesetzlichen Bestimmungen, branchenspezifischen Vorgaben oder der IT-Governance – Unternehmen müssen sich zunehmend mit Fragen der Webarchivierung befassen. In diesem Zusammenhang ist u.a. zu klären, anhand welcher Kriterien Archivierungslösungen bewertet werden können sowie welche Archivierungslösungen bereits existieren. Dieser Artikel vermittelt eine aktuelle Übersicht über die zurzeit verfügbaren Tools zur Webarchivierung und über die zugrunde liegenden Methoden. Zudem wird kurz erläutert, in welche Richtung sich die Webarchivierung in der Zukunft entwickeln könnte.

Vorab eine kurze Begriffsklärung: Webarchivierung im Unternehmen umfasst die Arbeitsprozesse, die vom Unternehmen bereitgestellten Webinformationen im Hinblick auf ihre Archivierungswürdigkeit zu bewerten, zu selektionieren, in einem Archiv zu speichern und aufzubewahren sowie bei Bedarf wieder zugänglich zu machen. Sie unterscheidet sich deutlich von einem Backup, da letzteres unstrukturiert, punktuell und zeitlich nur eng begrenzt nutzbar ist.

Unterschiedliche Gründe für die Aufbewahrung von Webinhalten

Ein Unternehmen entscheidet aus verschiedenen Gründen, veröffentlichte Informationen auf dem Web zu archivieren. Archivierungsanforderungen ergeben sich aus gesetzlichen oder branchenspezifischen regulatorischen Verpflichtungen. So verpflichtet in Deutschland § 257 des Handelsgesetzbuchs jeden Kaufmann, sämtliche geschäftlichen Unterlagen zu archivieren, einschließlich jener, die online bereitgestellt wurden. Ein Beispiel für branchenspezifische Vorgaben liefert die amerikanische Financial Industry Regulatory Authority, die in ihrer Regulatory Notice 10-06-4 von allen in den USA tätigen Finanzinstituten fordert, die statischen und dynamischen Social Media-Inhalte als „geschäftsrelevante Unterlagen“ zu behandeln.

Unternehmensspezifische Rahmenbedingungen aus der Corporate Governance, der daraus abgeleiteten IT Governance sowie Vorgaben zum Informationsmanagement können ebenfalls die Archivierung von Webinhalten vorsehen. Zudem archivieren manche Unternehmen Webinhalte zur Unterstützung des Marketings, um bereits existierende Webinhalte wiederverwenden zu können. Eine Webarchivierung kann auch die Migration auf ein anderes Web Content Management-System vereinfachen. Von einigen Unternehmen wird die Webarchivierung auch zur Dokumentation und Bewahrung der eigenen Unternehmenshistorie und damit des kulturellen Gedächtnisses eingesetzt.

Bewertungskriterien für eine Webarchivierungs-Lösung

Je nach Zweck lassen sich spezifische Bewertungskriterien für die Auswahl einer Webarchivierungs-Lösung ableiten. Diese erleichtern den Vergleich verschiedener Anbieter und sollen sicherstellen, dass die gewünschten Anforderungen erfüllt werden. Die Kriterien können in zwei Kategorien aufgeteilt werden: Funktionen der Tools und die Unterstützung bei der Compliance.

  • Umfang: Abdeckung der Inhalte, welche erhoben werden können. Es wird zwischen folgenden drei Inhaltstypen unterschieden:
    • Statische Inhalte: Webseiten, welche dem Nutzer genau wie auf dem Server abgespeichert, angezeigt werden.
    • Dynamische und personalisierte Inhalte: Webseiten, deren HTML-Code erst dann geschrieben wird, wenn der Nutzer die Webseite aufruft. Social Media-Seiten und Blogs fallen unter diese Kategorie. Damit die Social Media-Inhalte archiviert werden können, müssen dem Archivierungstool die Login-Informationen übermittelt werden.

    • Personalisierte Transaktionen: Alle Daten werden vom Nutzer per Formular wie z.B. einer Suchanfrage, Aktienkursabfrage oder einer Onlinebestellung übermittelt.

Statische und dynamische Inhalte können mit Remote-Harvesting erfasst werden, personalisierte Informationen (inkl. Transaktionen und Interaktionen) mit der transaktionalen Methode (vergleiche dazu auch die Box „Methoden“). Eine weitere Charakterisierung des Umfangs ergibt sich daraus, ob eigene Webauftritte und/oder Social Media-Profile archiviert werden können.

  • UnterstützteTechnologien: Die Lösung muss in der Lage sein, Bilder, Videos, Streaming-Inhalte, Adobe Flash usw. zu archivieren und später im ursprünglichen Format wiederzugeben.

  • ZeitlicheFlexibilität: Diese Eigenschaft misst, ob die Erfassung periodisch (und ggf. mit welcher Frequenz) und/oder on-demand durchgeführt wird. Dieses Kriterium kann nur für die Remote-Harvesting-Tools angewendet werden, da die transaktionale Methode jede Nutzerinteraktion mit der Website aufzeichnet.

  • Delivery Models: On-premise oder Software as a Service.

Die folgenden Kriterien überprüfen, ob die Lösungen Compliance-Aspekte unterstützen:

  • Volltextsuche und Organisationstools: Können die archivierten Inhalte durchsucht werden und mit Notizen oder „Labels“ versehen werden?

  • Analyse und Reporting: Wird die Erstellung von Berichten für verschiedene Zwecke (z.B. Marketing oder Gerichtsverfahren) vereinfacht?

  • Unterstützung für E-Discovery: Dieses Kriterium bewertet, ob die Lösung den E-Discovery-Prozess vereinfacht. Dieser umfasst die Identifikation, Sammlung, Aufbewahrung, Verarbeitung, Überprüfung und Bereitstellung von elektronischen Informationen in Zusammenhang mit Gerichtsverfahren und behördlichen Nachforschungen. Um die Wiederverwendung der archivierten Daten zu erleichtern, wird zusätzlich die Integration mit existierenden elektronischen Archiven untersucht, insbesondere um sicherzustellen, ob die Lösung in eine übergreifende Archivierungslösung integriert werden kann.

Marktanalyse (Überblick)

Die Kriterien werden bei neun in Europa verfügbaren Webarchivierungs-Lösungen angewendet [1]. Vier der Anbieter haben ihren Firmensitz in Europa, die restlichen fünf sind amerikanische Unternehmen mit europäischen Niederlassungen. Von diesen sind im deutschen Sprachraum vier Unternehmen vertreten. Der Fokus liegt auf diesen neun Lösungen, da die geographische Nähe zum Kunden den Webarchivierungs-Anbietern erlaubt, die Software besser auf die Wünsche und Anforderungen des Kunden abzustimmen. Die Analyse basiert auf öffentlich verfügbaren Informationen der Softwareanbieter [2].

Technologie- vs. managementorientierter Ansatz

Aus der Analyse ergeben sich zwei Gruppen von Anbietern: Die erste Gruppe ist klar auf Archivierung von Webinformationen fokussiert. Das sind i.d.R. kleine Unternehmen, welche bei der Beschreibung ihrer Lösung Wert auf die Darstellung der verwendeten Methoden legen. Sie erklären ihre Software detailliert und weisen auch auf den kompetitiven Vorteil ihrer Lösungen gegenüber den Mitbewerbern hin. Im Folgenden werden sie als „technologieorientiert“ bezeichnet. Die zweite Gruppe von Anbietern betont die Bedeutung einer kompletten und integrierten Lösung, bei der die verschiedenen elektronischen Inhalte des Unternehmens archiviert werden können. Die Webarchivierung, insbesondere mit Fokus auf Social Media-Inhalte, wird als Ergänzung zum bestehenden Angebot von Datei- und E-Mail-Archivierung betrachtet. Diese Gruppe wird „managementorientiert“ genannt.

Remote Harvesting vs. transaktionale Methode

Die erste Beobachtung bei der Analyse der verschiedenen Systeme ist der Umfang der archivierten Inhalte: Fast alle Anbieter verwenden eine Remote Harvesting-Technologie (siehe Kasten). Nur ein Anbieter bietet neben dem Remote Harvesting auch eine transaktionale Methode an, die sämtliche Benutzerinteraktionen auf einer Website aufzeichnet. Sämtliche Anbieter beschreiben die Möglichkeit der Archivierung von dynamischen und personalisierten Inhalten. Es muss aber nochmals darauf hingewiesen werden, dass nur die transaktionale Methode personalisierte Transaktionen wie Suchanfragen, online ausgefüllte Formulare, Online-Bestellungen und Bestellbestätigungen aufzeichnen.

Formate noch unberücksichtigt

Keiner der Anbieter widmet den unterstützten Technologien große Aufmerksamkeit. Daraus kann gefolgert werden, dass die verwendeten Formate keine Einschränkungen bezüglich der Archivierung darstellen. Allerdings ist damit noch nicht sichergestellt, dass sämtliche Formate auch in zukünftigen Systemumgebungen abrufbar sind. Speziell für Unternehmen, welche eine langfristige Archivierung ins Auge fassen, muss die Thematik der Formate berücksichtigt werden.

Zeitintervalle für die Speicherung – nicht immer flexibel

Aus der verwendeten Technologie ergeben sich Unterschiede im Hinblick auf die zeitliche Flexibilität. Die Mehrheit der technologieorientierten Anbieter nennt, in welchen Zeitabständen die Archivierung durchgeführt werden kann; keiner der managementorientierten erwähnt diese Information. Darüber hinaus ergibt sich ein Unterschied aus der verwendeten Technologie. Nur die transaktionale Methode ermöglicht eine kontinuierliche automatische Speicherung der abgerufenen Inhalte, sobald eine modifizierte Version aufgerufen wird. Im Falle des Remote Harvesting besteht das Risiko, dass bei häufig aktualisierten Webseiten jeweils nur die letzte Version zwischen zwei Speicherungen aufbewahrt wird. Dies kann dazu führen, dass Lücken in der Archivierung entstehen.

Speicherorte – On-premise-System vs. Cloud

Vier Anbieter bieten die Möglichkeit an, die Inhalte in einem On-premise-System zu archivieren. Je nach Sensitivität der zu archivierenden Daten ist der Speicherort in der Beurteilung zu berücksichtigen. Zudem ist absehbar, dass sich auch die Webarchivierung dem weitverbreiteten Trend des Cloud Storages nicht entziehen kann. Nach den veröffentlichten Unterlagen unterstützen alle Lösungen E-Discovery. Eine effiziente E-Discovery-Unterstützung muss u.a. auch die Identifikation, Aufarbeitung und Bearbeitung der elektronischen Inhalte gewährleisten. Folglich sind Volltextsuche, Organisationstools sowie Analyse und Reporting Eigenschaften, die ganz oder teilweise in allen Lösungen implementiert sein sollten. Jedoch beschreibt kein Anbieter alle verfügbaren Funktionen.

Von den technologieorientierten Unternehmen erlaubt nur ein Anbieter eine Integration der archivierten Daten in ein bestehendes elektronisches Archiv. Die managementorientierten Anbieter offerieren ihrem Namen entsprechend konsequenterweise ebenfalls eine integrale Verwaltung der digitalen Daten.

Ausblick

Für die Zukunft zeichnen sich folgende drei Trends ab: Erstens wird die Wichtigkeit von Social Media weiter zunehmen. Dementsprechend wird auch die Archivierung derselben an Bedeutung gewinnen. Da mit hoher Wahrscheinlichkeit Social Media-Inhalte immer häufiger auch direkt in den eigenen Webauftritt integriert werden, haben umfassende Archivierungslösungen einen Vorteil. Zweitens ist absehbar, dass online publizierte Informationen öfter in Rechtsverfahren eine Rolle spielen werden. Deshalb ist es unumgänglich, dass Webarchivierungslösungen eine effektive Unterstützung in E-Discovery-Fällen bieten. In diesem Zusammenhang muss auch auf die Wichtigkeit einer lückenlosen Archivierung hingewiesen werden. Um diese sicherzustellen, ist die transaktionale Methode besser positioniert. Drittens wird die Wiederverwendung der archivierten Daten die Kosten-Nutzen Rechnung einer Webarchivierungslösung positiv beeinflussen und damit eine Anschaffung begünstigen.

Weiterführende Hinweise
[1] Anbieterübersicht:

Actiance http://www.actiance.com/products/socialite.aspx
Aleph Archives http://aleph-archives.com/
Autonomy http://protect.autonomy.com/protect/solutions/compliance/web-archive-compliance/index.page
Daegis (AXS-One) http://www.axsone.com/products/socialmediaarchiving/index.html
Hanzo Archives http://www.hanzoarchives.com/
Page Freezer http://pagefreezer.com/
Qumram http://www.qumram.ch/
Symantec (LiveOffice) http://www.symantec.com/advisormail
Website Archives (Site Replay) http://www.website-archive.com/

Methoden der Webarchivierung

Methode Geeignet für Vorteile Nachteile
Remote Harvesting Nutzung eines Webcrawlers, um die Daten von einem Webserver zu laden. Einfachheit, Flexibilität, breite Verwendung. Ausgereiftes Modell. Kann einige Arten dynamisch generierter Seiten sowie personalisierte bzw. interaktive Informationen nicht archivieren.Konfiguration des Crawlers erforderlich.Große Datenmenge.
Transaktionale Methode Sammlung der effektiven Transaktionen zwischen Webserver und Browser. Sämtliche von den Benutzern besuchte Webseiten werden lückenlos archiviert. Was nicht besucht wird, wird nicht archiviert.Da es sich um eine serverseitige Methode handelt, braucht man Zugang zum Webserver.

Tabelle: Auswertung der Lösungen

Webarchive