E-Presentment – intelligente Dokumente sind gefragt

    Output Management, multikanalfähige Vorlagen, Transaktionsdokumente, Legacy-Systeme, HTML5

    www.compart.com

    Harald Grumser ist CEO bei der Compart AG. Die Optimierung von Datenströmen und Dokumenten aus verschiedenen Quellen und für alle gängigen Output-Kanäle ist seit jeher das Kerngeschäft der Compart-Gruppe. Kernstück ist die DocBridge-Produktfamilie, die ein flexibles und effizientes Verarbeiten von Datenströmen und Dokumenten in großer Menge ermöglicht. Diese Datenströme und Dokumente können für den Transfer zu benötigten Output-Kanälen wie Drucker, Archiv, E-Mail, Hybrid-Mail-Lösungen und Webportalen vorbereitet werden. Dies beinhaltet Lösungen für die Optimierung und Konvertierung von Dokumentenformaten oder deren Modifikation, die Anzeige dieser Dokumente und der Vergleich von Dokumenten mit dem gleichen Inhalt jedoch in unterschiedlichem Format.

    Europaweit sinkt das Aufkommen an physischen Dokumenten. Aktuelle Erhebungen der Universal Postal Union (UPU) sprechen von einem Rückgang im zweistelligen Bereich. Schon heute verschicken viele Unternehmen Rechnungen oder Kontoauszüge elektronisch als E-Mail-Anhang oder stellen sie als Downloaddatei in Webportale, Tendenz steigend. Denn im digitalen Versand liegen riesige Einsparpotenziale durch den Wegfall der Kosten für Druck und Porto, vor allem bei Transaktionsdokumenten ist eine Kostenreduzierung um sechsstellige Summen dabei keine Seltenheit. Daher schreitet die Digitalisierung in diesem Bereich auch am schnellsten voran.

    In einigen Jahren wird – so einige Prognosen – weit mehr als die Hälfte aller Dokumente elektronisch versendet; selbst Versicherungspolicen, Vertragskündigungen und Schreiben, die aus rechtlichen Gründen heute noch an die Papierform gebunden sind, werden ebenfalls auf diesem Weg verschickt. Druck und physischer Versand bleiben dann nur noch Schriftstücken vorbehalten, bei denen Haptik und Optik wichtig sind, vor allem Druckmailings, hochwertige Produktkataloge und Imagebroschüren. Papier entwickelt sich somit zunehmend zum Premium-Produkt.

    HTML5-Daten – geeignet für alle Ausgabekanäle

    Wie auch immer sich das konkrete Zahlenverhältnis zwischen physikalischem und digitalem Versand entwickeln wird: Sicher ist, dass es sich weiter verschieben und damit den gesamten Prozess beeinflussen wird, wie in Unternehmen Dokumente erstellt und verschickt werden. Die Herausforderung dabei ist, jedes Dokument, egal welcher Art, so aufzubereiten und mit Strukturinformationen zu versehen, dass es auf jedem Ausgabekanal darstellbar ist.

    Das bedeutet, dass sich Output Management-Systeme von der A4-Metapher lösen und Inhalte auch für elektronische Ausgabegeräte bereitstellen müssen, unabhängig von der Größe des Displays oder des Bildschirms. Man denke nur an Tablet PCs oder Smartphones, die im Businessalltag zunehmend zum mobilen Büro werden. Mit anderen Worten: Die ursprünglich nur für den Druck vorgesehenen Dokumente werden umgewandelt zu multikanalfähigen Vorlagen. Dazu „reichert“ man sie folglich mit möglichst vielen Informationen wie Metadaten, Hyperlinks und Hinweisen zur Textstrukturierung an.

    Vor diesem Hintergrund spielt das Format HTML5 eine entscheidende Rolle bei der Strukturierung und semantischen Beschreibung von Dokumenten (siehe Glossar). Die textbasierte Auszeichnungssprache gibt schon heute auf mobilen Plattformen wie iPhone, iPad und Android-Geräten den Ton an. Kein Wunder, denn Inhalte in HTML5 lassen sich problemlos für alle elektronischen Ausgabekanäle aufbereiten. genauso wie als Webseite. Bei Bedarf lässt sich das HTML5-Dokument zusätzlich drucken oder anderweitig physikalisch ausgeben. Auch die Konvertierung in PDF-Dateien jeder beliebigen Seitengröße ist möglich.

    HTML5 – multikanalfähig mit Audio und Video

    HTML5 ist derzeit das intelligenteste Format für die größen- und kanalunabhängige Erstellung und Darstellung von Dokumenten. Es ermöglicht die Reformatierung, beispielsweise von A4 zum Smartphone-Display, die Konvertierung von Seitenformaten in textorientierte Formate, die Extraktion von Einzeldaten (u.a. für die Rückgewinnung von Rechnungspositionen) und den Aufbau von Inhaltsverzeichnissen und Indexlisten. Mehr noch: Mit HTML5 lassen sich auch audiovisuelle Elemente, Weblinks und Charts einbetten. So entstehen nicht nur multikanalfähige, sondern auch intelligente Dokumente, die dem Nutzer einen über die reine Textdarstellung hinausgehenden Mehrwert bieten.

    Was liegt also näher, als ein Output Management-System (OMS) so auszurichten, dass alle Dokumente von Anfang an in HTML5 erstellt werden – oder zumindest in PDF, denn auch dieses Format ist bereits sehr fortgeschritten in Sachen Hinterlegung von Strukturinformationen? Doch viele Unternehmen halten sich damit (noch) zurück. Sie haben in der Regel viel Zeit und Geld in ihre Systeme investiert und sind verständlicherweise für neue Formatierungstools schwer zu begeistern. Sie stehen somit vor der Frage, wie sich aus den bestehenden Anwendungen (Legacy) zumindest ein Teil an Strukturinformationen für die Weiterverarbeitung gewinnen lassen. OMS-Anbieter und Dienstleister wie Compart haben sich genau darauf spezialisiert, Grunddaten aus bereits fertig formatierten Dokumenten innerhalb der Legacy-Systeme „auszulesen“ und als HTML5- oder XML-Dateien aufzubereiten, die dann um zusätzliche Informationen weiter aufgewertet können, beispielsweise um Farbe oder Video- und Audiodateien.

    Strukturinformationen bleiben erhalten

    Letztlich geht es darum, die textuellen Quellen innerhalb der Dokumenterzeugung zu identifizieren. Wo kommen die Daten her? Lassen sich aus den Quellen genügend Strukturinformationen für die Wiederverwendung extrahieren? Fragen, die am Anfang jeder Betrachtung stehen müssen, wenn es darum geht, Dokumente „intelligent“ zu machen. Fakt ist: Die heute oft anzutreffende Vernichtung von Informationen auf dem Weg zur Ausgabe, über welchen Kanal auch immer, ist nicht mehr zeitgemäß. Oft werden digitale Dokumente, die an sich von Maschinen gelesen und verarbeitet werden könnten, erst in eine analoge Form gebracht, also gedruckt, und dann in TIF- oder JPG-Dateien umgewandelt. Aus Content entstehen „Pixelwolken“. Der eigentliche Inhalt wird erst verschlüsselt (Rasterbilder) und dann wieder mittels Optical Character Recognition (OCR) „lesbar“ gemacht. Das ist nicht nur umständlich, sondern geht mit dem Verlust von semantischen Strukturinformationen einher, die für eine spätere Wiederverwendung notwendig sind. Nicht so, wenn man Dokumente in einem Format erzeugt, das die für die Ausgabe notwendigen Daten mit sich führt und bei denen der Inhalt dadurch auf allen Kanälen dargestellt werden kann – ob nun als Webseite, auf einem mobilen Endgerät oder auch als Druck.

    Glossar: HTML 5

    HTML5 ist eine textbasierte Auszeichnungssprache zur Strukturierung und semantischen Beschreibung von Dokumenten. Sie findet bereits breite Anwendung, vor allem auf mobilen Geräten, und wird demnächst vom World Wide Web Consortium (W3C) als offizieller Standard verabschiedet. Das Besondere des neuen Formats: Es bietet zahlreiche Funktionalitäten für Grafik (2D-/3D-Grafiken) und Multimedia (Audio/Video), die von anderen Standards wie HTML 4.01 und XHTML nicht direkt unterstützt werden. Nützlich an HTML5 ist auch die Einbettung von Web-Fonts. Damit lassen sich mittels eines Browsers auch „Hausschriften“ von einem Server herunterladen.

    Die meisten Browser unterstützen bereits viele HTML5-Funktionen, unter anderem die jüngsten Versionen von Apple Safari, Google Chrome, Mozilla Firefox und Opera; ebenso Webbrowser, die auf iPhones, iPads und Android-Geräten installiert sind. Unterstützt ein Browser die HTML5-Schriftarten nicht, werden sie durch einen Standardfont wie Arial oder Verdana ersetzt.

    Weitere Features von HTML5 im Überblick:

    Erweiterung der layout-bezogenen Elemente
    • Stärkere Trennung von Semantik und Layout (CSS)
    • Stringente Auszeichnung von ausgewählten Bereichen einer Website
    • Zusätzliche Elemente für häufig genutzte Seitenbereiche wie <footer> und <section>
    Scalable Vector Graphics (SVG)
    • Vom W3C empfohlene Spezifikation zur Erstellung von komplexen, zweidimensionalen Vektorgrafiken in Dokumenten
    • Da SVG ein XML-basiertes Format ist, sind Inhalte von SVG-Dateien für computerunterstützte Übersetzung und andere Weiterverarbeitungen leicht zugänglich; sie können prinzipiell auch direkt mit einem Texteditor bearbeitet werden.
    Mathematical Markup Language (MathML)
    • Format zur Darstellung mathematischer Formeln im Internet
    Canvas
    • Programmierer können damit pixelgenaue Grafiken im Browserfenster erzeugen.
    • Ergänzt um JavaScript, lassen sich somit komplexe Animationen, Spiele und dynamische Geschäftsgrafiken erstellen, für die zuvor das Adobe-Flash-Format mit Plug-Ins notwendig war.
    Video
    • Mittels des neuen Elements <video> lassen sich Videos in Websites einbetten, ohne externe Plug-Ins wie Apple QuickTime oder Adobe Flash Player benutzen zu müssen.
    Geolocation
    • Neue JavaScript-Funktion; ermöglicht es, einer Webseite den Aufenthaltsort eines Besuchers mitzuteilen, der mit einem mobilen Gerät darauf zugreift.
    • Ortsungebundene Services können angeboten und dem Nutzer der Webseite beispielsweise Geschäfte in seiner Nähe oder seine Position auf einer Karte angezeigt werden.
    Offline-Webanwendungen
    • Websites können entwickelt werden, die auch offline nutzbar sind; der Webserver muss dem Browser des Besuchers dazu lediglich mitteilen, welche Daten er hierfür laden muss.
    • Synchronisierung der Daten erfolgt automatisch, sobald der User wieder online ist.
    Mikrodaten
    • Stattet Webseiten mit zusätzlichen semantischen Informationen aus und wandelt beispielsweise die Kontaktdaten in eine vCard um

    Tabelle: Features von HTML5 – Überblick