Autor – Dietrich von Seggern, Geschäftsführer der callas software GmbH
Unterschiedliche Studien von Analysten gehen davon aus, dass in den kommenden Jahren Robotic-Process-Automation-(RPA)-Anwendungen in Büros weiter Einzug halten werden. Damit können Unternehmen von einem hohen Automatisierungsgrad vor allem im Backoffice profitieren. Das PDF-Format ist dabei eine gute Grundlage, mit dem Unternehmen diese Vorteile erreichen. Denn RPA funktioniert nur dann, wenn Prozesse standardisiert sind und so viele Dateien wie möglich über die gleichen Automatismen verarbeitet werden können. Doch diese Vorgabe ist in der Praxis jedoch nicht immer in idealer Weise zu erreichen. Spätestens bei extern angelieferten Daten müssen in der Regel Kompromisse in Kauf genommen werden.
Aus diesem Grund ist es empfehlenswert, dass zu Prozessbeginn eine Homogenisierung der Daten erfolgt. Diese Vereinheitlichung wird häufig Formatkonvertierungen, z. B. von Office nach PDF, beinhalten. Um allerdings für alle PDFs eine gesicherte Qualität sicherzustellen, ist es darüber hinaus sinnvoll, die Daten zunächst nach PDF/A zu normalisieren. In jedem Fall ist PDF aber ein guter, wenn nicht sogar der einzig sinnvolle Kandidat für das Basisformat von Datei-bezogenen RPA-Prozessen. Denn PDF ist sozusagen der kleinste gemeinsame Nenner von nahezu allen im Büro verwendeten oder eingehenden Formaten und heute mit einer fast unübersichtlichen Anzahl möglicher Features das mächtigste Dokumenten-Format überhaupt.
Standardisierte Anforderungen für RPA-fähige PDFs
Da die meisten Möglichkeiten, die PDF zur Verfügung stellt, optional sind, reicht es nicht aus, PDF als Standard für die RPA-Prozesse zu definieren. Vielmehr müssen die qualitativen Anforderungen konkreter festgelegt sein. Ein Beispiel sind gescannte Dateien, die als PDF gespeichert werden. Sie sind ohne OCR nicht volltextfähig und damit nach wie vor ein mit Pixeln gefülltes abgespeichertes Bild. RPA-Anwendungen können damit in der Regel nichts anfangen.
Aus RPA-Sicht kaum weniger nützlich sind PDFs, in denen Texte zwar als solche kodiert sind, bei denen jedoch die Unicode-Zuordnung der Zeichen falsch oder nicht vorhanden ist. In PDF funktioniert das Darstellen der Zeichen am Monitor, was für elektronisches Papier essenziell ist, anders als die Ableitung der Zeichenbedeutung (Semantik). Um z. B. ein kleines „c“ auf den Monitor zu projizieren, ist dessen Form in der jeweiligen Schriftart erforderlich. Damit aber das „c“ bei der Textsuche gefunden und beim Kopieren richtig interpretiert wird, ist dessen semantisches Verständnis nötig – im PDF-Jargon eben eine Entsprechung zu dem Unicode-Zeichen „latin small letter c“.
Darüber hinaus sollte die Konvertier-Software Ausnahmefälle, wie beispielsweise passwortgeschützte Dateien, abfangen, indem sie diese entweder in einem separaten Ordner ablegt oder idealerweise den Passwortschutz entfernt, wenn das Passwort bekannt ist und keine rechtlichen Aspekte dagegensprechen.
Einbettung strukturierter Metadaten
Der nächste Schritt sind Metadaten, die in PDFs integriert werden und RPA wertvolle Informationen liefern können. Denn Metadaten beinhalten strukturiert abgelegte übergreifende Informationen zu einer Datei. Das PDF-Konzept beinhaltet ein extrem weit gefächertes Metadaten-Angebot. Das Dokument selbst, aber auch dessen Seiten oder sogar nur deren Bestandteile können individuelle Metadaten besitzen, deren Format auf XMP (Extensible Metadata Platform) basiert. Sie können beispielsweise individuelle Verarbeitungshinweise oder weitergehende Beschreibungen beinhalten, die eine RPA verwenden kann. Der Software-Roboter nutzt die im PDF vorhandenen Informationen und verarbeitet sie entsprechend.
Die Krux bei Metadaten ist, dass der Erzeuger sie einfügen muss, damit diese bei der Verarbeitung verwendet werden können. In vielen Fällen fehlt hier jedoch der notwendige Zugriff auf die Erzeugungsprozesse, z. B. wenn die Dokumente von externer Stelle kommen. Damit die RPA die Metadaten standardisiert nutzen kann, ist es sinnvoll, die Informationen vorher zu extrahieren und im PDF einzufügen. Dieser Prozess kann flexibel angepasst werden, falls sich das Eingangsmaterial ändert.
Ein ähnliches Ziel wie Metadaten verfolgen eingebettete strukturierte Daten, wie z. B. als XML. Der Vorteil ist, dass Erzeugungs- und Verarbeitungsprozesse von der PDF-Verarbeitung entkoppelt werden können. Ein gutes Beispiel sind ZUGFeRD bzw. Factur-X Rechnungen. Auch diese werden über XMP-Metadaten als solche ausgewiesen, sodass sich RPA auf das Vorhandensein entsprechender Informationen verlassen kann.
Korrektes Tagging bei der PDF-Erstellung
Die Königsdisziplin „reicher“ PDF-Dateien ist das Tagging. Tags (Marker) definieren die Semantik von Textteilen, wie Überschriften, Absätze, Bildunterschriften oder Tabellen. Sie sind die Basis für definierte Lesereihenfolge, z. B. bei mehrspaltigen Layouts. Denn – ähnlich wie bei Texten – ist es für PDFs als elektronisches Papier zunächst einmal nur wichtig, dass sämtliche Inhalte korrekt positioniert sind. Das kann – muss aber nicht – mit der Lesereihenfolge korrelieren. Leider sind korrekt getaggte PDF-Dateien heute noch immer die Ausnahme – auch wenn es unstrittig ist, dass sie für RPA-Prozesse das qualifizierteste Basisformat sind.
Allerding ist das automatische „Nachtragen“ von Tags mit einfachen Mitteln nicht möglich. Wenn überhaupt, werden dafür KI-basierte Ansätze verwendet, die aufgrund der damit verbundenen Aufwände für die Einrichtung und Qualitätssicherung im Rahmen einer Normalisierung von Eingangsdateien für RPA eher ein Overkill sind. Korrektes Tagging ist daher in der Regel eine Anforderung an die PDF-Erstellungsprozesse. Daher werden beispielsweise beim Auslesen einheitlich aufgebauter Formulare eher Ansätze verwendet, die darin enthaltenen Informationen ggf. unter Verwendung von KI zu extrahieren; auf die Erzeugung der vollständigen Tagging-Struktur wird verzichtet.
Best Practices in vielen Bereichen
Handelsunternehmen erhalten von ihren Lieferanten Produktbeschreibungen als PDF-Dateien. Sie können diese automatisiert, z. B. auch im Seitenformat, Farbigkeit etc. normalisieren und über Eintragungen in den Metadaten klassifizieren. Bei Kundenanfragen lassen sich diese Beschreibungen dann zu individuellen Produktkatalogen zusammenfügen und mit einem Inhaltsverzeichnis versehen. Ein ähnliches Szenario ist die Erstellung von Angeboten mit dazugehörigen Beschreibungen oder Dokumentationen in Form von elektronischen Akten.
Bei den aktuell automatisierten Abläufen werden die zu verarbeitenden Dateien aber oft inhouse erstellt, sodass sie weitgehend homogen sind. Dazu gehören unter anderem Druckdateien aus dem ERP-System, in der Ausgangsrechnungen zusammengefasst sind. Anhand von Schlüssel- oder Trennwörtern spürt eine PDF-Software Textmarkierungen auf, um dann die gesamte PDF in Einzelrechnungen aufzusplitten.
Crossmedialer Einsatz von PDF-Dokumenten
Die crossmediale Bereitstellung von PDF-Dokumenten ist ein weiterer Anwendungsfall. So stellen Unternehmen unter anderem ihre Werbung sowohl in Form von gedruckten Broschüren als auch auf ihrer Webseite zur Verfügung. Während es bei dem „ready-to-print“-PDF unter anderem darum geht, dass die Datei entsprechend hochauflösende Bilder oder Beschnittmarken beinhaltet, geht es bei dem Online-PDF darum, vorhandene Druckkennzeichen zu löschen, den sichtbaren Seitenbereich zu begrenzen und zwecks schneller Darstellung Komplexität und Dateigrößen zu reduzieren.
Unterschiedliche PDFs aus dem Layout zu erstellen, ist häufig unpraktisch, da immer die Gefahr besteht, dass Last-Minute-Änderungen verloren gehen. Per RPA lassen sich Farbräume im Druck-PDF für Online modifizieren, Bildauflösungen reduzieren, Seiten beschneiden und komplexe Seitenbereiche vorab in Bilder konvertieren, um die Darstellung auch auf älteren Tablets in akzeptabler Geschwindigkeit zu ermöglichen.
RPA PDF
Fazit
Wir stehen heute erst am Anfang von RPA-basierten Office-Abläufen und es ist davon auszugehen, dass sich der Trend in den kommenden Jahren fortsetzen und für Mitarbeiterentlastung durch den Wegfall von monotonen Tätigkeiten sorgen wird. Unternehmen, die von RPA profitieren wollen, sollten zuvor die Voraussetzungen für reibungslos funktionierende RPA-basierende Anwendungen schaffen. Denn RPA erfordert, so ausgefeilt die Lösungen auch sein mögen, ein gutes Fundament, um zuverlässige Ergebnisse zu liefern. Und hier ist ein gutes Verständnis des „guten alten“ PDF-Formats eine wertvolle Hilfe.
Dietrich von Seggern, Geschäftsführer von der callas software GmbH, ist seit 1991 im Bereich der Druckvorstufe tätig. Der Diplom-Ingenieur ist Experte für Publishing und PDF. callas software entwickelt PDF-Technologien für Publishing, Prepress, Dokumentenaustausch und -archivierung sowie zur Optimierung von PDF-basierenden Prozessen. Das Unternehmen ist Gründungsmitglied der PDF Association und engagiert sich von Anfang an im Vorstand des internationalen Verbandes.